cours2018

Les Données

L’objectif est qu’à la fin de ce cours vous ayez une connaissance générale du moyen de récupérer des données sur le web pour résoudre un problématique dans le respect de la loi.

Soyez avertis que les auteurs de ce cours n’ont aucunement la prétention d’être d’exaustif (d’autant plus sur un tel sujet).

Mais avant tout…

C’est quoi une donnée ?


source image : Les données sur le web

La définition d’une donnée diffère du contexte dans lequel on se situe. D’un point de vu informatique, une donnée est la représentation d’une information dans un programme (le code source) ou dans la mémoire durant l’exécution. Au sens de la loi, une donnée est une information qui permet d’identifier une personne physique directement ou indirectement. Cependant une similitude ressort de toutes ces définitions. Les données, étant souvent des réponses à des questions, sont des informations relatives à toute chose physique ou virtuelle. Elles sont omniprésentes autour de nous et donc se retrouvent partout sur le Web.

Maintenant que l’on à une petite idée de ce dont on parle, faisons un petit point sur la loi européenne et française afin d’éviter de l’enfeindre.

Réglementation des données

Au niveau français

Loi Informatique et Liberté

Les dispositions de cette loi portent sur le traitement de données automatisé ou pas (cette seconde partie étant bien souvent oubliée). Elle oblige différentes choses : Pour la personne effectuant le traitement :

source : CNIL

Au niveau Européen

La Réglementation Générale de la Protection des Données

Cette réglementation est applicable à partir du 26 mai 2018. Il élargie certains droits des citoyens de l’Union Européenne. L’utilisateur a des droits :

source : CNIL

Ok très bien. A présent on sais ce qu’est une donnée et on sait ce qu’on à le droit de faire avec. Il serait donc intéressant d’aller à la pêche aux données maintenant !

Obtenir des données

Les données fluctuent abondamment sur le web mais sont bien rangées quelque part et vous vous en doutez bien où … dans les bases de données. Elles permettent de stocker et de retrouver l’intégralité de données en rapport avec un thème ou une activité. Sur le Web les bases de données sont relationnelles, c’est à dire qui mettent en relation plusieurs données entre elles à travers des tables… Il existe principalement trois moyens de se de se procurer des données :

1. Trouver des données déjà en ligne

Plusieurs sources publient au regard de tous des données qu’on peut réutiliser. Ces sources sont les états et collectivités (sur data.gouv.fr entre autres), les organisations internationnales (la Banque mondiale par exemple) ou encore les sources scientifiques (comme la NASA).

De plus la magnifique communauté que regroupe le web a lancé plusieurs projets pour faciliter l’accès aux données déjà en ligne. Pour n’en citer qu’un, citons un français : Nosdonnées.fr.

Déjà avec cette méthode, il est possible s’amuser à chercher à répondre à des questions comme : – Est ce que le pourcentage d’utilisateur d’internet est corrélé au chiffre d’affaire des GAFAM ? – Est ce que l’espérance de vie augmente avec les dépenses de santé ?

source : Ecole des données

2. Collecter des données soi même

Pour collecter des données qui ne sont pas publiques soit même, il existe deux moyens :


L’expression la plus juste est le Big Data. En effet aujourd’hui on ne peut pas parler de données sur le web sans aborder le Big Data. L’expression “Big Data” est apparue avec l’accumulation massive d’informations collectées grâce à Internet et notamment via les sites marchands. Mais attention la collecte de données est réglémentée (cf. la partie liée à la réglementation européenne et française disponible ici). Il faut donc s’assurer d’avoir les droits adéquats avant de s’y aventurer.

3. Acheter des données

En plus de la collecte de données, il y a un autre moyen d’en obtenir.. il suffit de les acheter. En effet il existe plusieurs entreprises spécialisées dans le commerce de données personnelles ou pas. Ces entreprises vendent les données qu’elles ont recueillies des utilisateurs aux particuliers, annonceurs, sociétés de e-commerce et les instituts de sondages qui sont prêts à débourser de grosses sommes pour avoir accès à ces précieuses informations sur leurs potentiels clients. Parmi ces entreprises on peut citer SFR, ORANGE, GOOGLE, FACEBOOK etc..

Ça y est ! On a saturé notre disque dur de données d’importance vitale. Il est temps de les faire parler.

Les outils d’analyse de données

Nous supposons que maintenant vous avez sélectionné un ensemble de données et une question de recherche, gérez vos variables

Méthode : Les données comme réponse

On a vu beaucoup de choses jusqu’ici. Cependant il faut lier un peu tout ça pour pouvoir résoudre un problème (par exemple prendre la décision de se positionner sur un certain marché lorsque l’on est une entreprise). Voici un petite méthodologie pour vous aider à faire vos premiers pas.

1. Définir la question, le problème.

La première étape est applicabla à tous les domaines : définir clairement son problème et se poser la bonne question. Pour que votre question soit “bonne” vérifier qu’elle soit claire et mesurable.

2. La mesure

Un fois votre question posée (ce qui est souvent la plus grosse partie du problème) il va falloir y répondre. C’est ici qu’interviennent les données.

Que mesurer ?

Dans un premier temps, il est judicieux de ce demander de quel type de donnée vous avez besoin pour répondre à votre question (qui se divise très certainement en plusieurs sous questions).

Comment le mesurer ?

Une fois que vous avez identifié ce dont vous avez besoin, vous pouvez choisir un moyen de récupérer les données dont vous avez besoin à l’aide des techniques vues précédemment.

3. Récupérer les données

Vous savez déjà comment faire. :smile:

4. Analyser les données

Une fois que vous pensez avoir récupérer tous ce dont vous avez besoin (rassurez vous vous risquez avoir à revenir plusieurs fois aux étapes précédentes) il vous reste à les analyser. Pour cela, le tableur sera votre meilleur ami. Néanmoins pour des statistiques plus avancées certains logiciels peuvent vous faciliter grandement la vie. Des logiciels comme Minitab, Stata ou encore Visio sont plutôt apréciés des internautes. Cepandant pour la majeure partie du traitement des données, le tableur est largement suffisant. Pour vous reseigner sur cette usage Harvard à publié une revue à ce sujet.

5. Il ne vous reste plus qu’à interpréter vos résultats.

source : Big sky