Les données (Data)⚓
Mais qu'appelle-t-on les données (data) ?⚓
Dans son Rapport au Premier ministre sur la gouvernance de la donnée, l'Administrateur général des données de l'État propose la définition de la donnée numérique :
Une donnée numérique est la description élémentaire de nature numérique, représentée sous forme codée, d'une réalité (chose, événement, mesure, transaction, etc.) en vue d'être :
collectée, enregistrée ;
traitée, manipulée, transformée ;
conservée, archivée ;
échangée, diffusée, communiquée.
Rappel : Ne pas confondre données et informations
On peut penser que données et informations veulent dire la même chose.
exemple :
"Les dernières données de l'économie rendent la France optimiste" est une phrase interchangeable avec "Les dernières informations de l'économie rendent la France optimiste".
En fait ce n'est pas le cas.
Les données doivent être traitées, manipulées, transformées ou encore croisées pour aboutir à une information qui a du sens. Elles nécessitent une interprétation pour devenir une information.
Complément : Les métadonnées
Un jeu de données sans les métadonnées n'a pas beaucoup de sens.
Les métadonnées sont les données qui décrivent un jeu de données à proprement parler. Il s'agit d'un ensemble de champs décrivant les données, tels qu'un titre, une description, une liste de mots-clés, une date de modification. Il est important d'ajouter des métadonnées à un jeu de données afin de s'assurer qu'il puisse être détecté, compris et réutilisé par les utilisateurs. Dans certains cas, elles peuvent également être essentielles en termes d'interopérabilité, afin de garantir que les autres systèmes sont en mesure d'interpréter le contenu du jeu de données.
OpenData⚓
Les données ouvertes ou Open Data sont des informations accessibles librement et gratuitement, sous la forme de fichiers respectant des formats interopérables. Open data se traduisant par "données numériques ouvertes".
Ces données ouvertes peuvent être d'origine publique : émanant des services publics, de collectivités, de communes ...etc. Ces données peuvent également être d'origine privée : provenant d'entreprises et d'institutions dont les données concourent à des projets d'utilité publique, comme par exemple la SNCF, la RATP .. etc.
Il existe quelques exceptions :
Les données à caractères personnels ;
Les données en rapport à la sécurité nationale ;
Les données des entreprises lorsque cela concerne le droit des affaires.
Attention : BigData
Le bigdata comme son nom l'indique correspond à des données volumineuses, donc complexes à traiter surtout dans le cadre de l'éducation.
On pense plus à des données personnelles : sécurité sociale, les GAFA, ...
Mais on a aussi les données du CNES, de Inserm, Météo ... etc.
Complément :
Les données publiques sont considérées comme ouvertes si elles répondent à ces 8 principes (2007, Open Government Data, USA)
Complètes : toutes les données doivent être rendues disponibles sauf les données pouvant porter atteinte à la vie privée des citoyens ou à la sécurité ;
Primaires : les données doivent être brutes, telles qu'elles ont été collectées à la source, non agrégées, non modifiées ;
Récentes et actualisées : elles doivent être rendues disponibles aussi vite que possible afin de préserver leur valeur ;
Accessibles : les données sont disponibles au plus large spectre d'utilisateurs ;
Exploitables : elles doivent être structurées et documentées afin de permettre un traitement informatisé ;
Accès non discriminatoire : elles sont disponibles à tout le monde de façon anonyme ne nécessitant pas d'enregistrement ;
Format non propriétaire : elles doivent être rendues disponibles au moins dans un format sur lequel aucune entité ne détient le monopole (ex : non PDF, non Excel) ;
Libre de droits : les données ne doivent pas être l'objet de droits d'auteurs, marques déposées, brevets, etc.
Rappel :
Les enjeux⚓
Un accès libre aux données participe au renforcement de la démocratie. Pour le dire autrement, l'appropriation collective et associative de l'open data doit servir à enrichir le débat démocratique, dynamiser la vie publique et contribuer à réinventer les services publics.
Complément : Dans le cadre éducatif
Pourquoi enseigner avec les données ?
Interdisciplinarité ;
Humanités numériques ;
Travail avec la recherche ;
Apprendre à utiliser des outils comme le tableur.
Exemple : Traces de soldats
Un travail commun entre Histoire et Mathématiques (Canopé de Champigny) sur les poilus de la guerre de 14-18 d'une ville dont le but est de déterminer le prénom le plus fréquent, son âge moyen, son lieu de décès, son année de décès... etc.
On doit aussi croiser des données, pour compléter les données, à savoir :
Est ce que l'on a des fratries ;
la profession ;
nombre d'enfants.
Ce travail nécessite l'usage d'un tableur : savoir calculer des moyennes, créer des histogrammes, réaliser des tableaux croisés dynamiques.
L'objectif dans un second temps, est de créer une carte pour voir l'évolution du champ de bataille.
Exemple : Séismes dans le monde
Travail présenté par Frédéric Bro durant un séminaire sur les statistiques dont les détails se trouvent sur le site mathématiques de l'académique de Créteil.
L’intérêt de ce travail est qu'il est réalisé en Python, donc avec des élèves ayant une connaissance de la programmation.
Durant les 30 derniers jours, on peut obtenir le relevé des différents séismes dans le monde.
Objectif : Analyser ce jeu de données.
Modéliser le temps d'attente entre deux séismes de magnitude supérieure à 5 ;
Calculer la proportion de séismes qui se sont produits ces 30 derniers jours, dans les pays de l'Asie du sud-est (INDONÉSIE, SINGAPORE, etc) ; Cette zone appelée aussi INSULIDE correspond à une latitude allant de -13° à 15° et une longitude allant de 90° à 170°. Ce lieu est le carrefour de plusieurs plaques géologiques et est un lieu réputé sensible ;
Calculer la probabilité d'avoir au moins un séisme sur une période.
Exemple : Rechercher tous les volcans dans wikidata
Objectif : rechercher et géolocaliser les volcans dans le monde
Faire une requête SPARQL pour obtenir la liste de tous les volcans
Ajouter les images
Géolocaliser sur une carte les volcans.
On utilisera http://query.wikidata.org
Complément :
Il est toujours possible de créer vos propres données. Par exemple en récupérant les données météorologiques ou d'autres données.
Les portails⚓
Un portail open data est un site web destiné à diffuser des données ouvertes.
Certains portails intègrent des outils de sélection des données que vous souhaitez récupérer, par exemple l'année ou le pays, voire des API qui vous permettent de récupérer les données, d'autres mettent juste les données à disposition via des fichiers à télécharger.
Cette liste est loin d'être exhaustive.
Les formats de données⚓
La structure la plus répandue est la structure tabulaire. On organise les données dans des colonnes et des rangées qui listent des valeurs séquentielles.
Conseil : CSV
Même si le format CSV ne maintient pas le formatage ou les graphiques comme Excel, il s'agit d'un format ouvert et lisible par des machines. Le format CSV est le format le plus simple capable de supporter une vaste réutilisation de l'open data. En d'autres termes, CSV est ‘le plus petit dénominateur commun' de l'open data et devrait être utilisé en priorité autant que possible.
On trouve aussi les formats : XML, JSON, XLS (format excel).
XML et JSON supportent aussi des données hiérarchisées.
CSV | XML | jSON |
Nom,Prénom,Profession,Décès Hugo,Victor,Ecrivain,1885 Camus,Albert,Ecrivain,1960 | <Auteurs> <Auteur> <Nom>Hugo</Nom> <Prénom>Victor</Prénom> <Décès>1885</Décès> </Auteur> <Auteur> <Nom>Camus</Nom> <Prénom>Albert</Prénom> <Décès>1960</Décès> </Auteur> </Auteurs> | [ { "Nom" :"Hugo", "Prénom" :"Victor", "Décès" :1885 }, { "Nom" :"Camus", "Prénom" :"Albert", "Décès" :1960 } ] |
Attention :
Le téléchargement des données n'est pas forcément la solution la plus appropriée car il se peut que le fichier soit trop large, que les données soient mises à jour trop régulièrement ou bien qu'elles soient trop complexes à exposer comme fichier statique.
On préférera en publier d'autres sous forme de flux ‘live' pour s'assurer qu'elles soient toujours mises à jour (en disposant de l'API).
On peut aussi envisager de faire des requêtes SQL si les données se trouvent dans une base de données accessibles.
Complément : Web scraping
Les données peuvent se trouver sur un site web sans fichier pour les récupérer ; On peut alors (dans la limite du droit) les récupérer en utilisant un "scraper".
Ici on parle plus de comment récupérer les données lorsqu'il n'existe pas de fichier téléchargeable .
Un petit exemple d'usage consiste à "scraper" les ventes immobilières sur leboncoin afin de faire une étude sur le prix moyen en fonction du nombre de pièces, ainsi que le nombre de ventes des appartements d'une ville quelconque.
L'objectif étant ici de travailler sur les tableaux croisés dynamiques pour arriver au résultat.
De façon équivalente, on peut récupérer des données d'un fichier PDF.
Complément : Web sémantique - données liées
Le web sémantique (ou données liées) va permettre de lier des données entre différents serveurs directement en faisant votre requête.
Le serveur que vous interrogez dispose d'une RDF[*], (ontologie) qu'il échange avec d'autres serveurs disposant de données complémentaires. Cela permet de répondre à des questions plus large.
Le but est d'écrire les données sous des formes compréhensibles par des processus informatiques.
Vous pouvez tester sur le site query.wikidata.org en utilisant les exemples proposés (le langage utilisé est SPARQL[*]).
Vous pouvez aussi tester la requête suivante : http://dbpedia.org/resource/Paris par exemple.
Le traitement⚓
Il existe plusieurs outils pour traiter les données. Les outils présentés ici, sont en open source, sauf Excel, mais peut-on ne pas l'indiquer ?
Le tableur :
Permet de traiter les données, et reste l'outil le plus accessible dans le cadre éducatif (voire obligatoire).
Pour travailler à plusieurs sur un même document, on peut utiliser Google sheets (en ajoutant des modules complémentaires comme power tools)
OpenRefine :
openRefine s'apparente à un ETL (Extract Transform Load).
OpenRefine à pour objectif de traiter des données "sales", à savoir contenant des doublons, des données identiques mais écrites de façon différentes, ce qui empêche leur équivalent informatique.
Google est à l'origine de ce produit, mais depuis il est devenu un projet open source.
Voir ici une capsule vidéo de prise en main :
R :
La référence des logiciels de statistiques. Outil très puissant, mais complexe.
On peut tout faire avec en ajoutant des packages complémentaires.
Tableau public :
Un outil très complet avec une version gratuite. https://public.tableau.com/en-us/s/
Complément :
Lorsque vous devez traiter des données, vous pouvez rencontrer les problèmes :
certaines données sont manquantes ;
certaines données sont en double ;
vos données n'ont pas la même
Datavisualisation⚓
La datavisualisation est l'étude, la science ou l'art de représenter des données de façon visuelle. Cela peut se concrétiser par des graphiques, des camemberts, des diagrammes, des cartographies, des chronologies, des infographies ou même des créations graphiques inédites ou des photos.
La présentation sous une forme illustrée rend les données plus lisibles et compréhensibles.
Diagrammes
Un diagramme est une représentation graphique de données tabulaires.
Les diagrammes :
se lisent et sont compris rapidement ;
montrent les faits les plus importants ;
facilitent la compréhension des données
peuvent convaincre le lecteur
aide le lecteur à se souvenir des données.
Pour les outils, on peut citer : les tableurs, datawrapper, tableau-public, infogram ...
Cartographie
Dans la plupart des fichiers de données les adresses ne sont pas utilisables pour pouvoir faire une localisation directement sur une carte. Pour cela il faut obtenir leur latitude, longitude.
On peut utiliser batch geocoding ou directement comme module complémentaire de Google Sheets. On est souvent limité en nombre de géocodage que l'on peut faire par jour (en fait on utilise les services de Google).
Certains logiciels peuvent directement géolocaliser sans passer par la latitude, longitude.
Dans les deux exemples donnés, il fallait positionner les morts de 14-18 sur une carte et éventuellement indiquer avec des couleurs différentes les années du décès pour constater le déplacement du front.
Dans le second exemple, montrer sur la carte les points des séismes, on peut alors changer la couleur ou la taille en fonction de l'intensité du séisme.
Les outils sont les mêmes que pour les graphismes : les tableurs (Excel, Google sheets), Carto, Khartis (outil de Science po Paris simple).
Les cartes actives
Cette carte créée avec Google permet de modifier des paramètres de vos données pour faire apparaître les morts en fonction de la date du décès, ou de l'âge... etc.
On peut aussi ajouter des infobulles, qui permettent d'afficher certaines informations.
Attention :
Lorsque l'on utilise une représentation graphique, il faut garder en mémoire que le but est de rendre la lecture des données plus lisible. Il est donc déconseiller d'utiliser des graphes complexes, de jouer trop sur les effets, la représentation 3D... etc.
Quelques conseils pour éviter les erreurs à lire sur le journal Le Monde.