L'objectif de ce document est de montrer comment réaliser une recherche sur les Poilus morts pour la France d'une commune française.
Dans ce projet, nous allons récolter les données, les compléter, les traiter et les faire parler avec des outils de datavisualisation.
Pour retrouver la présentation du projet et le calendrier : article sur Medium "Traces de Soldats" par Atelier Canopé 94
Pour comprendre la démarche et l'intérêt pédagogique du travail avec les données :article sur Medium "Apprendre avec les données numériques, les datasprints pédagogiques : le cas de Traces de Soldats par Franck Bodin
TeaserTracesDeSoldats from Atelier Canopé 94 on Vimeo.
Récolter les données⚓
Le cadre de recherche est celui de la commune de l'établissement scolaire qui participe au projet. Selon la taille de la commune à l'époque de la Première Guerre mondiale, la liste des Poilus morts pour la France va être de taille très variable.
On peut récupérer les données de plusieurs façons. On vous en propose dans cette présentation deux :
Par web scraping : Les données concernant les Poilus des communes participants au projet Traces de Soldats seront fournies par l'Atelier Canopé 94. Ce travail de collecte est réalisé par web scraping à partir du site Mémoire Des Hommes (voir vidéo expliquant ce procédé dans la section "récolte des données"). Les élèves auront alors pour travail de compléter la base de données déjà constituée avec d'autres sources et de l'uniformiser pour pouvoir l'exploiter.
En partant du monument aux morts : Dans les petites communes, il est possible de répartir le travail de récolte d'informations et la constitution de la base de données entre les élèves, à partir des noms inscrits sur le monument aux morts. Chaque élève effectuant ses recherches sur quelques Poilus.
Le web scraping⚓
Il est possible d'extraire les données (nom, prénom, date de naissance et de décès, régiment, lieu du décès, grade ...etc) des poilus morts pour la France depuis le site Mémoire des hommes par web scraping. Attention toutefois car la liste des soldats obtenue sera celle des Poilus nés dans la commune et ayant obtenu la mention "morts pour la France" et non les Poilus habitant dans la commune au moment de la guerre (contrairement au monument aux morts).
Méthode : Le web scraping
Pour vous fournir les données des communes participantes, l'Atelier Canopé 94 utilise le web scraping. C'est un procédé qui consiste à aspirer les données d'un site.
Pour cela, on peut utiliser une extension de Chrome à installer directement depuis ce site.
Complément :
Si vous souhaitez "scraper" le site mémoire des hommes pour récupérer les données des morts pour la France de votre ville, village, commencez par installer l'addon de chrome web scraper puis allez dans menu de Chrome : "Personnaliser et contrôler Google Chrome" puis "plus d'outils" et enfin "Outils de développement", une fenêtre va alors s'ouvrir à droite ou en bas de votre page. Vous avez alors un menu "web Scraper". Pour éviter d'avoir un popup qui s'ouvre à chaque soldat et devoir cliquer sur le popup à chaque fois, on vous conseille d'installer aussi l'addon :alert control (Merci à Olivier Banus).
Une fois dans le scraper copier ce bout de code en allant dans "Create new sitemap" puis "Import sitemap".
Faire la recherche de votre village puis une fois sur la page, lancer le scraper.
Remarque : Si vous avez plus de 500 morts dans une ville, le site mémoire des hommes n'affichera que les 500 premiers. On vous conseille alors de faire une recherche en plus de la ville, en utilisant l'année du décès : donc 1914, puis 1915 ... etc. Il peut y avoir des morts pour la France au delà de 1918, en 1919 par exemple.
{"_id":"mdh","startUrl":["http://www.memoiredeshommes.sga.defense.gouv.fr/fr/arkotheque/client/mdh/base_morts_pour_la_france_premiere_guerre/resus_rech.php?&aff_tous=1"],"selectors":[{"id":"images","type":"SelectorPopupLink","selector":"span.visualiser a","parentSelectors":["_root"],"multiple":true,"delay":0},{"id":"nom","type":"SelectorText","selector":"h1","parentSelectors":["images"],"multiple":false,"regex":"","delay":0},{"id":"naissance","type":"SelectorText","selector":"h4","parentSelectors":["images"],"multiple":false,"regex":"","delay":0},{"id":"tableau","type":"SelectorTable","selector":"table.annotations_liste","parentSelectors":["images"],"multiple":false,"columns":[{"header":"Grade","name":"Grade","extract":true},{"header":"Unité","name":"Unité","extract":true},{"header":"Lieu de naissance","name":"Lieu de naissance","extract":true},{"header":"Bureau de recrutement","name":"Bureau de recrutement","extract":true},{"header":"Classe","name":"Classe","extract":true},{"header":"Matricule au recrutement","name":"Matricule au recrutement","extract":true},{"header":"Date de décès","name":"Date de décès","extract":true},{"header":"Lieu de décès","name":"Lieu de décès","extract":true},{"header":"Lieu de décès (suite)","name":"Lieu de décès (suite)","extract":true},{"header":"Département de décès","name":"Département de décès","extract":true},{"header":"Pays de décès","name":"Pays de décès","extract":true},{"header":"Lieu de transcription du décès","name":"Lieu de transcription du décès","extract":true},{"header":"Département de transcription du décès","name":"Département de transcription du décès","extract":true},{"header":"Pays de transcription du décès","name":"Pays de transcription du décès","extract":true}],"delay":0,"tableDataRowSelector":"tr:nth-of-type(n+2)","tableHeaderRowSelector":"tr:nth-of-type(1)"}]}
Constituer sa base en partant du monument aux morts⚓
Méthode : La liste des noms des Poilus de la commune
Le site Les Monuments aux morts de l'université de Lille 3 recense tous les monuments aux morts de France et de Belgique avec parfois la liste des morts correspondante. Vous pouvez récupérer la liste de ces noms par un simple copier/coller mais aussi compléter la fiche du monument sur lequel vous travaillez dans un esprit collaboratif et afin de faciliter le travail de prochains chercheurs.
Rappel :
Les noms des Poilus morts pour la France sont inscrits sur les monuments aux morts de chaque commune. Leur liste contient les noms des Poilus qui habitaient la commune au moment du conflit. Dans les grandes villes, il peut y avoir plusieurs monuments aux morts.
Un déplacement de la classe peut permettre de prendre des photographies du monument, de la liste des noms et de toute autre information utile (artiste ayant réalisé le monument, date d'érection, etc.)
Cette visite peut être l'occasion de remarquer que les morts des différents conflits sont inscrits (Première guerre mondiale mais aussi Seconde Guerre mondiale et AFN). Les noms étant inscrit dans l'ordre alphabétique, on aperçoit vite les familles les plus touchées. Une première occasion de s'interroger : étaient-ils frères ? cousins ? parents ? Il est fréquent que des noms aient été rajoutés par la suite à la fin de la liste. Ceux-ci ne respectent donc pas l'ordre alphabétique.
Dans certaines communes avec des familles installées depuis plusieurs générations, des élèves reconnaîtront peut-être leur nom de famille. Cela sera l'occasion de faire une recherche familiale plus personnelle et peut-être d'accéder à des documents familiaux qui enrichiront le travail.
Un travail sur l'esthétique et la symbolique du monument aux morts peut également être mené en interdisciplinarité (inscription, statut, représentation du conflit, des soldats, de la société).

Traiter et compléter les données⚓
Traiter les données⚓
Méthode : Normaliser les données
Une fois les données récupérées, il vous faut les traiter, les normaliser afin de pouvoir les faire parler. Il faut par exemple compléter les champs manquants, isoler prénoms et noms, uniformiser les formats de dates...etc. Tout dépend de l'état des données récupérées.
Une simple tableur peut permettre ce traitement. D'autres outils existent (OpenRefine par exemple), mais ils sont plus difficiles à prendre en main pour des élèves et le tableur est un outil au programme dès le collège.
Si vous utilisez Google Sheets utilisez cette première vidéo puis cette seconde vidéo qui présentent le traitement des données à partir du tableur de Google.
Complément : Aide pour utiliser les tableurs
Compléter les données⚓
Le site Mémoire Des Hommes (depuis lequel les données ont été scrapées) nous fourni déjà de nombreuses informations : Nom, Prénom, Date de naissance, de mort, Lieu de naissance, de mort, cause de la mort, régiment, grade, classe...
Il est possible dans certains cas de compléter ces informations et de venir préciser la fiche de chaque Poilu avec par exemple la situation maritale, le nombre d'enfants, le métier... Certaines informations sont disponibles en ligne, d'autres peuvent être connues en vous rapprochant des archives municipales ou départementales.
Conseil : Quel outil utiliser pour regrouper les informations trouvées ?
L'outil choisi doit correspondre aux méthodes de travail envisagées et non l'inverse. Notre cahier des charges était le suivant :
Travail collaboratif
Travail en ligne
Travail dans et hors temps scolaire
Importation/Exportation des données
Notre choix s'est porté sur Google Sheet mais il est également possible d'utiliser Framacalc ou Excel Online.
Si vous souhaitez travailler sur un logiciel hors ligne, nous vous recommandons de travailler sur Calc (suite LibreOffice), Microsoft Excel ne permettant pas de calculer les âges à partir de dates de naissance antérieures à 1900.
Les ressources en ligne⚓
Archives numérisées, plateformes collaboratives...
Le Grand Mémorial⚓
Le Grand Mémorial est un site du Ministère de la Culture qui permet d’accéder à différentes archives numérisées notamment :
- Les fichiers des Morts pour la France du ministère des Armées (le site renvoie dans ce cas aux documents numérisés du site Mémoire des Hommes).
- Les registres matricules (le site renvoie dans ce cas aux documents numérisés par les services d'archives départementaux (tous les départements ne sont pas accessibles via le site, si c'est le cas de celui qui vous intéresse, regardez la rubrique suivante)
Pour y accéder : http://www.culture.fr/Genealogie/Grand-Memorial
Les registres matricules via les archives départementales numérisées⚓
Les registres matricules regorgent d'informations précieuses comme la profession, la taille, la description physique ou encore le niveau d'instruction.
Tous les registres matricules départementaux ne sont pas indexés et accessibles par le site du Grand Mémorial, mais vous pouvez utiliser cette page connaître l'état des lieu de leur numérisation et pointer vers les archives numériques de votre département : https://francearchives.fr/fr/map/1f0a583a7ea9430d8708d1962579cedb
Prisonniers de la Première Guerre mondiale : les archives du CICR⚓
https://grandeguerre.icrc.org/fr
Les archives du CICR permettent de consulter les fichiers de prisonniers des Etats en guerre.
5 millions de fiches individuelles ont ainsi été numérisées sur les 10 millions de militaires et de civiles internés dans des camps de détention pendant le conflit.
MemorialGenWeb⚓
http://www.memorialgenweb.org/memorial3/html/fr/index.php
Une base de données collaborative qui indexe les monuments aux morts et les soldats. Les demandes de modifications doivent être sourcées et validées par les gestionnaires du site.

Les livres d'or numérisés⚓
https://www.siv.archives-nationales.culture.gouv.fr/siv/
La salle des inventaires virtuels des Archives Nationales peut vous permettre de retrouver facilement des documents complémentaires numérisés, par exemple le livre d'or d'une commune. Ces livres d'or contiennent des informations sommaires : nom, prénom, date et lieu de naissance, date et lieu de mort, grade et régiment. Ces informations sont normalement déjà en votre possession dans les fichiers scrapés mais un retour à une source primaire peut parfois s'avérer intéressant/nécessaire. Par exemple, lorsqu'on repère une erreur de saisie, comparer plusieurs sources primaires (Mémoire des Hommes, livre d'or, registres matricules...) peut permettre de retrouver la bonne information.
Pour retrouver le livre d'or d'une commune, utilisez la barre de recherche en ayant pris la précaution de cliquez sur "archives numérisées".
Tapez le libellé suivant : " Livre d'or [ + nom du département ou de la commune ] ".
Attention :
Il est important de bien marquer la différence entre ces différentes ressources. Les archives numérisées comme celles du CICR sont des sources primaires, alors que les plate-formes collaboratives comme MemoGenWeb sont des recueils d'informations trouvées et renseignées par des particuliers, des passionnés, des descendants de ces Poilus. Ceci ne veut pas dire que les informations trouvées sur ces plate-formes ne sont pas exactes car très souvent un administrateur valide les demandes de modifications et celles-ci doivent très souvent être justifiées et sourcées afin que celui-ci puisse les vérifier avant publication. Malgré tout, les élèves doivent avoir conscience de l'intervention d'un tiers avant leur lecture (les erreurs de retranscription ou de lecture des écritures manuscrites des documents sources sont toujours possibles).
Les archives communales et départementales⚓
Les archives municipales ou départementales disposent certainement d'informations sur les Poilus sur lesquels vous travailler, cela peut donc être l'occasion d'une sortie avec les élèves. N'hésitez pas à la préparer en amont avec les archivistes qui connaissent précisément leur fond et vous renseigneront sur leur richesse.
Certaines archives disposent également d'un site web sur lequel on peut effectuer des recherches.
Rechercher les services d'archives⚓
Pour connaître les services d'archives à proximité de vous, vous pouvez lancer votre rechercher sur : https://francearchives.fr/fr/services
Livre d'or⚓
Dans certaines communes, il peut exister un livre d'or sur les Poilus morts durant le conflit. Ces ouvrages sont généralement consultables dans les archives municipales ou départementales. La version papier de ces Livre d'Or, hommage d'une commune à ses soldats, peut-être une mine d'informations précieuses. (Les versions numériques, consultables en ligne sur le site des archives nationales se contentent des informations minimales - nom, prénom, date et lieu de naissance, date et lieu de mort, grade et régiment - informations que vous avez déjà dans les jeux de données scrapées).
Les informations qu'ils contiennent varient d'une commune à l'autre. On y retrouve parfois la situation maritale, le nombre d'enfants, les actes de guerres notables... autant d'informations qui peuvent venir enrichir la base de données initiale.
La difficulté sera alors de retranscrire les données du livre dans un format numérique mais parfois les archivistes ont déjà fait ce travail, il ne faut pas hésiter à le leur demander.
Géolocaliser avant de cartographier⚓
Rendre les lieux les plus précis possible⚓
Si l'on souhaite cartographier les lieux de décès, il est nécessaire de les rendre les plus précis possible afin qu'ils soient géo-localisables. L'idéal est de retrouver les communes correspondantes. Cette partie est souvent la plus compliquée, car on peut avoir des lieux-dits, des hôpitaux mobiles, les camps de prisonniers, des communes qui n'existent plus, voire des pays étrangers, comme lieux de décès.
Généawiki⚓
Les ambulances ⚓
https://fr.geneawiki.com/index.php/Guerre_1914-1918_~_Service_de_santé_des_armées
Pour connaître la signification des abréviations des services de santé des armées pendant la Première Guerre mondiale et la localisation des hôpitaux par circonscription.
Le CICR⚓
https://grandeguerre.icrc.org/fr
Les archives du CICR permettent de consulter les fichiers de prisonniers des Etats en guerre.
5 millions de fiches individuelles ont ainsi été numérisées sur les 10 millions de militaires et de civiles internés dans des camps de détention pendant le conflit.
Le site permet ainsi de retrouver le camp dans lequel un soldat a trouvé la mort et donc de compléter son lieu de décès.
Retrouver les coordonnées de géolocalisation⚓
Si l'on souhaite cartographier les lieux de décès, il est nécessaire de les rendre les plus précis possible afin qu'ils soient géo-localisables. L'idéal est de retrouver les communes correspondantes. Cette partie est souvent la plus compliquée, car on peut avoir des lieux-dits, des hôpitaux mobiles, les camps de prisonniers, des communes qui n'existent plus, voire des pays étrangers, comme lieux de décès.
Méthode : Géocoder
Batch geocoding est un site permettant de géocoder à partir d'une adresse, d'un nom de commune. Il est limité à 200 adresses sachant que cette limitation s'opère par une lenteur dans le rendu des résultats de plus en plus importante.
Attention :
Depuis peu, le site batch geocoding n'autorise plus de géocoder en dehors du Royaume Uni.
Il existe d'autres sites en cherchant sur internet avec les mots "batch geocoding" comme par exemple : http://www.mapdevelopers.com/batch_geocode_tool.php
Faire parler les données : Datavisualisation⚓
La datavisualisation sert à rendre visibles et lisibles des données. Elle permet d'en faciliter la compréhension en les retranscrivant sous une forme visuelle (graphiques, cartes, infographie / tableaux de bord...)
La cartographie⚓
Les données sur les Poilus contiennent des éléments géolocalisables comme les lieux de naissance, de mort ou d'inhumation. Il est donc possible de cartographier ces éléments et même de les croiser avec d'autres sur une carte. Il peut par exemple être intéressant de croiser les lieux de décès avec les dates de décès pour donner à voir le front et son évolution (ou en l’occurrence sa non évolution le plus souvent).
Méthode : Générer une carte avec Khartis
Khartis est un logiciel conçu par Sciences Po, simple à prendre en main et en français. Il existe une version en ligne et une version à installer localement sur votre machine. Cela ne demande pas d'authentification, comme la plupart des autres logiciels de ce type.
Dans cet exemple, nous réalisons une carte qui croisera les lieux de décès et les années de décès.
Méthode : Générer une carte avec Google Sheets
Google Sheet intègre un outil de cartographie.
Vous pouvez voir la carte générée ci-dessous.
Les graphiques⚓
Conseil :
Chaque type de graphique a son utilité, sa fonction. Certains permettent de comparer des valeurs entre plusieurs catégories, des proportions, d'autres de montrer des tendances dans le temps, ou encore de représenter des relations entre les données.
De même le choix de l'échelle et des couleurs sont à travailler car se sont des éléments clés pour la compréhension de la représentation graphique mais aussi des éléments qui peuvent en modifier la perception.
La légende, les unités de mesure, les graduations sont des éléments essentiels à la lecture, il ne faut pas les négliger.
Quelques exemples⚓
Les diagrammes en barres permettent de comparer des valeurs entre plusieurs catégories.
Des barres empilées permettent de montrer la composition d'une catégorie.
Des barres multiples permettent de constituer des groupes (pour une bonne lisibilité, il ne faut pas aller au delà de 3 barres par groupe)

Les diagrammes en secteur (appelés parfois affectueusement "camemberts") permettent de représenter des proportions. Le cercle représente une totalité, 100%, et chaque part du graphique correspond à un pourcentage de ce total.
Si votre outil le permet, il est conseillé de ranger les différentes part par ordre croissant, avec la plus grande part dans la partie supérieure. Si les sections sont trop nombreuses ou trop faibles en pourcentage, la lecture du graphique en sera altérée.
Les courbes montrent les variations de valeurs dans le temps. Le graphique peut en inclure plusieurs et les distinguer par des couleurs afin de comparer leurs tendances.
Elles peuvent être pleines ou empilées.
Les nuages de points permettent de représenter les relations entre les données et représenter une tendance entre deux variables
Les radars permettent de comparer les variations de données. L'échelle part du centre. Pour plus de lisibilité il est conseillé de limiter le nombre de valeurs.
Les compartimentages ou Treemap permet dans une zone géométrique donnée (en général un rectangle) de montrer la hiérarchie des données et leurs proportions. Le rectangle global est divisé en plusieurs autres rectangle dont la taille varie. Les zones d'un même domaine sont regroupées avec un même code couleur.
Avec un tableur⚓
Des calculs sont en général nécessaires à la réalisation de graphiques. Le tableur propose pour cela des fonctionnalités bien utiles : le tableau croisé dynamique, les filtres, faire des calculs simples de moyenne... etc.
Les différentes fonctionnalités de calcul dans Calc
Les différentes fonctionnalités de calcul dans Google Sheet
Conseil : Effet 3D
Il est recommandé de ne pas utiliser les effets 3D car ils modifient parfois le rendu des données et n'aident pas forcément à la compréhension.
Méthode : Créer un diagramme
Le diagramme permet de visualiser rapidement un résultat.
La méthode est la même quelque soit le tableur utilisé.
Méthode : Modifier un graphique
Modifier les couleurs, les graduations, les unités de mesure ou la légende d'un graphique déjà créé.
vidéo
Méthode : Mettre à jour un graphique après modification des données
Si vous avez déjà créé votre graphique mais que vous avez modifié vos données, vous pouvez mettre à jour votre graphique sans avoir à le refaire.
vidéo
Avec un RawGraphs.io⚓
https://rawgraphs.io/ est une plateforme opensource de datavisualisation qui permet de réaliser sans connexion des visualisations originales et esthétiques.
Méthode : Importer des données dans RawGraphs
Il est possible d'importer ses données sans connexion par un simple copier/coller, une importation de fichier ou encore depuis une URL
vidéo
Quelques exemples de représentations graphiques accessibles⚓
Le dendrogramme circulaire permet de montrer l'agencement de groupes sous forme d'arbre. Les catégories en bord de cercle se rejoignent en d'autres catégories vers le centre.
Le diagramme alluvial ou branchage (diagramme Sankey) montre la proportion et la quantité entre plusieurs flux représentés par des branches. L'épaisseur des branches évolue lorsqu'elles se subdivisent. Le regard suit le parcours d'une branche qui se subdivise et se croisent sur leur parcours.
Comment faire un diagramme alluvial sur rawgraphs.io ? Toutes les étapes sont expliquées sur leur site (en anglais) : https://rawgraphs.io/learning/how-to-make-an-alluvial-diagram/
Complément :
Il existe d'autres sites pour faire de la datavisualisation comme : datawrapper, infogram, knighlab.
Textométrie⚓
Voyant-Tools⚓
Voyant Tools est un environnement en ligne de lecture et d'analyse de textes numériques.
Nuage de mots⚓
WordArt (anciennement Tagul) : https://wordart.com/
Légende et source⚓
Une légende est bien souvent nécessaire à la compréhension d'un graphique.
Il est nécessaire de mentionner la source de vos données soit directement avec votre datavisualisation, soit sur votre infographie ou votre tableau regroupant vos datavisualisations.
Quelques ressources pour vous aider⚓
Complément : Des ressources gratuites
Série Graphique
Un kit pédagogique contenant un livret et des affiches pour travailler la typographie, la couleur, la visualisation de données, l'image et la mise en page au collège.
Il est distribué gratuitement en atelier ou téléchargeable ici.
"Sept conseils pour ne pas se faire avoir par les représentations graphiques", un article de Mathilde Damgé, publié dans Le Monde, Les Décodeurs, le 22 mai 2018.
L'article est consultable ici.
L'article peut être compléter par ce thread sur Twitter, de la journaliste elle même
Courbes, histogrammes, diagrammes, cartes... les représentations de stats sont un enjeu politique et économique. Le tour des do/don't (1/5) ⤵️ https://t.co/jFCjj5KSo3 pic.twitter.com/TxesyTjBCX
— Mathilde Damgé (@dathilde) 22 mai 2018