Structurer des données⚓︎
Objectifs
- Utiliser un site de données ouvertes, pour sélectionner et récupérer des données
- Présentation des données au format CSV
- Traitement de données structurées
Consignes
rédiger les réponses dans votre document doctools, codes wims.
Exercice 1 L'ouverture des données publiques⚓︎
Dans une tradition de transparence et de partage des informations detenues par la puissance publique, la France est membre de la Partenariat pour un gouvernement ouvert (PGO).
- Rappeler l'article 15 de la Déclaration des droits de l'homme et du citoyen de 1789.
- À l'aide de la page ikipedia résumer les deux premiers objectifs du Partenariat PGO.
- Lire le paragraphe « découvrir l'open data» sur data.gouv.fr et résumer en quelques lignes l'intêret de rendre accessible au public ces différents jeux de données.
Exercice 2 Explorer des sites de données ouvertes⚓︎
data.gouv.fr est une plateforme de diffusion de données publiques de l'État français. On y recense un grand nombre de données publiques librement réutilisables distribuées en des formats .csv
ou .json
. En explorant le site data.gouv.fr et ses différents jeux de données répondre aux questions suivantes :
- Rechercher le jeu de données « pollution aérienne aux abords des écoles et crèches d’Île-de-France ». Dans quel format sont enregistrées les données ?
- Rechercher le jeu de données « Chiffres départementaux mensuels relatifs aux crimes et délits enregistrés par les services de police et de gendarmerie ». Quelle est la fréquence de mise à jour de ce jeu de données ?
- Rechercher le jeu de données « Données hospitalières relatives à l'épidémie de COVID-19 ». Identifier l'article de presse qui réutilise ce jeu de données.
- Rechercher le jeu de données « Temps de parole des hommes et des femmes à la télévision et à la radio ». À l'aide d'une des réutilisations de ce jeu de données, retrouver la repartition moyenne du temps de parole à 18h sur BFM TV en 2019.
- Explorer le site statistiques-locales.insee.fr. Rechercher l'indicateur « Part des personnes âgées de 75 ans ou + ». Quelle est sa valeur pour la commune du Péage-de-Roussillon.
À savoir : le format de données CSV
Une table est un tableau particulier dans lequel la première ligne sert à décrire la forme des lignes suivantes.
Le format Comma-separated values, connu sous le sigle CSV peut stocker un tableau de données.
Les données tabulaire sont représentées sous forme de valeurs séparées par des virgules. Parfois cela peut-être un « ; » ou un espace de tabulation.
L'intérêt de ce format est qu'il est ouvert, lisible par bon nombre de logiciels !
Vocabulaire⚓︎
Les données du tableau peuvent être organisées dans le fichier csv :
nom |
prenom |
date_naissance |
---|---|---|
Durand | JeanPierre | 23/05/1985 |
Dupont | Christophe | 15/12/1967 |
Terta | Henry | 12/06/1978 |
nom,prenom,date_naissance
Durand,JeanPierre,23/05/1985
Dupont,Christophe,15/12/1967
Terta,Henry,12/06/1978
- chaque lignes concerne une personne différente. On parle d'objets décrits par la table.
"nom"
,"prenom"
et"date_naissance"
sont les descripteurs de ces objets."Durand"
,"Dupont"
et"Terta"
sont les valeurs du descripteur"nom"
.
Attention
Dans votre chapitre de Statistiques en mathématiques, vous utiliserez individus/caractère au lieu d'objets/descripteur.
Exercice 3 Faire attention au séparateur utilisé⚓︎
- Télécharger les fichiers
fichier1.csv
etfichier2.csv
- Ouvrir le
fichier1.csv
avec dans notepad (bloc note, ou wordpad...) Quel est le séparateur utilisé dans chaque fichier ? - Ouvrir
fichier1.csv
etfichier2.csv
avec Excel. Que remarquez vous ? - Pour importer proprement des jeux de données en
.csv
dans Excel, vous allez :- ouvrir un document vide
- dans l'onblet Data/Données, choisir «à partir d'un fichier text/csv »
- choisir
fichier1.csv
- choisir dans la fenètre affichée le bon délimiteur
Vous devriez observer que les données sont bien "rangées" dans un tableau avec des lignes et des colonnes (voilà pourquoi on parle de données tabulaires).
- Pour quelle raison les données sont parfois séparées par un point-virgule (;) dans un fichier csv ?
Exercice 4 Lire un fichier csv à l'aide de Python⚓︎
- Se rendre sur l'interface basthon et choisir le mode Notebook.
- pour exécuter dans notebook, il faut taper simultanément sur les touches Shift+Enter
- pour effacer une entrée dans notebook, taper simultanément sur Esc+D, et répéter une seconde fois.
- Téléversez les fichiers
fichier1.csv
etfichier2.csv
précédents dans votre interface Python à l'aide du bouton - Saisir et exécuter le script suivant (copier-coller)
1 2 3 4
import pandas as pa # invoque module pandas sous le pseudonyme pa donnees = pa.read_csv("fichier2.csv", sep=';') # donnees est un tableau avec le contenu de fichier2.csv # sep=';' indique que le séparateur est un point-virgule
- Exécuter les instructions. Décrivez (sans tout réécrire) ce qu'elles affichent et à quoi elles servent.
donnees.shape donnees.info() donnees.head(2)
- Une fois le notebook terminé, copier le lien permanent généré à l'aide du bouton et coller le dans votre document doctools.
à retenir
Il existe une multitude de formats pour structurer les données.
Le html pour structurer le contenu de pages webs. Le format xls est utilisé par les tableurs.
Le standard csv a l'avantage de rester simple, de taille réduite, lisible avec quasiment tous les logiciels disponibles.