====== Activité croiser des données ====== ===== Présentation du mini projet ===== Je vais utiliser des **données ouvertes** (Open Data) pour **localiser** des communes qui répondent aux critères suivants : * **communes** entre **10 000** et **15 000** habitants ; * **température** de la région de la commune qui **ne dépasse par 30° en été** ; * **température** de la région de la commune qui **ne descend pas au dessous de 18°**. Pour cela ce projet, je vais **traiter plusieurs collections de données** et **croiser les données disponibles** pour obtenir les informations voulues. ===== Je récupère la collection de données sur la population ===== Les **données** sur le dernier recensement de la population sont disponibles sur le site de **l'INSEE** : * je vais sur la page d'accueil de l'INSEE : https://www.insee.fr/fr/accueil ; * je survole avec la souris le lien **L'INSEE et la statistique publique** puis je clique sur **Réaliser le recensement de la population** ; * dans **Pour en savoir plus**, je clique sur **Les résultats du recensement de la population** ; * je vais dans **Populations légales 2016 de toutes les circonscriptions administratives** et je télécharge le **fichier d'ensemble (France hors Mayotte)**au **format xls**, pour l'ouvrir et l'enregistrer ensuite dans mon dossier personnel. * **Question 1 ** : je prends connaissance des **métadonnées** et je note la **taille du fichier sur disque** en **octets** et en **Mo**. * **Question 2 ** : Quelle **opération de calcul** a permis d'afficher la **taille en Mo** à partir de la taille en octet. ===== Je prépare le fichier sur la population ===== * Je **cherche** parmi les différentes collections de données situées dans des onglets différentes, la **collection ** qui me parait **la plus intéressante** pour connaître la population des communes ; * je **supprime** toutes les autres collections de données ; * dans la collection de données que j'ai gardée, je **supprime** les lignes d'entête pour ne garder que les lignes des **descripteurs** et des **données** ; * **Question 3 ** : Quels sont **descripteurs** de cette collection qui seront **utiles** à mon projet ? * **Question 4 ** : **Combien** de communes sont contenues cette collections de données ? * **j'enregistre** mon travail au **format xslx sous un autre nom** pour l'appeler **communes.xlsx** ===== Je récupère la collection de données sur les températures quotidiennes régionales ===== * **j'accède** au site www.data.gouv.fr pour récupérer les données de températures quotidiennes régionales au format cvs. * en **ouvrant** le fichier csv avec Excel, je constate que les caractères accentués ne sont pas correctement interprétés. Il y a un **problème d'encodage des caractères**. * Je **crée** un nouveau classeur Excel puis dans le menu **données**, je choisis **A partir d'un fichier texte/csv** ; * je choisis dans mon dossier SNT le fichier **temperature-quotidienne-regionale.csv** ; * lors de **l'importation** je sélectionne comme **origine** du fichier **65001 : Unicode (UTF-8)** puis je clique sur **Charger** ; {{ :snt:donnee:excelencodage_01.png |}} * **J'enregistre** le fichier ensuite dans mon dossier personnel au **format xlsx** sous le nom **temperature.xlsx** * **Question 5 ** : je prends connaissance des **métadonnées** et je note la **taille du fichier sur disque** du fichier temperature.xlsx. * **Question 6 ** : Sur quelles périodes ont été relevé ces mesures de températures ? * **Question 7 ** : Comment ces données ont-elles été obtenues ? ===== Je prépare le fichier sur les températures ===== * J'ouvre le fichier **temperature.xlsx**. Les températures sont indiquées avec des valeurs décimales mais utilisent le **point comme séparateur décimal** et non pas la **virgule**. * J'utilise la fonctionnalité d'Excel **Remplacer** pour remplacer tous les points par des virgules pour les colonnes des temperatures. * * J'utilise la fonctionnalité d'Excel **Filtres numériques** pour trouver les régions avec les températures minimales et maximales voulues ainsi que les température de cette année 2019. * **Question 8 ** : quels sont les codes des régions dont les températures en 2019 ont pu être être comprises sur une journée entre 18 et 30 degrés ? ===== Je croise les données ===== * **Question 9 ** : quels sont les descripteurs communs aux deux tables **communes.xlsx** et **temperatures.xlsx** ? * En utilisant les informations des 2 tables **communes.xlsx** et **temperature.xlsx** ainsi que les fonctions de filtre et de tri d'Excel répond aux question suivantes : * * * **Question 10 ** : combien de communes de 10 000 à 15 000 habitants sont dans une région où les températures en 2019 sur une journée ont été comprises entre en 18 et 30 degrés ? * **Question 11 ** : quelles sont les communes de la Haute-vienne qui répondent à ces critères ? ==== Je continue ... ==== Je reviens à l'accueil SNT du thème [[:snt:donnee:accueil|Les données structurées et leur traitement]]