Utiliser l’onglet Schéma pour mieux appréhender les données

Modifié

Vous trouvez sur un jeu de données qui semble prometteur, mais comment vérifier s’il contient vraiment les informations dont il vous faut ? Parmi les différentes fonctionnalités que vous pouvez utiliser, il y a l’onglet Schéma.

L’onglet Schéma d’un jeu de données vous offre une vue détaillée des champs et de leurs propriétés. Cela vous aide à évaluer si le jeu de données contient les données dont vous avez besoin et à mesurer son niveau de complétude et de fiabilité avant de l’utiliser.

Pour voir le Schéma d’un jeu de données, accédez-y, cliquez sur Explorer les données, puis cliquez sur l’onglet Schéma.

Vue par onglet

Chaque jeu de données présente les mêmes quatre informations: le nom du champ, son identifiant et son type, ainsi qu’une description si elle a été renseignée.

Pour voir des informations plus détaillées pour chaque champ, cliquez sur la petite icône graphique en barres sur le côté droit.

Vue détaillée

Une fois que vous avez cliqué sur l’icône graphique en barres d’un champ donné, vous pouvez voir une vue plus détaillée du schéma pour ce champ.

La vue détaillée affiche le nom du champ, son identifiant et son type, ainsi qu’une description si elle a été renseignée.

De plus, vous obtenez le taux de complétion pour ce champ, et le nombre de valeurs distinctes, ainsi que d’autres informations et statistiques, en fonction du type de champ que vous examinez.

Exemples d’informations spécifiques au type fournies

Par exemple, le type de champ « Texte » vous montrera les occurrences les plus fréquentes, avec leur nombre et part en pourcentage de l’ensemble des occurrences. Vous obtiendrez également la longueur des entrées les plus courtes et les plus longues, ainsi que leur longueur moyenne.

Le type « Datetime » affichera les dates et heures les plus anciennes et les plus récentes.

Les types « Décimal » et « Entier » vous donneront les valeurs minimale, maximale et moyenne. Vous verrez également un diagramme en barres de la distribution des valeurs dans l’ensemble de données.