Fichiers CSV

Modifié

Vous pouvez utiliser un fichier CSV (.csv) comme source.

Un fichier CSV contient une liste de champs généralement séparés par des virgules ou des points-virgules.

Les virgules sont couramment utilisées pour séparer des champs dans les fichiers en anglais, tandis que les fichiers provenant de régions où la virgule est le séparateur décimal, comme la France, utilisent souvent des points-virgules à la place.

Vous pouvez aussi utiliser des types de fichiers similaires :

  • Fichiers de valeurs séparées par des tabulations (TSV) (.tsv)

  • Fichiers texte (.txt)

  • Fichiers DAT (.dat)

Pour plus d’informations sur l’ajout d’une source de fichier, consultez Créer un jeu de données à partir d'un fichier local.

Configuration

Voir ici un résumé basique de la configuration d'une source de données.

Sinon, notez simplement que lors du téléchargement d’un CSV ou d’un fichier lié, les choix ci-dessous sont configurables en cliquant sur les boutons expliqués dans les tableaux ci-dessous.

Ici, par exemple, Structure des lignes a été cliqué, ce qui vous permet de modifier le séparateur de champs, si nécessaire.

Encodage

Description

Utilisation

Encodage de fichier

Encodage du fichier

L'encodage des caractères est la façon dont les caractères sont représentés dans un fichier enregistré. Unicode (ou UTF-8) est la norme universelle, mais certains fichiers peuvent être encodés dans un format hérité (par exemple, les anciennes versions d'Excel), ce qui nécessiterait de définir l'encodage manuellement. Sur les logiciels modernes, cela est généralement inutile.

Par défaut, la plateforme utilise une heuristique pour déterminer l'encodage. Si l'encodage déterminé n'est pas le bon, sélectionnez celui approprié dans la liste ou saisissez-le dans la zone de texte "Autre". Vous pouvez utiliser n'importe quel alias de Python.

Structure des lignes

Description

Utilisation

Séparateur de champs

Caractère utilisé pour séparer des champs

Entrez le séparateur dans la zone de texte. La valeur par défaut dépend du format de fichier. Les valeurs correctes sont généralement ';' , ',' , ' ' et '\t' .

Caractère d'échappement

Si un caractère d'échappement est trouvé juste avant un séparateur, ce dernier ne sera plus considéré comme un séparateur. L'option de configuration du caractère d'échappement évite cette situation.

Par défaut, la zone de texte est vide. Si le fichier contient un caractère d'échappement (par exemple, # ou \ ), saisissez-le dans la zone de texte.

Champs entre guillemets

Pour les champs dont les valeurs sont encadrées par des guillemets doubles.

Par défaut, cette option est activée. Désactivez l'option si les valeurs de champ ne sont pas entre guillemets doubles.

Point de démarrage des données

Description

Utilisation

Numéro de la première ligne

Pour les fichiers qui ne commencent pas dès la première ligne, vous pouvez définir quelle ligne doit être considérée comme telle. Les lignes précédentes seront ignorées du jeu de données.

Par défaut, le jeu de données commence à la ligne 1. Entrez le numéro de la ligne où commence le jeu de données.

En-tête

Pour les fichiers dont la première ligne contient des noms de champs

Par défaut, cette option est activée. Les valeurs de la première ligne deviennent des labels de champs. Désactivez cette option si la première ligne ne contient pas de noms de champs mais des données : les labels de champs seront vides par défaut.

Extraire le nom du fichier

Description

Utilisation

Option extraire le nom du fichier

Crée une nouvelle colonne avec le nom du fichier source.

Par défaut, cette option est désactivée. Activez cette option pour extraire le nom du fichier dans une colonne supplémentaire.