Utiliser l’outil tableur "Texte en colonnes" (tutoriel)

Utiliser l’outil tableur "Texte en colonnes" qui se trouve dans le menu Données.

Pour cet exercice, nous allons créer une table de données depuis la base française Wikipédia des noms des musiciens et musiciennes de jazz.

Le résultat ne sera pas parfait, mais l’objectif de tirer quelques statistiques pour découvrir le pilote de données reste raisonnable.


Glaner et nettoyer des enregistrements de données

Allez sur Wikipédia pour glaner tous les noms des musiciens :
- noms de A à K,
- noms de L à Z,
- sélectionnez uniquement les lignes des musiciens,
- copiez-collez les noms dans un éditeur de texte basique,
- nettoyez le fichier texte en supprimant les [modifier] de Wikipédia,
- supprimez également les sauts de lignes dus aux photographies,
- enregistrez le fichier régulièrement :-),
- supprimez toutes les lignes vides,
- nous obtenons 3397 lignes et donc 3397 musiciens de jazz.


Voici le fichier texte obtenu :

jazzmen-fichier-texte-de-base

Importer des enregistrements dans le tableur

- Sélectionnez toute cette base de texte : Ctrl+A ou Édition / Tout sélectionner,
- ouvrez votre tableur,
- renommez la "feuille 1" = "base",
- placez-vous en A1,
- faites coller ! (ce n’est pas la peine de demander le collage contextuel car, ici, c’est du texte),
- découvrez la boîte de dialogue, ou fenêtre, Texte en colonnes,
- testez les séparations de colonnes,
- choisissez la séparation par la virgule, cela permet une première répartition des noms et des instruments,
- validez.

La structuration n’est pas parfaite. Il y a en effet quelques erreurs, mais vous avez importé une table de données d’enregistrements, en deux colonnes, dans le tableur.


Supprimer les espaces et étoiles au début des lignes

- Pour insérer une colonne entre la colonne A et la colonne B, cliquez sur la lettre B, puis faites un clic droit Insérer des colonnes,
- sélectionnez la plage de données, de la cellule A1 à la cellule A3397 (la dernière). Pour cela, placez-vous en A1, appuyez sur les touches Ctrl+Maj+flèche vers le bas (dans le bloc de touches des quatre flèches - droite, gauche, haut, bas -, il s’agit du bouton avec la flèche vers le bas). La sélection se fait directement jusqu’à la dernière cellule,
- coupez cette sélection,
- demandez un collage contextuel en Texte non formaté, la fenêtre Texte en colonnes s’ouvre alors,
- cochez, dans les options de séparateurs, Largeur fixe ; un point rouge se trouve alors dans l’aperçu, en bas de votre fenêtre, à la coupure prévue. Ne faites rien, validez.

Vous venez d’écarter les espaces du début et les étoiles superflues.

Pour en terminer avec ces fausses étoiles superflues, supprimez la colonne A. Faites un clic droit sur la lettre A de la colonne et choisissez Supprimer des colonnes.


Supprimer les espaces avant le contenu des cellules d’une même colonne

Autre usage du texte en colonnes : la suppression d’espaces indésirables au début du contenu des cellules.
Nous pouvons constater les espaces dans la colonne B devant les noms d’instruments.

- Ajoutez une colonne après la colonne B (celle que vous travaillez), une colonne C vide,
- sélectionnez de B1 à B3397, selon la méthode précédente : Ctrl+Maj+flèche vers le bas,
- coupez la sélection,
- collez en Texte non formaté,
- choisissez des séparateurs de largeur fixe dans la fenêtre Texte en colonnes,
- déplacez le point rouge juste avant la première lettre des instruments,
- validez.

Le découpage se fait. Les instruments se trouvent alors (sans espace avant) sur la colonne C que vous venez de créer.

Avant de supprimer la colonne B, qui semble vide, faites quelques sauts dedans,
- placez-vous en B1,
- appuyez sur la touche Ctrl de l’index gauche et sur la flèche “descendre” de l’index droit ; faites des sauts en vous arrêtant avant les cellules vides,
- faites quelques sauts, vous constatez alors que quelques premières lettres d’instruments sont à corriger...

Vous pouvez supprimer la colonne B, qui ne contient, après nos corrections, que des espaces.


Séparer du texte en colonnes d’après un caractère

Notre objectif est de séparer les "prénoms et noms" des "dates" entre parenthèses contenus dans la colonne A :
- naviguez dans la colonne A avec la flèche “descendre” et comptez le nombre maximum de colonnes nécessaires pour faire entrer ces données,
- insérez deux colonnes vides entre la colonne A et la colonne des instruments,
- sélectionnez toutes les données de la colonne A en vous plaçant en A1 et en appuyant sur Ctrl+Maj+flèche vers le bas. La sélection doit se faire directement jusqu’à la cellule A3397,
- coupez et collez en Texte non formaté, la fenêtre Texte en colonnes s’ouvre,
- choisissez le séparateur "Autres" et placez, dans le formulaire, une parenthèse ouvrante. Elle servira de repère pour séparer les données. Les années vont donc se placer dans la deuxième colonne,
- validez.

Pour vérification : dans la troisième colonne, faites des sauts de navigation avec un Ctrl+flèche vers le bas.

Nous avons un enregistrement rebelle, mal structuré : Malik Mezzadri sur la ligne 2082 ! [1] Faites la correction qui s’impose et supprimez la colonne vide.

Dans la colonne B, nous avons maintenant les années de naissance et de décès, le cas échéant !

Nous avons aussi une parenthèse fermante à supprimer :
- sélectionnez toute la colonne B en cliquant sur la lettre B,
- faites, dans la barre des menus, Édition / Rechercher & remplacer... ou Ctrl+H,
- mettez une parenthèse fermante dans le formulaire du Rechercher,
- laissez vide le formulaire Remplacer par,
- demandez Tout remplacer.

Pour vérification :
- naviguez dans la colonne B avec la flèche “descendre” pour voir si tous les enregistrements sont corrects,
- repérez les décalages des dates et instruments,
- corrigez les quelques lignes qui posent un problème.

Pour connaître le nombre de valeurs que vous avez dans une colonne : cliquez sur la lettre de la colonne pour la sélectionner dans son ensemble, puis, dans la barre d’état, située en bas, faites un clic droit sur Somme pour demander NBVAL, vous aurez alors le nombre de valeurs dans la sélection.

 \^#@|^#@ aïe ! 68 lignes sur 3397 ! Il faut arrêter les corrections manuelles et refaire une séparation des contenus :
- passez en mode séparation pour les repérer toutes en utilisant le séparateur Parenthèse,
- insérez deux colonnes après la colonne B pour séparer les dates,
- demandez une séparation Autres à l’endroit du tiret (entre les deux dates),
- validez,
- faites quelques corrections de format.
- le tour est joué !

Supprimez les enregistrements qui ne précisent pas l’instrument.
Il reste alors 3358 musiciens dans la table.


Renseigner les noms de champs, étiquettes (ou en-têtes) de colonne

- Insérez une première ligne avant le premier enregistrement en faisant un clic droit avec la souris sur le chiffre 1 de la ligne 1 et en demandant Insérer des lignes,
- indiquez le nom des champs : nom prénom, date de naissance, date de décès, instrument.

C’est terminé ! La base (ou table) d’enregistrement est, à peu près, correcte.
Nous allons maintenant pouvoir déceler les problèmes au fur et à mesure de l’utilisation des tableaux croisés dynamiques.


Notes

[1On a le nom du responsable sur Wikipédia ;-), je pourrais aussi corriger :-P.

Documents joints