OpenRefine

OpenRefine : nettoyer les noms de communes d’une table de données OpenRefine pour le nettoyage des noms de villes de vos enquêtes.

Nous allons utiliser ici le fichier ci-dessous :

communes-erronees-extrait-fichier-reel

- télécharger ce fichier
- lancer l’application OpenRefine dans un navigateur web
- suivre la démarche ci-dessous.


Ouvrir un projet de traitements :
- ouvrir le fichier : communes-erronees-extrait-fichier-reel.csv
- faire suivant
- constater que la séparation des deux colonnes est bien faite, le point-virgule est reconnu
- changer ou pas, le nom du projet, dans le haut de la page,
- cliquer sur "Créer un projet",

Depuis la page d’aperçu :
- demander d’afficher plus de lignes, seules 10 lignes s’affichent par défaut, demander 50 lignes pour plus d’enregistrements par page,
- naviguer dans les pages en cliquant sur l’hypertext "suivante" plusieurs fois et en lisant les réponses,
- constater que les villes sont écrites en majuscules.

Utiliser les "éditions de cellules" pour corriger les villes :
- éditer les cellules, Transformations courantes, Supprimer les espaces de début et de fin. Parfois vous avez plusieurs espaces consécutifs, il faut aussi penser à les supprimer ; 3 cellules en ont.
- éditer les cellules, Transformations courantes, En majuscules, pour nous assurer que toutes les villes soient écrites en majuscules,
- éditer les cellules, Grouper et éditer... et découvrir l’interface pour rapprochement des noms de villes,
- parcourir les propositions,
- cliquer sur la proposition la mieux écrite (disons avec les accents, et les tirets, les villes devraient toutes être écrites de cette manière).
- cliquer sur un choix permet de cocher automatiquement l’acceptation de correction,
- parcourir encore les autres propositions, ajouter un tiret pour CESSON-SÉVIGNÉ
- choisir CHÂTEAU-THIERRY
- il est possible de "Tout sélectionner" et de faire votre tour de correction par la suite,
- cliquer sur "Fusionner la sélection et regrouper", puis "Fermer".

Utiliser les filtres de textes pour corriger les villes :
- cliquer sur la flèche de la colonne VILLE,
- cliquer sur "Filtrer le texte"
- entrer PARIS dans le filtre, seuls les enregistrements contenant PARIS seront retenus pour la Facette à venir,
- cliquer sur la flèche,
- s’arrêter sur Facette,
- choisir Facette textuelle,
- constater que la Facette est juste sur les cellules contenant PARIS,
- procéder aux corrections nécessaires en faisant "éditer" ou bien prévoir un autre traitement, plus fin.

Bonnes découvertes !