OpenRefine

Formation OpenRefine : nettoyer, corriger, réconcilier, enregistrer et préparer la diffusion des fichiers de données Nettoyer, corriger, réconcilier, enregistrer et préparer des tables de données

Résumé

- Logiciel : OpenRefine
- Durée : 7 à 14 heures selon les besoins
- Objectif : Utiliser le logiciel Openrefine pour des usages de traitements de données.
- Pré-requis : Avoir des besoins métiers. Avoir des connaissances en manipulation de données, utiliser un tableur quotidiennement.
- Public : Tout professionnel souhaitant traiter des données.
- Méthodes mobilisées : Alternance d’apports théoriques et d’exercices de mise en application pratique. Les notions présentées sont mises en application sous forme d’exercices pratiques tout au long de la formation.
- Modalités et délais d’accès : Sur inscription préalable au minimum 1 semaine avant le début de la formation selon disponibilité du formateur.
- Modalités d’évaluations : Une évaluation du niveau des stagiaires est réalisée avant l’entrée en formation par téléphone ou au moyen d’un questionnaire. Évaluation des acquis et de la satisfaction en fin de formation.
- Accessibilité aux personnes en situation de handicap : Conformité du matériel et des locaux aux personnes à mobilité réduite. Nous informer si un stagiaire en situation de handicap demande une adaptation.
- Taux de satisfaction 2i2l : 100% des stagiaires sont "satisfaits" ou "très satisfaits" à l’issue de leur formation.
- Tarif : Nous consulter.

Présentation

OpenRefine est un logiciel libre de nettoyage et de mise en forme de données. [1]

Les espaces officiels :
- le site officiel OpenRefine
- la documentation OpenRefine
- la page de téléchargement OpenRefine
- la licence BSD 3-Clause "New" or "Revised" License
- l’article OpenRefine sur Wikipedia

Programme

Le logiciel OpenRefine
- présentation du logiciel OpenRefine
- unique version libre et gratuite
- tout système, écrit en Java
- usages pour traitement et diffusion de données (OpenData)
- peut être installé localement par un utilisateur sans droits particuliers sur le poste
- limité à 100000 mille lignes
- avoir un Go de RAM disponible

Les premiers pas
- ouvrir un fichier texte de données avec un éditeur de texte ou un tableur
- analyser la structuration des données
- noter les problèmes

L’ouverture dans OpenRefine
- saisir http://localhost:3333 dans le navigateur
- ouvrir le même fichier dans OpenRefine
- créer un projet OpenRefine
- apercevoir les données et modifier les paramètres

L’interface de travail
- les facettes et filtres
- l’historique des actions
- les colonnes et leurs informations
- les ouvertures et exportations de projets
- les liens utiles
- les étoiles et les drapeaux

Les menus
- découvrir les menus des colonnes
- éditer les colonnes, trier, retirer ou supprimer les colonnes
- trier les données
- re-trier les lignes de façon permanente
- filtrer le texte
- utiliser les facettes
- distinguer les facettes textuelle, numérique, chronologique,...
- modifier les modalités avec les facettes

L’exploration de données
- utiliser les tris
- utiliser les filtres
- utiliser les facettes
- utiliser les regroupements de données

Le nettoyage de données
- dans une cellule de l’interface
- dans une colonne en répétant une même action
- dans toute la table, par un script
- conserver l’historique des modifications, possibilité de revenir en arrière

Les transformations courantes
- supprimer les espaces de début et de fin
- rassembler les espaces consécutifs
- convertir les entités HTML
- modifier la casse : initiales en majuscules, tout en majuscules ou tout en minuscules
- modifier un format de cellules : en nombre, en date, en texte
- vider les cellules
- recopier et/ou supprimer des valeurs
- supprimer des doublons

La restructuration des données
- transposer les données en colonnes, en lignes
- transposer les données en lignes, en colonnes
- diviser une colonne en plusieurs
- regrouper des lignes en cellules
- diviser les cellules en plusieurs lignes et colonnes
- renommer et regrouper des valeurs proches

L’exportation des modifications
- exporter des valeurs séparées par des tabulations, des virgules ou des points-virgules
- choisir un format de fichier
- enregistrer une exportation, un projet

L’application de la personnalisation
- refaire ou défaire un traitement
- enregistrer et exporter l’historique de traitements
- ré-appliquer l’ensemble des traitements sur un nouveau jeu
- découvrir langage GREL (Google Refine Expression Language)

La récupération de données sur le Web
- ajouter une colonne et moissonner des données https://geo.api.gouv.fr
- corriger et compléter les données avec les fonctions de Réconciliation WikiData