OpenRefine

Formation OpenRefine : nettoyer, corriger, enregistrer et préparer la diffusion des fichiers de données Nettoyer, corriger, réconcilier, enregistrer et préparer des tables de données

Résumé

Logiciel : OpenRefine
Durée : 7 à 14 heures selon les besoins
Objectifs :
 ouvrir vos fichiers de données,
 normer et réorganiser vos données,
 nettoyer et corriger vos données,
 exporter dans des formats ouverts (ou pas) pour vos usages.
Pré-requis : Avoir des besoins métiers. Avoir des connaissances en manipulation de données, utiliser un tableur quotidiennement.
Public : Tout professionnel souhaitant traiter des données.
Méthodes mobilisées : Alternance d’apports théoriques et d’exercices de mise en application pratique. Les notions présentées sont mises en application sous forme d’exercices pratiques tout au long de la formation.
Modalités et délais d’accès : Sur inscription préalable au minimum 1 semaine avant le début de la formation selon disponibilité du formateur.
Modalités d’évaluations : Une évaluation du niveau des stagiaires est réalisée avant l’entrée en formation par téléphone ou au moyen d’un questionnaire. Évaluation des acquis et de la satisfaction en fin de formation.
Accessibilité aux personnes en situation de handicap ou présentant des difficultés d’apprentissage : nous pouvons proposer des solutions de compensation de nos prestations en adaptant les moyens pédagogiques, techniques et d’encadrement (les précisions).
Taux de satisfaction 2i2L : 96,34 % des stagiaires sont satisfaits à l’issue de leur formation.
Tarif : pour une demande de formation interne, nous consulter.

Présentation

OpenRefine est un logiciel libre de nettoyage et de mise en forme de données. [1]

Les espaces officiels :
 le site officiel OpenRefine
 la documentation OpenRefine
 la page de téléchargement OpenRefine
 la licence BSD 3-Clause "New" or "Revised" License
 l’article OpenRefine sur Wikipedia

Programme

Le logiciel OpenRefine
 présentation du logiciel OpenRefine
 unique version libre et gratuite
 tout système, écrit en Java
 usages pour traitement et diffusion de données (OpenData)
 peut être lancé sans installation sans droits particuliers sur le poste

Les premiers pas
 ouvrir un fichier texte de données avec un éditeur de texte ou un tableur
 analyser la structuration des données
 noter les problèmes

L’ouverture dans OpenRefine
 lancer l’application dans votre navigateur
 ouvrir le même fichier dans OpenRefine
 créer un projet OpenRefine
 apercevoir les données et modifier les paramètres

L’interface de travail
 les facettes et filtres
 l’historique des actions
 les colonnes et leurs informations
 les ouvertures et exportations de projets
 les liens utiles
 les étoiles et les drapeaux

Les menus
 découvrir les menus des colonnes
 éditer les colonnes, trier, retirer ou supprimer les colonnes
 trier les données
 re-trier les lignes de façon permanente
 filtrer le texte
 utiliser les facettes
 distinguer les facettes textuelle, numérique, chronologique,...
 modifier les modalités avec les facettes

L’exploration de données
 utiliser les tris
 utiliser les filtres
 utiliser les facettes
 utiliser les regroupements de données

Le nettoyage de données
 dans une cellule de l’interface
 dans une colonne en répétant une même action
 dans toute la table, par un script
 conserver l’historique des modifications, revenir en arrière

Les transformations courantes
 supprimer les espaces de début et de fin
 rassembler les espaces consécutifs
 convertir les entités HTML
 modifier la casse : en majuscules, tout en majuscules ou minuscules
 modifier un format de cellules : en nombre, en date, en texte
 vider les cellules
 recopier et/ou supprimer des valeurs
 supprimer des doublons

La restructuration des données
 transposer les données en colonnes, en lignes
 transposer les données en lignes, en colonnes
 diviser une colonne en plusieurs
 regrouper des lignes en cellules
 diviser les cellules en plusieurs lignes et colonnes
 renommer et regrouper des valeurs proches

L’exportation des modifications
 exporter les valeurs séparées par des tabulations, virgules ou points-virgules
 choisir un format de fichier
 enregistrer une exportation, un projet

L’application de la personnalisation
 refaire ou défaire un traitement
 enregistrer et exporter l’historique de traitements
 ré-appliquer l’ensemble des traitements sur un nouveau jeu

Option niveau 2, sur 2 jours : La récupération de données sur le Web
 découvrir langage GREL (Google Refine Expression Language)
 ajouter une colonne et moissonner des données https://geo.api.gouv.fr
 corriger et compléter les données avec les fonctions de Réconciliation WikiData