OpenRefine

Formation OpenRefine : nettoyer, corriger, réconcilier, enregistrer et préparer la diffusion des fichiers de données Nettoyer, corriger, réconcilier, enregistrer et préparer des tables de données

Résumé

Logiciel : OpenRefine
Durée : 7 à 14 heures selon les besoins
Objectifs :
- ouvrir vos fichiers de données,
- normer et réorganiser vos données,
- nettoyer et corriger vos données,
- exporter dans des formats ouverts pour vos usages.
Pré-requis : Avoir des besoins métiers. Avoir des connaissances en manipulation de données, utiliser un tableur quotidiennement.
Public : Tout professionnel souhaitant traiter des données.
Méthodes mobilisées : Alternance d’apports théoriques et d’exercices de mise en application pratique. Les notions présentées sont mises en application sous forme d’exercices pratiques tout au long de la formation.
Modalités et délais d’accès : Sur inscription préalable au minimum 1 semaine avant le début de la formation selon disponibilité du formateur.
Modalités d’évaluations : Une évaluation du niveau des stagiaires est réalisée avant l’entrée en formation par téléphone ou au moyen d’un questionnaire. Évaluation des acquis et de la satisfaction en fin de formation.
Accessibilité aux personnes en situation de handicap : toutes nos formations sont accessibles aux personnes en situation de handicap, qu’il soit moteur, visuel, auditif ou cognitif ; quelles qu’en soient les particularités.
Nous pouvons proposer des solutions de compensation de nos prestations en adaptant les moyens pédagogiques, techniques et d’encadrement. Nos locaux sont en rez-de-chaussée avec des places de parkings extérieures juste devant l’entrée du bâtiment. Aussi, merci de nous informer de vos besoins d’adaptation ; les échanges peuvent se faire et rester en toute confidentialité.
Taux de satisfaction 2i2l : 95 % des stagiaires sont "très satisfaits" ou "satisfaits" à l’issue de leur formation.
Tarif : pour une demande de formation interne, nous consulter.

Présentation

OpenRefine est un logiciel libre de nettoyage et de mise en forme de données. [1]

Les espaces officiels :
- le site officiel OpenRefine
- la documentation OpenRefine
- la page de téléchargement OpenRefine
- la licence BSD 3-Clause "New" or "Revised" License
- l’article OpenRefine sur Wikipedia

Programme

Le logiciel OpenRefine
- présentation du logiciel OpenRefine
- unique version libre et gratuite
- tout système, écrit en Java
- usages pour traitement et diffusion de données (OpenData)
- peut être lancé sans installation sans droits particuliers sur le poste

Les premiers pas
- ouvrir un fichier texte de données avec un éditeur de texte ou un tableur
- analyser la structuration des données
- noter les problèmes

L’ouverture dans OpenRefine
- lancer l’application dans votre navigateur
- ouvrir le même fichier dans OpenRefine
- créer un projet OpenRefine
- apercevoir les données et modifier les paramètres

L’interface de travail
- les facettes et filtres
- l’historique des actions
- les colonnes et leurs informations
- les ouvertures et exportations de projets
- les liens utiles
- les étoiles et les drapeaux

Les menus
- découvrir les menus des colonnes
- éditer les colonnes, trier, retirer ou supprimer les colonnes
- trier les données
- re-trier les lignes de façon permanente
- filtrer le texte
- utiliser les facettes
- distinguer les facettes textuelle, numérique, chronologique,...
- modifier les modalités avec les facettes

L’exploration de données
- utiliser les tris
- utiliser les filtres
- utiliser les facettes
- utiliser les regroupements de données

Le nettoyage de données
- dans une cellule de l’interface
- dans une colonne en répétant une même action
- dans toute la table, par un script
- conserver l’historique des modifications, revenir en arrière

Les transformations courantes
- supprimer les espaces de début et de fin
- rassembler les espaces consécutifs
- convertir les entités HTML
- modifier la casse : en majuscules, tout en majuscules ou minuscules
- modifier un format de cellules : en nombre, en date, en texte
- vider les cellules
- recopier et/ou supprimer des valeurs
- supprimer des doublons

La restructuration des données
- transposer les données en colonnes, en lignes
- transposer les données en lignes, en colonnes
- diviser une colonne en plusieurs
- regrouper des lignes en cellules
- diviser les cellules en plusieurs lignes et colonnes
- renommer et regrouper des valeurs proches

L’exportation des modifications
- exporter les valeurs séparées par des tabulations, virgules ou points-virgules
- choisir un format de fichier
- enregistrer une exportation, un projet

L’application de la personnalisation
- refaire ou défaire un traitement
- enregistrer et exporter l’historique de traitements
- ré-appliquer l’ensemble des traitements sur un nouveau jeu

Option niveau 2, sur 2 jours : La récupération de données sur le Web
- découvrir langage GREL (Google Refine Expression Language)
- ajouter une colonne et moissonner des données https://geo.api.gouv.fr
- corriger et compléter les données avec les fonctions de Réconciliation WikiData