Accueil du site - Catalogue de formations - Formations au traitement de données et à l’analyse statistique - Formation OpenRefine : nettoyer, corriger, réconcilier, enregistrer et préparer la diffusion des fichiers de données

Prochaine session :
- sur demande


Contact : 2i2L - Informatique Internet et Logiciels Libres. Tel. : 02 40 37 02 06 – Mobile : 06 07 38 14 18 – Courriel : formation @ 2i2l.fr


Résumé de la formation :

- Logiciel : OpenRefine
- Durée : une journée, voire deux, selon les besoins
- Objectif : être en capacité d’utiliser le logiciel pour des usages de traitements de données.
- Pré-requis : avoir des connaissances en manipulation de données, utiliser un tableur quotidiennement
- Public : toute personne souhaitant traiter des données
- Pédagogie : les notions présentées sont mises en application sous forme d’exercices pratiques tout au long de la formation.


OpenRefine est un logiciel libre de nettoyage et de mise en forme de données. [1]

Les espaces officiels :
- le site officiel OpenRefine
- la documentation OpenRefine
- la page de téléchargement OpenRefine
- la licence BSD 3-Clause "New" or "Revised" License
- l’article OpenRefine sur Wikipedia


Le programme [2] :

Le logiciel OpenRefine
- présentation du logiciel OpenRefine
- unique version libre et gratuite
- tout système, écrit en Java
- usages pour traitement et diffusion de données (OpenData)
- peut être installé localement par un utilisateur sans droits particuliers sur le poste
- limité à 100000 mille lignes
- avoir un Go de RAM disponible

Les premiers pas
- ouvrir un fichier texte de données avec un éditeur de texte ou un tableur
- analyser la structuration des données
- noter les problèmes

L’ouverture dans OpenRefine
- saisir http://localhost:3333 dans le navigateur
- ouvrir le même fichier dans OpenRefine
- créer un projet OpenRefine
- apercevoir les données et modifier les paramètres

L’interface de travail
- les facettes et filtres
- l’historique des actions
- les colonnes et leurs informations
- les ouvertures et exportations de projets
- les liens utiles
- les étoiles et les drapeaux

Les menus
- découvrir les menus des colonnes
- éditer les colonnes, trier, retirer ou supprimer les colonnes
- trier les données
- re-trier les lignes de façon permanente
- filtrer le texte
- utiliser les facettes
- distinguer les facettes textuelle, numérique, chronologique,...
- modifier les modalités avec les facettes

L’exploration de données
- utiliser les tris
- utiliser les filtres
- utiliser les facettes
- utiliser les regroupements de données

Le nettoyage de données
- dans une cellule de l’interface
- dans une colonne en répétant une même action
- dans toute la table, par un script
- conserver l’historique des modifications, possibilité de revenir en arrière

Les transformations courantes
- supprimer les espaces de début et de fin
- rassembler les espaces consécutifs
- convertir les entités HTML
- modifier la casse : initiales en majuscules, tout en majuscules ou tout en minuscules
- modifier un format de cellules : en nombre, en date, en texte
- vider les cellules
- recopier et/ou supprimer des valeurs
- supprimer des doublons

La restructuration des données
- transposer les données en colonnes, en lignes
- transposer les données en lignes, en colonnes
- diviser une colonne en plusieurs
- regrouper des lignes en cellules
- diviser les cellules en plusieurs lignes et colonnes
- renommer et regrouper des valeurs proches
- ...

L’exportation des modifications
- exporter des valeurs séparées par des tabulations, des virgules ou des points-virgules
- choisir un format de fichier
- enregistrer une exportation, un projet

L’application de la personnalisation
- refaire ou défaire un traitement
- enregistrer et exporter l’historique de traitements
- ré-appliquer l’ensemble des traitements sur un nouveau jeu
- découvrir langage GREL (Google Refine Expression Language)

La récupération de données sur le Web
- ajouter une colonne et moissonner des données https://geo.api.gouv.fr
- corriger et compléter les données avec les fonctions de Réconciliation WikiData

notes:

[1] Source WikiPedia

[2] Ce déroulé de formation est un original - tout droit d’auteur réservé - copyright 2019 - société 2i2L & le formateur métier - copyleft CC-BY-SA - Nous reprendre, c’est aussi nous citer _et_ nous mettre en lien.