Résumé
Logiciel : OpenRefine
Durée : 7 à 14 heures selon les besoins
Objectifs :
ouvrir vos fichiers de données,
normer et réorganiser vos données,
nettoyer et corriger vos données,
exporter dans des formats ouverts pour vos usages.
Pré-requis : Avoir des besoins métiers. Avoir des connaissances en manipulation de données, utiliser un tableur quotidiennement.
Public : Tout professionnel souhaitant traiter des données.
Méthodes mobilisées : Alternance d’apports théoriques et d’exercices de mise en application pratique. Les notions présentées sont mises en application sous forme d’exercices pratiques tout au long de la formation.
Modalités et délais d’accès : Sur inscription préalable au minimum 1 semaine avant le début de la formation selon disponibilité du formateur.
Modalités d’évaluations : Une évaluation du niveau des stagiaires est réalisée avant l’entrée en formation par téléphone ou au moyen d’un questionnaire. Évaluation des acquis et de la satisfaction en fin de formation.
Accessibilité aux personnes en situation de handicap : toutes nos formations sont accessibles aux personnes en situation de handicap, qu’il soit moteur, visuel, auditif ou cognitif ; quelles qu’en soient les particularités.
Nous pouvons proposer des solutions de compensation de nos prestations en adaptant les moyens pédagogiques, techniques et d’encadrement. Nos locaux sont en rez-de-chaussée avec des places de parkings extérieures juste devant l’entrée du bâtiment. Aussi, merci de nous informer de vos besoins d’adaptation ; les échanges peuvent se faire et rester en toute confidentialité.
Taux de satisfaction 2i2l : 95 % des stagiaires sont "très satisfaits" ou "satisfaits" à l’issue de leur formation.
Tarif : pour une demande de formation interne, nous consulter.
Présentation
OpenRefine est un logiciel libre de nettoyage et de mise en forme de données. [1]
Les espaces officiels :
le site officiel OpenRefine
la documentation OpenRefine
la page de téléchargement OpenRefine
la licence BSD 3-Clause "New" or "Revised" License
l’article OpenRefine sur Wikipedia
Programme
Le logiciel OpenRefine
présentation du logiciel OpenRefine
unique version libre et gratuite
tout système, écrit en Java
usages pour traitement et diffusion de données (OpenData)
peut être installé localement par un utilisateur sans droits particuliers sur le poste
limité à 100000 mille lignes
avoir un Go de RAM disponible
Les premiers pas
ouvrir un fichier texte de données avec un éditeur de texte ou un tableur
analyser la structuration des données
noter les problèmes
L’ouverture dans OpenRefine
saisir http://localhost:3333 dans le navigateur
ouvrir le même fichier dans OpenRefine
créer un projet OpenRefine
apercevoir les données et modifier les paramètres
L’interface de travail
les facettes et filtres
l’historique des actions
les colonnes et leurs informations
les ouvertures et exportations de projets
les liens utiles
les étoiles et les drapeaux
Les menus
découvrir les menus des colonnes
éditer les colonnes, trier, retirer ou supprimer les colonnes
trier les données
re-trier les lignes de façon permanente
filtrer le texte
utiliser les facettes
distinguer les facettes textuelle, numérique, chronologique,...
modifier les modalités avec les facettes
L’exploration de données
utiliser les tris
utiliser les filtres
utiliser les facettes
utiliser les regroupements de données
Le nettoyage de données
dans une cellule de l’interface
dans une colonne en répétant une même action
dans toute la table, par un script
conserver l’historique des modifications, possibilité de revenir en arrière
Les transformations courantes
supprimer les espaces de début et de fin
rassembler les espaces consécutifs
convertir les entités HTML
modifier la casse : initiales en majuscules, tout en majuscules ou tout en minuscules
modifier un format de cellules : en nombre, en date, en texte
vider les cellules
recopier et/ou supprimer des valeurs
supprimer des doublons
La restructuration des données
transposer les données en colonnes, en lignes
transposer les données en lignes, en colonnes
diviser une colonne en plusieurs
regrouper des lignes en cellules
diviser les cellules en plusieurs lignes et colonnes
renommer et regrouper des valeurs proches
L’exportation des modifications
exporter des valeurs séparées par des tabulations, des virgules ou des points-virgules
choisir un format de fichier
enregistrer une exportation, un projet
L’application de la personnalisation
refaire ou défaire un traitement
enregistrer et exporter l’historique de traitements
ré-appliquer l’ensemble des traitements sur un nouveau jeu
Option niveau 2, sur 2 jours : La récupération de données sur le Web
découvrir langage GREL (Google Refine Expression Language)
ajouter une colonne et moissonner des données https://geo.api.gouv.fr
corriger et compléter les données avec les fonctions de Réconciliation WikiData