Accueil du site - Catalogue de formations - Formations au traitement et à l’analyse statistique - Formation R (niveau 2b) : programmation et manipulation des données
La mise en œuvre de l’analyse statistique des données nécessite très fréquemment de procéder à des manipulations des ensembles de données dans des perspectives très diverses : extraire et travailler avec des sous-ensembles de données, transformer des variables, traiter adéquatement les données manquantes ou les données calendaires (heures, dates), transposer des tableaux de données, générer des procédures répétitives, concevoir des simulations... Ces méthodes sont parfois mise en œuvre par des équipes / personnes distinctes de celles qui procèdent aux analyses statistiques et parfois ce sont les mêmes équipes / personnes qui souhaitent développer ces compétences. Elles nécessitent toutes d’adopter une approche de "programmation" plus pointue que celle qui est impliquée dans l’analyse statistique des données. Cette formation est conçue pour acquérir les compétences de programmation essentielles à la manipulation des données et à la génération de procédures répétitives. Ces méthodes pourront aussi déboucher sur la mise en œuvre d’analyses statistiques telles que les techniques de "bootstrap / resampling / simulations de Monte-Carlo".

Prochaine session :
- sur demande,
- Formation INTER entreprises


Contact : 2i2L - Informatique Internet et Logiciels Libres. Tel. : 02 40 37 02 06 – Mobile : 06 07 38 14 18 – Courriel : formation chez 2i2l.fr


R est un logiciel libre de traitement de données et d’analyse statistique mettant en œuvre le langage de programmation S [1].

- le site Web officiel du logiciel R
- le logiciel R est distribué sous licence GNU GPLv2
- et soutenu par la Fondation R
- l’article Wikipédia du logiciel R


Résumé de la formation :
- Logiciel : R
- Durée : trois (3) journées
- Objectifs : la mise en œuvre de l’analyse statistique des données nécessite très fréquemment de procéder à des manipulations des ensembles de données dans des perspectives très diverses : extraire et travailler avec des sous-ensembles de données, transformer des variables, traiter adéquatement les données manquantes ou les données calendaires (heures, dates), transposer des tableaux de données, générer des procédures répétitives, concevoir des simulations... Ces méthodes sont parfois mise en œuvre par des équipes / personnes distinctes de celles qui procèdent aux analyses statistiques et parfois ce sont les mêmes équipes / personnes qui souhaitent développer ces compétences. Elles nécessitent toutes d’adopter une approche de "programmation" plus pointue que celle qui est impliquée dans l’analyse statistique des données. Cette formation est conçue pour acquérir les compétences de programmation essentielles à la manipulation des données et à la génération de procédures répétitives. Ces méthodes pourront aussi déboucher sur la mise en œuvre d’analyses statistiques telles que les techniques de "bootstrap / resampling / simulations de Monte-Carlo".

- Pré-requis : cette formation s’adresse à deux catégories de publics différents. 1. des personnes ayant un usage de R comme outil d’analyses statistiques et qui éprouvent le besoin de traiter leurs données avec des procédures de manipulation avancées. Ces profils doivent disposer des compétences correspondant au niveau 1 de la "Formation R pour les analyses statistiques" ;

2. des personnes ayant une formation préalable en programmation informatique et souhaitant adapter leurs compétences au langage R. Ces profils doivent avoir une expérience minimale de la programmation dans un langage autre que R (langages de type procéduraux, déclaratifs, objet...) mais n’ont pas besoin d’avoir utilisé R au préalable ;

Il est préférable de ne pas mixer les deux profils dans un même groupe. Les personnes souhaitant choisir l’option "Bootstrap / Simulations de Monte-Carlo" doivent avoir une connaissance des principes et des méthodes liés aux procédures classiques de Statistique Inférentielle (comparaison de moyennes, comparaison de fréquences).

- Public : toute personne ou groupe de personnes ayant besoin de développer des compétences dans la manipulation des données et la programmation avec le langage R, quel que soit leur niveau d’études.

- Pédagogie : les notions décrites sont mise en pratique en permanence en parallèle au cours. Chaque demi-journée est ponctuée d’exercices simples qui sont directement en lien avec le thème de la demi-journée. La dernière demi-journée est consacrée à un exercice complet nécessitant la mise en œuvre synthétique en semi-autonomie des compétences acquises sur l’ensemble de la formation.


Le formateur : docteur en Psychologie Expérimentale (Université Paris 5 - René Descartes), Maître de Conférences en Sciences du Langage (Université de Nantes) depuis 2002. Il utilise R quotidiennement dans le cadre de ses recherches sur la perception et la production de la parole.

Il assure notamment la formation en statistiques (à travers R) des étudiants de la licence et du master sciences du langage à l’université de Nantes. Il utilise essentiellement des logiciels libres dans le cadre de ses activités de recherche (R, Octave, Python, LaTeX...) et assure également des enseignements autour de ces outils.


Le programme [2] :

Vérification des acquis du Niveau 1 ou Présentation des bases de R en fonction du profil des participants :
- les principaux objets du langage
- les statistiques descriptives
- les bases sur les graphiques
- le chargement d’extensions

Les objets du langage :
- Dataframes, vecteurs, facteurs, matrices, arrays, fonctions
- Indexation des objets
- Nature des données
- Subscripting

Processus de traitement des données :
- Structures de contrôle
- Vectorisation du code
- Calcul matriciel
- Génération automatique de graphiques

Manipulation des données :
- Transformation de données
- Manipulation avancée des objets (l’extension plyr)
- Traitement des données manquantes

Jour 3 matin : au choix :

- le traitement avancé des données calendaires / temporelles (calculs numériques sur les heures / dates / séries temporelles, regroupement de dates, fuseaux horaires)

ou bien

- les simulations aléatoires (génération de données aléatoires, bootstrap / resampling & simulations de Monte-Carlo)

Exercice récapitulatif :
- les sélections, extractions et transformations de données
- les travaux sur des objets N-dimensionnels
- la mise en œuvre de structures de programmation répétitives sous forme vectorisée ou par boucles
- les simulations aléatoires ou traitement de données temporelles

notes:

[1] Inspiration Wikipédia

[2] Ce déroulé de formation est un original - tout droit d’auteur réservé - copyright 2007 - 2015 - société 2i2L & le formateur métier - copyleft CC-BY-SA - Nous reprendre, c’est aussi nous citer et nous mettre en lien.