R pour la statistique

Formation R (niveau 2b) : programmation et manipulation des données Formation R pour la programmation et la manipulation des données

La mise en œuvre de l’analyse statistique des données nécessite très fréquemment de procéder à des manipulations des ensembles de données dans des perspectives très diverses : extraire et travailler avec des sous-ensembles de données, transformer des variables, traiter adéquatement les données manquantes ou les données calendaires (heures, dates), transposer des tableaux de données, générer des procédures répétitives, concevoir des simulations...
Ces méthodes sont parfois mises en œuvre par des équipes / personnes distinctes de celles qui procèdent aux analyses statistiques et parfois ce sont les mêmes équipes / personnes qui souhaitent développer ces compétences. Elles nécessitent toutes d’adopter une approche de "programmation" plus pointue que celle qui est impliquée dans l’analyse statistique des données.
Cette formation est conçue pour acquérir les compétences de programmation essentielles à la manipulation des données et à la génération de procédures répétitives. Ces méthodes pourront aussi déboucher sur la mise en œuvre d’analyses statistiques telles que les techniques de "bootstrap / resampling / simulations de Monte-Carlo".

Résumé

Logiciel : R
Durée : 21 heures
Objectifs :
 Maîtriser et utiliser les bases de programmation essentielles à la manipulation des données et à la génération de procédures répétitives.
 Mettre en œuvre des analyses statistiques telles que les techniques de "bootstrap / resampling / simulations de Monte-Carlo".
Pré-requis : Cette formation s’adresse à deux catégories de publics différents :
1. des personnes ayant un usage de R comme outil d’analyses statistiques et qui éprouvent le besoin de traiter leurs données avec des procédures de manipulation avancées. Ces profils doivent disposer des compétences correspondant au niveau 1 de la "Formation R pour les analyses statistiques" ;
2. des personnes ayant une formation préalable en programmation informatique et souhaitant adapter leurs compétences au langage R. Ces profils doivent avoir une expérience minimale de la programmation dans un langage autre que R (langages de type procéduraux, déclaratifs, objet...) mais n’ont pas besoin d’avoir utilisé R au préalable ;
Il est préférable de ne pas mixer les deux profils dans un même groupe. Les personnes souhaitant choisir l’option "Bootstrap / Simulations de Monte-Carlo" doivent avoir une connaissance des principes et des méthodes liés aux procédures classiques de Statistique Inférentielle (comparaison de moyennes, comparaison de fréquences).
Public : toute personne ou groupe de personnes ayant besoin de développer des compétences dans la manipulation des données et la programmation avec le langage R, quel que soit leur niveau d’études.
Méthodes mobilisées : Alternance d’apports théoriques et d’exercices de mise en application pratique. Les notions décrites sont mise en pratique en permanence en parallèle au cours. Chaque demi-journée est ponctuée d’exercices simples qui sont directement en lien avec le thème de la demi-journée. La dernière demi-journée est consacrée à un exercice complet nécessitant la mise en œuvre synthétique en semi-autonomie des compétences acquises sur l’ensemble de la formation.
Modalités et délais d’accès : Sur inscription préalable au minimum 1 semaine avant le début de la formation selon disponibilité du formateur.
Modalités d’évaluations : Une évaluation du niveau des stagiaires est réalisée avant l’entrée en formation par téléphone ou au moyen d’un questionnaire. Évaluation des acquis et de la satisfaction en fin de formation.
Accessibilité aux personnes en situation de handicap ou présentant des difficultés d’apprentissage : nous pouvons proposer des solutions de compensation de nos prestations en adaptant les moyens pédagogiques, techniques et d’encadrement (les précisions).
Taux de satisfaction 2i2L : 96,34 % des stagiaires sont satisfaits à l’issue de leur formation.
Tarif : pour une demande de formation interne, nous consulter.

Présentation

R est un logiciel libre de traitement de données et d’analyse statistique mettant en œuvre le langage de programmation S [1].

 le site Web officiel du logiciel R
 le logiciel R est distribué sous licence GNU GPLv2
 et soutenu par la Fondation R
 l’article Wikipédia du logiciel R

Programme

Vérification des acquis du Niveau 1 ou Présentation des bases de R en fonction du profil des participants :
 les principaux objets du langage
 les statistiques descriptives
 les bases sur les graphiques
 le chargement d’extensions

Les objets du langage :
 Dataframes, vecteurs, facteurs, matrices, arrays, fonctions
 Indexation des objets
 Nature des données
 Subscripting

Processus de traitement des données :
 Structures de contrôle
 Vectorisation du code
 Calcul matriciel
 Génération automatique de graphiques

Manipulation des données :
 Transformation de données
 Manipulation avancée des objets (l’extension plyr)
 Traitement des données manquantes

Jour 3 matin : au choix :

 le traitement avancé des données calendaires / temporelles (calculs numériques sur les heures / dates / séries temporelles, regroupement de dates, fuseaux horaires)

ou bien

 les simulations aléatoires (génération de données aléatoires, bootstrap / resampling & simulations de Monte-Carlo)

Exercice récapitulatif :
 les sélections, extractions et transformations de données
 les travaux sur des objets N-dimensionnels
 la mise en œuvre de structures de programmation répétitives sous forme vectorisée ou par boucles
 les simulations aléatoires ou traitement de données temporelles

Notes

[1Inspiration Wikipédia