R pour la statistique

Formation R (niveau 2b) : programmation et manipulation des données Formation R pour la programmation et la manipulation des données

La mise en œuvre de l’analyse statistique des données nécessite très fréquemment de procéder à des manipulations des ensembles de données dans des perspectives très diverses : extraire et travailler avec des sous-ensembles de données, transformer des variables, traiter adéquatement les données manquantes ou les données calendaires (heures, dates), transposer des tableaux de données, générer des procédures répétitives, concevoir des simulations...
Ces méthodes sont parfois mises en œuvre par des équipes / personnes distinctes de celles qui procèdent aux analyses statistiques et parfois ce sont les mêmes équipes / personnes qui souhaitent développer ces compétences. Elles nécessitent toutes d’adopter une approche de "programmation" plus pointue que celle qui est impliquée dans l’analyse statistique des données.
Cette formation est conçue pour acquérir les compétences de programmation essentielles à la manipulation des données et à la génération de procédures répétitives. Ces méthodes pourront aussi déboucher sur la mise en œuvre d’analyses statistiques telles que les techniques de "bootstrap / resampling / simulations de Monte-Carlo".

Résumé

- Logiciel : R
- Durée : 21 heures
- Objectifs :
- Maîtriser et utiliser les bases de programmation essentielles à la manipulation des données et à la génération de procédures répétitives.
- Mettre en œuvre des analyses statistiques telles que les techniques de "bootstrap / resampling / simulations de Monte-Carlo".
- Pré-requis : Cette formation s’adresse à deux catégories de publics différents.
1. des personnes ayant un usage de R comme outil d’analyses statistiques et qui éprouvent le besoin de traiter leurs données avec des procédures de manipulation avancées. Ces profils doivent disposer des compétences correspondant au niveau 1 de la "Formation R pour les analyses statistiques" ;

2. des personnes ayant une formation préalable en programmation informatique et souhaitant adapter leurs compétences au langage R. Ces profils doivent avoir une expérience minimale de la programmation dans un langage autre que R (langages de type procéduraux, déclaratifs, objet...) mais n’ont pas besoin d’avoir utilisé R au préalable ;

Il est préférable de ne pas mixer les deux profils dans un même groupe. Les personnes souhaitant choisir l’option "Bootstrap / Simulations de Monte-Carlo" doivent avoir une connaissance des principes et des méthodes liés aux procédures classiques de Statistique Inférentielle (comparaison de moyennes, comparaison de fréquences).
- Public : toute personne ou groupe de personnes ayant besoin de développer des compétences dans la manipulation des données et la programmation avec le langage R, quel que soit leur niveau d’études.
- Méthodes mobilisées : Alternance d’apports théoriques et d’exercices de mise en application pratique. Les notions décrites sont mise en pratique en permanence en parallèle au cours. Chaque demi-journée est ponctuée d’exercices simples qui sont directement en lien avec le thème de la demi-journée. La dernière demi-journée est consacrée à un exercice complet nécessitant la mise en œuvre synthétique en semi-autonomie des compétences acquises sur l’ensemble de la formation.
- Modalités et délais d’accès : Sur inscription préalable au minimum 1 semaine avant le début de la formation selon disponibilité du formateur.
- Modalités d’évaluations : Une évaluation du niveau des stagiaires est réalisée avant l’entrée en formation par téléphone ou au moyen d’un questionnaire. Évaluation des acquis et de la satisfaction en fin de formation.
- Accessibilité aux personnes en situation de handicap : Conformité du matériel et des locaux aux personnes à mobilité réduite. Nous informer si un stagiaire en situation de handicap demande une adaptation.
- Taux de satisfaction 2i2l : 100% des stagiaires sont "satisfaits" ou "très satisfaits" à l’issue de leur formation.
- Tarif : Nous consulter.

Présentation

R est un logiciel libre de traitement de données et d’analyse statistique mettant en œuvre le langage de programmation S [1].

- le site Web officiel du logiciel R
- le logiciel R est distribué sous licence GNU GPLv2
- et soutenu par la Fondation R
- l’article Wikipédia du logiciel R

Programme

Vérification des acquis du Niveau 1 ou Présentation des bases de R en fonction du profil des participants :
- les principaux objets du langage
- les statistiques descriptives
- les bases sur les graphiques
- le chargement d’extensions

Les objets du langage :
- Dataframes, vecteurs, facteurs, matrices, arrays, fonctions
- Indexation des objets
- Nature des données
- Subscripting

Processus de traitement des données :
- Structures de contrôle
- Vectorisation du code
- Calcul matriciel
- Génération automatique de graphiques

Manipulation des données :
- Transformation de données
- Manipulation avancée des objets (l’extension plyr)
- Traitement des données manquantes

Jour 3 matin : au choix :

- le traitement avancé des données calendaires / temporelles (calculs numériques sur les heures / dates / séries temporelles, regroupement de dates, fuseaux horaires)

ou bien

- les simulations aléatoires (génération de données aléatoires, bootstrap / resampling & simulations de Monte-Carlo)

Exercice récapitulatif :
- les sélections, extractions et transformations de données
- les travaux sur des objets N-dimensionnels
- la mise en œuvre de structures de programmation répétitives sous forme vectorisée ou par boucles
- les simulations aléatoires ou traitement de données temporelles

Notes

[1Inspiration Wikipédia