CUEJ master 2 2019/20 - Elections européennes 2019
Les outils
- Dans le domaine propriétaire : SAS, SPSS, Stata. En général, ils sont très chers.
- Dans le domaine du libre et gratuit : Python ou R
- Points communs :
- Multiplate-formes (Windows, Mac OS, Linux)
- Très utilisés, forte communauté, il est facile de trouver des solutions aux problèmes rencontrés
- Pas (ou peu) d'interface graphique, mais des environnements de développement intégrés (IDE - integrated development environments)
- Conséquence : une courbe d'apprentissage un peu ardue...
- ... mais une grande efficacité à l'usage
- Modulables : un logiciel de base et de multiple librairies spécialisées
- Différences :
- Spécialement développé pour le traitement statistique
- Logique programmation un peu particulière
- Python :
- Polyvalent, permet de développer toutes sortes d'applications
- Programmation plus "classique"
Ressources d'apprentissage pour R
Le processus d'une analyse statistique
- Définition des objectifs
- Recherche de données :
- DataGouv
- Inséé
- Quetelet (à présent accessible aux étudiants de master)
- Parfois... ça s'arrête là : pas de données, données coûteuse...
- Récupération de données dans le programme de traitement
- Agrégation de données de sources diverses
- Nettoyage-correction des données
- Modification des données : création de nouvelles variables
- Analyse des données : méthodes statistiques, graphiques
- Compte rendu des analyse : papier, web...
Ça n'est PAS un processus linéaire. On procède souvent par itération. On fait plein de choses qui ne servent à rien, qui n'apportent pas d'informations. On trouve des éléments intéressants qui incitent à créer de nouvelles variables, ajouter de nouvelles données, faire des corrections etc.