Spécialisation en science des données
Formation Coursera, MOOC (2020). Cette spécialisation couvre les concepts et les outils nécessaires à la science des données, de la formulation des bonnes questions à la réalisation d'inférences et la publication des résultats. Les sujets abordés incluent l'utilisation de R pour nettoyer, analyser et visualiser les données, utiliser GitHub pour gérer des projets en science des données et effectuer une analyse de régression, des moindres carrés et des inférences à l'aide de modèles de régression.
Cours 1: Boîte à outils du data scientist
Sujets principaux:
- Fondamentaux de la science des données;
- R et Rstudio;
- Contrôle de version et GitHub;
- R Markdown, raisonnement scientifique et big data.
Cours 2: Programmation en R
Sujets principaux:
- Contexte et mise en route;
- Programmation avec R;
- Fonctions de boucle et débogage;
- Simulation et profilage de code.
Cours 3: Obtenir et nettoyer les données
Sujets principaux:
- Recherche de données et lecture de différents types de fichiers;
- Systèmes de stockage de données;
- Organisation, fusion et gestion des données;
- Manipulation de texte et de données en R.
Cours 4: Analyse exploratoire des données
Sujets principaux:
- Graphiques analytiques et représentation graphique en R;
- Lattice et ggplot2;
- Réduction dimensionnelle des données;
- Techniques d'analyse de cluster.
Cours 5: Recherche reproductible
Sujets principaux:
- Concepts, idées et structure;
- Markdown et knitr;
- Check-list de la recherche reproductible;
- Analyse de données factuelles.
Cours 6: Inférence statistique
Sujets principaux:
- Probabilité et espérance mathématique;
- Variabilité, distribution et asymptote;
- Intervalles, tests et valeur-p;
- Tests de puissance, bootstrap et permutation.
Cours 7: Modèles de régression
Sujets principaux:
- Moindres carrés et régression linéaire;
- Régression linéaire et multivariée;
- Résidus et diagnostics;
- Régression logistique et de Poisson.
Cours 8: Apprentissage automatique
Sujets principaux:
- Prédiction, erreurs et validation croisée;
- Paquet caret;
- Arbres de décision et forêts aléatoires;
- Régression régularisée et combinaison de prédicteurs.
Cours 9: Développement de produits de données
Sujets principaux:
- Shiny, GoogleVis et Plotly;
- R Markdown et Leaflet;
- Paquets R et Swirl.
Références
Articles associés
Fondamentaux de Spark (formation Cognitive Class)
Fondamentaux de Hadoop (formation Cognitive Class)
AWS: fondations et apprentissage automatique (formation AWS)