François Chung, Ph.D.
Spécialisation en science des données

Spécialisation en science des données

Formation Coursera, MOOC (2020). Cette spécialisation couvre les concepts et les outils nécessaires à la science des données, de la formulation des bonnes questions à la réalisation d'inférences et la publication des résultats. Les sujets abordés incluent l'utilisation de R pour nettoyer, analyser et visualiser les données, utiliser GitHub pour gérer des projets en science des données et effectuer une analyse de régression, des moindres carrés et des inférences à l'aide de modèles de régression.

Cours 1: Boîte à outils du data scientist

Sujets principaux:

  • Fondamentaux de la science des données;
  • R et Rstudio;
  • Contrôle de version et GitHub;
  • R Markdown, raisonnement scientifique et big data.

Cours 2: Programmation en R

Sujets principaux:

  • Contexte et mise en route;
  • Programmation avec R;
  • Fonctions de boucle et débogage;
  • Simulation et profilage de code.

Cours 3: Obtenir et nettoyer les données

Sujets principaux:

  • Recherche de données et lecture de différents types de fichiers;
  • Systèmes de stockage de données;
  • Organisation, fusion et gestion des données;
  • Manipulation de texte et de données en R.

Cours 4: Analyse exploratoire des données

Sujets principaux:

  • Graphiques analytiques et représentation graphique en R;
  • Lattice et ggplot2;
  • Réduction dimensionnelle des données;
  • Techniques d'analyse de cluster.

Cours 5: Recherche reproductible

Sujets principaux:

  • Concepts, idées et structure;
  • Markdown et knitr;
  • Check-list de la recherche reproductible;
  • Analyse de données factuelles.

Cours 6: Inférence statistique

Sujets principaux:

  • Probabilité et espérance mathématique;
  • Variabilité, distribution et asymptote;
  • Intervalles, tests et valeur-p;
  • Tests de puissance, bootstrap et permutation.

Cours 7: Modèles de régression

Sujets principaux:

  • Moindres carrés et régression linéaire;
  • Régression linéaire et multivariée;
  • Résidus et diagnostics;
  • Régression logistique et de Poisson.

Cours 8: Apprentissage automatique

Sujets principaux:

  • Prédiction, erreurs et validation croisée;
  • Paquet caret;
  • Arbres de décision et forêts aléatoires;
  • Régression régularisée et combinaison de prédicteurs.

Cours 9: Développement de produits de données

Sujets principaux:

  • Shiny, GoogleVis et Plotly;
  • R Markdown et Leaflet;
  • Paquets R et Swirl.

Références

Articles associés

Fondamentaux de Spark (formation Cognitive Class)
Fondamentaux de Hadoop (formation Cognitive Class)
AWS: fondations et apprentissage automatique (formation AWS)

En savoir plus