François Chung, Ph.D.

Tag: science des données

Google Cloud: big data et apprentissage automatique

Google Cloud: big data et apprentissage automatique

Formation Coursera, MOOC (2020). Cette formation en ligne présente les capacités de big data et d’apprentissage automatique (ML) de Google Cloud Platform (CGP). Grâce à une combinaison de présentations, de démos et de laboratoires pratiques, la formation présente un aperçu de Google Cloud et une vue détaillée des solutions de traitement de données et de ML, telles que BigQuery, Cloud SQL, Dataproc, Pub/Sub, Dataflow et Data Studio.

Semaine 1: Fondamentaux du big data et du ML

Sujets principaux:

  • Explorer un ensemble de données public BigQuery;
  • Choisir la bonne approche de solution;
  • Recommander des produits en utilisant Cloud SQL et Spark;
  • Prédire les achats de visiteurs à l'aide de BigQuery ML.

Semaine 2: Défis du pipeline de données moderne

Sujets principaux:

  • Tableaux de bord IoT en temps réel;
  • Créer un pipeline de données en continu;
  • ML sur des ensembles de données non structurées;
  • Classer des images avec des modèles ML pré-construits.

Références

Fondamentaux de Spark

Fondamentaux de Spark

Formation Cognitive Class, MOOC (2020). Ce parcours d'apprentissage aborde les principes fondamentaux de Apache Spark, un moteur open source pour le traitement de données à grande échelle qui révolutionne le monde de l'analyse et du big data. Cette formation est l'occasion d'apprendre des leaders du secteur qui utilisent Spark, technologie reposant sur la vitesse, la facilité d'utilisation et l'analyse, et offre des opportunités et des projets pratiques pour renforcer la confiance avec l'ensemble des outils Spark.

Cours 1: Fondamentaux de Spark I

Sujets principaux:

  • Introduction à Spark;
  • Resilient Distributed Dataset (RDD) et DataFrames;
  • Programmation d'applications Spark;
  • Introduction aux bibliothèques Spark;
  • Configuration, surveillance et réglage de Spark.

Cours 2: Fondamentaux de Spark II

Sujets principaux:

  • Introduction aux notebooks;
  • Architecture RDD;
  • Optimisation de transformations et actions;
  • Mise en cache et sérialisation;
  • Développement et testing.

Cours 3: Spark MLlib

Sujets principaux:

  • Types de données Spark MLlib;
  • Revue des algorithmes;
  • Arbres de décision et forêts aléatoires;
  • Clustering Spark MLlib.

Cours 4: Exploration de GraphX

Sujets principaux:

  • Introduction à Graph-Parallel;
  • Exploration des opérateurs graphiques;
  • Visualisation et modification de GraphX;
  • Agrégation et mise en cache.

Cours 5: Big data dans R avec Spark

Sujets principaux:

  • Introduction à SparkR;
  • Manipulation de données avec SparkR;
  • Apprentissage automatique avec SparkR.

Références

Formation

Spark fundamentals I (Fondamentaux de Spark I, certificat de cours)
Spark – Level 1 (badge de certification)
Spark fundamentals II (Fondamentaux de Spark II, certificat de cours)
Spark MLlib (certificat de cours)
Exploring GraphX (Exploration de GraphX, certificat de cours)
Big data in R using Spark (Big data dans R avec Spark, certificat de cours)
Spark - Level 2 (badge de certification)

Articles associés

Fondamentaux de Hadoop (formation Cognitive Class)
Spécialisation en science des données (formation Coursera)

En savoir plus

Fondamentaux de Hadoop

Fondamentaux de Hadoop

Formation Cognitive Class, MOOC (2020). Ce parcours d'apprentissage présente Hadoop, qui est un framework open source pour le stockage distribué et le traitement de big data. La formation couvre le contenu essentiel à la réussite de quiconque dans ce domaine en expliquant la conception de Hadoop, en présentant MapReduce, YARN (Yet Another Resource Negotiator) et Hive, puis en expliquant comment utiliser Hadoop et manipuler des données sans utiliser de codage complexe.

Cours 1: Hadoop 101

Sujets principaux:

  • Introduction à Hadoop;
  • Architecture de Hadoop et HDFS;
  • Administration de Hadoop;
  • Composants Hadoop.

Cours 2: MapReduce et YARN

Sujets principaux:

  • Introduction à MapReduce et YARN;
  • Limitations de Hadoop v1 et MapReduce v1;
  • Architecture de YARN.

Cours 3: Déplacer des données dans Hadoop

Sujets principaux:

  • Chargement de scénarios;
  • Utilisation de Sqoop;
  • Vue d'ensemble de Flume;
  • Utilisation de données Click.

Cours 4: Accéder aux données Hadoop à l'aide de Hive

Sujets principaux:

  • Introduction à Hive;
  • Hive DDL - Data Definition Language;
  • Hive DML - Data Manipulation Language;
  • Opérateurs et fonctions de Hive.

Références

Formation

Hadoop 101 (certificat de cours)
Hadoop Foundations – Level 1 (badge de certification)
MapReduce and YARN (MapReduce et YARN, certificat de cours)
Hadoop Programming – Level 1 (badge de certification)
Moving data into Hadoop (Déplacer des données dans Hadoop, certificat de cours)
Hadoop Administration – Level 1 (badge de certification)
Accessing Hadoop data using Hive (Accéder aux données Hadoop à l'aide de Hive, certificat de cours)
Hadoop Data Access – Level 1 (badge de certification)
Hadoop Foundations – Level 2 (badge de certification)

Articles associés

Fondamentaux de Spark (formation Cognitive Class)
Spécialisation en science des données (formation Coursera)

En savoir plus

Azure: fondamentaux, apprentissage automatique et Power BI

Azure: fondamentaux, apprentissage automatique et Power BI

Formation Microsoft Docs, MOOC (2020). Ces 3 cours en ligne présentent Microsoft Azure et Power BI. La formation enseigne les concepts de base du cloud, notamment via des exercices pratiques, et fournit une vue d'ensemble des services Azure, tels que Azure Machine Learning (ML), qui est une plateforme cloud pour l'entraînement, le déploiement, la gestion et la surveillance de modèles ML. De plus, la formation explique comment utiliser Power BI et créer des rapports d’informatique décisionnelle.

Cours 1: Fondamentaux d’Azure

Sujets principaux:

  • Principes du cloud computing;
  • Architecture Azure et garanties de service;
  • Calcul, stockage de données et mise en réseau;
  • Sécurité, responsabilité et confiance;
  • Normes d'infrastructure avec Azure Policy;
  • Ressources Azure avec Azure Resource Manager.

Cours 2: Apprentissage automatique d’Azure

Sujets principaux:

  • Travailler avec des données;
  • Orchestrer le ML avec des pipelines;
  • Déployer des modèles ML;
  • Automatiser la sélection de modèles;
  • Régler les hyperparamètres;
  • Surveiller les modèles et la dérive des données.

Cours 3: Power BI

Sujets principaux:

  • Commencer à construire avec Power BI;
  • Obtenir des données avec Power BI Desktop;
  • Modéliser et explorer les données;
  • Utiliser des visuels, publier et partager.

Références

Formation

Microsoft Docs (badges et trophées)

Articles associés

En savoir plus

Microsoft Docs (Fondamentaux d’Azure)
Microsoft Docs (Apprentissage automatique Azure)
Microsoft Docs (Power BI)

Spécialisation en science des données

Spécialisation en science des données

Formation Coursera, MOOC (2020). Cette spécialisation couvre les concepts et les outils nécessaires à la science des données, de la formulation des bonnes questions à la réalisation d'inférences et la publication des résultats. Les sujets abordés incluent l'utilisation de R pour nettoyer, analyser et visualiser les données, utiliser GitHub pour gérer des projets en science des données et effectuer une analyse de régression, des moindres carrés et des inférences à l'aide de modèles de régression.

Cours 1: Boîte à outils du data scientist

Sujets principaux:

  • Fondamentaux de la science des données;
  • R et Rstudio;
  • Contrôle de version et GitHub;
  • R Markdown, raisonnement scientifique et big data.

Cours 2: Programmation en R

Sujets principaux:

  • Contexte et mise en route;
  • Programmation avec R;
  • Fonctions de boucle et débogage;
  • Simulation et profilage de code.

Cours 3: Obtenir et nettoyer les données

Sujets principaux:

  • Recherche de données et lecture de différents types de fichiers;
  • Systèmes de stockage de données;
  • Organisation, fusion et gestion des données;
  • Manipulation de texte et de données en R.

Cours 4: Analyse exploratoire des données

Sujets principaux:

  • Graphiques analytiques et représentation graphique en R;
  • Lattice et ggplot2;
  • Réduction dimensionnelle des données;
  • Techniques d'analyse de cluster.

Cours 5: Recherche reproductible

Sujets principaux:

  • Concepts, idées et structure;
  • Markdown et knitr;
  • Check-list de la recherche reproductible;
  • Analyse de données factuelles.

Cours 6: Inférence statistique

Sujets principaux:

  • Probabilité et espérance mathématique;
  • Variabilité, distribution et asymptote;
  • Intervalles, tests et valeur-p;
  • Tests de puissance, bootstrap et permutation.

Cours 7: Modèles de régression

Sujets principaux:

  • Moindres carrés et régression linéaire;
  • Régression linéaire et multivariée;
  • Résidus et diagnostics;
  • Régression logistique et de Poisson.

Cours 8: Apprentissage automatique

Sujets principaux:

  • Prédiction, erreurs et validation croisée;
  • Paquet caret;
  • Arbres de décision et forêts aléatoires;
  • Régression régularisée et combinaison de prédicteurs.

Cours 9: Développement de produits de données

Sujets principaux:

  • Shiny, GoogleVis et Plotly;
  • R Markdown et Leaflet;
  • Paquets R et Swirl.

Références

Articles associés

Fondamentaux de Spark (formation Cognitive Class)
Fondamentaux de Hadoop (formation Cognitive Class)
AWS: fondations et apprentissage automatique (formation AWS)

En savoir plus