François Chung, Ph.D.

Tag: ciència de dades

Google Cloud: big data i aprenentatge automàtic

Google Cloud: big data i aprenentatge automàtic

Formació Coursera, MOOC (2020). Aquesta formació en línia presenta les capacitats de big data i aprenentatge automàtic (ML) de Google Cloud Platform (CGP). Mitjançant una combinació de presentacions, demostracions i laboratoris pràctics, la formació ofereix una descripció general de Google Cloud i una vista detallada de les solucions de processament de dades i de ML, com BigQuery, Cloud SQL, Dataproc, Pub/Sub, Dataflow i Data Studio.

Setmana 1: Big data i fonaments de ML

Temes principals:

  • Explorar un conjunt de dades públiques BigQuery;
  • Triar l'enfocament de solució adequat;
  • Recomanar productes amb Cloud SQL i Spark;
  • Predir les compres de clients amb BigQuery ML.

Setmana 2: Desafiaments de la canalització de dades moderna

Temes principals:

  • Panells de control IoT en temps real;
  • Crear una canalització de dades de transmissió;
  • ML en conjunts de dades no estructurats;
  • Classificació d'imatges amb models ML predissenyats.

Referències

Fonaments de Spark

Fonaments de Spark

Formació Cognitive Class, MOOC (2020). Aquesta ruta d'aprenentatge aborda els fonaments d'Apache Spark, un motor de codi obert per al processament de dades a gran escala que està revolucionant el món de l'analítica i del big data. Aquesta formació és una oportunitat per aprendre dels líders de la indústria sobre Spark, que es basa en la velocitat, la facilitat d'ús i l'anàlisi, i brinda oportunitats i projectes pràctics per generar confiança amb el conjunt d'eines de Spark.

Curs 1: Fonaments de Spark I

Temes principals:

  • Introducció a Spark;
  • Resilient Distributed Dataset (RDD) i DataFrames;
  • Programació d'aplicacions Spark;
  • Introducció a les biblioteques de Spark;
  • Configuració, seguiment i posada a punt de Spark.

Curs 2: Fonaments de Spark II

Temes principals:

  • Introducció als notebooks;
  • Arquitectura RDD;
  • Optimització de transformacions i accions;
  • Memòria cau i serialització;
  • Desenvolupament i proves.

Curs 3: Spark MLlib

Temes principals:

  • Tipus de dades Spark MLlib;
  • Revisió d'algoritmes;
  • Arbres de decisió i boscos aleatoris;
  • Agrupament Spark MLlib.

Curs 4: Exploració de GraphX

Temes principals:

  • Introducció a Graph-Parallel;
  • Exploració dels operadors de gràfics;
  • Visualització i modificació de GraphX;
  • Agregació i emmagatzematge en memòria cau.

Curs 5: Big data en R amb Spark

Temes principals:

  • Introducció a SparkR;
  • Manipulació de dades amb SparkR;
  • Aprenentatge automàtic amb SparkR.

Referències

Formació

Spark fundamentals I (Fonaments de Spark I, certificat del curs)
Spark – Level 1 (insígnia de certificació)
Spark fundamentals II (Fonaments de Spark II, certificat del curs)
Spark MLlib (certificat del curs)
Exploring GraphX (Exploració de GraphX, certificat del curs)
Big data in R using Spark (Big data en R amb Spark, certificat del curs)
Spark - Level 2 (insígnia de certificació)

Articles relacionats

Fonaments de Hadoop (formació Cognitive Class)
Especialització en ciència de dades (formació Coursera)

Més informació

Fonaments de Hadoop

Fonaments de Hadoop

Formació Cognitive Class, MOOC (2020). Aquesta ruta d'aprenentatge presenta Hadoop, que és un marc de codi obert per a l'emmagatzematge distribuït i el processament de big data. La formació cobreix contingut que és fonamental per a l'èxit de qualsevol persona en aquest àmbit, explicant el disseny conceptual d’Hadoop, introduint MapReduce, YARN (Yet Another Resource Negotiator) i Hive, i després explicant com utilitzar Hadoop i manipular dades sense l’ús de codificació complexa.

Curs 1: Hadoop 101

Temes principals:

  • Introducció a Hadoop;
  • Arquitectura de Hadoop i HDFS;
  • Administració de Hadoop;
  • Components de Hadoop.

Curs 2: MapReduce i YARN

Temes principals:

  • Introducció a MapReduce i YARN;
  • Limitacions de Hadoop v1 i MapReduce v1;
  • Arquitectura de YARN.

Curs 3: Moviment de dades en Hadoop

Temes principals:

  • Escenaris de càrrega;
  • Ús de Sqoop;
  • Descripció general de Flume;
  • Ús de Data Click.

Curs 4: Accés a dades de Hadoop usant Hive

Temes principals:

  • Introducció a Hive;
  • Hive DDL - Llenguatge de definició de dades;
  • Hive DML - Llenguatge de manipulació de dades;
  • Operadors i funcions de Hive.

Referències

Formació

Hadoop 101 (certificat del curs)
Hadoop Foundations – Level 1 (insígnia de certificació)
MapReduce and YARN (MapReduce i YARN, certificat del curs)
Hadoop Programming – Level 1 (insígnia de certificació)
Moving data into Hadoop (Moviment de dades en Hadoop, certificat del curs)
Hadoop Administration – Level 1 (insígnia de certificació)
Accessing Hadoop data using Hive (Accés a dades de Hadoop usant Hive, certificat del curs)
Hadoop Data Access – Level 1 (insígnia de certificació)
Hadoop Foundations – Level 2 (insígnia de certificació)

Articles relacionats

Fonaments de Spark (formació Cognitive Class)
Especialització en ciència de dades (formació Coursera)

Més informació

Azure: fonaments, aprenentatge automàtic i Power BI

Azure: fonaments, aprenentatge automàtic i Power BI

Formació Microsoft Docs, MOOC (2020). Aquests 3 cursos en línia presenten Microsoft Azure i Power BI. La formació ensenya els conceptes bàsics del núvol, juntament amb exercicis pràctics, i ofereix una descripció general dels serveis d'Azure, com Azure Machine Learning (ML), que és una plataforma en el núvol per entrenar, desplegar, gestionar i monitoritzar models ML. A més, la formació explica com utilitzar Power BI i crear informes d'intel·ligència empresarial.

Curs 1: Fonaments d’Azure

Temes principals:

  • Principis de la computació en el núvol;
  • Arquitectura d’Azure i garanties de servei;
  • Computació, emmagatzematge de dades i xarxes;
  • Seguretat, responsabilitat i confiança;
  • Estàndards d'infraestructura amb Azure Policy;
  • Recursos d'Azure amb Azure Resource Manager.

Curs 2: Aprenentatge automàtic d’Azure

Temes principals:

  • Treballar amb dades;
  • Orquestrar ML amb pipelines;
  • Implementar models ML;
  • Automatitzar la selecció del model;
  • Afinar els hiperparàmetres;
  • Monitoritzar models i la deriva de dades.

Curs 3: Power BI

Temes principals:

  • Començar a crear amb Power BI;
  • Obtenir dades amb Power BI Desktop;
  • Modelar i explorar dades;
  • Utilitzar elements visuals, publicar i compartir.

Referències

Formació

Microsoft Docs (insígnies i trofeus)

Articles relacionats

Més informació

Microsoft Docs (Fonaments d’Azure)
Microsoft Docs (Aprenentatge automàtic d’Azure)
Microsoft Docs (Power BI)

Especialització en ciència de dades

Especialització en ciència de dades

Formació Coursera, MOOC (2020). Aquesta especialització cobreix els conceptes i eines necessaris per a la ciència de dades, des de formular les preguntes correctes fins a fer inferències i publicar resultats. Els temes coberts inclouen l'ús de R per netejar, analitzar i visualitzar dades, utilitzar GitHub per administrar projectes de ciència de dades i realitzar anàlisis de regressió, mínims quadrats i inferència utilitzant models de regressió.

Curs 1: Caixa d'eines del científic de dades

Temes principals:

  • Fonaments de la ciència de dades;
  • R i Rstudio;
  • Control de versions i GitHub;
  • R Markdown, pensament científic i big data.

Curs 2: Programació R

Temes principals:

  • Antecedents i posada en marxa;
  • Programació amb R;
  • Funcions de bucle i depuració;
  • Simulació i anàlisi de rendiment de programari.

Curs 3: Obtenció i neteja de dades

Temes principals:

  • Trobar dades i llegir diferents tipus d'arxius;
  • Sistemes d'emmagatzematge de dades;
  • Organitzar, fusionar i gestionar dades;
  • Manipulació de text i dades en R.

Curs 4: Anàlisi exploratòria de dades

Temes principals:

  • Gràfics analítics i representació gràfica en R;
  • Lattice i ggplot2;
  • Reducció de dimensionalitat de dades;
  • Tècniques d'anàlisi de conglomerats.

Curs 5: Investigació reproduïble

Temes principals:

  • Conceptes, idees i estructura;
  • Markdown i knitr;
  • Llista de comprovació de la investigació reproduïble;
  • Anàlisi de dades basades en evidències.

Curs 6: Inferència estadística

Temes principals:

  • Probabilitat i valors esperats;
  • Variabilitat, distribució i asímptota;
  • Intervals, proves i valor p;
  • Proves de potència, bootstrapping i permutació.

Curs 7: Models de regressió

Temes principals:

  • Mínims quadrats i regressió lineal;
  • Regressió lineal i multivariant;
  • Residus i diagnòstics;
  • Regressió logística i de Poisson.

Curs 8: Aprenentatge automàtic

Temes principals:

  • Predicció, errors i validació creuada;
  • Paquet caret;
  • Arbres de decisió i boscos aleatoris;
  • Regressió regularitzada i predictors combinats.

Curs 9: Desenvolupament de productes de dades

Temes principals:

  • Shiny, GoogleVis i Plotly;
  • R Markdown i Leaflet;
  • Paquets R i Swirl.

Referències

Articles relacionats

Fonaments de Spark (formació Cognitive Class)
Fonaments de Hadoop (formació Cognitive Class)
AWS: fonaments i aprenentatge automàtic (formació AWS)

Més informació