François Chung, Ph.D.
Especialització en ciència de dades

Especialització en ciència de dades

Formació Coursera, MOOC (2020). Aquesta especialització cobreix els conceptes i eines necessaris per a la ciència de dades, des de formular les preguntes correctes fins a fer inferències i publicar resultats. Els temes coberts inclouen l'ús de R per netejar, analitzar i visualitzar dades, utilitzar GitHub per administrar projectes de ciència de dades i realitzar anàlisis de regressió, mínims quadrats i inferència utilitzant models de regressió.

Curs 1: Caixa d'eines del científic de dades

Temes principals:

  • Fonaments de la ciència de dades;
  • R i Rstudio;
  • Control de versions i GitHub;
  • R Markdown, pensament científic i big data.

Curs 2: Programació R

Temes principals:

  • Antecedents i posada en marxa;
  • Programació amb R;
  • Funcions de bucle i depuració;
  • Simulació i anàlisi de rendiment de programari.

Curs 3: Obtenció i neteja de dades

Temes principals:

  • Trobar dades i llegir diferents tipus d'arxius;
  • Sistemes d'emmagatzematge de dades;
  • Organitzar, fusionar i gestionar dades;
  • Manipulació de text i dades en R.

Curs 4: Anàlisi exploratòria de dades

Temes principals:

  • Gràfics analítics i representació gràfica en R;
  • Lattice i ggplot2;
  • Reducció de dimensionalitat de dades;
  • Tècniques d'anàlisi de conglomerats.

Curs 5: Investigació reproduïble

Temes principals:

  • Conceptes, idees i estructura;
  • Markdown i knitr;
  • Llista de comprovació de la investigació reproduïble;
  • Anàlisi de dades basades en evidències.

Curs 6: Inferència estadística

Temes principals:

  • Probabilitat i valors esperats;
  • Variabilitat, distribució i asímptota;
  • Intervals, proves i valor p;
  • Proves de potència, bootstrapping i permutació.

Curs 7: Models de regressió

Temes principals:

  • Mínims quadrats i regressió lineal;
  • Regressió lineal i multivariant;
  • Residus i diagnòstics;
  • Regressió logística i de Poisson.

Curs 8: Aprenentatge automàtic

Temes principals:

  • Predicció, errors i validació creuada;
  • Paquet caret;
  • Arbres de decisió i boscos aleatoris;
  • Regressió regularitzada i predictors combinats.

Curs 9: Desenvolupament de productes de dades

Temes principals:

  • Shiny, GoogleVis i Plotly;
  • R Markdown i Leaflet;
  • Paquets R i Swirl.

Referències

Articles relacionats

Conferència ODSC APAC 2023 (conferència ODSC)
Fonaments de Spark (formació Cognitive Class)
Fonaments de Hadoop (formació Cognitive Class)
AWS: fonaments i aprenentatge automàtic (formació AWS)

Més informació