François Chung, Ph.D.

Tag: investigación reproducible

Especialización en ciencia de datos

Especialización en ciencia de datos

Formación Coursera, MOOC (2020). Esta especialización cubre los conceptos y herramientas necesarios para la ciencia de datos, desde formular las preguntas correctas hasta hacer inferencias y publicar resultados. Los temas cubiertos incluyen el uso de R para limpiar, analizar y visualizar datos, usar GitHub para administrar proyectos de ciencia de datos y realizar análisis de regresión, mínimos cuadrados e inferencia usando modelos de regresión.

Curso 1: Caja de herramientas del científico de datos

Temas principales:

  • Fundamentos de la ciencia de datos;
  • R y Rstudio;
  • Control de versiones y GitHub;
  • R Markdown, pensamiento científico y big data.

Curso 2: Programación R

Temas principales:

  • Antecedentes y puesta en marcha;
  • Programación con R;
  • Funciones de bucle y depuración;
  • Simulación y análisis de rendimiento de software.

Curso 3: Obtención y limpieza de datos

Temas principales:

  • Encontrar datos y leer diferentes tipos de archivos;
  • Sistemas de almacenamiento de datos;
  • Organizar, fusionar y gestionar datos;
  • Manipulación de texto y datos en R.

Curso 4: Análisis exploratorio de datos

Temas principales:

  • Gráficos analíticos y representación gráfica en R;
  • Lattice y ggplot2;
  • Reducción de dimensionalidad de datos;
  • Técnicas de análisis de conglomerados.

Curso 5: Investigación reproducible

Temas principales:

  • Conceptos, ideas y estructura;
  • Markdown y knitr;
  • Lista de comprobación de la investigación reproducible;
  • Análisis de datos basados en evidencias.

Curso 6: Inferencia estadística

Temas principales:

  • Probabilidad y valores esperados;
  • Variabilidad, distribución y asíntota;
  • Intervalos, pruebas y valor p;
  • Pruebas de potencia, bootstrapping y permutación.

Curso 7: Modelos de regresión

Temas principales:

  • Mínimos cuadrados y regresión lineal;
  • Regresión lineal y multivariante;
  • Residuos y diagnósticos;
  • Regresión logística y de Poisson.

Curso 8: Aprendizaje automático

Temas principales:

  • Predicción, errores y validación cruzada;
  • Paquete caret;
  • Árboles de decisión y bosques aleatorios;
  • Regresión regularizada y predictores combinados.

Curso 9: Desarrollo de productos de datos

Temas principales:

  • Shiny, GoogleVis y Plotly;
  • R Markdown y Leaflet;
  • Paquetes R y Swirl.

Referencias

Artículos relacionados

Fundamentos de Spark (formación Cognitive Class)
Fundamentos de Hadoop (formación Cognitive Class)
AWS: fundamentos y aprendizaje automático (formación AWS)

Más información