Especialización en ciencia de datos
Formación Coursera, MOOC (2020). Esta especialización cubre los conceptos y herramientas necesarios para la ciencia de datos, desde formular las preguntas correctas hasta hacer inferencias y publicar resultados. Los temas cubiertos incluyen el uso de R para limpiar, analizar y visualizar datos, usar GitHub para administrar proyectos de ciencia de datos y realizar análisis de regresión, mínimos cuadrados e inferencia usando modelos de regresión.
Curso 1: Caja de herramientas del científico de datos
Temas principales:
- Fundamentos de la ciencia de datos;
- R y Rstudio;
- Control de versiones y GitHub;
- R Markdown, pensamiento científico y big data.
Curso 2: Programación R
Temas principales:
- Antecedentes y puesta en marcha;
- Programación con R;
- Funciones de bucle y depuración;
- Simulación y análisis de rendimiento de software.
Curso 3: Obtención y limpieza de datos
Temas principales:
- Encontrar datos y leer diferentes tipos de archivos;
- Sistemas de almacenamiento de datos;
- Organizar, fusionar y gestionar datos;
- Manipulación de texto y datos en R.
Curso 4: Análisis exploratorio de datos
Temas principales:
- Gráficos analíticos y representación gráfica en R;
- Lattice y ggplot2;
- Reducción de dimensionalidad de datos;
- Técnicas de análisis de conglomerados.
Curso 5: Investigación reproducible
Temas principales:
- Conceptos, ideas y estructura;
- Markdown y knitr;
- Lista de comprobación de la investigación reproducible;
- Análisis de datos basados en evidencias.
Curso 6: Inferencia estadística
Temas principales:
- Probabilidad y valores esperados;
- Variabilidad, distribución y asíntota;
- Intervalos, pruebas y valor p;
- Pruebas de potencia, bootstrapping y permutación.
Curso 7: Modelos de regresión
Temas principales:
- Mínimos cuadrados y regresión lineal;
- Regresión lineal y multivariante;
- Residuos y diagnósticos;
- Regresión logística y de Poisson.
Curso 8: Aprendizaje automático
Temas principales:
- Predicción, errores y validación cruzada;
- Paquete caret;
- Árboles de decisión y bosques aleatorios;
- Regresión regularizada y predictores combinados.
Curso 9: Desarrollo de productos de datos
Temas principales:
- Shiny, GoogleVis y Plotly;
- R Markdown y Leaflet;
- Paquetes R y Swirl.
Referencias
Artículos relacionados
Fundamentos de Spark (formación Cognitive Class)
Fundamentos de Hadoop (formación Cognitive Class)
AWS: fundamentos y aprendizaje automático (formación AWS)