- Organiza: Mundos E
- Fecha de Inicio:19/07/2023
- Fecha de Finalización: 31/01/2024
- Modalidad de Cursado: Online en VIVO
- Duración: 7 meses - 26 Encuentros
DATA SCIENCE surge como respuesta a la aparición de nuevas fuentes de datos de complejidad y volumen crecientes, junto con la creación de métodos útiles para almacenarlos y extraer información sobre estos.
Trabajar estratégicamente con grandes cantidades de datos permite tomar las mejores decisiones en nuestros entornos.
En este programa conocerás el ciclo de vida completo de los datos: desde la obtención y limpieza, hasta su visualización y análisis. Aprenderemos sobre las habilidades y conocimientos indispensables para comenzar a trabajar en los distintos roles de un proyecto de ciencia de datos: Data Engineering, Data Analyst, Data Scientist.
- Ingenieros o estudiantes de ingeniería
- Líderes técnicos
- Analistas
- Cientistas sociales
- Destinado a todos aquellos profesionales y estudiantes interesados en adquirir conocimientos y aplicación de Ciencia de datos
- Objetivo 1: HABILIDADES PROFESIONALES. Vas a desarrollar habilidades profesionales para desempeñarte como cientista de datos.
- Objetivo 2: CREÁ TU PROYECTO. Vas a entrenar habilidades para la creación de un proyecto de ciencia de datos.
- Objetivo 3: CREÁ COMUNIDAD. Construirás una comunidad de práctica profesional con otras personas que se están formando como científicas/os de datos
- Objetivo 4: APLICÁ HERRAMIENTAS- Aplicarás herramientas específicas y concretas para llevar adelante los diferentes roles de la persona científica de datos: analista, ingeniería y científica.
- Objetivo 5:PRACTICÁ. Vas a desarrollar prácticas que integren conocimientos de diferentes campos (matemática, programación, comunicación y estadística).
- Objetivo 6: BUENAS PRÁCTICAS. Fomentaremos buenas prácticas desde el rol de cientista de datos.
(Encuentro 1)
INTRODUCCIÓN A LA CIENCIA DE DATOS
- La sociedad de la información. Datos, información, conocimiento, ¿sabiduría?
- ¿Qué es un dato? Ciclo de vida de los datos.Gobernanza sobre los datos.
- ¿Qué es la ciencia de datos? Diseño de un proyecto de ciencia de datos. Roles
(Encuentro 2)
PROGRAMACIÓN PARA LA CIENCIA DE DATOS I
- Conceptos básicos de programación: comandos, funciones y objetos
- Objetos en R: Vectores, Matrices y Data Frames
- Estructuras de Control
(Encuentro 3)
MANIPULACIÓN DE DATOS EN R
- El proceso ETL (extracción, transformación y limpieza de datos)
- Importar y exportar datos desde diferentes formatos en R
- Manejo de fechas en R (Date, POSIXlt, POSIXct)
- Manipulación de datos con R
(Encuentro 4)
ANÁLISIS DE DATOS I
- Población y muestra. Parámetros y estimadores.
- Estadísticos descriptivos para el análisis exploratorio de datos.
- Variables aleatorias y distribuciones de probabilidad.
(Encuentro 5)
ANÁLISIS DE DATOS II
- Contrastes de hipótesis. Errores Tipo I y Tipo II
- P-valor y el test de hipótesis para la media
- Contraste de hipótesis para la varianza
(Encuentro 6)
CORRELACIÓN Y CAUSALIDAD DE DATOS
- Correlación simple: paramétrica y no paramétrica
- Pruebas de hipótesis de correlación
- Diferencias entre la correlación y la causalidad
(Encuentro 7)
VISUALIZACIÓN DE DATOS I
- Tipos de gráficos y su correcto uso
- Creación de gráficos unidimensionales y bidimensionales con R
- Creación de gráficos con ggplot
(Encuentro 8)
VISUALIZACIÓN DE DATOS II
- Construcción de un tablero de visualización
- Buenas prácticas para la confección de visualizaciones
- Storytelling: Contar historias con datos
(Encuentro 9)
BASES DE DATOS I
- Datos estructurados vs no estructurados. Gestores de base de datos
- Modelo relacional y estructura de una base de datos
- SQL y Data Definition Languaje (DDL)
(Encuentro 10)
BASES DE DATOS II
- SQL y Data Manipulation Languaje (DML)
- Agregación en SQL
- Operaciones SQL sobre varias tablas simultáneas
(Encuentro 11)
BIG DATA Y ARQUITECTURA EN LA NUBE
- Big Data y el trabajo con grandes volúmenes de datos
- Servicios de infraestructura en la nube
- Lenguajes, algoritmos y técnicas para trabajar con Big Data
(Encuentro 12)
PROGRAMACIÓN PARA LA CIENCIA DE DATOS II
- Conceptos básicos de programación aplicados en Python
- Objetos de Python: listas, tuplas y diccionarios
- Estructuras de control en Python
- Librería Pandas y Data Frames
(Encuentro 13 y 14)
ANÁLISIS PREDICTIVO Y LA REGRESIÓN LINEAL - AVANCES PIN
- ¿Qué es el análisis predictivo? Interpolación y extrapolación
- Modelos. Problemas de regresión, clustering y clasificación
- Fundamentos de la regresión lineal: mínimos cuadrados, supuestos y estimación de parámetros
(Encuentro 15)
MODELO DE REGRESIÓN LINEAL MÚLTIPLE
- Fundamentos de un modelo de regresión lineal múltiple
- Sistemas de selección de variables
(Encuentro 16)
INTRODUCCIÓN AL MACHINE LEARNING
- Machine Learning. Aprendizaje supervisado vs no supervisado
- Ciclo de trabajo para el desarrollo de un modelo de ML
- Armado de un Dataset en Python para entrenamiento y testeo de un modelo de ML
(Encuentro 17)
MODELOS DE REGRESIÓN CON ML
- Modelos de regresión con ML (Random Forest, eXtreme Gradient Boosting, SVM)
- ¿Qué es un algoritmo de optimización?
- Ajuste y sobreajuste
- Técnicas y métricas de evaluación de modelos de regresión
(Encuentro 18)
MODELOS DE CLASIFICACIÓN DE MACHINE LEARNING
- Modelos de clasificación con ML (Logistic Regression, k-NN, Árboles de decisión, SVM, Naive Bayes)
- Dificultades en el entrenamiento: overfitting y underfitting
- Métricas de evaluación de modelos de clasificación
(Encuentro 19)
MODELOS DE CLUSTERING
- Definición de cluster. Similitud y segmentación.
- Medidas de distancia
- Evaluación de clusters
(Encuentro 20)
INTRODUCCIÓN A LAS REDES NEURONALES
- El Perceptrón simple
- Perceptrones multicapa: capacidad de generalización
- Entrenamiento de una Red Neuronal.
- Cálculo de gradientes usando propagación inversa
- Mapeo de características
(Encuentro 21)
APRENDIZAJE PROFUNDO (DEEP LEARNING)
- Redes neuronales recurrentes y convolucionales
- Transfer learning con modelos pre entrenados
(Encuentro 22)
MODELOS DE DETECCIÓN DE OBJETOS
- ¿Qué es la detección de objetos?
- Aplicación de YOLO v5 en un caso de estudio
- Métricas para evaluar un modelo de detección
(Encuentro 23)
MODELOS DE PROCESAMIENTO DEL LENGUAJE NATURAL (NLP)
- Tratamiento de textos. Modelización del lenguaje y vectores de palabras
- Procesamiento de lenguaje natural con GPT-3 de OpenAI
(Encuentro 24)
INTRODUCCIÓN A GIT
- Control de versiones. Colaborar utilizando GitHub.
- Repositorios locales y remotos, directorio de trabajo y commit
- Comandos básicos (clone, branch, add, commit, push, pull)
(Encuentro 25 y 26)
Hackaton