En este programa especializado aprenderás a curar, visualizar y extraer información de inmensos volúmenes de datos, además de entrenar modelos predictivos (machine learning) para la toma de decisión basada en conocimiento.
Serás capaz de implementar de forma profesional las tecnologías más novedosas de la industria de la ciencia de datos. aprenderás a utilizar python como herramienta central, el lenguaje de programación estándar y de mayor crecimiento.
El curso se basa en el concepto “aprender haciendo”: en cuatro sprints y un trabajo integrador consolidarás todos los conocimientos adquiridos, implementando workflows reales que emplean los científicos de datos en las empresas más grandes de latam.
*El inicio de la cursada puede ser modificado por razones de fuerza mayor.
Dirigido a profesionales, estudiantes y público en general que deseen capacitarse como uno de los perfiles más demandados de la industria y acceder a formación de calidad.
Módulo I: Introducción a Data Science con Python
Te introducirás en el mundo de la Ciencia de Datos, aprendiendo conceptos iniciales y el workflow de trabajo real de un Data Scientist. Finalizarás el módulo capacitado en el uso de Python y de las librerías NumPy, Pandas y Matplotlib.
● Introducción: qué es un dataset, tipos de datos, tipos de problemas.
● Introducción a la programación con Python
● Programación científica en Python
○ NumPy: librería de computación científica.
○ Pandas: librería de exploración, curación y manipulación de datos.
○ Matplotlib: librería de visualización de datos.
● Jupyter Notebooks.
● Workflow de un Data Scientist
Módulo II: Feature Engineering
Implementarás técnicas avanzadas de limpieza y manipulación de datos y te familiarizarás con buenas prácticas de análisis exploratorio de datos (EDA).
● Feature engineering conceptos: outliers, missings, variables categoricas, dummies, nuevas variables.
● Feature engineering Pandas: outliers, missings, dummies, nuevas variables.
● Feature engineering Scikit Learn: outliers, missings, categoricals.
Módulo III: Introducción algoritmos de aprendizaje supervisado
Tus primeros pasos en Machine Learning. Habiendo consolidado conocimientos iniciales en Python, comenzarás a implementar la librería central de Machine Learning: Scikit-Learn.
Comprenderás los algoritmos más importantes para aprendizaje supervisado y sus
métricas de validación.
● Evaluación de modelos: training/testing, matriz de confusión y métricas.
● Algoritmo KNN.
● Algoritmo Decision Trees.
● Clasificación y regresión con estos algoritmos.
● Overfitting/Underfitting.
● Cross Validation.
● Pipelines en scikit-learn.
Módulo IV: Selección de Modelos
Aprenderás a evaluar y seleccionar modelos para cada problemática particular.
● Tradeoff bias/variance.
● Optimización de parámetros: GridSearch y hyperopt.
● Selección stepwise de variables: fordward, backward.
● Otras métricas: AUC, F1, kappa.
Módulo V: Procesamiento de texto y algoritmos de aprendizaje supervisado avanzados
Trabajarás sobre uno de los problemas más importantes de la actualidad en la
Industria: text mining. Implementarás modelos de avanzada como redes neuronales,
modelos de ensamble bagging y boosting.
● Introducción a procesamiento de texto: bag of words, tf-idf, tokens, stemming.
● SVM.
● Ensambles básicos: voting, promedios.
● Ensambles bagging: random forests.
● Ensambles boosting: adaboost, xgboost, catboost.
● Redes Neuronales: perceptrón y backpropagation.
● Keras: Redes Neuronales multicapa.
Módulo VI: Algoritmos de aprendizaje no supervisado y sistemas de recomendación.
Comprenderás el uso de los modelos no supervisados, centrándonos en sistemas de recomendación: los algoritmos implementados por Netflix, Spotify y Facebook, entre otras empresas.
● Introducción aprendizaje no supervisado.
● Clustering: kmedias, dbscan.
● Reducción de dimensionalidad: PCA.
● Introducción sistemas de recomendación.
● Reducción de dimensionalidad: SVD.
● Sistemas de recomendación Filtro colaborativo.
● Evaluación sistemas de recomendación.
Módulo VII: Deploy de modelos
Un diferencial de nuestro programa. Aprenderás a disponibilizar modelos, trabajar con APIs y dejarlos listos para producción. Implementarás estrategias que utilizan los equipos de datos de las grandes empresas. Conocerás la suite de IBM.
● Persistencia de modelos scikit-learn/python.
● Desarrollo API para acceder al modelo y predicciones.
● Puesta en producción con IBM Cloud.
Módulo VIII: ¿Cómo seguir?
Te daremos lineamientos y consejos para avanzar en tus conocimientos, además de una introducción al estado del arte de la Ciencia de Datos y Machine Learning en el mundo.
● Herramientas cloud: gcp/aws/azure.
● Machine learning on demand: floydhub, paperspace, crestle.
● Kaggle y cómo perfeccionarse.
Con los conceptos y herramientas de los módulos trabajarás en Sprints, donde pondrás en práctica los conceptos aprendidos para finalizar con tu portafolio profesional para que uses como carta de presentación.
Primer Sprint: Machine Learning desde cero
Comenzarás a familiarizarte con el abordaje de trabajo en el mundo de un Data Scientist. Trabajarás con el lenguaje de programación Python y las librerías más utilizadas.
De manera práctica, abordarás los interrogantes principales de un workflow de Ciencia de Datos:
● Si tengo un problema, ¿qué datos necesito para poder llegar a una posible solución?
● Los datos que requiero, ¿tengo acceso a ellos, hace falta recolectarlos, cómo los puedo capturar?
● Si ya dispongo de mi set de datos, ¿qué preguntas me permite responder?
Segundo Sprint: Advanced Machine Learning
Profundizarás sobre la estadística y matemática que está detrás de cada modelo, para dar el salto hacia modelos más complejos de Machine Learning.
El objetivo es poder hacer foco en la interpretación de resultados y la correcta evaluación y comparación de los mismos. Al finalizar serás capaz de respondernos acerca del comportamiento de nuestro algoritmo y por qué predice lo que predice.
Tercer Sprint: Aplicaciones modernas de Machine Learning
Durante este sprint resolverás problemas de dominios específicos pero de mucho impacto tanto en la parte empresarial como en otros ámbitos como el científico, tecnológico, público, entre otros.
Los casos de uso más novedosos van desde NLP, Recommender System, Detección de Imágenes y Times Series con el objetivo de que puedas abordar cualquier problemática con autonomía y capacidad para desarrollar una posible solución.
Cuarto Sprint: Comunicación Efectiva y Pipelines de Datos
Integrarás todos los conocimientos aprendidos, y darás el salto de una solución individual en tu entorno personal, hacia un ambiente productivo exponiendo tu solución como un servicio.
Magster. Ing. Rigoberto Malca La Rosa
Ingeniero de Sistemas de la Universidad Nacional de Trujillo (UNT). Magíster en Tecnologías de la Información por la UNEATLÁNTICO y Magíster de Ciencia de Datos por la Universidad Austral. Cofundador de Tekne Consulting, consultora tecnológica argentina que realiza desarrollos de Ciencia de Datos y Machine Learning. Se desempeña actualmente como CEO de la consultora y ha sido docente en temas de Ciencia de Datos y Machine Learning para instituciones educativas líderes en LATAM. Tiene experiencia como Head of Analytics trabajando para el Ministerio de Educación, y otras empresas del rubro tecnológico - bancario como Direct TV, Tarshop SA, Financiera Confianza.
Ing. Federico Baiocco
Ingeniero de Sistemas graduado de la Universidad Nacional de Córdoba (UCC) con intercambio en Frankfurt University of Applied Sciences donde se especializó en Ingeniería del Software y Computational Intelligence. Vasta experiencia como Data Scientist e Ingeniero de Datos trabajando para empresas líderes en su rubro como CoreBI y Rappi.
Inscripción automática por la web (icaro.org.ar) o comunicarse al 3518 65-6685
info@icaro.org.ar
www.icaro.org.ar