Data Science

DATA SCIENCE-06 (1).jpg

En este programa especializado aprenderás a curar, visualizar y extraer información de inmensos volúmenes de datos, además de entrenar modelos predictivos (machine learning) para la toma de decisión basada en conocimiento.

Serás capaz de implementar de forma profesional las tecnologías más novedosas de la industria de la ciencia de datos. aprenderás a utilizar python como herramienta central, el lenguaje de programación estándar y de mayor crecimiento.

El curso se basa en el concepto “aprender haciendo”: en cuatro sprints y un trabajo integrador consolidarás todos los conocimientos adquiridos, implementando workflows reales que emplean los científicos de datos en las empresas más grandes de latam.

Información General

  • Duración Total: 250 hs (6 meses de cursado)
  • Fecha de inicio: 10/01/2022*
  • Dedicación Semanal: 10 hs (5 horas a distancia en plataforma + 5 horas de práctica y consultas)
  • Días: Lunes y Miércoles.
  • Horarios: 19:00 A 21:30 (ARG, 17 A 19:30 (CDMX), 18:00 A 20:30 (CL)
  • Requisitos: Computadora con conexión a internet.

*El inicio de la cursada puede ser modificado por razones de fuerza mayor.

Destinatarios

Dirigido a profesionales, estudiantes y público en general que deseen capacitarse como uno de los perfiles más demandados de la industria y acceder a formación de calidad.

Programa

Un programa único:

  • Hands-on experience durante todas las unidades con sprints y un trabajo integrador final
  • Podrás volver a ver las clases durante el cursado, en el momento que quieras
  • Ejercitarás el workflow real de un científico de datos
  • Estudiaras con profesionales de la industria
  • Crearás tu reposito personal con proyectos reales que podrás presentar a futuros empleadores

Temario

Módulo I: Introducción a Data Science con Python

Te introducirás en el mundo de la Ciencia de Datos, aprendiendo conceptos iniciales y el workflow de trabajo real de un Data Scientist. Finalizarás el módulo capacitado en el uso de Python y de las librerías NumPy, Pandas y Matplotlib.

● Introducción: qué es un dataset, tipos de datos, tipos de problemas.

● Introducción a la programación con Python

● Programación científica en Python

○ NumPy: librería de computación científica.

○ Pandas: librería de exploración, curación y manipulación de datos.

○ Matplotlib: librería de visualización de datos.

● Jupyter Notebooks.

● Workflow de un Data Scientist

Módulo II: Feature Engineering

Implementarás técnicas avanzadas de limpieza y manipulación de datos y te familiarizarás con buenas prácticas de análisis exploratorio de datos (EDA).

● Feature engineering conceptos: outliers, missings, variables categoricas, dummies, nuevas variables.

● Feature engineering Pandas: outliers, missings, dummies, nuevas variables.

● Feature engineering Scikit Learn: outliers, missings, categoricals.

Módulo III: Introducción algoritmos de aprendizaje supervisado

Tus primeros pasos en Machine Learning. Habiendo consolidado conocimientos iniciales en Python, comenzarás a implementar la librería central de Machine Learning: Scikit-Learn.

Comprenderás los algoritmos más importantes para aprendizaje supervisado y sus

métricas de validación.

● Evaluación de modelos: training/testing, matriz de confusión y métricas.

● Algoritmo KNN.

● Algoritmo Decision Trees.

● Clasificación y regresión con estos algoritmos.

● Overfitting/Underfitting.

● Cross Validation.

● Pipelines en scikit-learn.

Módulo IV: Selección de Modelos

Aprenderás a evaluar y seleccionar modelos para cada problemática particular.

● Tradeoff bias/variance.

● Optimización de parámetros: GridSearch y hyperopt.

● Selección stepwise de variables: fordward, backward.

● Otras métricas: AUC, F1, kappa.

Módulo V: Procesamiento de texto y algoritmos de aprendizaje supervisado avanzados

Trabajarás sobre uno de los problemas más importantes de la actualidad en la

Industria: text mining. Implementarás modelos de avanzada como redes neuronales,

modelos de ensamble bagging y boosting.

● Introducción a procesamiento de texto: bag of words, tf-idf, tokens, stemming.

● SVM.

● Ensambles básicos: voting, promedios.

● Ensambles bagging: random forests.

● Ensambles boosting: adaboost, xgboost, catboost.

● Redes Neuronales: perceptrón y backpropagation.

● Keras: Redes Neuronales multicapa.

Módulo VI: Algoritmos de aprendizaje no supervisado y sistemas de recomendación.

Comprenderás el uso de los modelos no supervisados, centrándonos en sistemas de recomendación: los algoritmos implementados por Netflix, Spotify y Facebook, entre otras empresas.

● Introducción aprendizaje no supervisado.

● Clustering: kmedias, dbscan.

● Reducción de dimensionalidad: PCA.

● Introducción sistemas de recomendación.

● Reducción de dimensionalidad: SVD.

● Sistemas de recomendación Filtro colaborativo.

● Evaluación sistemas de recomendación.

Módulo VII: Deploy de modelos

Un diferencial de nuestro programa. Aprenderás a disponibilizar modelos, trabajar con APIs y dejarlos listos para producción. Implementarás estrategias que utilizan los equipos de datos de las grandes empresas. Conocerás la suite de IBM.

● Persistencia de modelos scikit-learn/python.

● Desarrollo API para acceder al modelo y predicciones.

● Puesta en producción con IBM Cloud.

Módulo VIII: ¿Cómo seguir?

Te daremos lineamientos y consejos para avanzar en tus conocimientos, además de una introducción al estado del arte de la Ciencia de Datos y Machine Learning en el mundo.

● Herramientas cloud: gcp/aws/azure.

● Machine learning on demand: floydhub, paperspace, crestle.

● Kaggle y cómo perfeccionarse.

Sprints diseñados a medida

Con los conceptos y herramientas de los módulos trabajarás en Sprints, donde pondrás en práctica los conceptos aprendidos para finalizar con tu portafolio profesional para que uses como carta de presentación.

Primer Sprint: Machine Learning desde cero

Comenzarás a familiarizarte con el abordaje de trabajo en el mundo de un Data Scientist. Trabajarás con el lenguaje de programación Python y las librerías más utilizadas.

De manera práctica, abordarás los interrogantes principales de un workflow de Ciencia de Datos:

● Si tengo un problema, ¿qué datos necesito para poder llegar a una posible solución?

● Los datos que requiero, ¿tengo acceso a ellos, hace falta recolectarlos, cómo los puedo capturar?

● Si ya dispongo de mi set de datos, ¿qué preguntas me permite responder?

Segundo Sprint: Advanced Machine Learning

Profundizarás sobre la estadística y matemática que está detrás de cada modelo, para dar el salto hacia modelos más complejos de Machine Learning.

El objetivo es poder hacer foco en la interpretación de resultados y la correcta evaluación y comparación de los mismos. Al finalizar serás capaz de respondernos acerca del comportamiento de nuestro algoritmo y por qué predice lo que predice.

Tercer Sprint: Aplicaciones modernas de Machine Learning

Durante este sprint resolverás problemas de dominios específicos pero de mucho impacto tanto en la parte empresarial como en otros ámbitos como el científico, tecnológico, público, entre otros.

Los casos de uso más novedosos van desde NLP, Recommender System, Detección de Imágenes y Times Series con el objetivo de que puedas abordar cualquier problemática con autonomía y capacidad para desarrollar una posible solución.

Cuarto Sprint: Comunicación Efectiva y Pipelines de Datos

Integrarás todos los conocimientos aprendidos, y darás el salto de una solución individual en tu entorno personal, hacia un ambiente productivo exponiendo tu solución como un servicio.

Docentes

Magster. Ing. Rigoberto Malca La Rosa

Ingeniero de Sistemas de la Universidad Nacional de Trujillo (UNT). Magíster en Tecnologías de la Información por la UNEATLÁNTICO y Magíster de Ciencia de Datos por la Universidad Austral. Cofundador de Tekne Consulting, consultora tecnológica argentina que realiza desarrollos de Ciencia de Datos y Machine Learning. Se desempeña actualmente como CEO de la consultora y ha sido docente en temas de Ciencia de Datos y Machine Learning para instituciones educativas líderes en LATAM. Tiene experiencia como Head of Analytics trabajando para el Ministerio de Educación, y otras empresas del rubro tecnológico - bancario como Direct TV, Tarshop SA, Financiera Confianza.

Ing. Federico Baiocco

Ingeniero de Sistemas graduado de la Universidad Nacional de Córdoba (UCC) con intercambio en Frankfurt University of Applied Sciences donde se especializó en Ingeniería del Software y Computational Intelligence. Vasta experiencia como Data Scientist e Ingeniero de Datos trabajando para empresas líderes en su rubro como CoreBI y Rappi.

¿Como abonar?

  • Precio para Argentina:
    Matrícula: $̶2̶0̶.̶0̶0̶0̶ 14.000 (Descuento valido hasta el 6/12)
    6 (seis) cuotas sin interes de $6.000.
    Descuento exclusivo si abonas en un pago por transferencia bancaria $29.000 (más matrícula). consultá por financiación con tarjeta de crédito.
  • precio para otros países
    ¡Precio lanzamiento! Inscribite hasta el 06/12/2021 y obtené un descuento exclusivo.
    Precio final hasta el 06/12/2021: usd 350
    El pago se realiza mediante paypal. consultar por financiación.

Bonificación

Si sos estudiante de la universidad nacional de córdoba, de la universidad tecnológica nacional frc o egresado de algún curso de icaro, podés acceder a una bonificación exclusiva del 5% * adicional al abonar la totalidad del curso.

*no acumulable con otros descuentos.

Inscripciones y más información

info@icaro.org.ar

www.icaro.org.ar

Información en PDF: Data Science