Diplomatura Universitaria de Formación Continua en Data Science & Machine Learning

La Ciencia de Datos es el estudio de la materia prima más abundante en el universo digital: los datos. Se trata de extraer, analizar, visualizar, gestionar y almacenar datos, para ayudar a las empresas a tomar decisiones basadas en datos, a desarrollar sistemas inteligentes para generar nuevas aplicaciones y potenciar sus operaciones tradicionales.

Información general

Organiza: ICARO
Fecha de Inicio: 08/04/2026
Modalidad de Cursado: Presencial virtual - Interacción sincrónica mediadas por la tecnología entre docentes y estudiantes.
Duración: 250 horas.
Aranceles: Consultar

Destinatarios

La Diplomatura estará abierta al público en general, con especial énfasis en estudiantes de grado, graduados, investigadores, y profesionales de cualquier rubro que deseen aprovechar el uso de grandes volúmenes de datos. Está diseñada para quienes buscan aprender a analizar datos de manera eficiente y desarrollar modelos de aprendizaje automático (Machine Learning), con el fin de implementar técnicas prescriptivas y aplicar herramientas modernas que optimicen y potencien su desempeño en diversas áreas de trabajo.

Objetivos

Objetivo General
Formar profesionales competentes en el manejo y análisis de datos complejos, capaces de desarrollar e implementar soluciones innovadoras a través de modelos de Machine Learning.
Objetivos Específicos
- Desarrollar la capacidad de manipular, explorar, limpiar y preparar datos provenientes de diversas fuentes, asegurando su calidad y aplicando técnicas avanzadas de Machine Learning para crear modelos predictivos.
- Aplicar el ciclo de trabajo de la Ciencia de Datos, novedoso pipeline de trabajo empleado en la industria, para desarrollar soluciones basadas en datos en entornos organizacionales públicos o privados.
- Crear visualizaciones de datos efectivas y comunicar los hallazgos de manera clara.
- Fomentar la participación en comunidades científicas y proyectos colaborativos, aplicando las competencias adquiridas para desempeñar el rol de Científico de Datos.

Principales contenidos

MÓDULO 1: Introducción Data Science

Objetivo: Introducir a la dinámica de trabajo de un data scientist y aprender a usar las librerías Numpy y Pandas para manipulación, limpieza y cálculo con datos

Introducción: qué es un dataset, tipos de datos, tipos de problemas.
Introducción Data Science: workflow.
Introducción a programación básica.
Presentación Jupyter Notebooks y bibliotecas NumPy, Pandas, Matplotlib.
Breve introducción NumPy: tipos de datos y operaciones.
Exploración de datos: Pandas.

MÓDULO 2: Feature Engineering

Objetivo: Profundizar las prácticas de limpieza y manipulación de datos. Se introducirán buenas prácticas de análisis exploratorio de datos

Feature engineering conceptos: outliers, missings, categoricas, dummies, nuevas variables.
Feature engineering Pandas: outliers, missings, dummies, nuevas variables.
Feature engineering Scikit Learn: outliers, missings, categoricals.

MÓDULO 3: Machine Learning I. Introducción algoritmos de aprendizaje supervisado

Objetivo: Con las bases de trabajo en Python más consolidadas, se introduce a la metodología de trabajo de Machine Learning, junto a una de sus librerías más importantes, Scikit-Learn

Evaluación de modelos: training/testing, matriz de confusión.
Algoritmo KNN.
Algoritmo Decision trees.
Clasificación y regresión con estos algoritmos.
Overfitting/Underfitting.
Cross Validation.
Pipelines en scikit-learn.

MÓDULO 4: Selección de modelos

Objetivo: Hacer foco en la correcta evaluación de distintos modelos para seleccionar el más adecuado para nuestra problemática

Tradeoff bias/variance.
Optimización de parámetros: GridSearch y hyperopt.
Selección stepwise de variables: fordward, backward.
Otras métricas: AUC, F1, kappa.

MÓDULO 5: Machine Learning II. Procesamiento de texto y Algoritmos de aprendizaje supervisado avanzados.

Objetivo: Abordar problemas más avanzados como text mining, redes neuronales, modelos de ensamble bagging y boosting.

Introducción a procesamiento de texto: bag of words, tf-idf, tokens, stemming.
SVM.
Ensambles básicos: voting, promedios.
Ensambles bagging: random forests.
Ensambles boosting: adaboost, xgboost, catboost.
Redes Neuronales: perceptrón y backpropagation.
Keras: Redes Neuronales multicapas.

MÓDULO 6: Machine Learning III. Algoritmos de aprendizaje no supervisado y sistemas de recomendación.

Objetivo: Profundizar sobre los modelos no supervisados y sus casos de uso más frecuentes, así como introducir en la construcción de algoritmos de recomendación y sus técnicas.

Introducción aprendizaje no supervisado.
Clustering: kmedias, dbscan.
Reducción de dimensionalidad: PCA.
Introducción sistemas de recomendación.
Reducción de dimensionalidad: SVD.
Sistemas de recomendación Filtro colaborativo.
Evaluación de sistemas de recomendación.

MÓDULO 7: Deploy de modelos

Objetivo: Disponibilizar los modelos y trabajar con APIs

Persistencia de modelos scikit-learn/python.
Desarrollo API para acceder al modelo y predicciones.
Puesta en producción Cloud.

MÓDULO 8: Cómo seguir

Objetivo: Dar los lineamientos finales e integrar los conocimientos adquiridos y dar un pantallazo de las nuevas tendencias en Machine Learning

Herramientas cloud: gcp/aws/azure.
Machine learning on demand: floyhub, paperspace, crestle.
Kaggle y cómo perfeccionarse.

Modalidad de cursado

Modalidad presencial con encuentros sincrónicos mediados con tecnología.

Plataforma de videoconferencia a definir (Sugerido: Google Meet/Zoom)
Acceso a través de plataforma de foro y mensajería (Sugerido: Google Classroom/Slack).

Informes e inscripciones

Email: info@icaro.org.ar
Web: www.icaro.org.ar
Teléfono:+543518676615