La Ciencia de Datos es el estudio de la materia prima más abundante en el universo digital: los datos. Se trata de extraer, analizar, visualizar, gestionar y almacenar datos, para ayudar a las empresas a tomar decisiones basadas en datos, a desarrollar sistemas inteligentes para generar nuevas aplicaciones y potenciar sus operaciones tradicionales.
- Organiza: ICARO
- Fecha de Inicio: 08/04/2026
- Modalidad de Cursado: Presencial virtual - Interacción sincrónica mediadas por la tecnología entre docentes y estudiantes.
- Duración: 250 horas.
- Aranceles: Consultar
La Diplomatura estará abierta al público en general, con especial énfasis en estudiantes de grado, graduados, investigadores, y profesionales de cualquier rubro que deseen aprovechar el uso de grandes volúmenes de datos. Está diseñada para quienes buscan aprender a analizar datos de manera eficiente y desarrollar modelos de aprendizaje automático (Machine Learning), con el fin de implementar técnicas prescriptivas y aplicar herramientas modernas que optimicen y potencien su desempeño en diversas áreas de trabajo.
- Objetivo General
Formar profesionales competentes en el manejo y análisis de datos complejos, capaces de desarrollar e implementar soluciones innovadoras a través de modelos de Machine Learning. - Objetivos Específicos
- Desarrollar la capacidad de manipular, explorar, limpiar y preparar datos provenientes de diversas fuentes, asegurando su calidad y aplicando técnicas avanzadas de Machine Learning para crear modelos predictivos.
- Aplicar el ciclo de trabajo de la Ciencia de Datos, novedoso pipeline de trabajo empleado en la industria, para desarrollar soluciones basadas en datos en entornos organizacionales públicos o privados.
- Crear visualizaciones de datos efectivas y comunicar los hallazgos de manera clara.
- Fomentar la participación en comunidades científicas y proyectos colaborativos, aplicando las competencias adquiridas para desempeñar el rol de Científico de Datos.
MÓDULO 1: Introducción Data Science
Objetivo: Introducir a la dinámica de trabajo de un data scientist y aprender a usar las librerías Numpy y Pandas para manipulación, limpieza y cálculo con datos
- Introducción: qué es un dataset, tipos de datos, tipos de problemas.
- Introducción Data Science: workflow.
- Introducción a programación básica.
- Presentación Jupyter Notebooks y bibliotecas NumPy, Pandas, Matplotlib.
- Breve introducción NumPy: tipos de datos y operaciones.
- Exploración de datos: Pandas.
MÓDULO 2: Feature Engineering
Objetivo: Profundizar las prácticas de limpieza y manipulación de datos. Se introducirán buenas prácticas de análisis exploratorio de datos
- Feature engineering conceptos: outliers, missings, categoricas, dummies, nuevas variables.
- Feature engineering Pandas: outliers, missings, dummies, nuevas variables.
- Feature engineering Scikit Learn: outliers, missings, categoricals.
MÓDULO 3: Machine Learning I. Introducción algoritmos de aprendizaje supervisado
Objetivo: Con las bases de trabajo en Python más consolidadas, se introduce a la metodología de trabajo de Machine Learning, junto a una de sus librerías más importantes, Scikit-Learn
- Evaluación de modelos: training/testing, matriz de confusión.
- Algoritmo KNN.
- Algoritmo Decision trees.
- Clasificación y regresión con estos algoritmos.
- Overfitting/Underfitting.
- Cross Validation.
- Pipelines en scikit-learn.
MÓDULO 4: Selección de modelos
Objetivo: Hacer foco en la correcta evaluación de distintos modelos para seleccionar el más adecuado para nuestra problemática
- Tradeoff bias/variance.
- Optimización de parámetros: GridSearch y hyperopt.
- Selección stepwise de variables: fordward, backward.
- Otras métricas: AUC, F1, kappa.
MÓDULO 5: Machine Learning II. Procesamiento de texto y Algoritmos de aprendizaje supervisado avanzados.
Objetivo: Abordar problemas más avanzados como text mining, redes neuronales, modelos de ensamble bagging y boosting.
- Introducción a procesamiento de texto: bag of words, tf-idf, tokens, stemming.
- SVM.
- Ensambles básicos: voting, promedios.
- Ensambles bagging: random forests.
- Ensambles boosting: adaboost, xgboost, catboost.
- Redes Neuronales: perceptrón y backpropagation.
- Keras: Redes Neuronales multicapas.
MÓDULO 6: Machine Learning III. Algoritmos de aprendizaje no supervisado y sistemas de recomendación.
Objetivo: Profundizar sobre los modelos no supervisados y sus casos de uso más frecuentes, así como introducir en la construcción de algoritmos de recomendación y sus técnicas.
- Introducción aprendizaje no supervisado.
- Clustering: kmedias, dbscan.
- Reducción de dimensionalidad: PCA.
- Introducción sistemas de recomendación.
- Reducción de dimensionalidad: SVD.
- Sistemas de recomendación Filtro colaborativo.
- Evaluación de sistemas de recomendación.
MÓDULO 7: Deploy de modelos
Objetivo: Disponibilizar los modelos y trabajar con APIs
- Persistencia de modelos scikit-learn/python.
- Desarrollo API para acceder al modelo y predicciones.
- Puesta en producción Cloud.
MÓDULO 8: Cómo seguir
Objetivo: Dar los lineamientos finales e integrar los conocimientos adquiridos y dar un pantallazo de las nuevas tendencias en Machine Learning
- Herramientas cloud: gcp/aws/azure.
- Machine learning on demand: floyhub, paperspace, crestle.
- Kaggle y cómo perfeccionarse.
Modalidad presencial con encuentros sincrónicos mediados con tecnología.
- Plataforma de videoconferencia a definir (Sugerido: Google Meet/Zoom)
- Acceso a través de plataforma de foro y mensajería (Sugerido: Google Classroom/Slack).