MAN3100 Procesamiento de Datos Masivos
Escuela | Ingeniería |
Área | |
Categorías | |
Créditos | 5 |
Prerequisitos
Requisitos: (MAN3070 y MAN3080) o EPG4506
Relación entre requisitos y restricciones: y
Restricciones: (Programa=Mg Ciencia de Datos) o (Programa=Mg Analiti Negocios)
Calificaciones
Este ramo no ha sido calificado.
CURSO:PROCESAMIENTO DE DATOS MASIVOS
TRADUCCION:PROCESSING BIG DATA
SIGLA:MAN3100
CREDITOS:05
HORAS:90 HORAS DE DEDICACION TOTAL: 24 DIRECTAS Y 66 INDIRECTAS (2 MODULOS)
CARACTER:MINIMO
TIPO:TALLER
CALIFICACION:ESTANDAR
PALABRAS CLAVE:DATOS MASIVOS,BIG DATA,MAP-REDUCE,MANEJO DE DATOS
NIVEL FORMATIVO:MAGISTER
I.DESCRIPCIÓN DEL CURSO
En este curso, los estudiantes aprenderan a trabajar con datos masivos, ya sea estructurados o semiestructurados, a recolectar informacion desde fuentes web, y a hacer analisis basados en descripciones de los sets de datos. Metodologicamente, en el curso se trabaja con aprendizaje basado en problemas, en donde todas las semanas se orientan a resolver un problema en particular.
II.RESULTADOS DE APRENDIZAJE
1.Aplicar herramientas basadas en el paradigma Map-Reduce para el trabajo con datos masivos.
2.Dise?ar algoritmos para la extraccion de informacion basados en descripciones de los mismos, en reglas de asociacion o en clasificaciones eficientes de elementos similares.
3.Desarrollar un plan para recolectar grandes cantidades de datos online.
4.Valorar los desafios tras el manejo de datos semi-estructurados, como texto o grafos, junto a las tecnicas para abordarlos.
III.CONTENIDOS
1.Modulo 1 - Map Reduce
1.1.Modelos de big data
1.2.Data warehousing
1.3.Sistemas distribuidos
1.4.Map Reduce como paradigma de procesamiento de datos masivos y distribuidos.
1.5.Aplicaciones a herramientas en la nube.
2.Modulo 2 ? Texto
2.1.Recuperacion de la informacion: web search, crawling, scrapping, busqueda por texto, ranking.
3.Modulo 3 ? Mineria
3.1.Busqueda de items similares, shingling y algoritmos.
3.2.Minhash y Locally Sensitive Hashing
3.3.Busqueda de elementos mas frecuentes, reglas de asociacion, canastas y algoritmos a priori
4.Modulo 4 - Grafos
4.1.Manejo de grafos y redes sociales.
4.2.Algoritmos basicos (comunidades, centralidad, conteo de triangulos).
IV.ESTRATEGIAS METODOLOGICAS
-Catedra en sesiones sincronicas.
-Videoclases.
-Podcast o video tutorial.
-Discusion de casos.
-Lecturas.
-Analisis de casos.
-Test formativos.
-Foros de discusion.
-Resolucion de problemas.
V.ESTRATEGIAS EVALUATIVAS
-Tareas: 49%
-Foros: 20%
-Trabajo final: 31%
-El curso contendra ademas actividades formativas (sin calificacion), las que tienen como proposito la preparacion para las evaluaciones calificadas.
VI.BIBLIOGRAFIA
Minima
Rajaraman,Anand, and Jeffrey David Ullman.Mining of massive datasets. Cambridge University Press,2011.
Aggarwal,Charu C. Data mining: the textbook.Springer,2015.
Complementaria
Zaki, Mohammed J., Wagner Meira Jr,and Wagner Meira.Data mining and analysis: fundamental concepts and algorithms.Cambridge University Press, 2014.
White,Tom.Hadoop: The definitive guide."O'Reilly Media, Inc.",2012.
PONTIFICIA UNIVERSIDAD CATOLICA DE CHILE
FACULTAD DE INGENIERIA / MARZO 2022
Secciones
Sección 1 | Juan Reutter |