Métodos analíticos, ITAM 2020
2020-05-10
Introducción
Este curso trata sobre diversas técnicas de análisis de datos, en su mayoría diseñadas para escalar a datos grandes. El enfoque del curso se concentra más en el entendimiento y aplicación de los algoritmos y los métodos, y menos en las herramientas para implementarlos.
Temario
- Análisis de conjuntos frecuentes
- Algoritmo a-priori
- Market basket analysis
- Búsqueda de elementos similares 1
- Minhashing para documentos
- Búsqueda de elementos similares 2
- Locality Sensitive Hashing (LSH)
- Aplicaciones de LSH
- Joins de similitud aproximados
- Procesamiento de flujos de datos
- Selección de muestras y hashing
- Filtro de Bloom
- Conteo probabilístico
- Algoritmo de Flajolet-Martin
- Hyperloglog
- Sistemas de recomendación 1
- Recomendación por contenido y filtros colaborativos
- Factorización de matrices y Dimensiones latentes
- Sistemas de recomendación 2
- Métodos basados en similitud
- Mínimos cuadrados alternados
- Sistemas de recomendación 3
- Descenso en gradiente estocástico
- Sistemas para retroalimentación implícita
- Análisis de redes 1
- Medidas de centralidad y pagerank
- Análisis de redes 2
- Clustering y comunidades
- Modelos de lenguaje 1
- N-gramas y conteos
- Aplicaciones
- Modelos de lenguaje 2
- Representación de palabras (embeddings)
- Modelos de redes neuronales
- Aplicaciones de modelos de lenguaje
- Corrección de ortografía
- Reconocimiento de idioma
- Clasificación de textos
- Recuperación de información
- Índices invertidos
- Modelo de espacio vectorial
- Normalización y similitud
- Indexado semántico latente
- Experimentación y algoritmos de tragamonedas
- Experimentación y contrafactuales
- Algoritmos de tragamonedas
- Tragamonedas bayesianos
- Las notas del curso están R, y en algunos casos usamos python o línea de comandos. Puedes usar python también para hacer tareas y ejercicios.
Evaluación
- Examen parcial (40%, mitad en casa y mitad en clase)
- Tareas semanales (20%)
- Proyecto final (40%)
Nuestro texto básico es (Leskovec, Rajaraman, and Ullman 2014). Referencias básicas adicionales son (Jurafsky and Martin 2000) (para procesamiento de lenguaje natural), y sparklyr para utlizar la interfaz de R a Spark.
Referencias
Jurafsky, Daniel, and James H. Martin. 2000. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. 1st ed. Upper Saddle River, NJ, USA: Prentice Hall PTR.
Leskovec, Jure, Anand Rajaraman, and Jeffrey David Ullman. 2014. Mining of Massive Datasets. 2nd ed. New York, NY, USA: Cambridge University Press. http://www.mmds.org.