Introducción

Este curso trata sobre diversas técnicas de análisis de datos, en su mayoría diseñadas para escalar a datos grandes. El enfoque del curso se concentra más en el entendimiento y aplicación de los algoritmos y los métodos, y menos en las herramientas para implementarlos.

Temario

  1. Análisis de conjuntos frecuentes
    • Algoritmo a-priori
    • Market basket analysis
  2. Búsqueda de elementos similares 1
    • Minhashing para documentos
  3. Búsqueda de elementos similares 2
    • Locality Sensitive Hashing (LSH)
  4. Aplicaciones de LSH
    • Joins de similitud aproximados
  5. Procesamiento de flujos de datos
    • Selección de muestras y hashing
    • Filtro de Bloom
  6. Conteo probabilístico
    • Algoritmo de Flajolet-Martin
    • Hyperloglog
  7. Sistemas de recomendación 1
    • Recomendación por contenido y filtros colaborativos
    • Factorización de matrices y Dimensiones latentes
  8. Sistemas de recomendación 2
    • Métodos basados en similitud
    • Mínimos cuadrados alternados
  9. Sistemas de recomendación 3
    • Descenso en gradiente estocástico
    • Sistemas para retroalimentación implícita
  10. Análisis de redes 1
    • Medidas de centralidad y pagerank
  11. Análisis de redes 2
    • Clustering y comunidades
  12. Modelos de lenguaje 1
    • N-gramas y conteos
    • Aplicaciones
  13. Modelos de lenguaje 2
    • Representación de palabras (embeddings)
    • Modelos de redes neuronales
  14. Aplicaciones de modelos de lenguaje
    • Corrección de ortografía
    • Reconocimiento de idioma
    • Clasificación de textos
  15. Recuperación de información
    • Índices invertidos
    • Modelo de espacio vectorial
    • Normalización y similitud
    • Indexado semántico latente
  16. Experimentación y algoritmos de tragamonedas
    • Experimentación y contrafactuales
    • Algoritmos de tragamonedas
    • Tragamonedas bayesianos
  • Las notas del curso están R, y en algunos casos usamos python o línea de comandos. Puedes usar python también para hacer tareas y ejercicios.

Evaluación

  • Examen parcial (40%, mitad en casa y mitad en clase)
  • Tareas semanales (20%)
  • Proyecto final (40%)

Nuestro texto básico es (Leskovec, Rajaraman, and Ullman 2014). Referencias básicas adicionales son (Jurafsky and Martin 2000) (para procesamiento de lenguaje natural), y sparklyr para utlizar la interfaz de R a Spark.

Referencias

Jurafsky, Daniel, and James H. Martin. 2000. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. 1st ed. Upper Saddle River, NJ, USA: Prentice Hall PTR.

Leskovec, Jure, Anand Rajaraman, and Jeffrey David Ullman. 2014. Mining of Massive Datasets. 2nd ed. New York, NY, USA: Cambridge University Press. http://www.mmds.org.