Módulo 11. Text mining

Módulo 11. Text mining

Introducción a las tareas básicas y principales de minería de textos. Introducción a Docker. Introducción a técnicas de web scrapping. Exposición de técnicas de auto resumen de texto. Exposición de técnicas de transformación de texto en vectores para proceder a su análisis mediante técnicas clásicas de Machine Learning. Exposición de arquitecturas asociadas al análisis de texto en un entorno Big Data. Aplicación práctica de técnicas de análisis de sentimientos.

Tecnologías: Python, Sklearn, NLTK, Docker, BeautifulSoap.

Docentes: David Cuesta (davidcuestamerino@gmail.com).

Docentes

David Cuesta recibió el premio al mejor expediente académico de la edición 2017 del Máster en Advanced Analytics on Big Data-Universidad de Málaga con una dotación económica de 3.000 euros concedida por la empresa Piksel. Los diplomas al segundo y tercer mejor expediente fueron recogidos por José Joaquín Rojas y Antonio Fenna respectivamente.

David Cuesta es experto en análisis de datos, sistemas distribuidos y arquitectura de Big Data. Imparte el módulo de minería de textos.

Distribución horaria:

  • Clase 1: Presentación(30m), descripción del entorno (Docker)(1h), introducción y primera parte del preprocesado de texto (1h 30m).
  • Clase 2: Segunda parte del preprocesado de texto (1h 30m) y autoresumen de textos (1h 30m).
  • Clase 3: Aplicando machine learning a texto(3h).
  • Clase 4: Arquitecturas de plataformas de NLP (1h 30m). Análisis de sentimientos (Introducción e identificación) (1h 30m).
  • Clase 5: Análisis de sentimientos (Basado en reglas) (3h).
  • Clase 6: Análisis de sentimientos (Basado en machine learning) (3h).

Pre-Requisitos:

  • Conceptos básicos de algebra lineal.
  • Conceptos básicos de Jupyter notebooks.
  • Conceptos básicos de modelado predictivo.
  • Conceptos básicos de programación en Python. Conceptos básicos de sintaxis de lenguaje natural.

Tareas:

 Básicas (70%):

  • Test sobre la parte teórica de la asignatura (5/7pts).
  • Preprocesado de texto (5/7pts).
  • Autoresumen de textos (5/7pts).
  • Clusterización de textos (5/7pts).
  • Clasificación de textos (5/7pts).

Avanzadas (30%):

  • Análisis de sentimientos basado en reglas (1.5pts).
  • Análisis de sentimientos basados en machine learning (1.5pts).

Challenges (20%) (Se debe elegir una de las siguientes tareas en el caso de querer realizar el challenge):

  • Diseño de una arquitectura de text mining en un entorno big data (2pts).
  • Diseño de un pipeline de NLP (2pts).
Modulo minería de textos

Related Posts

Deja un comentario

Your email address will not be published. Required fields are marked.*

× ¿Cómo puedo ayudarte?