Módulo 11. Text mining

lunes

27 Abr

Módulos, Noticias y Novedades

Introducción a las tareas básicas y principales de minería de textos. Introducción a Docker. Introducción a técnicas de web scrapping. Exposición de técnicas de auto resumen de texto. Exposición de técnicas de transformación de texto en vectores para proceder a su análisis mediante técnicas clásicas de Machine Learning. Exposición de arquitecturas asociadas al análisis de texto en un entorno Big Data. Aplicación práctica de técnicas de análisis de sentimientos.

Tecnologías: Python, Sklearn, NLTK, Docker, BeautifulSoap.

Docentes: David Cuesta (davidcuestamerino@gmail.com).

David Cuesta recibió el premio al mejor expediente académico de la edición 2017 del Máster en Advanced Analytics on Big Data-Universidad de Málaga con una dotación económica de 3.000 euros concedida por la empresa Piksel. Los diplomas al segundo y tercer mejor expediente fueron recogidos por José Joaquín Rojas y Antonio Fenna respectivamente.

David Cuesta es experto en análisis de datos, sistemas distribuidos y arquitectura de Big Data. Imparte el módulo de minería de textos.

Distribución horaria:

Clase 1: Presentación(30m), descripción del entorno (Docker)(1h), introducción y primera parte del preprocesado de texto (1h 30m).
Clase 2: Segunda parte del preprocesado de texto (1h 30m) y autoresumen de textos (1h 30m).
Clase 3: Aplicando machine learning a texto(3h).
Clase 4: Arquitecturas de plataformas de NLP (1h 30m). Análisis de sentimientos (Introducción e identificación) (1h 30m).
Clase 5: Análisis de sentimientos (Basado en reglas) (3h).
Clase 6: Análisis de sentimientos (Basado en machine learning) (3h).

Pre-Requisitos:

Conceptos básicos de algebra lineal.
Conceptos básicos de Jupyter notebooks.
Conceptos básicos de modelado predictivo.
Conceptos básicos de programación en Python. Conceptos básicos de sintaxis de lenguaje natural.

Tareas:

Básicas (70%):

Test sobre la parte teórica de la asignatura (5/7pts).
Preprocesado de texto (5/7pts).
Autoresumen de textos (5/7pts).
Clusterización de textos (5/7pts).
Clasificación de textos (5/7pts).

Avanzadas (30%):

Análisis de sentimientos basado en reglas (1.5pts).
Análisis de sentimientos basados en machine learning (1.5pts).

Challenges (20%) (Se debe elegir una de las siguientes tareas en el caso de querer realizar el challenge):

Diseño de una arquitectura de text mining en un entorno big data (2pts).
Diseño de un pipeline de NLP (2pts).

Módulo 11. Text mining