miércoles
15 MarMódulo 8. Procesamiento de Datos Escalables – Desarrollo de Aplicaciones en Entornos Big Data con Hadoop y Spark
En la era actual de la información, la capacidad de gestionar y analizar grandes volúmenes de datos se ha convertido en una habilidad esencial para profesionales y empresas. El Máster de Formación Permanente en Big Data e Inteligencia Artificial de la Universidad de Málaga, bajo la dirección de José Francisco Aldana y María del Mar Roldán, ofrece a sus estudiantes en este nuevo módulo, un enfoque práctico y riguroso para enfrentar estos desafíos, centrado en el procesamiento de datos escalables y el desarrollo de aplicaciones en entornos big data con Hadoop y Spark; impartido por Antonio Jesús Nebro Urbaneja y Cristóbal Barba González.
Hadoop, un marco de software de código abierto, permite el almacenamiento y procesamiento distribuido de grandes conjuntos de datos a través de múltiples nodos. Se basa en el modelo de programación MapReduce, que proporciona una solución eficiente para abordar problemas de big data al dividirlos en tareas más pequeñas que pueden resolverse en paralelo. El Módulo 8 aborda la arquitectura de Hadoop, incluidos sus componentes principales, como el sistema de archivos distribuidos Hadoop (HDFS) y el gestor de recursos YARN, enseñando a los estudiantes cómo diseñar, implementar y optimizar aplicaciones de procesamiento de datos con Hadoop.
Por otro lado, Spark es un motor de análisis de datos de código abierto diseñado para proporcionar un rendimiento más rápido y una mayor flexibilidad que Hadoop en ciertos escenarios. Spark se basa en el modelo de programación de Resilient Distributed Datasets (RDD), que permite el procesamiento en memoria y el uso de operaciones de transformación y acción en conjuntos de datos. El Módulo 8 también cubre el ecosistema de Spark, incluidas sus bibliotecas para procesamiento por lotes (Spark Core), consultas SQL (Spark SQL), aprendizaje automático (MLlib) y análisis de grafos (GraphX).
A lo largo del módulo, los estudiantes adquieren habilidades prácticas en la creación de aplicaciones de procesamiento de datos escalables utilizando Hadoop y Spark, así como en la implementación de algoritmos de aprendizaje automático y la optimización del rendimiento. Además, se analizan casos de estudio de la industria, lo que permite a los estudiantes comprender las implicaciones reales de estas tecnologías en diferentes sectores.
En resumen, el Módulo 8, ofrece a los estudiantes una base sólida en el procesamiento de datos escalables y el desarrollo de aplicaciones en entornos big data con Hadoop y Spark, preparándolos para enfrentar los desafíos actuales y futuros del análisis de datos a gran escala.
Información General
- Número de Créditos Europeos (presencial/no presencial): 3.5 (1.8 / 1.7)
- Carácter: Obligatorio
- Unidad temporal: Cuatrimestre
Breve descripción de los contenidos
El propósito de este módulo es presentar dos de las plataformas más utilizadas en aplicaciones Big Data que demandan elevadas capacidades de cómputo y almacenamiento: el sistema de procesamiento de datos escalable Apache Spark y Apache Hadoop, junto con su sistema de almacenamiento distribuido HDFS. Se proporcionará una visión integral de las características de ambos sistemas, y se profundizará en el desarrollo de aplicaciones empleando Spark mediante los lenguajes de programación Python y Java.
Contenidos del módulo
- Introducción a Apache Hadoop y HDFS (créditos: 0.75)
- Introducción a Apache Spark (créditos: 0.75)
- Aplicaciones basadas en el uso de pares clave-valor (créditos: 1)
- Aplicaciones basadas en dataframes (créditos: 1)
Total créditos: 3.5
Equipo docente
Antonio Jesús Nebro Urbaneja
Cristóbal Barba González
1 comment