Sistema de Predicción de Consumo Energético sobre Grandes Volúmenes de Datos utilizando Apache Spark

El presente Trabajo Fin de Máster demuestra la viabilidad de aplicar técnicas de ciencia de datos y aprendizaje automático para la predicción del consumo energético sobre grandes volúmenes de información, utilizando Apache Spark. Se ha diseñado e implementado un pipeline automatizado a través de Apa...

Descripción completa

Detalles Bibliográficos
Autor: González Frías, Álvaro
Tipo de recurso: tesis de maestría
Fecha de publicación:2025
País:España
Institución:Universidad de Sevilla (US)
Repositorio:idUS. Depósito de Investigación de la Universidad de Sevilla
OAI Identifier:oai:idus.us.es:11441/180673
Acceso en línea:https://hdl.handle.net/11441/180673
Access Level:acceso abierto
Palabra clave:Predicción de consumo
Big Data
Machine Learning
Clustering
Apache Spark
Apache Airflow
Consumption prediction
Descripción
Sumario:El presente Trabajo Fin de Máster demuestra la viabilidad de aplicar técnicas de ciencia de datos y aprendizaje automático para la predicción del consumo energético sobre grandes volúmenes de información, utilizando Apache Spark. Se ha diseñado e implementado un pipeline automatizado a través de Apache Airflow que integra todas las fases del ciclo de vida del modelo predictivo (ingesta, preprocesamiento, entrenamiento, evaluación, selección del mejor modelo y predicción), garantizando trazabilidad y reproducibilidad. El sistema evalúa distintos algoritmos de regresión mediante Spark MLlib, siendo Random Forest el que logra mayor precisión mientras que la Regresión Lineal destaca como alternativa eficiente en escenarios con restricciones de latencia. Asimismo, se explora la utilidad de la segmentación de clientes mediante clustering, comprobando que su beneficio depende de la heterogeneidad de los datos. Los resultados confirman que la solución propuesta es escalable y adaptable, aunque las limitaciones de Spark MLlib, al no incluir modelos avanzados como redes neuronales, restringen la captura de dependencias temporales complejas. En conjunto, el trabajo aporta un marco reproducible y extensible para la analítica energética, combinando ingeniería del software, Big Data y aprendizaje automático, con potencial de aplicación en entornos académicos e industriales.