Sistema de Predicción de Consumo Energético sobre Grandes Volúmenes de Datos utilizando Apache Spark

El presente Trabajo Fin de Máster demuestra la viabilidad de aplicar técnicas de ciencia de datos y aprendizaje automático para la predicción del consumo energético sobre grandes volúmenes de información, utilizando Apache Spark. Se ha diseñado e implementado un pipeline automatizado a través de Apa...

ver descrição completa

Detalhes bibliográficos
Autor: González Frías, Álvaro
Tipo de documento: dissertação
Data de publicação:2025
País:España
Recursos:Universidad de Sevilla (US)
Repositório:idUS. Depósito de Investigación de la Universidad de Sevilla
OAI Identifier:oai:idus.us.es:11441/180673
Acesso em linha:https://hdl.handle.net/11441/180673
Access Level:Acceso aberto
Palavra-chave:Predicción de consumo
Big Data
Machine Learning
Clustering
Apache Spark
Apache Airflow
Consumption prediction
Descrição
Resumo:El presente Trabajo Fin de Máster demuestra la viabilidad de aplicar técnicas de ciencia de datos y aprendizaje automático para la predicción del consumo energético sobre grandes volúmenes de información, utilizando Apache Spark. Se ha diseñado e implementado un pipeline automatizado a través de Apache Airflow que integra todas las fases del ciclo de vida del modelo predictivo (ingesta, preprocesamiento, entrenamiento, evaluación, selección del mejor modelo y predicción), garantizando trazabilidad y reproducibilidad. El sistema evalúa distintos algoritmos de regresión mediante Spark MLlib, siendo Random Forest el que logra mayor precisión mientras que la Regresión Lineal destaca como alternativa eficiente en escenarios con restricciones de latencia. Asimismo, se explora la utilidad de la segmentación de clientes mediante clustering, comprobando que su beneficio depende de la heterogeneidad de los datos. Los resultados confirman que la solución propuesta es escalable y adaptable, aunque las limitaciones de Spark MLlib, al no incluir modelos avanzados como redes neuronales, restringen la captura de dependencias temporales complejas. En conjunto, el trabajo aporta un marco reproducible y extensible para la analítica energética, combinando ingeniería del software, Big Data y aprendizaje automático, con potencial de aplicación en entornos académicos e industriales.