Sistema de Predicción de Consumo Energético sobre Grandes Volúmenes de Datos utilizando Apache Spark
El presente Trabajo Fin de Máster demuestra la viabilidad de aplicar técnicas de ciencia de datos y aprendizaje automático para la predicción del consumo energético sobre grandes volúmenes de información, utilizando Apache Spark. Se ha diseñado e implementado un pipeline automatizado a través de Apa...
| Autor: | |
|---|---|
| Tipo de documento: | dissertação |
| Data de publicação: | 2025 |
| País: | España |
| Recursos: | Universidad de Sevilla (US) |
| Repositório: | idUS. Depósito de Investigación de la Universidad de Sevilla |
| OAI Identifier: | oai:idus.us.es:11441/180673 |
| Acesso em linha: | https://hdl.handle.net/11441/180673 |
| Access Level: | Acceso aberto |
| Palavra-chave: | Predicción de consumo Big Data Machine Learning Clustering Apache Spark Apache Airflow Consumption prediction |
| Resumo: | El presente Trabajo Fin de Máster demuestra la viabilidad de aplicar técnicas de ciencia de datos y aprendizaje automático para la predicción del consumo energético sobre grandes volúmenes de información, utilizando Apache Spark. Se ha diseñado e implementado un pipeline automatizado a través de Apache Airflow que integra todas las fases del ciclo de vida del modelo predictivo (ingesta, preprocesamiento, entrenamiento, evaluación, selección del mejor modelo y predicción), garantizando trazabilidad y reproducibilidad. El sistema evalúa distintos algoritmos de regresión mediante Spark MLlib, siendo Random Forest el que logra mayor precisión mientras que la Regresión Lineal destaca como alternativa eficiente en escenarios con restricciones de latencia. Asimismo, se explora la utilidad de la segmentación de clientes mediante clustering, comprobando que su beneficio depende de la heterogeneidad de los datos. Los resultados confirman que la solución propuesta es escalable y adaptable, aunque las limitaciones de Spark MLlib, al no incluir modelos avanzados como redes neuronales, restringen la captura de dependencias temporales complejas. En conjunto, el trabajo aporta un marco reproducible y extensible para la analítica energética, combinando ingeniería del software, Big Data y aprendizaje automático, con potencial de aplicación en entornos académicos e industriales. |
|---|