Modelado predictivo del tráfico urbano en Madrid mediante integración de datos multifuente y algoritmos avanzados de machine learning

La congestión vial constituye uno de los principales desafíos para la movilidad urbana en Madrid, con repercusiones en la sostenibilidad, la calidad de vida y la planificación del transporte. Este Trabajo de Fin de Máster aborda el problema mediante la integración de datos multifuente —intensidad de...

Descripción completa

Detalles Bibliográficos
Autor: Calci Umpiri, Joselin Indira
Tipo de recurso: tesis de maestría
Fecha de publicación:2025
País:España
Institución:Universidad Complutense de Madrid (UCM)
Repositorio:Docta Complutense
Idioma:español
OAI Identifier:oai:docta.ucm.es:20.500.14352/124596
Acceso en línea:https://hdl.handle.net/20.500.14352/124596
Access Level:acceso abierto
Palabra clave:004.85
004.8
311
004.6
711.4
519.237
519.2
Tráfico urbano
Predicción
Datos multifuente
Machine Learning
Madrid
Urban traffic
Prediction
Multi-source data
Inteligencia artificial (Informática)
Estadística
Análisis Multivariante
1209 Estadística
1203.04 Inteligencia Artificial
1209.03 Análisis de Datos
3327.02 Análisis del Tráfico
1209.09 Análisis Multivariante
Descripción
Sumario:La congestión vial constituye uno de los principales desafíos para la movilidad urbana en Madrid, con repercusiones en la sostenibilidad, la calidad de vida y la planificación del transporte. Este Trabajo de Fin de Máster aborda el problema mediante la integración de datos multifuente —intensidad de tráfico, meteorología y calendario de eventos— y el uso de algoritmos avanzados de aprendizaje automático, con el fin de predecir de manera temprana episodios de congestión. La metodología sigue el marco CRISP-DM, incluyendo comprensión de datos, preparación, modelado, evaluación y despliegue. Se definió como variable dependiente la congestión binaria (carga_bin_60), que indica la existencia o no de saturación de tráfico. Se entrenaron y evaluaron múltiples modelos, entre ellos regresión logística, árboles de decisión, Random Forest, Gradient Boosting, XGBoost, CatBoost y redes neuronales multicapa, empleando validación temporal con TimeSeriesSplit y métricas como ROC-AUC, PR-AUC, F1 y Balanced Accuracy. Los resultados muestran un rendimiento muy competitivo, con valores de ROC-AUC en torno a 0.98 y PR-AUC entre 0.91 y 0.93 en los mejores algoritmos. Destaca especialmente CatBoost, que alcanzó un ROC-AUC de 0.979, un PR-AUC de 0.926 y una Accuracy del 93,8 %. La regresión logística, aunque con métricas más modestas, se mantiene como un referente interpretable y de utilidad práctica. Estos hallazgos confirman la viabilidad de anticipar la congestión hasta tres horas por delante (T+3) con elevada precisión.