Modelado predictivo del tráfico urbano en Madrid mediante integración de datos multifuente y algoritmos avanzados de machine learning
La congestión vial constituye uno de los principales desafíos para la movilidad urbana en Madrid, con repercusiones en la sostenibilidad, la calidad de vida y la planificación del transporte. Este Trabajo de Fin de Máster aborda el problema mediante la integración de datos multifuente —intensidad de...
| Autor: | |
|---|---|
| Tipo de recurso: | tesis de maestría |
| Fecha de publicación: | 2025 |
| País: | España |
| Institución: | Universidad Complutense de Madrid (UCM) |
| Repositorio: | Docta Complutense |
| Idioma: | español |
| OAI Identifier: | oai:docta.ucm.es:20.500.14352/124596 |
| Acceso en línea: | https://hdl.handle.net/20.500.14352/124596 |
| Access Level: | acceso abierto |
| Palabra clave: | 004.85 004.8 311 004.6 711.4 519.237 519.2 Tráfico urbano Predicción Datos multifuente Machine Learning Madrid Urban traffic Prediction Multi-source data Inteligencia artificial (Informática) Estadística Análisis Multivariante 1209 Estadística 1203.04 Inteligencia Artificial 1209.03 Análisis de Datos 3327.02 Análisis del Tráfico 1209.09 Análisis Multivariante |
| Sumario: | La congestión vial constituye uno de los principales desafíos para la movilidad urbana en Madrid, con repercusiones en la sostenibilidad, la calidad de vida y la planificación del transporte. Este Trabajo de Fin de Máster aborda el problema mediante la integración de datos multifuente —intensidad de tráfico, meteorología y calendario de eventos— y el uso de algoritmos avanzados de aprendizaje automático, con el fin de predecir de manera temprana episodios de congestión. La metodología sigue el marco CRISP-DM, incluyendo comprensión de datos, preparación, modelado, evaluación y despliegue. Se definió como variable dependiente la congestión binaria (carga_bin_60), que indica la existencia o no de saturación de tráfico. Se entrenaron y evaluaron múltiples modelos, entre ellos regresión logística, árboles de decisión, Random Forest, Gradient Boosting, XGBoost, CatBoost y redes neuronales multicapa, empleando validación temporal con TimeSeriesSplit y métricas como ROC-AUC, PR-AUC, F1 y Balanced Accuracy. Los resultados muestran un rendimiento muy competitivo, con valores de ROC-AUC en torno a 0.98 y PR-AUC entre 0.91 y 0.93 en los mejores algoritmos. Destaca especialmente CatBoost, que alcanzó un ROC-AUC de 0.979, un PR-AUC de 0.926 y una Accuracy del 93,8 %. La regresión logística, aunque con métricas más modestas, se mantiene como un referente interpretable y de utilidad práctica. Estos hallazgos confirman la viabilidad de anticipar la congestión hasta tres horas por delante (T+3) con elevada precisión. |
|---|