Ajuste adaptativo y en línea de parámetros en algoritmos genéticos para la resolución de problemas de scheduling

[ES] Este Trabajo de Fin de Máster (TFM) se centra en la combinación de algoritmos evolutivos y técnicas de aprendizaje por refuerzo para resolver el problema de planificación de tareas en entornos industriales, concretamente el Job Shop Scheduling Problem (JSP). En lugar de aplicar un algoritmo gen...

Descripción completa

Detalles Bibliográficos
Autor: March, C
Tipo de recurso: tesis de maestría
Fecha de publicación:2025
País:España
Institución:Universitat Politècnica de València (UPV)
Repositorio:RiuNet. Repositorio Institucional de la Universitat Politécnica de Valéncia
Idioma:español
OAI Identifier:oai:riunet.upv.es:10251/225018
Acceso en línea:https://riunet.upv.es/handle/10251/225018
Access Level:acceso abierto
Palabra clave:Inteligencia artificial
Ajuste de parámetros
Job Shop Scheduling Problem (JSP)
Optimización combinatoria
Algoritmo genético
Metaheurísticas
Intel·ligència artificial
Ajust de paràmetres
Optimització combinatòria
Algorisme genètic
Metaheurístiques
Aprenentatge per reforç
Máster Universitario en Inteligencia Artificial, Reconocimiento de Formas e Imagen Digital-Màster Universitari en Intel·ligència Artificial, Reconeixement de Formes i Imatge Digital
Descripción
Sumario:[ES] Este Trabajo de Fin de Máster (TFM) se centra en la combinación de algoritmos evolutivos y técnicas de aprendizaje por refuerzo para resolver el problema de planificación de tareas en entornos industriales, concretamente el Job Shop Scheduling Problem (JSP). En lugar de aplicar un algoritmo genético con parámetros fijos, en este trabajo se propone un enfoque dinámico en el que las probabilidades de cruce y mutación son ajustadas automáticamente durante la ejecución mediante un agente de aprendizaje por refuerzo. Para ello, se ha diseñado un entorno de entrenamiento en el que el agente interactúa con el proceso de evolución del algoritmo genético, observando el estado de la población y tomando decisiones sobre los valores óptimos de los parámetros en cada generación. El objetivo del agente es aprender una política que permita adaptar estos valores de forma inteligente para maximizar el rendimiento global del algoritmo, tanto en términos de la calidad de las soluciones como en el tiempo de resolución. Se han evaluado diversas arquitecturas para el agente de aprendizaje por refuerzo, destacando especialmente PPOAgent, basada en el algoritmo Proximal Policy Optimización, que ha mostrado una notable capacidad para mejorar el rendimiento del algoritmo genético en diferentes instancias del problema. Este enfoque ha permitido una mayor adaptabilidad del proceso evolutivo, logrando soluciones de mejor calidad en menos generaciones y con mayor estabilidad. En cuanto al tiempo de ejecución, la arquitectura propuesta MyQLAgent basada en una Graph Neural Network (GNN) que extrae información estructural de la población representada como un grafo y utiliza el algoritmo Q-Learning para entrenar ha obtenido los mejores tiempos en las instancias de mayor tamaño, aunque sacrificando en parte la calidad de las soluciones. Para las instancias más pequeñas, la arquitectura tomada de la literatura ha sido la que ha conseguido los menores tiempos de evaluación. Este trabajo pone de relieve el potencial del aprendizaje por refuerzo como mecanismo de control adaptativo dentro de algoritmos metaheurísticos, abriendo nuevas posibilidades para la resolución eficiente de problemas complejos de optimización en contextos industriales reales.