Predicción de consumo de recursos para la ejecución de procesos

La creación y consumo de datos a través de internet ha experimentado un incremento en los últimos años que implica que cada vez sea más necesario disponer de aplicaciones basadas en tecnologías Big Data que puedan tratar con esa información y obtener un valor de esos datos. Estas tecnologías general...

Descripción completa

Detalles Bibliográficos
Autor: García Hernández, Antonio
Tipo de recurso: tesis de maestría
Fecha de publicación:2022
País:España
Institución:Universidad Nacional de Educación a Distancia
Repositorio:e-spacio. Repositorio Institucional de la UNED
Idioma:español
OAI Identifier:oai:e-spacio.uned.es:20.500.14468/14197
Acceso en línea:https://hdl.handle.net/20.500.14468/14197
Access Level:acceso abierto
Palabra clave:1203.04 Inteligencia artificial
predicción de consumo de recursos
series temporales
Google Borg Cluster
Traces v3
aprendizaje automático
aprendizaje automático profundo
Jupyter Notebook
Python3
Scikit-Learn
Keras
TensorFlow
Descripción
Sumario:La creación y consumo de datos a través de internet ha experimentado un incremento en los últimos años que implica que cada vez sea más necesario disponer de aplicaciones basadas en tecnologías Big Data que puedan tratar con esa información y obtener un valor de esos datos. Estas tecnologías generalmente funcionan de modo distribuido sobre plataformas empresariales que pueden alcanzar en algunos casos miles de máquinas de procesamiento. Dado que estas plataformas van a gestionar cada vez más volumen de datos, se hace necesario optimizar los recursos existentes en la infraestructura de modo que se continue dando servicio a la ejecución de esas aplicaciones de un modo más eficiente. Una opción podría ser planificar la ejecución de aplicaciones conociendo cuando se van a producir los mayores consumos de recursos por parte de estas. De modo que se pudiese adelantar o retrasar algunos trabajos planificados para que sus picos de consumo no coincidan en tiempo y finalicen incorrectamente por falta de recursos en el sistema. En este trabajo se analizará un conjunto de datos real extraído de una plataforma de procesamiento distribuido donde multitud de aplicaciones ejecutan sus tareas de modo paralelizado y concurrente. Posteriormente, los datos serán utilizados para crear modelos de aprendizaje automático mediante series temporales con la idea de predecir, para la próxima ejecución de una determinada aplicación, cuando se producirá su pico de consumo máximo y cuál será el valor de este.