Evaluación del rendimiento de algoritmos sobre frameworks Hadoop y Spark

Big Data e inteligencia artificial son conceptos que están a la orden del día en la actualidad, pero cómo funcionan internamente es una incógnita para la mayoría de la sociedad, por ello en este documento se busca esclarecer dichos términos y como consecuencia entender y evaluar distintas metodologí...

Descripción completa

Detalles Bibliográficos
Autor: Cañada Rostro, Carlos
Tipo de recurso: tesis de maestría
Fecha de publicación:2024
País:España
Institución:Universidad Nacional de Educación a Distancia
Repositorio:e-spacio. Repositorio Institucional de la UNED
Idioma:español
OAI Identifier:oai:e-spacio.uned.es:20.500.14468/24119
Acceso en línea:https://hdl.handle.net/20.500.14468/24119
Access Level:acceso abierto
Palabra clave:1203.17 Informática
Apache
Hadoop
Spark
Hive
AWS
Descripción
Sumario:Big Data e inteligencia artificial son conceptos que están a la orden del día en la actualidad, pero cómo funcionan internamente es una incógnita para la mayoría de la sociedad, por ello en este documento se busca esclarecer dichos términos y como consecuencia entender y evaluar distintas metodologías que llevan a su utilización. Para ello, se cuenta con frameworks como Apache Hadoop o Apache Spark, los cuales brindan la posibilidad de procesar grandes cantidades de datos distribuyéndolos en diferentes máquinas para su procesamiento. Como parte del análisis, se comparará la eficiencia de ambos frameworks, no solo en términos de tiempo de ejecución, sino también en el uso de recursos como CPU, memoria y red, proporcionando una evaluación más exhaustiva de su rendimiento en un entorno distribuido. Como caso práctico en este trabajo, se utilizarán datos de imágenes por satélite, las cuales pueden alcanzar un tamaño considerable haciendo imposible siquiera su apertura en una configuración local, mucho menos su procesamiento. Estas imágenes, a diferencia de las que son utilizadas continuamente cuentan con más de tres bandas de color (RGB), es decir, son multibanda o multiespectrales, permitiendo realizar una serie de cálculos sobre ellas realmente útiles en el ámbito de la teledetección. Además, los resultados obtenidos tras el procesamiento de estas imágenes podrán ser visualizados y empleados para la toma de decisiones en áreas como la agricultura de precisión o el monitoreo ambiental, subrayando el valor práctico de la información extraída. La metodología a seguir será el desarrollo y puesta en marcha de una infraestructura capaz de cargar ingentes cantidades de datos, distribuirlos en un clúster compuesto por varias máquinas, realizar el cálculo pertinente de manera distribuida y recuperar el resultado final. Además de probar y evaluar los dos frameworks mencionados anteriormente, se utilizarán herramientas y plataformas extra como Apache Hive y Amazon Web Services, proporcionando un entorno robusto y escalable para manejar grandes volúmenes de datos.