Evaluación del rendimiento de algoritmos sobre frameworks Hadoop y Spark
Big Data e inteligencia artificial son conceptos que están a la orden del día en la actualidad, pero cómo funcionan internamente es una incógnita para la mayoría de la sociedad, por ello en este documento se busca esclarecer dichos términos y como consecuencia entender y evaluar distintas metodologí...
| Autor: | |
|---|---|
| Tipo de recurso: | tesis de maestría |
| Fecha de publicación: | 2024 |
| País: | España |
| Institución: | Universidad Nacional de Educación a Distancia |
| Repositorio: | e-spacio. Repositorio Institucional de la UNED |
| Idioma: | español |
| OAI Identifier: | oai:e-spacio.uned.es:20.500.14468/24119 |
| Acceso en línea: | https://hdl.handle.net/20.500.14468/24119 |
| Access Level: | acceso abierto |
| Palabra clave: | 1203.17 Informática Apache Hadoop Spark Hive AWS |
| Sumario: | Big Data e inteligencia artificial son conceptos que están a la orden del día en la actualidad, pero cómo funcionan internamente es una incógnita para la mayoría de la sociedad, por ello en este documento se busca esclarecer dichos términos y como consecuencia entender y evaluar distintas metodologías que llevan a su utilización. Para ello, se cuenta con frameworks como Apache Hadoop o Apache Spark, los cuales brindan la posibilidad de procesar grandes cantidades de datos distribuyéndolos en diferentes máquinas para su procesamiento. Como parte del análisis, se comparará la eficiencia de ambos frameworks, no solo en términos de tiempo de ejecución, sino también en el uso de recursos como CPU, memoria y red, proporcionando una evaluación más exhaustiva de su rendimiento en un entorno distribuido. Como caso práctico en este trabajo, se utilizarán datos de imágenes por satélite, las cuales pueden alcanzar un tamaño considerable haciendo imposible siquiera su apertura en una configuración local, mucho menos su procesamiento. Estas imágenes, a diferencia de las que son utilizadas continuamente cuentan con más de tres bandas de color (RGB), es decir, son multibanda o multiespectrales, permitiendo realizar una serie de cálculos sobre ellas realmente útiles en el ámbito de la teledetección. Además, los resultados obtenidos tras el procesamiento de estas imágenes podrán ser visualizados y empleados para la toma de decisiones en áreas como la agricultura de precisión o el monitoreo ambiental, subrayando el valor práctico de la información extraída. La metodología a seguir será el desarrollo y puesta en marcha de una infraestructura capaz de cargar ingentes cantidades de datos, distribuirlos en un clúster compuesto por varias máquinas, realizar el cálculo pertinente de manera distribuida y recuperar el resultado final. Además de probar y evaluar los dos frameworks mencionados anteriormente, se utilizarán herramientas y plataformas extra como Apache Hive y Amazon Web Services, proporcionando un entorno robusto y escalable para manejar grandes volúmenes de datos. |
|---|