OSINT Infohound – Síntesis de datos de fuentes abiertas por medio de modelos de lenguaje de gran tamaño (LLM)

En este trabajo se analiza la viabilidad de la integración de modelos de lenguaje de gran tamaño (LLM) en plataformas de recolección de información de fuentes abiertas (OSINT) con el objetivo de mejorar la eficiencia de búsqueda y análisis de este tipo de información. Se argumenta que los LLM pueden...

Descripción completa

Detalles Bibliográficos
Autor: Casado Herrero, Marcos
Tipo de recurso: tesis de maestría
Fecha de publicación:2024
País:España
Institución:Universitat Oberta de Catalunya (UOC)
Repositorio:O2, repositorio institucional de la UOC
OAI Identifier:oai:openaccess.uoc.edu:10609/149544
Acceso en línea:http://hdl.handle.net/10609/149544
Access Level:acceso abierto
Palabra clave:OSINT
AI
LLM
Computer security -- TFM
Seguretat informàtica -- TFM
Descripción
Sumario:En este trabajo se analiza la viabilidad de la integración de modelos de lenguaje de gran tamaño (LLM) en plataformas de recolección de información de fuentes abiertas (OSINT) con el objetivo de mejorar la eficiencia de búsqueda y análisis de este tipo de información. Se argumenta que los LLM pueden aportar versatilidad, flexibilidad y valor añadido a estas plataformas, permitiendo buscar, analizar y sintetizar grandes cantidades de datos. Para ilustrar esta idea, se presenta un caso práctico de integración de un LLM en la plataforma InfoHound. InfoHound es una herramienta del instituto de investigación e innovación i2cat de Catalunya que permite, entre otras cosas, a las organizaciones realizar el análisis inverso de la información que se ha indexado sobre ellas en Internet. La integración de un LLM en esta plataforma abriría un gran abanico de oportunidades, permitiendo, por ejemplo, sintetizar los curriculum vitae de las personas asociadas a una organización, o clasificar personas por su pensamiento político derivado de la información de redes sociales. El ejemplo de caso práctico presentado durante este trabajo y demostrado sobre InfoHound consiste en recopilar perfiles de usuarios de fuentes abiertas y guardar los datos de estos tal y como se encuentran en la red, con distintos formatos. De tal manera que, a partir de esta información desorganizada, se le pueda pedir a un contenedor de modelos LLM que busque, filtre y sintetice la información generando un resumen profesional para cada persona recopilada.