OSINT Infohound – Síntesis de datos de fuentes abiertas por medio de modelos de lenguaje de gran tamaño (LLM)

En este trabajo se analiza la viabilidad de la integración de modelos de lenguaje de gran tamaño (LLM) en plataformas de recolección de información de fuentes abiertas (OSINT) con el objetivo de mejorar la eficiencia de búsqueda y análisis de este tipo de información. Se argumenta que los LLM pueden...

Descripción completa

Detalles Bibliográficos
Autor: Casado Herrero, Marcos
Tipo de recurso: tesis de maestría
Fecha de publicación:2024
País:España
Institución:Universitat Oberta de Catalunya (UOC)
Repositorio:O2, repositorio institucional de la UOC
OAI Identifier:oai:openaccess.uoc.edu:10609/149544
Acceso en línea:http://hdl.handle.net/10609/149544
Access Level:acceso abierto
Palabra clave:OSINT
AI
LLM
Computer security -- TFM
Seguretat informàtica -- TFM
id ES_5ca06a736ef0169efe6f2ccff18c5c2e
oai_identifier_str oai:openaccess.uoc.edu:10609/149544
network_acronym_str ES
network_name_str España
repository_id_str
spelling OSINT Infohound – Síntesis de datos de fuentes abiertas por medio de modelos de lenguaje de gran tamaño (LLM)Casado Herrero, MarcosOSINTAILLMComputer security -- TFMSeguretat informàtica -- TFMEn este trabajo se analiza la viabilidad de la integración de modelos de lenguaje de gran tamaño (LLM) en plataformas de recolección de información de fuentes abiertas (OSINT) con el objetivo de mejorar la eficiencia de búsqueda y análisis de este tipo de información. Se argumenta que los LLM pueden aportar versatilidad, flexibilidad y valor añadido a estas plataformas, permitiendo buscar, analizar y sintetizar grandes cantidades de datos. Para ilustrar esta idea, se presenta un caso práctico de integración de un LLM en la plataforma InfoHound. InfoHound es una herramienta del instituto de investigación e innovación i2cat de Catalunya que permite, entre otras cosas, a las organizaciones realizar el análisis inverso de la información que se ha indexado sobre ellas en Internet. La integración de un LLM en esta plataforma abriría un gran abanico de oportunidades, permitiendo, por ejemplo, sintetizar los curriculum vitae de las personas asociadas a una organización, o clasificar personas por su pensamiento político derivado de la información de redes sociales. El ejemplo de caso práctico presentado durante este trabajo y demostrado sobre InfoHound consiste en recopilar perfiles de usuarios de fuentes abiertas y guardar los datos de estos tal y como se encuentran en la red, con distintos formatos. De tal manera que, a partir de esta información desorganizada, se le pueda pedir a un contenedor de modelos LLM que busque, filtre y sintetice la información generando un resumen profesional para cada persona recopilada.This thesis analyses the feasibility of integrating large language models (LLMs) into open-source intelligence (OSINT) collection platforms, with the aim of improving the efficiency of open-source intelligence analysis. It is argued that LLMs can add versatility, flexibility, and value to these platforms, enabling the search, analysis, and synthesis of large amounts of data. To illustrate this idea, a practical case of integrating an LLM into the InfoHound platform is presented. InfoHound is a tool from the research and innovation institute i2cat of Catalunya that allows organisations to perform reverse analysis on information indexed about them. Integrating an LLM into this platform would open up a wide range of possibilities, such as synthesising the CVs of individuals associated with an organisation, or classifying individuals based on their political thinking derived from social media information. The practical case study applied to InfoHound consists of collecting user profiles from open-sources and storing their data in a disorganised way, with different formats or sources, so that later an LLM model container can be asked to analyse the information and generate a professional summary for each person collected.Universitat Oberta de Catalunya (UOC)Garcia-Font, VictorGuijarro, Jordi202420242024info:eu-repo/semantics/masterThesisapplication/pdfapplication/pdfhttp://hdl.handle.net/10609/149544reponame:O2, repositorio institucional de la UOCinstname:Universitat Oberta de Catalunya (UOC)EspañolCC BY-NC-NDhttp://creativecommons.org/licenses/by-nc-nd/3.0/es/info:eu-repo/semantics/openAccessoai:openaccess.uoc.edu:10609/1495442026-05-28T12:42:01Z
dc.title.none.fl_str_mv OSINT Infohound – Síntesis de datos de fuentes abiertas por medio de modelos de lenguaje de gran tamaño (LLM)
title OSINT Infohound – Síntesis de datos de fuentes abiertas por medio de modelos de lenguaje de gran tamaño (LLM)
spellingShingle OSINT Infohound – Síntesis de datos de fuentes abiertas por medio de modelos de lenguaje de gran tamaño (LLM)
Casado Herrero, Marcos
OSINT
AI
LLM
Computer security -- TFM
Seguretat informàtica -- TFM
title_short OSINT Infohound – Síntesis de datos de fuentes abiertas por medio de modelos de lenguaje de gran tamaño (LLM)
title_full OSINT Infohound – Síntesis de datos de fuentes abiertas por medio de modelos de lenguaje de gran tamaño (LLM)
title_fullStr OSINT Infohound – Síntesis de datos de fuentes abiertas por medio de modelos de lenguaje de gran tamaño (LLM)
title_full_unstemmed OSINT Infohound – Síntesis de datos de fuentes abiertas por medio de modelos de lenguaje de gran tamaño (LLM)
title_sort OSINT Infohound – Síntesis de datos de fuentes abiertas por medio de modelos de lenguaje de gran tamaño (LLM)
dc.creator.none.fl_str_mv Casado Herrero, Marcos
author Casado Herrero, Marcos
author_facet Casado Herrero, Marcos
author_role author
dc.contributor.none.fl_str_mv Garcia-Font, Victor
Guijarro, Jordi
dc.subject.none.fl_str_mv OSINT
AI
LLM
Computer security -- TFM
Seguretat informàtica -- TFM
topic OSINT
AI
LLM
Computer security -- TFM
Seguretat informàtica -- TFM
description En este trabajo se analiza la viabilidad de la integración de modelos de lenguaje de gran tamaño (LLM) en plataformas de recolección de información de fuentes abiertas (OSINT) con el objetivo de mejorar la eficiencia de búsqueda y análisis de este tipo de información. Se argumenta que los LLM pueden aportar versatilidad, flexibilidad y valor añadido a estas plataformas, permitiendo buscar, analizar y sintetizar grandes cantidades de datos. Para ilustrar esta idea, se presenta un caso práctico de integración de un LLM en la plataforma InfoHound. InfoHound es una herramienta del instituto de investigación e innovación i2cat de Catalunya que permite, entre otras cosas, a las organizaciones realizar el análisis inverso de la información que se ha indexado sobre ellas en Internet. La integración de un LLM en esta plataforma abriría un gran abanico de oportunidades, permitiendo, por ejemplo, sintetizar los curriculum vitae de las personas asociadas a una organización, o clasificar personas por su pensamiento político derivado de la información de redes sociales. El ejemplo de caso práctico presentado durante este trabajo y demostrado sobre InfoHound consiste en recopilar perfiles de usuarios de fuentes abiertas y guardar los datos de estos tal y como se encuentran en la red, con distintos formatos. De tal manera que, a partir de esta información desorganizada, se le pueda pedir a un contenedor de modelos LLM que busque, filtre y sintetice la información generando un resumen profesional para cada persona recopilada.
publishDate 2024
dc.date.none.fl_str_mv 2024
2024
2024
dc.type.none.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
dc.identifier.none.fl_str_mv http://hdl.handle.net/10609/149544
url http://hdl.handle.net/10609/149544
dc.language.none.fl_str_mv Español
language_invalid_str_mv Español
dc.rights.none.fl_str_mv CC BY-NC-ND
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv CC BY-NC-ND
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
application/pdf
dc.publisher.none.fl_str_mv Universitat Oberta de Catalunya (UOC)
publisher.none.fl_str_mv Universitat Oberta de Catalunya (UOC)
dc.source.none.fl_str_mv reponame:O2, repositorio institucional de la UOC
instname:Universitat Oberta de Catalunya (UOC)
instname_str Universitat Oberta de Catalunya (UOC)
reponame_str O2, repositorio institucional de la UOC
collection O2, repositorio institucional de la UOC
repository.name.fl_str_mv
repository.mail.fl_str_mv
_version_ 1869408928808304640
score 15,300724