Modelo de ataque adversario a modelos de lenguaje discriminativo a partir de modelos de lenguaje generativos

Los modelos de lenguaje presentan vulnerabilidades de seguridad inherentes, especialmente cuando los datos de entrada son alterados de manera maliciosa. Estas debilidades resultan especialmente preocupantes cuando los ataques adversarios son sutiles y requieren pocos recursos computacionales. En est...

Descripción completa

Detalles Bibliográficos
Autor: Moreno Muñoz, Adrián
Tipo de recurso: tesis de maestría
Fecha de publicación:2025
País:España
Institución:Universidad de Jaén (UJA)
Repositorio:CREA. Colección de recursos educativos abiertos
OAI Identifier:oai:crea.ujaen.es:10953.1/27475
Acceso en línea:https://hdl.handle.net/10953.1/27475
Access Level:acceso abierto
Palabra clave:Informática
Inteligencia artificial
1203.17 Informática
1203.04 Inteligencia artificial
Descripción
Sumario:Los modelos de lenguaje presentan vulnerabilidades de seguridad inherentes, especialmente cuando los datos de entrada son alterados de manera maliciosa. Estas debilidades resultan especialmente preocupantes cuando los ataques adversarios son sutiles y requieren pocos recursos computacionales. En este trabajo se analiza la vulnerabilidad de los modelos de lenguaje frente a estos ataques, centrándose en la modificación de las palabras más influyentes del texto de entrada. Se propone un método de ataque que primero identifica las palabras clave mediante técnicas de explicabilidad y luego las reemplaza por sinónimos contextuales generados por un modelo de lenguaje pequeño. Para evaluar el ataque, se introduce una nueva métrica que considera tanto su efectividad como el número de modificaciones realizadas. Los resultados indican que incluso alteraciones semánticas mínimas pueden comprometer significativamente a los modelos de lenguaje preentrenados, lo que resalta la necesidad urgente de desarrollar contramedidas efectivas.