Modelo de ataque adversario a modelos de lenguaje discriminativo a partir de modelos de lenguaje generativos
Los modelos de lenguaje presentan vulnerabilidades de seguridad inherentes, especialmente cuando los datos de entrada son alterados de manera maliciosa. Estas debilidades resultan especialmente preocupantes cuando los ataques adversarios son sutiles y requieren pocos recursos computacionales. En est...
| Autor: | |
|---|---|
| Tipo de recurso: | tesis de maestría |
| Fecha de publicación: | 2025 |
| País: | España |
| Institución: | Universidad de Jaén (UJA) |
| Repositorio: | CREA. Colección de recursos educativos abiertos |
| OAI Identifier: | oai:crea.ujaen.es:10953.1/27475 |
| Acceso en línea: | https://hdl.handle.net/10953.1/27475 |
| Access Level: | acceso abierto |
| Palabra clave: | Informática Inteligencia artificial 1203.17 Informática 1203.04 Inteligencia artificial |
| Sumario: | Los modelos de lenguaje presentan vulnerabilidades de seguridad inherentes, especialmente cuando los datos de entrada son alterados de manera maliciosa. Estas debilidades resultan especialmente preocupantes cuando los ataques adversarios son sutiles y requieren pocos recursos computacionales. En este trabajo se analiza la vulnerabilidad de los modelos de lenguaje frente a estos ataques, centrándose en la modificación de las palabras más influyentes del texto de entrada. Se propone un método de ataque que primero identifica las palabras clave mediante técnicas de explicabilidad y luego las reemplaza por sinónimos contextuales generados por un modelo de lenguaje pequeño. Para evaluar el ataque, se introduce una nueva métrica que considera tanto su efectividad como el número de modificaciones realizadas. Los resultados indican que incluso alteraciones semánticas mínimas pueden comprometer significativamente a los modelos de lenguaje preentrenados, lo que resalta la necesidad urgente de desarrollar contramedidas efectivas. |
|---|