Técnicas para la detección de noticias falsas y desinformación. El dominio médico como caso de estudio
La proliferación de las noticias falsas y la desinformación se ha convertido en un grave problema para la sociedad. Este fenómeno se ha visto acentuado con la popularización de las redes sociales ya que estas plataformas permiten la diseminación de cualquier contenido de una forma casi instantánea....
| Autor: | |
|---|---|
| Tipo de recurso: | tesis doctoral |
| Fecha de publicación: | 2026 |
| País: | España |
| Institución: | Universidad de Cantabria (UC) |
| Repositorio: | e-spacio (DSpace). Repositorio Institucional de la UNED |
| Idioma: | español |
| OAI Identifier: | oai:e-spacio.uned.es:20.500.14468/32009 |
| Acceso en línea: | https://hdl.handle.net/20.500.14468/32009 |
| Access Level: | acceso abierto |
| Palabra clave: | 1203.17 Informática 1203.04 Inteligencia artificial |
| Sumario: | La proliferación de las noticias falsas y la desinformación se ha convertido en un grave problema para la sociedad. Este fenómeno se ha visto acentuado con la popularización de las redes sociales ya que estas plataformas permiten la diseminación de cualquier contenido de una forma casi instantánea. Habitualmente, las noticias falsas se utilizan para favorecer determinadas agendas políticas, intereses económicos o estratégicos, dañar la reputación de personas, empresas o instituciones, y en ámbitos como el de la salud pueden causar daño físico real a las personas expuestas. Aunque existen organizaciones dedicadas a la verificación de noticias falsas, la magnitud del fenómeno hace necesario el desarrollo de sistemas de verificación automáticos que complementen esa labor. Esta tesis se propone abordar dos retos fundamentales: la detección automática de noticias falsas adaptada específicamente al dominio de la salud, y la generación de explicaciones comprensibles que justifiquen dichas evaluaciones. Para la detección, se ha diseñado una metodología integral que combina recopilación automática de datos, anotación a nivel de oración y extracción de características biomédicas. El flujo de trabajo, que funciona en modo atendido y autónomo, recupera periódicamente noticias evaluadas por entidades verificadoras y permite al usuario depurar el contenido o, en modo autónomo, generar estimaciones de veracidad sin intervención humana. Cada noticia se segmenta en oraciones; a partir de ellas se extraen conceptos médicos mediante una base de conocimiento especializada y se identifica su estructura sintáctica. La anotación se lleva a cabo en dos fases: primero, se clasifica cada oración según su idoneidad para ser verificada, aplicando criterios de factualidad y relevancia; segundo, se evalúa la veracidad de las oraciones marcadas como factuales y relevantes mediante modelos de clasificación ensamblados que combinan transformers y redes neuronales de propagación hacia adelante (FFNN) alimentados con las estructuras y conceptos extraídos de la oración. Como subproducto, se ha construido un corpus de noticias médicas anotado a nivel de oración, que proporciona una referencia valiosa para futuras investigaciones. En cuanto a la explicabilidad, se plantea un sistema que recupera evidencia contextual de la Web y emplea grandes modelos de lenguaje (LLM) para razonar sobre ella y producir explicaciones estructuradas que respalden las evaluaciones de veracidad realizadas por sistemas de detección no explicativos. Priorizamos la accesibilidad mediante modelos de pesos abiertos que pueden ejecutarse localmente con recursos limitados. Para compensar su capacidad restringida, atomizamos tanto el cuerpo de la noticia como la evidencia recuperada en unidades mas pequeñas. Esta transformación destila la información esencial, elimina datos irrelevantes y sirve de base para formular preguntas cerradas que guían la búsqueda de evidencia. La evidencia recuperada también se atomiza, y a partir de esos elementos y de las preguntas cerradas se generan explicaciones parciales que, una vez integradas, forman una explicación completa y coherente sobre la veracidad de la noticia. De esta forma, los LLM realizan tareas simples de análisis y generación de texto, reduciendo así la carga de razonamiento y mitigando posibles alucinaciones. Los resultados demuestran que los modelos de lenguaje discriminativos empleados alcanzan precisiones competitivas en la detección de noticias falsas en el ámbito de la salud, y que la incorporación de estructuras lingüísticas y ontologías médicas potencia su rendimiento. Por otro lado, el uso de LLM generativos junto con evidencia limitada recuperada de Internet permite producir explicaciones automáticas y coherentes. En conjunto, la tesis ofrece un marco integral que combina detección y explicabilidad, contribuyendo a mitigar la desinformación sanitaria y proporcionando recursos reutilizables para la comunidad investigadora. |
|---|