Aprendizaje automático versus expresiones regulares en la detección de la negación y la especulación en biomedicina

En este artículo, presentamos un sistema de aprendizaje automático que identifica las expresiones de negación y especulación en textos biomédicos, en concreto, en la colección de documentos BioScope. El objetivo de este trabajo es contrastar la eficiencia de este enfoque centrado en aprendizaje auto...

Descripción completa

Detalles Bibliográficos
Autores: Cruz Díaz, Noa Patricia, Maña López, Manuel Jesús, Mata Vázquez, Jacinto
Tipo de recurso: artículo
Fecha de publicación:2010
País:España
Institución:Universidad de Huelva (UHU)
Repositorio:Arias Montano. Repositorio Institucional de la Universidad de Huelva
Idioma:español
OAI Identifier:oai:ariasmontano.uhu.es:10272/11257
Acceso en línea:http://hdl.handle.net/10272/11257
Access Level:acceso abierto
Palabra clave:Detección de la negación y la especulación
Aprendizaje automático
Expresiones regulares
Biomedicina
Negation and speculation detection
Machine learning
Biomedicine
Descripción
Sumario:En este artículo, presentamos un sistema de aprendizaje automático que identifica las expresiones de negación y especulación en textos biomédicos, en concreto, en la colección de documentos BioScope. El objetivo de este trabajo es contrastar la eficiencia de este enfoque centrado en aprendizaje automático con el que se basa en expresiones regulares. Entre los sistemas que siguen este último enfoque, hemos utilizado NegEx por su disponiblidad y popularidad. La evaluación se ha llevado a cabo sobre las tres subcolecciones que forman BioScope: documentos clínicos, artículos científicos y resúmenes de artículos científicos. Los resultados muestran la superioridad del enfoque basado en aprendizaje automático respecto a la utilización de expresiones regulares. En la identificación de expresiones de negación, el sistema propuesto mejora la medida F1 de NegEx entre un 20 y un 30%, dependiendo de la colección de documentos. En la identificación de la especulación, el sistema propuesto supera la medida F1 del mejor algoritmo de línea base entre un 10 y un 20%.