Topic models with time related context
La rápida evolución de los medios digitales y la gran cantidad de textos generados en línea presentan desafíos significativos para las empresas a la hora de comprender la opinión pública y su percepción de marca. Si bien las herramientas de monitoreo de IA existentes se han centrado en analizar gran...
| Autor: | |
|---|---|
| Tipo de recurso: | tesis doctoral |
| Fecha de publicación: | 2026 |
| País: | España |
| Institución: | Universidad de Cantabria (UC) |
| Repositorio: | e-spacio (DSpace). Repositorio Institucional de la UNED |
| Idioma: | inglés |
| OAI Identifier: | oai:e-spacio.uned.es:20.500.14468/32006 |
| Acceso en línea: | https://hdl.handle.net/20.500.14468/32006 |
| Access Level: | acceso abierto |
| Palabra clave: | 1203.18 Sistemas de información, diseño y componentes 1203.17 Informática |
| Sumario: | La rápida evolución de los medios digitales y la gran cantidad de textos generados en línea presentan desafíos significativos para las empresas a la hora de comprender la opinión pública y su percepción de marca. Si bien las herramientas de monitoreo de IA existentes se han centrado en analizar grandes volúmenes de texto para extraer información de forma automática (por ejemplo, mediante la modelización de “tópicos”), a menudo se deja fuera del análisis una importante modalidad de datos que suele ocurrir junto con el contenido textual: el contexto temporal. Este tipo de contexto puede ser intrínseco (como la fecha de publicación de un documento) o extrínseco (como series temporales externas correlacionadas con los eventos descritos en los documentos). Los algoritmos que no tienen en cuenta el tiempo, como el modelo de “tópicos” estándar Latent Dirichlet Allocation (LDA), no pueden aprovechar esta valiosa fuente de información. El objetivo de este Doctorado Industrial es diseñar modelos de “tópicos” originales que incluyan datos contextuales relacionados con el tiempo para resolver problemas de negocio específicos. En particular, pretendemos abordar dos problemas independientes: en primer lugar, el desarrollo de un modelo para la regresión de series temporales a través de models de “tópicos” que pueda utilizarse como parte de un marco para la cuantificación del riesgo reputacional; en segundo lugar, el desarrollo de un modelo de “tópicos” sensible al tiempo que presente un algoritmo de optimización estable y eficiente adecuado para grandes colecciones de textos muy cortos, como los que se encuentran en sitios de microblogging como Twitter. El problema de la regresión de series temporales a través de la modelización de “tópicos” viene motivado por la observación de que una serie temporal externa de datos numéricos y una secuencia de documentos ordenados en el tiempo a menudo están vinculados: por ejemplo, el valor de las acciones de una empresa puede exhibir correlaciones con noticias sobre esa empresa. Nuestro objetivo era modelar el impacto que los temas subyacentes discutidos en los textos tienen en la serie temporal. Para ello, introdujimos un modelo de “tópicos” original, Time Series Impact Through Topic Modeling (TSITM), que incluye datos contextuales al acoplar LDA con una regresión lineal, utilizando un prior “elastic net” para fijar a cero el impacto de los “tópicos” no correlacionados. Los “tópicos” resultantes actúan como variables explicativas para la regresión de la serie temporal numérica, lo que nos permite comprender los movimientos de la serie temporal en función de los eventos descritos en los datos de texto. Hemos probado nuestro modelo en dos conjuntos de datos: primero, utilizamos noticias políticas para explicar las cotas de popularidad del presidente de los Estados Unidos; luego, consideramos un corpus de noticias económicas para explicar los rendimientos financieros de 4 corporaciones multinacionales diferentes. Nuestros experimentos muestran que una selección adecuada de hiperparámetros (a través de la validación de submuestreo aleatorio repetido y la optimización bayesiana) conduce a correlaciones significativas: tanto una referencia intrínseca como los métodos más avanzados fueron superados significativamente por TSITM en MSE, MAE y R^2, según nuestro contraste de hipotésis. El problema de utilizar las fechas de publicación internas de los documentos para desarrollar modelos de “tópicos” sensibles al tiempo tiene notables precedentes en la literatura: el modelo Topics over Time (ToT) capturó cambios temáticos en conjuntos de datos con fecha de publicación al modelar explícitamente las fechas de publicación junto con los patrones de coocurrencia de palabras. Sin embargo, ToT no se abordó de manera completamente bayesiana, un defecto que lo hace susceptible a problemas de estabilidad, particularmente cuando la tarea implica modelar una gran colección de textos cortos. Para abordar este problema, propusimos un modelo completamente bayesiano, Topics over Time (BToT), a través de la introducción de un prior conjugado de la distribución Beta. Este prior actúa como una regularización que evita que la versión en línea del algoritmo realice actualizaciones inestables cuando un “tópico” está poco representado en un mini-batch. Las características de este prior de la distribución Beta se estudian aquí por primera vez. Aún así, este modelo sufre de una diferencia de escala entre la fecha de publicación y la multiplicidad de palabras por documento. Se propone una variación de BToT, Weighted Bayesian Topics over Time (WBToT), como solución. En WBToT, las fechas de publicación se repiten un cierto número de veces por documento, lo que equilibra la influencia relativa de las palabras y las fechas a lo largo del proceso de inferencia. Hemos probado nuestros modelos en dos conjuntos de datos: una colección de más de 200 años de discursos sobre el estado de la unión (SOTU) de los Estados Unidos y un corpus de Twitter a gran escala de COVID-19 con 10 millones de tuits. Los resultados muestran que WBToT captura eventos mejor que LDA y otros modelos de “tópicos” sin contexto temporal; además, la estabilidad del algoritmo de optimización en línea en WBToT permite su aplicación a problemas que son intratables para ToT estándar. La introducción de los modelos TSITM y WBToT tuvo motivaciones distintas y sirvió para diferentes propósitos, pero ambos destacaron la importancia de modelar datos textuales conjuntamente con metadatos temporales. Capturar la compleja interacción de estas dos modalidades de datos planteó obstáculos similares en ambos casos, por lo que los métodos y estrategias que desarrollamos compartieron muchos elementos comunes. Esperamos que el formalismo presentado en esta tesis sea lo suficientemente general como para servir de base para futuros modelos de “tópicos” con contexto temporal. Dado el carácter aplicado y enfocado en la industria de este programa de doctorado, también enfatizamos las aplicaciones comerciales de los algoritmos descritos anteriormente. Se presentó un recorrido por algunos de los productos más notables construidos sobre esta tecnología, y los casos de uso de los clientes ilustraron el interés de la investigación presentada en esta tesis. |
|---|