Robust Handwritten Text Recognition in Scarce Labeling Scenarios: Disentanglement, Adaptation and Generation

Els documents escrits a mà no només es conserven en arxius històrics, sinó que també s’utilitzen àmpliament en documents administratius, com ara xecs o formularis. Amb l’auge de de l’anomenat aprenentatge profund (Deep Learning), s’ha aconseguit un bon rendiment en conjunts de dades específics per a...

Descripción completa

Detalles Bibliográficos
Autor: Kang, Lei
Tipo de recurso: tesis doctoral
Estado:Versión publicada
Fecha de publicación:2020
País:España
Institución:CBUC, CESCA
Repositorio:TDR. Tesis Doctorales en Red
OAI Identifier:oai:www.tdx.cat:10803/672067
Acceso en línea:http://hdl.handle.net/10803/672067
Access Level:acceso abierto
Palabra clave:Visió per computador
Visión por computadora
Computer vision
Reconeixement de patrons
Reconocimiento de patrones
Pattern recognition
Reconeixement de text manuscrit
Reconocimiento de texto manuscrito
Handwritten text recognition
Tecnologies
004
Descripción
Sumario:Els documents escrits a mà no només es conserven en arxius històrics, sinó que també s’utilitzen àmpliament en documents administratius, com ara xecs o formularis. Amb l’auge de de l’anomenat aprenentatge profund (Deep Learning), s’ha aconseguit un bon rendiment en conjunts de dades específics per al reconeixement de text manuscrit. Tot i això, encara és difícil resoldre casos d’ús reals a causa de la variació entre estils d’escriptura de diferents escriptors i el fet de tenir dades etiquetades limitades. Per tant, es requereix explorar arquitectures de reconeixement d’escriptura més sòlides així com proposar mètodes per disminuir la bretxa entre conjunts de dades font i objectiu de manera no supervisada. En aquesta tesi, en primer lloc, explorem noves arquitectures per al reconeixement de text manuscrit, un mètode Sequence-to-Sequence amb mecanisme d’atenció i un mètode basat en transformadors no recurrents. En segon lloc, ens centrem en la disminució de la bretxa de rendiment entre les dades d’origen i les de destinació de manera no supervisada. Finalment, proposem un grup de mètodes generatius per a imatges de text manuscrits, que es poden utilitzar per augmentar el conjunt d’entrenament per obtenir un reconeixement més robust. A més, simplement modificant el mètode generatiu i unint-lo amb un reconeixedor, acabem amb un mètode de desenredament eficaç per destil·lar contingut textual d’estils d’escriptura a mà per aconseguir un rendiment de reconeixement generalitzat. Superem el rendiment dels reconeixedors de text manuscrit de l’estat de l’art en els resultats experimentals entre diferents conjunts de dades científics i industrials, que demostren l’eficàcia dels mètodes proposats. Tant ell reconeixement no recurrent com el mètode de desenredament són les primeres contribucions al camp del reconeixement d’escriptura a mà. A més, hem esbossat les línies de recerca potencials, que serien interessants explorar en el futur.