Robust Handwritten Text Recognition in Scarce Labeling Scenarios: Disentanglement, Adaptation and Generation
Els documents escrits a mà no només es conserven en arxius històrics, sinó que també s’utilitzen àmpliament en documents administratius, com ara xecs o formularis. Amb l’auge de de l’anomenat aprenentatge profund (Deep Learning), s’ha aconseguit un bon rendiment en conjunts de dades específics per a...
| Autor: | |
|---|---|
| Tipo de recurso: | tesis doctoral |
| Estado: | Versión publicada |
| Fecha de publicación: | 2020 |
| País: | España |
| Institución: | CBUC, CESCA |
| Repositorio: | TDR. Tesis Doctorales en Red |
| OAI Identifier: | oai:www.tdx.cat:10803/672067 |
| Acceso en línea: | http://hdl.handle.net/10803/672067 |
| Access Level: | acceso abierto |
| Palabra clave: | Visió per computador Visión por computadora Computer vision Reconeixement de patrons Reconocimiento de patrones Pattern recognition Reconeixement de text manuscrit Reconocimiento de texto manuscrito Handwritten text recognition Tecnologies 004 |
| Sumario: | Els documents escrits a mà no només es conserven en arxius històrics, sinó que també s’utilitzen àmpliament en documents administratius, com ara xecs o formularis. Amb l’auge de de l’anomenat aprenentatge profund (Deep Learning), s’ha aconseguit un bon rendiment en conjunts de dades específics per al reconeixement de text manuscrit. Tot i això, encara és difícil resoldre casos d’ús reals a causa de la variació entre estils d’escriptura de diferents escriptors i el fet de tenir dades etiquetades limitades. Per tant, es requereix explorar arquitectures de reconeixement d’escriptura més sòlides així com proposar mètodes per disminuir la bretxa entre conjunts de dades font i objectiu de manera no supervisada. En aquesta tesi, en primer lloc, explorem noves arquitectures per al reconeixement de text manuscrit, un mètode Sequence-to-Sequence amb mecanisme d’atenció i un mètode basat en transformadors no recurrents. En segon lloc, ens centrem en la disminució de la bretxa de rendiment entre les dades d’origen i les de destinació de manera no supervisada. Finalment, proposem un grup de mètodes generatius per a imatges de text manuscrits, que es poden utilitzar per augmentar el conjunt d’entrenament per obtenir un reconeixement més robust. A més, simplement modificant el mètode generatiu i unint-lo amb un reconeixedor, acabem amb un mètode de desenredament eficaç per destil·lar contingut textual d’estils d’escriptura a mà per aconseguir un rendiment de reconeixement generalitzat. Superem el rendiment dels reconeixedors de text manuscrit de l’estat de l’art en els resultats experimentals entre diferents conjunts de dades científics i industrials, que demostren l’eficàcia dels mètodes proposats. Tant ell reconeixement no recurrent com el mètode de desenredament són les primeres contribucions al camp del reconeixement d’escriptura a mà. A més, hem esbossat les línies de recerca potencials, que serien interessants explorar en el futur. |
|---|