A Parametric model for computational colour naming
El color és una font d'informació visual molt important i àmpliament utilitzada en els darrers anys en la visió per computador. La majoria dels mètodes desenvolupats fins ara tenen com objectiu extreure característiques de baix nivell de les imatges i aquesta informació no té un lligam directe...
| Autor: | |
|---|---|
| Tipo de recurso: | tesis doctoral |
| Fecha de publicación: | 2008 |
| País: | España |
| Institución: | Universitat Autònoma de Barcelona |
| Repositorio: | Dipòsit Digital de Documents de la UAB |
| Idioma: | inglés |
| OAI Identifier: | oai:ddd.uab.cat:37031 |
| Acceso en línea: | https://ddd.uab.cat/record/37031 |
| Access Level: | acceso abierto |
| Palabra clave: | Visió del color Visió per ordinador Percepció visual |
| Sumario: | El color és una font d'informació visual molt important i àmpliament utilitzada en els darrers anys en la visió per computador. La majoria dels mètodes desenvolupats fins ara tenen com objectiu extreure característiques de baix nivell de les imatges i aquesta informació no té un lligam directe amb la semàntica d'alt nivell que utilitzem els humans. La falta d'aquesta relació directa, que es coneix com 'semantic gap', és encara més significativa per algunes aplicacions com la recuperació d'imatges de bases de dades on els usuaris requereixen sistemes que permetin realitzar cerques en llenguatge natural o almenys en un llenguatge d'alt nivell. Per tant, el principal objectiu d'aquesta tesi és fer un avanç en la línia de reduir el 'semantic gap' en la tasca de donar noms als colors de les imatges. La principal contribució d'aquesta tesi és un model paramètric d'assignació de noms de colors en imatges. El problema s'ha emmarcat en la teoria dels conjunts difusos en la que cadascuna de les 11 categories bàsiques de color (blanc, negre, vermell, verd, groc, blau, marró, morat, rosa, taronja i gris) està caracteritzada per una funció de pertinença. Donat que l'objectiu d'aquest model és obtenir els mateixos noms que proporcionaria un observador humà, es necessita un conjunt de judicis fets per persones com a punt de partida pel procés de modelat. Per obtenir aquest conjunt de dades es proposa una metodologia basada en lògica difusa per experiments psicofísics que ha permès obtenir un conjunt de judicis difusos. La metodologia i els resultats són validats a partir del càlcul d'alguns estadístics habituals que són comparats amb experiments previs per mostrar l'equivalència entre els resultats obtinguts amb la nova metodologia i els d'experiments anteriors. El conjunt de dades obtingut s'ha posat a disposició de la comunitat científica a través d'Internet. L'anàlisi dels resultats de l'experiment permet definir les propietats que les funcions de pertinença haurien de complir. Proposarem i avaluarem diverses funcions per arribar finalment al model Triple Sigmoid amb centre El·líptic (TSE) que proporciona un bon ajust al conjunt d'aprenentatge i una classificació de l'espai de color Munsell que és consistent amb els treballs previs. El resultat del procés d'ajust és el conjunt de paràmetres del model que permeten calcular la pertinença de qualsevol mostra de color a les 11 categories de color considerades, amb tots els avantatges d'una implementació paramètrica. La darrera part de la tesi està dedicada a l'anàlisi de les condicions necessàries per aplicar el model en imatges reals sota condicions no calibrades on no es coneix cap informació sobre les condicions d'adquisició. Aquesta anàlisi mostra que el model pot funcionar amb un error acceptable en aplicacions de visió per computador en les que és necessària una representació perceptiva de la informació de color. El model s'avalua en una d'aquestes aplicacions per un problema real d'anotació automàtica de bases de dades d'imatges. Els resultats en els experiments mostren la potencialitat del model d'assignació de noms de color per diferents aplicacions futures i obren noves possibilitats de recerca en aquest camp. |
|---|