Leveraging Synthetic Data to Create Autonomous Driving Perception Systems

L'anotació manual d'imatges per desenvolupar sistemes basats en visió per computador ha estat un dels punts més problemàtics des que s'utilitza aprenentatge automàtic per a això. Aquesta tesi es centra en aprofitar les dades sintètiques per alleujar el cost de les anotacions manuals e...

Descripción completa

Detalles Bibliográficos
Autor: Villalonga, Gabriel|||0000-0002-1155-9374
Tipo de recurso: tesis doctoral
Fecha de publicación:2021
País:España
Institución:Universitat Autònoma de Barcelona
Repositorio:Dipòsit Digital de Documents de la UAB
Idioma:inglés
OAI Identifier:oai:ddd.uab.cat:243542
Acceso en línea:https://ddd.uab.cat/record/243542
Access Level:acceso abierto
Palabra clave:Visión por computador
Computer vision
Conducció autónoma
Conducción autónoma
Autonomous driving
Adaptació de domini
Adaptación de dominio
Domain adaptation
Tecnologies
Descripción
Sumario:L'anotació manual d'imatges per desenvolupar sistemes basats en visió per computador ha estat un dels punts més problemàtics des que s'utilitza aprenentatge automàtic per a això. Aquesta tesi es centra en aprofitar les dades sintètiques per alleujar el cost de les anotacions manuals en tres tasques de percepció relacionades amb l'assistència a la conducció i la conducció autònoma. En tot moment assumim l'ús de xarxes neuronals convolucionals per al desenvolupament dels nostres models profunds de percepció. La primera tasca planteja el reconeixement de senyals de trànsit, un problema de classificació d'imatges. Assumim que el nombre de classes de senyals de trànsit a reconèixer s'ha d'incrementar sense haver pogut anotar noves imatges amb què realitzar el corresponent reentrenament. Demostrem que aprofitant les dades sintètiques de les noves classes i transformant-les amb una xarxa adversària-generativa (GAN, de les seves sigles en anglès) entrenada amb les classes conegudes (sense usar mostres de les noves classes), és possible reentrenar la xarxa neuronal per classificar tots els senyals en una proporció ~1/4 entre classes noves i conegudes. La segona tasca consisteix en la detecció de vehicles i vianants (objectes) en imatges. En aquest cas, assumim la recepció d'un conjunt d'imatges sense anotar. L'objectiu és anotar automàticament aquestes imatges perquè així es puguin utilitzar posteriorment en l'entrenament del detector d'objectes que desitgem. Per assolir aquest objectiu, vam partir de dades sintètiques anotades i proposem un mètode d'aprenentatge semi-supervisat basat en la idea del co-aprenentatge. A més, utilitzem una GAN per reduir la distància entre els dominis sintètic i real abans d'aplicar el co-aprenentatge. Els nostres resultats quantitatius mostren que el procediment desenvolupat permet anotar el conjunt d'imatges d'entrada amb la precisió suficient per entrenar detectors d'objectes de forma efectiva; és a dir, tan precisos com si les imatges s'haguessin anotat manualment. A la tercera tasca deixem enrere l'espai 2D de les imatges, i ens centrem en processar núvols de punts 3D provinents de sensors LiDAR. El nostre objectiu inicial era desenvolupar un detector d'objectes 3D (vehicles, vianants, ciclistes) entrenat en núvols de punts sintètics estil LiDAR. En el cas de les imatges es podia esperar el problema de canvi de domini degut a les diferències visuals entre les imatges sintètiques i reals. Però, a priori, no esperàvem el mateix en treballar amb núvols de punts LiDAR, ja que es tracta d'informació geomètrica provinent del mostreig actiu del món, sense que l'aparença visual influeixi. No obstant això, a la pràctica, hem vist que també apareixen els problemes d'adaptació de domini. Factors com els paràmetres de mostreig del LiDAR, la configuració dels sensors a bord del vehicle autònom, i l'anotació manual dels objectes 3D, indueixen diferències de domini. A la tesi demostrem aquesta observació mitjançant un exhaustiu conjunt d'experiments amb diferents bases de dades públiques i detectors 3D disponibles. Per tant, en relació amb la tercera tasca, el treball s'ha centrat finalment en el disseny d'una GAN capaç de transformar núvols de punts 3D per portar-los d'un domini a un altre, un tema relativament inexplorat.Finalment, cal esmentar que tots els conjunts de dades sintètiques usats en aquestes tres tasques han estat dissenyats i generats en el context d'aquesta tesi doctoral i es faran públics. En general, considerem que aquesta tesi presenta un avanç en el foment de la utilització de dades sintètiques per al desenvolupament de models profunds de percepció, essencials en el camp de la conducció autònoma.