Leveraging Synthetic Data to Create Autonomous Driving Perception Systems
L'anotació manual d'imatges per desenvolupar sistemes basats en visió per computador ha estat un dels punts més problemàtics des que s'utilitza aprenentatge automàtic per a això. Aquesta tesi es centra en aprofitar les dades sintètiques per alleujar el cost de les anotacions manuals e...
| Autor: | |
|---|---|
| Tipo de recurso: | tesis doctoral |
| Fecha de publicación: | 2021 |
| País: | España |
| Institución: | Universitat Autònoma de Barcelona |
| Repositorio: | Dipòsit Digital de Documents de la UAB |
| Idioma: | inglés |
| OAI Identifier: | oai:ddd.uab.cat:243542 |
| Acceso en línea: | https://ddd.uab.cat/record/243542 |
| Access Level: | acceso abierto |
| Palabra clave: | Visión por computador Computer vision Conducció autónoma Conducción autónoma Autonomous driving Adaptació de domini Adaptación de dominio Domain adaptation Tecnologies |
| Sumario: | L'anotació manual d'imatges per desenvolupar sistemes basats en visió per computador ha estat un dels punts més problemàtics des que s'utilitza aprenentatge automàtic per a això. Aquesta tesi es centra en aprofitar les dades sintètiques per alleujar el cost de les anotacions manuals en tres tasques de percepció relacionades amb l'assistència a la conducció i la conducció autònoma. En tot moment assumim l'ús de xarxes neuronals convolucionals per al desenvolupament dels nostres models profunds de percepció. La primera tasca planteja el reconeixement de senyals de trànsit, un problema de classificació d'imatges. Assumim que el nombre de classes de senyals de trànsit a reconèixer s'ha d'incrementar sense haver pogut anotar noves imatges amb què realitzar el corresponent reentrenament. Demostrem que aprofitant les dades sintètiques de les noves classes i transformant-les amb una xarxa adversària-generativa (GAN, de les seves sigles en anglès) entrenada amb les classes conegudes (sense usar mostres de les noves classes), és possible reentrenar la xarxa neuronal per classificar tots els senyals en una proporció ~1/4 entre classes noves i conegudes. La segona tasca consisteix en la detecció de vehicles i vianants (objectes) en imatges. En aquest cas, assumim la recepció d'un conjunt d'imatges sense anotar. L'objectiu és anotar automàticament aquestes imatges perquè així es puguin utilitzar posteriorment en l'entrenament del detector d'objectes que desitgem. Per assolir aquest objectiu, vam partir de dades sintètiques anotades i proposem un mètode d'aprenentatge semi-supervisat basat en la idea del co-aprenentatge. A més, utilitzem una GAN per reduir la distància entre els dominis sintètic i real abans d'aplicar el co-aprenentatge. Els nostres resultats quantitatius mostren que el procediment desenvolupat permet anotar el conjunt d'imatges d'entrada amb la precisió suficient per entrenar detectors d'objectes de forma efectiva; és a dir, tan precisos com si les imatges s'haguessin anotat manualment. A la tercera tasca deixem enrere l'espai 2D de les imatges, i ens centrem en processar núvols de punts 3D provinents de sensors LiDAR. El nostre objectiu inicial era desenvolupar un detector d'objectes 3D (vehicles, vianants, ciclistes) entrenat en núvols de punts sintètics estil LiDAR. En el cas de les imatges es podia esperar el problema de canvi de domini degut a les diferències visuals entre les imatges sintètiques i reals. Però, a priori, no esperàvem el mateix en treballar amb núvols de punts LiDAR, ja que es tracta d'informació geomètrica provinent del mostreig actiu del món, sense que l'aparença visual influeixi. No obstant això, a la pràctica, hem vist que també apareixen els problemes d'adaptació de domini. Factors com els paràmetres de mostreig del LiDAR, la configuració dels sensors a bord del vehicle autònom, i l'anotació manual dels objectes 3D, indueixen diferències de domini. A la tesi demostrem aquesta observació mitjançant un exhaustiu conjunt d'experiments amb diferents bases de dades públiques i detectors 3D disponibles. Per tant, en relació amb la tercera tasca, el treball s'ha centrat finalment en el disseny d'una GAN capaç de transformar núvols de punts 3D per portar-los d'un domini a un altre, un tema relativament inexplorat.Finalment, cal esmentar que tots els conjunts de dades sintètiques usats en aquestes tres tasques han estat dissenyats i generats en el context d'aquesta tesi doctoral i es faran públics. En general, considerem que aquesta tesi presenta un avanç en el foment de la utilització de dades sintètiques per al desenvolupament de models profunds de percepció, essencials en el camp de la conducció autònoma. |
|---|