A proposal of a behavior-based control architecture with reinforcement learning for an autonomous underwater robot

Carreras Pérez, Marc

A proposal of a behavior-based control architecture with reinforcement learning for an autonomous underwater robot

Aquesta tesi proposa l'ús d'un seguit de tècniques pel control a alt nivell d'un robot autònom i també per l'aprenentatge automàtic de comportaments. L'objectiu principal de la tesis fou el de dotar d'intel·ligència als robots autònoms que han d'acomplir unes missi...

Descripción completa

Detalles Bibliográficos
Autor:	Carreras Pérez, Marc
Tipo de recurso:	tesis doctoral
Estado:	Versión publicada
Fecha de publicación:	2003
País:	España
Institución:	CBUC, CESCA
Repositorio:	TDR. Tesis Doctorales en Red
OAI Identifier:	oai:www.tdx.cat:10803/7718
Acceso en línea:	http://www.tdx.cat/TDX-0114104-123825 http://hdl.handle.net/10803/7718 http://mediaserver.csuc.cat/tdx/documents/14/27/04/142704817242105483239824983390388082148/
Access Level:	acceso abierto
Palabra clave:	Aprenentatge per reforç Reinforcement learning Arquitecturas de control Control architectures Robótica submarina Arquitectures de control Underwater robotics Robòtica submarina Robots móviles Vehicles autònoms Learning in robotics Aprenentatge en robótica Aprendizaje por refuerzo Aprendizaje en robótica Robots mòbils Mobile robots 621.3 68

id	ES_b44d9249d8cd41ebcf4d2048bd232e07
oai_identifier_str	oai:www.tdx.cat:10803/7718
network_acronym_str	ES
network_name_str	España
repository_id_str
dc.title.none.fl_str_mv	A proposal of a behavior-based control architecture with reinforcement learning for an autonomous underwater robot
title	A proposal of a behavior-based control architecture with reinforcement learning for an autonomous underwater robot
spellingShingle	A proposal of a behavior-based control architecture with reinforcement learning for an autonomous underwater robot Carreras Pérez, Marc Aprenentatge per reforç Reinforcement learning Arquitecturas de control Control architectures Robótica submarina Arquitectures de control Underwater robotics Robòtica submarina Robots móviles Vehicles autònoms Learning in robotics Aprenentatge en robótica Aprendizaje por refuerzo Aprendizaje en robótica Robots mòbils Mobile robots 621.3 68
title_short	A proposal of a behavior-based control architecture with reinforcement learning for an autonomous underwater robot
title_full	A proposal of a behavior-based control architecture with reinforcement learning for an autonomous underwater robot
title_fullStr	A proposal of a behavior-based control architecture with reinforcement learning for an autonomous underwater robot
title_full_unstemmed	A proposal of a behavior-based control architecture with reinforcement learning for an autonomous underwater robot
title_sort	A proposal of a behavior-based control architecture with reinforcement learning for an autonomous underwater robot
dc.creator.none.fl_str_mv	Carreras Pérez, Marc
author	Carreras Pérez, Marc
author_facet	Carreras Pérez, Marc
author_role	author
dc.contributor.none.fl_str_mv	Ridao Rodríguez, Pere Universitat de Girona. Departament d'Electrònica, Informàtica i Automàtica
dc.subject.none.fl_str_mv	Aprenentatge per reforç Reinforcement learning Arquitecturas de control Control architectures Robótica submarina Arquitectures de control Underwater robotics Robòtica submarina Robots móviles Vehicles autònoms Learning in robotics Aprenentatge en robótica Aprendizaje por refuerzo Aprendizaje en robótica Robots mòbils Mobile robots 621.3 68
topic	Aprenentatge per reforç Reinforcement learning Arquitecturas de control Control architectures Robótica submarina Arquitectures de control Underwater robotics Robòtica submarina Robots móviles Vehicles autònoms Learning in robotics Aprenentatge en robótica Aprendizaje por refuerzo Aprendizaje en robótica Robots mòbils Mobile robots 621.3 68
description	Aquesta tesi proposa l'ús d'un seguit de tècniques pel control a alt nivell d'un robot autònom i també per l'aprenentatge automàtic de comportaments. L'objectiu principal de la tesis fou el de dotar d'intel·ligència als robots autònoms que han d'acomplir unes missions determinades en entorns desconeguts i no estructurats. Una de les premisses tingudes en compte en tots els passos d'aquesta tesis va ser la selecció d'aquelles tècniques que poguessin ésser aplicades en temps real, i demostrar-ne el seu funcionament amb experiments reals. El camp d'aplicació de tots els experiments es la robòtica submarina.<br/>En una primera part, la tesis es centra en el disseny d'una arquitectura de control que ha de permetre l'assoliment d'una missió prèviament definida. En particular, la tesis proposa l'ús de les arquitectures de control basades en comportaments per a l'assoliment de cada una de les tasques que composen la totalitat de la missió. Una arquitectura d'aquest tipus està formada per un conjunt independent de comportaments, els quals representen diferents intencions del robot (ex.: "anar a una posició", "evitar obstacles",...). Es presenta una recerca bibliogràfica sobre aquest camp i alhora es mostren els resultats d'aplicar quatre de les arquitectures basades en comportaments més representatives a una tasca concreta. De l'anàlisi dels resultats se'n deriva que un dels factors que més influeixen en el rendiment d'aquestes arquitectures, és la metodologia emprada per coordinar les respostes dels comportaments. Per una banda, la coordinació competitiva és aquella en que només un dels comportaments controla el robot. Per altra banda, en la coordinació cooperativa el control del robot és realitza a partir d'una fusió de totes les respostes dels comportaments actius. La tesis, proposa un esquema híbrid d'arquitectura capaç de beneficiar-se dels principals avantatges d'ambdues metodologies.<br/>En una segona part, la tesis proposa la utilització de l'aprenentatge per reforç per aprendre l'estructura interna dels comportaments. Aquest tipus d'aprenentatge és adequat per entorns desconeguts i el procés d'aprenentatge es realitza al mateix temps que el robot està explorant l'entorn. La tesis presenta també un estat de l'art d'aquest camp, en el que es detallen els principals problemes que apareixen en utilitzar els algoritmes d'aprenentatge per reforç en aplicacions reals, com la robòtica. El problema de la generalització és un dels que més influeix i consisteix en permetre l'ús de variables continues sense augmentar substancialment el temps de convergència. Després de descriure breument les principals metodologies per generalitzar, la tesis proposa l'ús d'una xarxa neural combinada amb l'algoritme d'aprenentatge per reforç Q_learning. Aquesta combinació proporciona una gran capacitat de generalització i una molt bona disposició per aprendre en tasques de robòtica amb exigències de temps real. No obstant, les xarxes neurals són aproximadors de funcions no-locals, el que significa que en treballar amb un conjunt de dades no homogeni es produeix una interferència: aprendre en un subconjunt de l'espai significa desaprendre en la resta de l'espai. El problema de la interferència afecta de manera directa en robòtica, ja que l'exploració de l'espai es realitza sempre localment. L'algoritme proposat en la tesi té en compte aquest problema i manté una base de dades representativa de totes les zones explorades. Així doncs, totes les mostres de la base de dades s'utilitzen per actualitzar la xarxa neural, i per tant, l'aprenentatge és homogeni.<br/>Finalment, la tesi presenta els resultats obtinguts amb la arquitectura de control basada en comportaments i l'algoritme d'aprenentatge per reforç. Els experiments es realitzen amb el robot URIS, desenvolupat a la Universitat de Girona, i el comportament après és el seguiment d'un objecte mitjançant visió per computador. La tesi detalla tots els dispositius desenvolupats pels experiments així com les característiques del propi robot submarí. Els resultats obtinguts demostren la idoneïtat de les propostes en permetre l'aprenentatge del comportament en temps real. En un segon apartat de resultats es demostra la capacitat de generalització de l'algoritme d'aprenentatge mitjançant el "benchmark" del "cotxe i la muntanya". Els resultats obtinguts en aquest problema milloren els resultats d'altres metodologies, demostrant la millor capacitat de generalització de les xarxes neurals.
publishDate	2003
dc.date.none.fl_str_mv	2003 2004 2004 2011
dc.type.none.fl_str_mv	info:eu-repo/semantics/doctoralThesis info:eu-repo/semantics/publishedVersion
format	doctoralThesis
status_str	publishedVersion
dc.identifier.none.fl_str_mv	http://www.tdx.cat/TDX-0114104-123825 http://hdl.handle.net/10803/7718 http://mediaserver.csuc.cat/tdx/documents/14/27/04/142704817242105483239824983390388082148/
url	http://www.tdx.cat/TDX-0114104-123825 http://hdl.handle.net/10803/7718 http://mediaserver.csuc.cat/tdx/documents/14/27/04/142704817242105483239824983390388082148/
dc.language.none.fl_str_mv	Inglés
language_invalid_str_mv	Inglés
dc.rights.none.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf application/pdf
dc.publisher.none.fl_str_mv	Universitat de Girona
publisher.none.fl_str_mv	Universitat de Girona
dc.source.none.fl_str_mv	TDX (Tesis Doctorals en Xarxa) reponame:TDR. Tesis Doctorales en Red instname:CBUC, CESCA
instname_str	CBUC, CESCA
reponame_str	TDR. Tesis Doctorales en Red
collection	TDR. Tesis Doctorales en Red
repository.name.fl_str_mv
repository.mail.fl_str_mv
_version_	1869417249708703744
spelling	A proposal of a behavior-based control architecture with reinforcement learning for an autonomous underwater robotCarreras Pérez, MarcAprenentatge per reforçReinforcement learningArquitecturas de controlControl architecturesRobótica submarinaArquitectures de controlUnderwater roboticsRobòtica submarinaRobots móvilesVehicles autònomsLearning in roboticsAprenentatge en robóticaAprendizaje por refuerzoAprendizaje en robóticaRobots mòbilsMobile robots621.368Aquesta tesi proposa l'ús d'un seguit de tècniques pel control a alt nivell d'un robot autònom i també per l'aprenentatge automàtic de comportaments. L'objectiu principal de la tesis fou el de dotar d'intel·ligència als robots autònoms que han d'acomplir unes missions determinades en entorns desconeguts i no estructurats. Una de les premisses tingudes en compte en tots els passos d'aquesta tesis va ser la selecció d'aquelles tècniques que poguessin ésser aplicades en temps real, i demostrar-ne el seu funcionament amb experiments reals. El camp d'aplicació de tots els experiments es la robòtica submarina.<br/>En una primera part, la tesis es centra en el disseny d'una arquitectura de control que ha de permetre l'assoliment d'una missió prèviament definida. En particular, la tesis proposa l'ús de les arquitectures de control basades en comportaments per a l'assoliment de cada una de les tasques que composen la totalitat de la missió. Una arquitectura d'aquest tipus està formada per un conjunt independent de comportaments, els quals representen diferents intencions del robot (ex.: "anar a una posició", "evitar obstacles",...). Es presenta una recerca bibliogràfica sobre aquest camp i alhora es mostren els resultats d'aplicar quatre de les arquitectures basades en comportaments més representatives a una tasca concreta. De l'anàlisi dels resultats se'n deriva que un dels factors que més influeixen en el rendiment d'aquestes arquitectures, és la metodologia emprada per coordinar les respostes dels comportaments. Per una banda, la coordinació competitiva és aquella en que només un dels comportaments controla el robot. Per altra banda, en la coordinació cooperativa el control del robot és realitza a partir d'una fusió de totes les respostes dels comportaments actius. La tesis, proposa un esquema híbrid d'arquitectura capaç de beneficiar-se dels principals avantatges d'ambdues metodologies.<br/>En una segona part, la tesis proposa la utilització de l'aprenentatge per reforç per aprendre l'estructura interna dels comportaments. Aquest tipus d'aprenentatge és adequat per entorns desconeguts i el procés d'aprenentatge es realitza al mateix temps que el robot està explorant l'entorn. La tesis presenta també un estat de l'art d'aquest camp, en el que es detallen els principals problemes que apareixen en utilitzar els algoritmes d'aprenentatge per reforç en aplicacions reals, com la robòtica. El problema de la generalització és un dels que més influeix i consisteix en permetre l'ús de variables continues sense augmentar substancialment el temps de convergència. Després de descriure breument les principals metodologies per generalitzar, la tesis proposa l'ús d'una xarxa neural combinada amb l'algoritme d'aprenentatge per reforç Q_learning. Aquesta combinació proporciona una gran capacitat de generalització i una molt bona disposició per aprendre en tasques de robòtica amb exigències de temps real. No obstant, les xarxes neurals són aproximadors de funcions no-locals, el que significa que en treballar amb un conjunt de dades no homogeni es produeix una interferència: aprendre en un subconjunt de l'espai significa desaprendre en la resta de l'espai. El problema de la interferència afecta de manera directa en robòtica, ja que l'exploració de l'espai es realitza sempre localment. L'algoritme proposat en la tesi té en compte aquest problema i manté una base de dades representativa de totes les zones explorades. Així doncs, totes les mostres de la base de dades s'utilitzen per actualitzar la xarxa neural, i per tant, l'aprenentatge és homogeni.<br/>Finalment, la tesi presenta els resultats obtinguts amb la arquitectura de control basada en comportaments i l'algoritme d'aprenentatge per reforç. Els experiments es realitzen amb el robot URIS, desenvolupat a la Universitat de Girona, i el comportament après és el seguiment d'un objecte mitjançant visió per computador. La tesi detalla tots els dispositius desenvolupats pels experiments així com les característiques del propi robot submarí. Els resultats obtinguts demostren la idoneïtat de les propostes en permetre l'aprenentatge del comportament en temps real. En un segon apartat de resultats es demostra la capacitat de generalització de l'algoritme d'aprenentatge mitjançant el "benchmark" del "cotxe i la muntanya". Els resultats obtinguts en aquest problema milloren els resultats d'altres metodologies, demostrant la millor capacitat de generalització de les xarxes neurals.Universitat de GironaRidao Rodríguez, PereUniversitat de Girona. Departament d'Electrònica, Informàtica i Automàtica2011200420032004info:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/publishedVersionapplication/pdfapplication/pdfhttp://www.tdx.cat/TDX-0114104-123825http://hdl.handle.net/10803/7718http://mediaserver.csuc.cat/tdx/documents/14/27/04/142704817242105483239824983390388082148/TDX (Tesis Doctorals en Xarxa)reponame:TDR. Tesis Doctorales en Redinstname:CBUC, CESCAInglésADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.info:eu-repo/semantics/openAccessoai:www.tdx.cat:10803/77182026-06-14T12:46:07Z
score	15,300724

A proposal of a behavior-based control architecture with reinforcement learning for an autonomous underwater robot

Similares en LA Referencia