Advancing Egocentric Action Recognition for Perceptually-enabled Task Guidance
This project aims to create a task guidance assistant using the HoloLens headset that will guide the user through augmented reality. The primary focus of this thesis lies in the integration of an action recognition framework for egocentric videos, crucial for task prediction within the system. Devel...
| Autor: | |
|---|---|
| Tipo de recurso: | tesis de maestría |
| Fecha de publicación: | 2023 |
| País: | España |
| Institución: | Universitat Politècnica de Catalunya (UPC) |
| Repositorio: | UPCommons. Portal del coneixement obert de la UPC |
| Idioma: | inglés |
| OAI Identifier: | oai:upcommons.upc.edu:2117/420290 |
| Acceso en línea: | https://hdl.handle.net/2117/420290 |
| Access Level: | acceso abierto |
| Palabra clave: | Computer vision Augmented reality action recognition computer vision reconeixement d'accions Visió per ordinador Realitat augmentada Àrees temàtiques de la UPC::Informàtica::Intel·ligència artificial |
| id |
ES_bcfe5309eec1627dbedbc72b7d603a3f |
|---|---|
| oai_identifier_str |
oai:upcommons.upc.edu:2117/420290 |
| network_acronym_str |
ES |
| network_name_str |
España |
| repository_id_str |
|
| spelling |
Advancing Egocentric Action Recognition for Perceptually-enabled Task GuidanceManzano Rodríguez, AnaComputer visionAugmented realityaction recognitioncomputer visionreconeixement d'accionscomputer visionVisió per ordinadorRealitat augmentadaÀrees temàtiques de la UPC::Informàtica::Intel·ligència artificialThis project aims to create a task guidance assistant using the HoloLens headset that will guide the user through augmented reality. The primary focus of this thesis lies in the integration of an action recognition framework for egocentric videos, crucial for task prediction within the system. Development starts in a kitchen environment, with the intention of using transfer learning for military scenarios in the future. Epic-Kitchens serves as an initial reference dataset, subsequently followed by the creation of a customized dataset. Various state-of-the-art action recognition models are considered, with Omnivore being the final choice. Initial results show 14.23% Top 5 action recognition accuracy within the created dataset. Through classifier modifications and application of diverse post-processing video techniques, this accuracy is significantly improved, culminating in an impressive 83.76%.Este proyecto tiene como objetivo crear un asistente de guía de tareas utilizando la cámara egocéntrica que icorporan las HoloLens y que guiará al usuario a través de la realidad aumentada. El objetivo principal de esta tesis es la integración de un marco de reconocimiento de acciones, crucial para la predicción de tareas dentro del sistema. El desarrollo comienza en un entorno de cocina, con la intención de utilizar el aprendizaje por transferencia para escenarios militares en el futuro. Epic-Kitchens sirve como conjunto de datos de referencia inicial, posteriormente se crea un dataset personalizado. Se tienen en cuenta varios modelos de reconocimiento de acciones, siendo Omnivore la elección final. Los resultados iniciales muestran una precisión del 14,23% en el reconocimiento de las 5 acciones más probables dentro del conjunto de datos creado. Mediante modificaciones del clasificador y la aplicación de diferentes técnicas de postprocesado de vídeo, esta precisi ?on se mejora significativamente, culminando en un impresionante 83,76%.Aquest projecte pretén crear un assistent d'orientació de tasques utilitzant la càmera egocèntrica que incorporen les HoloLens que guiarà l’usuari a través de la realitat augmentada. L'objectiu principal d’aquesta tesi rau en la integració d'un marc de reconeixement d'accions crucial per a la predicció de tasques dins del sistema. El desenvolupament comença en un entorn de cuina, amb la intenció d’utilitzar l’aprenentatge de transferència per a escenaris militars en el futur. Epic-Kitchens serveix com a conjunt de dades de referència inicial, posteriorment seguit de la creació d'un conjunt de dades personalitzat. Es consideren diversos models de reconeixement d’acció d'última generació, sent Omnivore l’opció final. Els resultats inicials mostren un 14,23% de precisió de reconeixement de les 5 accions més probables dins del conjunt de dades creat. Mitjançant modificacions del classificador i l’aplicació de diverses tècniques de post processament de vídeo, aquesta precisió es millora significativament, culminant amb un impressionant 83,76%.Universitat Politècnica de CatalunyaMorros Rubió, Josep RamonZolotas, MarkErdogmus, Deniz20232023-10-2520242024-12-11master thesishttp://purl.org/coar/resource_type/c_bdccNAhttp://purl.org/coar/version/c_be7fb7dd8ff6fe43info:eu-repo/semantics/masterThesisapplication/pdfhttps://hdl.handle.net/2117/420290reponame:UPCommons. Portal del coneixement obert de la UPCinstname:Universitat Politècnica de Catalunya (UPC)Inglésengopen accesshttp://purl.org/coar/access_right/c_abf2info:eu-repo/semantics/openAccessoai:upcommons.upc.edu:2117/4202902026-05-27T15:37:01Z |
| dc.title.none.fl_str_mv |
Advancing Egocentric Action Recognition for Perceptually-enabled Task Guidance |
| title |
Advancing Egocentric Action Recognition for Perceptually-enabled Task Guidance |
| spellingShingle |
Advancing Egocentric Action Recognition for Perceptually-enabled Task Guidance Manzano Rodríguez, Ana Computer vision Augmented reality action recognition computer vision reconeixement d'accions computer vision Visió per ordinador Realitat augmentada Àrees temàtiques de la UPC::Informàtica::Intel·ligència artificial |
| title_short |
Advancing Egocentric Action Recognition for Perceptually-enabled Task Guidance |
| title_full |
Advancing Egocentric Action Recognition for Perceptually-enabled Task Guidance |
| title_fullStr |
Advancing Egocentric Action Recognition for Perceptually-enabled Task Guidance |
| title_full_unstemmed |
Advancing Egocentric Action Recognition for Perceptually-enabled Task Guidance |
| title_sort |
Advancing Egocentric Action Recognition for Perceptually-enabled Task Guidance |
| dc.creator.none.fl_str_mv |
Manzano Rodríguez, Ana |
| author |
Manzano Rodríguez, Ana |
| author_facet |
Manzano Rodríguez, Ana |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Morros Rubió, Josep Ramon Zolotas, Mark Erdogmus, Deniz |
| dc.subject.none.fl_str_mv |
Computer vision Augmented reality action recognition computer vision reconeixement d'accions computer vision Visió per ordinador Realitat augmentada Àrees temàtiques de la UPC::Informàtica::Intel·ligència artificial |
| topic |
Computer vision Augmented reality action recognition computer vision reconeixement d'accions computer vision Visió per ordinador Realitat augmentada Àrees temàtiques de la UPC::Informàtica::Intel·ligència artificial |
| description |
This project aims to create a task guidance assistant using the HoloLens headset that will guide the user through augmented reality. The primary focus of this thesis lies in the integration of an action recognition framework for egocentric videos, crucial for task prediction within the system. Development starts in a kitchen environment, with the intention of using transfer learning for military scenarios in the future. Epic-Kitchens serves as an initial reference dataset, subsequently followed by the creation of a customized dataset. Various state-of-the-art action recognition models are considered, with Omnivore being the final choice. Initial results show 14.23% Top 5 action recognition accuracy within the created dataset. Through classifier modifications and application of diverse post-processing video techniques, this accuracy is significantly improved, culminating in an impressive 83.76%. |
| publishDate |
2023 |
| dc.date.none.fl_str_mv |
2023 2023-10-25 2024 2024-12-11 |
| dc.type.none.fl_str_mv |
master thesis http://purl.org/coar/resource_type/c_bdcc NA http://purl.org/coar/version/c_be7fb7dd8ff6fe43 |
| dc.type.openaire.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| dc.identifier.none.fl_str_mv |
https://hdl.handle.net/2117/420290 |
| url |
https://hdl.handle.net/2117/420290 |
| dc.language.none.fl_str_mv |
Inglés eng |
| language_invalid_str_mv |
Inglés |
| language |
eng |
| dc.rights.none.fl_str_mv |
open access http://purl.org/coar/access_right/c_abf2 |
| dc.rights.openaire.fl_str_mv |
info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
open access http://purl.org/coar/access_right/c_abf2 |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.publisher.none.fl_str_mv |
Universitat Politècnica de Catalunya |
| publisher.none.fl_str_mv |
Universitat Politècnica de Catalunya |
| dc.source.none.fl_str_mv |
reponame:UPCommons. Portal del coneixement obert de la UPC instname:Universitat Politècnica de Catalunya (UPC) |
| instname_str |
Universitat Politècnica de Catalunya (UPC) |
| reponame_str |
UPCommons. Portal del coneixement obert de la UPC |
| collection |
UPCommons. Portal del coneixement obert de la UPC |
| repository.name.fl_str_mv |
|
| repository.mail.fl_str_mv |
|
| _version_ |
1869418162307465216 |
| score |
15.81155 |