Long non-coding RNAs annotation in Strongylocentrotus purpuratus. Studying the need of a reference genome.

El objetivo del trabajo es averiguar si es posible anotar lncRNAs de manera efectiva sin disponer del genoma publicado de la especie objetivo como referencia. Para ello, en este estudio se anotan los lncRNAs de una especie cuyo genoma sí está disponible, con lncRNAs ya anotados y de la cual existen...

Descripción completa

Detalles Bibliográficos
Autor: Doblado Martín, Sonia
Tipo de recurso: tesis de maestría
Fecha de publicación:2021
País:España
Institución:Universitat Oberta de Catalunya (UOC)
Repositorio:O2, repositorio institucional de la UOC
OAI Identifier:oai:openaccess.uoc.edu:10609/127052
Acceso en línea:http://hdl.handle.net/10609/127052
Access Level:acceso abierto
Palabra clave:lncRNA
transcriptoma
de novo assembly
transcriptome
Bioinformatics -- TFM
Bioinformàtica -- TFM
Bioinformática -- TFM
Descripción
Sumario:El objetivo del trabajo es averiguar si es posible anotar lncRNAs de manera efectiva sin disponer del genoma publicado de la especie objetivo como referencia. Para ello, en este estudio se anotan los lncRNAs de una especie cuyo genoma sí está disponible, con lncRNAs ya anotados y de la cual existen datos de RNA-Seq, como es Strongylocentrotus purpuratus. Estos datos de experimentos RNA-Seq previos se utilizaron para ensamblar un transcriptoma de novo mediante el software Trinity. A partir de dicho transcriptoma, se anotaron lncRNAs de dos modos distintos vía FEELnc: i) se obtuvo una lista de posibles lncRNAs filtrando los transcritos de novo y ii) usamos un algoritmo de machine learning entrenado con lncRNAs ya anotados para la especie. Por último, comparamos estos resultados entre ellos y contra el set de lncRNAs obtenido usando el genoma de referencia, siendo éste el protocolo estándar. Según nuestros resultados, sería posible anotar los lncRNAs sin genoma de referencia. Hay una diferencia en la cantidad de lncRNAs anotados entre nuestros dos sets de sólo un 1,03%, y hemos anotado un 41,6% de los lncRNAs ya anotados con genoma de referencia para S. purpuratus en el estudio más reciente disponible.