Conocimiento en 1000Genome y GWAS

Gran parte del conocimiento biológico se encuentra dividido en varias bases de datos. Gracias a los avances en la potencia de cálculo todos estos datos se pueden analizar utilizando técnicas basadas en minería de datos, estadística y machine learning. En este trabajo nos hemos centrado en dos grande...

Descripción completa

Detalles Bibliográficos
Autor: Nou Castell, Ramon
Tipo de recurso: tesis de maestría
Fecha de publicación:2018
País:España
Institución:Universitat Oberta de Catalunya (UOC)
Repositorio:O2, repositorio institucional de la UOC
OAI Identifier:oai:openaccess.uoc.edu:10609/82245
Acceso en línea:http://hdl.handle.net/10609/82245
Access Level:acceso abierto
Palabra clave:aprenentatge automàtic
genoma
SNP
aprendizaje automático
machine learning
genome
Bioinformatics -- TFM
Bioinformàtica -- TFM
Bioinformática -- TFM
Descripción
Sumario:Gran parte del conocimiento biológico se encuentra dividido en varias bases de datos. Gracias a los avances en la potencia de cálculo todos estos datos se pueden analizar utilizando técnicas basadas en minería de datos, estadística y machine learning. En este trabajo nos hemos centrado en dos grandes bases de datos que se pueden utilizar para encontrar relaciones entre poblaciones y distintos fenotipos utilizando SNPs (Single Nucleotide Polymorphism). En este caso, se utilizará información de la base de datos de 1000Genome, que contiene el genoma completo de más de 1000 humanos de distintas poblaciones y los datos de la base de datos GWAS que contiene los SNPs y su relación con distintos rasgos (asma, cáncer...) Mostraremos distintas formas para extraer información, incluyendo machine learning y posteriormente aplicaremos distintos métodos para mejorar su rendimiento tanto en el plano de la computación (añadiendo paralelismo) como mejorando la entrada/salida (mejorando la distribución y la utilización de los datos). Finalmente analizaremos la parte de aprendizaje y extracción de conocimiento comparando distintos algoritmos y métodos, realizando un análisis más detallado de los datos.