Conocimiento en 1000Genome y GWAS

Gran parte del conocimiento biológico se encuentra dividido en varias bases de datos. Gracias a los avances en la potencia de cálculo todos estos datos se pueden analizar utilizando técnicas basadas en minería de datos, estadística y machine learning. En este trabajo nos hemos centrado en dos grande...

ver descrição completa

Detalhes bibliográficos
Autor: Nou Castell, Ramon
Formato: tesis de maestría
Fecha de publicación:2018
País:España
Recursos:Universitat Oberta de Catalunya (UOC)
Repositorio:O2, repositorio institucional de la UOC
OAI Identifier:oai:openaccess.uoc.edu:10609/82245
Acesso em linha:http://hdl.handle.net/10609/82245
Access Level:acceso abierto
Palavra-chave:aprenentatge automàtic
genoma
SNP
aprendizaje automático
machine learning
genome
Bioinformatics -- TFM
Bioinformàtica -- TFM
Bioinformática -- TFM
Descrição
Resumo:Gran parte del conocimiento biológico se encuentra dividido en varias bases de datos. Gracias a los avances en la potencia de cálculo todos estos datos se pueden analizar utilizando técnicas basadas en minería de datos, estadística y machine learning. En este trabajo nos hemos centrado en dos grandes bases de datos que se pueden utilizar para encontrar relaciones entre poblaciones y distintos fenotipos utilizando SNPs (Single Nucleotide Polymorphism). En este caso, se utilizará información de la base de datos de 1000Genome, que contiene el genoma completo de más de 1000 humanos de distintas poblaciones y los datos de la base de datos GWAS que contiene los SNPs y su relación con distintos rasgos (asma, cáncer...) Mostraremos distintas formas para extraer información, incluyendo machine learning y posteriormente aplicaremos distintos métodos para mejorar su rendimiento tanto en el plano de la computación (añadiendo paralelismo) como mejorando la entrada/salida (mejorando la distribución y la utilización de los datos). Finalmente analizaremos la parte de aprendizaje y extracción de conocimiento comparando distintos algoritmos y métodos, realizando un análisis más detallado de los datos.