Predicción de la interacción de proteínas relacionadas con el Alzheimer a partir de su estructura primaria
La enfermedad del Alzheimer (EA) es una enfermedad neurodegenerativa que afecta a una gran cantidad de personas en la actualidad. Todavía se está trabajando en multitud de terapias, sin embargo, los estudios para la elaboración de nuevos medicamentos, son procesos muy costosos; por lo que se está re...
| Autor: | |
|---|---|
| Tipo de recurso: | tesis de maestría |
| Fecha de publicación: | 2020 |
| País: | España |
| Institución: | Universitat Oberta de Catalunya (UOC) |
| Repositorio: | O2, repositorio institucional de la UOC |
| OAI Identifier: | oai:openaccess.uoc.edu:10609/109166 |
| Acceso en línea: | http://hdl.handle.net/10609/109166 |
| Access Level: | acceso abierto |
| Palabra clave: | support vector machine random forest interacción entre proteínas máquinas de vectores de soporte interacció entre proteïnes màquines de vectors de suport protein interaction Bioinformatics -- TFM Bioinformàtica -- TFM Bioinformática -- TFM |
| Sumario: | La enfermedad del Alzheimer (EA) es una enfermedad neurodegenerativa que afecta a una gran cantidad de personas en la actualidad. Todavía se está trabajando en multitud de terapias, sin embargo, los estudios para la elaboración de nuevos medicamentos, son procesos muy costosos; por lo que se está recurriendo a técnicas computacionales de machine learning para abaratar costes. En este trabajo se van a entrenar modelos de machine learning para intentar predecir si dos proteínas interaccionan o no. Para ello, se recogen datos de proteínas que intervienen en el proceso de la EA y se estudia que proteínas interaccionan con ellas (PPIs); por otra parte, también se recogen datos de los repositorios de Intact y Negatome sobre proteínas que se tienen pruebas experimentales de que no interaccionan (nPPIs); también, se emparejan proteínas al azar de Uniprot y se asume que son nPPIs. A partir de estas bases de datos, se obtienen las estructuras primarias de las proteínas y se generan características en forma de datos cuantitativos empleando las metodologías de Composición de aminoácidos (AAC), Composición de dipéptidos (DPC), Composición/Transición/Distribución (CTD) y Composición de pseudoaminoácidos (PAAC). Para elaborar los modelos, a partir de estas características, se emplean los algoritmos Support Vector Machine (SVM) y Random Forest (RF). Finalmente se obtiene que el modelo generado mediante SVM, empleando AAC y empleando la base de datos de Uniprot como fuente de nPPIs es el que mayor capacidad de predicción y robustez presenta. |
|---|