Predicción del valor de concentración letal media, LC50 y del nivel de toxicidad de compuestos orgánicos para Daphnia Magna usando algoritmos de aprendizaje automático supervisado

Las pruebas de toxicidad aguda para determinar la concentración letal media (CL50) aplicadas en Daphnia Magna son ampliamente utilizadas para determinar el nivel de toxicidad acuática de diferentes compuestos. Una alternativa a estos ensayos son los estudios de relación cuantitativa estructura-activ...

Descripción completa

Detalles Bibliográficos
Autor: Pinos Vélez, Verónica Patricia
Tipo de recurso: tesis de maestría
Fecha de publicación:2021
País:España
Institución:Universitat Oberta de Catalunya (UOC)
Repositorio:O2, repositorio institucional de la UOC
OAI Identifier:oai:openaccess.uoc.edu:10609/132526
Acceso en línea:http://hdl.handle.net/10609/132526
Access Level:acceso abierto
Palabra clave:Toxicidad aguda
Daphnia Magna
aprendizaje automático
CL50
Toxicitat aguda
aprenentatge automàtic
acute toxicity
machine learning
LC50
Bioinformatics -- TFM
Bioinformàtica -- TFM
Bioinformática -- TFM
Descripción
Sumario:Las pruebas de toxicidad aguda para determinar la concentración letal media (CL50) aplicadas en Daphnia Magna son ampliamente utilizadas para determinar el nivel de toxicidad acuática de diferentes compuestos. Una alternativa a estos ensayos son los estudios de relación cuantitativa estructura-actividad (QSAR). Este trabajo propone la creación de una aplicación web que implemente el mejor modelo de aprendizaje automático resultante del entrenamiento de diferentes algoritmos tanto para la predicción del valor CL50 cuanto para la clasificación por nivel de toxicidad de moléculas orgánicas a través de cuatro descriptores moleculares: superficie polar topológica que considera N, O, P y S (TPSA.Tot), Número de átomo de hidrógeno unidos a heteroátomos (H.050), coeficiente de partición octanol-agua calculado a partir con el modelo de Moriguchi (MLOGP) y el índice topológico que codifica información sobre el tamaño molecular y la ramificación, sin considerar los heteroátomos (RDCHI). Los algoritmos empleados para obtener los modelos de regresión fueron: árbol de regresión cubist, máquinas de soporte vectorial con kernel radial (SVMr), bosque aleatorio (RF), bosque aleatorio tipo ranger y el impulso de gradiente estocástico (gmb). Para generar los modelos de clasificación se usaron: SVMr, RF, RF ranger, gmb y redes neuronales. En ambos casos, el mejor modelo se obtuvo con el SVM con kernel radial. El modelo de predicción del valor LC50 llegó a un Q2 de 0.77 y un R2 de 0.83 en la validación externa y el modelo de clasificación alcanzó un 0.80 de precisión.