Predicción del valor de concentración letal media, LC50 y del nivel de toxicidad de compuestos orgánicos para Daphnia Magna usando algoritmos de aprendizaje automático supervisado
Las pruebas de toxicidad aguda para determinar la concentración letal media (CL50) aplicadas en Daphnia Magna son ampliamente utilizadas para determinar el nivel de toxicidad acuática de diferentes compuestos. Una alternativa a estos ensayos son los estudios de relación cuantitativa estructura-activ...
| Autor: | |
|---|---|
| Tipo de recurso: | tesis de maestría |
| Fecha de publicación: | 2021 |
| País: | España |
| Institución: | Universitat Oberta de Catalunya (UOC) |
| Repositorio: | O2, repositorio institucional de la UOC |
| OAI Identifier: | oai:openaccess.uoc.edu:10609/132526 |
| Acceso en línea: | http://hdl.handle.net/10609/132526 |
| Access Level: | acceso abierto |
| Palabra clave: | Toxicidad aguda Daphnia Magna aprendizaje automático CL50 Toxicitat aguda aprenentatge automàtic acute toxicity machine learning LC50 Bioinformatics -- TFM Bioinformàtica -- TFM Bioinformática -- TFM |
| Sumario: | Las pruebas de toxicidad aguda para determinar la concentración letal media (CL50) aplicadas en Daphnia Magna son ampliamente utilizadas para determinar el nivel de toxicidad acuática de diferentes compuestos. Una alternativa a estos ensayos son los estudios de relación cuantitativa estructura-actividad (QSAR). Este trabajo propone la creación de una aplicación web que implemente el mejor modelo de aprendizaje automático resultante del entrenamiento de diferentes algoritmos tanto para la predicción del valor CL50 cuanto para la clasificación por nivel de toxicidad de moléculas orgánicas a través de cuatro descriptores moleculares: superficie polar topológica que considera N, O, P y S (TPSA.Tot), Número de átomo de hidrógeno unidos a heteroátomos (H.050), coeficiente de partición octanol-agua calculado a partir con el modelo de Moriguchi (MLOGP) y el índice topológico que codifica información sobre el tamaño molecular y la ramificación, sin considerar los heteroátomos (RDCHI). Los algoritmos empleados para obtener los modelos de regresión fueron: árbol de regresión cubist, máquinas de soporte vectorial con kernel radial (SVMr), bosque aleatorio (RF), bosque aleatorio tipo ranger y el impulso de gradiente estocástico (gmb). Para generar los modelos de clasificación se usaron: SVMr, RF, RF ranger, gmb y redes neuronales. En ambos casos, el mejor modelo se obtuvo con el SVM con kernel radial. El modelo de predicción del valor LC50 llegó a un Q2 de 0.77 y un R2 de 0.83 en la validación externa y el modelo de clasificación alcanzó un 0.80 de precisión. |
|---|