00 CAMPUS ARISTÓTELES CALAZANS SIMÕES (CAMPUS A. C. SIMÕES) IC - INSTITUTO DE COMPUTAÇÃO TRABALHOS DE CONCLUSÃO DE CURSO (TCC) - GRADUAÇÃO - IC Trabalhos de Conclusão de Curso (TCC) - Bacharelado - CIÊNCIA DA COMPUTAÇÃO- IC
Use este identificador para citar ou linkar para este item: http://www.repositorio.ufal.br/jspui/handle/123456789/17136
Tipo: Trabalho de Conclusão de Curso
Título: Caracterização de técnicas de aprendizado de máquina para classificação de reatividade entre compostos e proteínas
Autor(es): Freire, Danilo Vasconcelos
Primeiro Orientador: Aquino, André Luiz Lins de
metadata.dc.contributor.referee1: Cunha, Amanda Lima
metadata.dc.contributor.referee2: Santos, Gean da Silva
Resumo: Este trabalho teve como objetivo investigar a previsão binária de reatividade entre compostos químicos e proteínas, utilizando a abordagem de Interação Droga-Alvo (DTI) por meio de diferentes modelos de aprendizado de máquina. A metodologia envolveu a segmentação de índices de reatividade catalogados em grupos de reagentes e não reagentes, a construção de bases de dados para cada composto-alvo e a extração de vetores de características proteicas utilizando diversos padrões, como APAAC, CTDD, CTRiad, DDE, Geary, K-SEP PSSM, PFAM, QSO e SPMAP. Os dados foram coletados a partir da base ChEMBL, e a representação proteica foi obtida da base UniProt. A classificação binária foi realizada separando os valores de reatividade em reagentes e não reagentes, com a conversão em 1 e 0, respectivamente. Para a análise, foram aplicados modelos de classificação, incluindo Random Forest, KNN, SVM, MLP, XGBoost e Dummy Classifier, com otimização de hiperparâmetros utilizando o algoritmo Grid Search. Os resultados mostraram que, embora nenhum modelo tenha se destacado consistentemente em desempenho, alguns pares de modelo-característica apresentaram resultados promissores. O XGBoost com o vetor CTriad obteve uma média de acurácia de 72,78%, enquanto o DDE com Random Forest alcançou 71,08%. O modelo MLP, por outro lado, apresentou desempenho abaixo da média, possivelmente devido à escassez de dados na base. A análise detalhada dos resultados revelou que o XGBoost e o Random Forest se destacaram em termos de performance, especialmente em conjuntos de dados com menor quantidade de amostras, como o composto ChEMBL104. O KNN e o K-SEP PSSM também mostraram resultados acima da média, enquanto o SVM, utilizando o vetor Geary, apresentou uma das melhores performances em muitos compostos, embora tenha enfrentado limitações em alguns casos. Esses achados sugerem que a escolha do modelo e do vetor de características é crucial para a eficácia da predição de reatividade entre compostos e proteínas. A pesquisa destaca a importância de uma investigação mais aprofundada sobre as interações entre os modelos e as características, bem como a necessidade de um maior volume de dados para melhorar a generalização e a consistência dos modelos mais complexos.
Abstract: This work aimed to investigate the binary prediction of reactivity between chemical compounds and proteins, using the Drug-Target Interaction (DTI) approach through different machine learning models. The methodology involved segmenting cataloged reactivity indices into groups of reactive and non-reactive compounds, constructing databases for each target compound, and extracting protein feature vectors using various patterns, such as APAAC, CTDD, CTRiad, DDE, Geary, K-SEP PSSM, PFAM, QSO, and SPMAP. The data were collected from the ChEMBL database, and the protein representation was obtained from the UniProt database. The binary classification was performed by separating the reactivity values into reactive and non-reactive, converting them to 1 and 0, respectively. For the analysis, classification models were applied, including Random Forest, KNN, SVM, MLP, XGBoost, and Dummy Classifier, with hyperparameter optimization using the Grid Search algorithm. The results showed that, although no model consistently outperformed the others, some model-feature pairs presented promising results. XGBoost with the CTriad vector achieved an average accuracy of 72.78%, while DDE with Random Forest reached 71.08%. The MLP model, on the other hand, exhibited below-average performance, possibly due to the scarcity of data in the dataset. A detailed analysis of the results revealed that XGBoost and Random Forest excelled in terms of performance, especially in datasets with a smaller number of samples, such as the ChEMBL104 compound. KNN and K-SEP PSSM also showed above-average results, while SVM, using the Geary vector, demonstrated one of the best performances across many compounds, although it faced limitations in some cases. These findings suggest that the choice of model and feature vector is crucial for the effectiveness of predicting reactivity between compounds and proteins. The research highlights the importance of further investigation into the interactions between models and features, as well as the need for a larger volume of data to improve the generalization and consistency of more complex models.
Palavras-chave: Classificação reativa
Vetores de representação proteica
Interações droga-alvo
Aprendizado de máquina
Reactive classification
Protein feature vectors
Drug-target interactions
Machine Learning
CNPq: CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Idioma: por
País: Brasil
Editor: Universidade Federal de Alagoas
Sigla da Instituição: UFAL
metadata.dc.publisher.department: Curso de Ciências da Computação - Bacharelado
Citação: FREIRE, Danilo Vasconcelos. Caracterização de técnicas de aprendizado de máquina para classificação de reatividade entre compostos e proteínas. 2025. 38 f. Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) – Instituto de Computação, Universidade Federal de Alagoas, Maceió, 2024.
Tipo de Acesso: Acesso Aberto
URI: http://www.repositorio.ufal.br/jspui/handle/123456789/17136
Data do documento: 6-dez-2024
Aparece nas coleções:Trabalhos de Conclusão de Curso (TCC) - Bacharelado - CIÊNCIA DA COMPUTAÇÃO- IC

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
Caracterização de técnicas de aprendizado de máquina para classificação de reatividade entre compostos e proteínas.pdfCaracterização de técnicas de aprendizado de máquina para classificação de reatividade entre compostos e proteínas2.43 MBAdobe PDFVisualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.