Use este identificador para citar ou linkar para este item:
http://www.repositorio.ufal.br/jspui/handle/123456789/17136Registro completo de metadados
| Campo DC | Valor | Idioma |
|---|---|---|
| dc.contributor.advisor1 | Aquino, André Luiz Lins de | - |
| dc.contributor.advisor1Lattes | http://lattes.cnpq.br/7957606883987162 | pt_BR |
| dc.contributor.referee1 | Cunha, Amanda Lima | - |
| dc.contributor.referee1Lattes | http://lattes.cnpq.br/1435421375231551 | pt_BR |
| dc.contributor.referee2 | Santos, Gean da Silva | - |
| dc.contributor.referee2Lattes | http://lattes.cnpq.br/6197350980297523 | pt_BR |
| dc.creator | Freire, Danilo Vasconcelos | - |
| dc.creator.Lattes | http://lattes.cnpq.br/8441959631354299 | pt_BR |
| dc.date.accessioned | 2025-10-28T15:09:22Z | - |
| dc.date.available | 2025-10-28 | - |
| dc.date.available | 2025-10-28T15:09:22Z | - |
| dc.date.issued | 2024-12-06 | - |
| dc.identifier.citation | FREIRE, Danilo Vasconcelos. Caracterização de técnicas de aprendizado de máquina para classificação de reatividade entre compostos e proteínas. 2025. 38 f. Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) – Instituto de Computação, Universidade Federal de Alagoas, Maceió, 2024. | pt_BR |
| dc.identifier.uri | http://www.repositorio.ufal.br/jspui/handle/123456789/17136 | - |
| dc.description.abstract | This work aimed to investigate the binary prediction of reactivity between chemical compounds and proteins, using the Drug-Target Interaction (DTI) approach through different machine learning models. The methodology involved segmenting cataloged reactivity indices into groups of reactive and non-reactive compounds, constructing databases for each target compound, and extracting protein feature vectors using various patterns, such as APAAC, CTDD, CTRiad, DDE, Geary, K-SEP PSSM, PFAM, QSO, and SPMAP. The data were collected from the ChEMBL database, and the protein representation was obtained from the UniProt database. The binary classification was performed by separating the reactivity values into reactive and non-reactive, converting them to 1 and 0, respectively. For the analysis, classification models were applied, including Random Forest, KNN, SVM, MLP, XGBoost, and Dummy Classifier, with hyperparameter optimization using the Grid Search algorithm. The results showed that, although no model consistently outperformed the others, some model-feature pairs presented promising results. XGBoost with the CTriad vector achieved an average accuracy of 72.78%, while DDE with Random Forest reached 71.08%. The MLP model, on the other hand, exhibited below-average performance, possibly due to the scarcity of data in the dataset. A detailed analysis of the results revealed that XGBoost and Random Forest excelled in terms of performance, especially in datasets with a smaller number of samples, such as the ChEMBL104 compound. KNN and K-SEP PSSM also showed above-average results, while SVM, using the Geary vector, demonstrated one of the best performances across many compounds, although it faced limitations in some cases. These findings suggest that the choice of model and feature vector is crucial for the effectiveness of predicting reactivity between compounds and proteins. The research highlights the importance of further investigation into the interactions between models and features, as well as the need for a larger volume of data to improve the generalization and consistency of more complex models. | pt_BR |
| dc.language | por | pt_BR |
| dc.publisher | Universidade Federal de Alagoas | pt_BR |
| dc.publisher.country | Brasil | pt_BR |
| dc.publisher.department | Curso de Ciências da Computação - Bacharelado | pt_BR |
| dc.publisher.initials | UFAL | pt_BR |
| dc.rights | Acesso Aberto | pt_BR |
| dc.subject | Classificação reativa | pt_BR |
| dc.subject | Vetores de representação proteica | pt_BR |
| dc.subject | Interações droga-alvo | pt_BR |
| dc.subject | Aprendizado de máquina | pt_BR |
| dc.subject | Reactive classification | pt_BR |
| dc.subject | Protein feature vectors | pt_BR |
| dc.subject | Drug-target interactions | pt_BR |
| dc.subject | Machine Learning | pt_BR |
| dc.subject.cnpq | CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO | pt_BR |
| dc.title | Caracterização de técnicas de aprendizado de máquina para classificação de reatividade entre compostos e proteínas | pt_BR |
| dc.type | Trabalho de Conclusão de Curso | pt_BR |
| dc.description.resumo | Este trabalho teve como objetivo investigar a previsão binária de reatividade entre compostos químicos e proteínas, utilizando a abordagem de Interação Droga-Alvo (DTI) por meio de diferentes modelos de aprendizado de máquina. A metodologia envolveu a segmentação de índices de reatividade catalogados em grupos de reagentes e não reagentes, a construção de bases de dados para cada composto-alvo e a extração de vetores de características proteicas utilizando diversos padrões, como APAAC, CTDD, CTRiad, DDE, Geary, K-SEP PSSM, PFAM, QSO e SPMAP. Os dados foram coletados a partir da base ChEMBL, e a representação proteica foi obtida da base UniProt. A classificação binária foi realizada separando os valores de reatividade em reagentes e não reagentes, com a conversão em 1 e 0, respectivamente. Para a análise, foram aplicados modelos de classificação, incluindo Random Forest, KNN, SVM, MLP, XGBoost e Dummy Classifier, com otimização de hiperparâmetros utilizando o algoritmo Grid Search. Os resultados mostraram que, embora nenhum modelo tenha se destacado consistentemente em desempenho, alguns pares de modelo-característica apresentaram resultados promissores. O XGBoost com o vetor CTriad obteve uma média de acurácia de 72,78%, enquanto o DDE com Random Forest alcançou 71,08%. O modelo MLP, por outro lado, apresentou desempenho abaixo da média, possivelmente devido à escassez de dados na base. A análise detalhada dos resultados revelou que o XGBoost e o Random Forest se destacaram em termos de performance, especialmente em conjuntos de dados com menor quantidade de amostras, como o composto ChEMBL104. O KNN e o K-SEP PSSM também mostraram resultados acima da média, enquanto o SVM, utilizando o vetor Geary, apresentou uma das melhores performances em muitos compostos, embora tenha enfrentado limitações em alguns casos. Esses achados sugerem que a escolha do modelo e do vetor de características é crucial para a eficácia da predição de reatividade entre compostos e proteínas. A pesquisa destaca a importância de uma investigação mais aprofundada sobre as interações entre os modelos e as características, bem como a necessidade de um maior volume de dados para melhorar a generalização e a consistência dos modelos mais complexos. | pt_BR |
| Aparece nas coleções: | Trabalhos de Conclusão de Curso (TCC) - Bacharelado - CIÊNCIA DA COMPUTAÇÃO- IC | |
Arquivos associados a este item:
| Arquivo | Descrição | Tamanho | Formato | |
|---|---|---|---|---|
| Caracterização de técnicas de aprendizado de máquina para classificação de reatividade entre compostos e proteínas.pdf | Caracterização de técnicas de aprendizado de máquina para classificação de reatividade entre compostos e proteínas | 2.43 MB | Adobe PDF | Visualizar/Abrir |
Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.