Caracterização de técnicas de aprendizado de máquina para classificação de reatividade entre compostos e proteínas

Freire, Danilo Vasconcelos

E-mail: ri@sibi.ufal.br - Horário: 8h às 17h - Fone: 3214-1660

ATENÇÃO

1) As PRODUÇÕES ACADÊMICAS deverão ser encaminhadas em formato PDF, desbloqueado para seleção e cópia de texto, para o e-mail ri@sibi.ufal.br, juntamente com o Termo de Autorização para a Publicação (assinado).
2) Devem estar inseridos no CORPO da produção acadêmica, os seguintes documentos:
FICHA CATALOGRÁFICA - elaborada por um bibliotecário;
FOLHA DE APROVAÇÃO - deverá estar assinada por todos membros da banca examinadora.
3) O TERMO DE AUTORIZAÇÃO PARA PUBLICAÇÃO deverá estar preenchido de acordo com o tipo de produção, assinado pelo(a) autor(a), e enviado por e-mail juntamente com o trabalho acadêmico.
OBS 1.: Os TCC dos CURSOS DE PEDAGOGIA (Presencial e EaD) do Centro de Educação (CEDU) devem ser enviados, exclusivamente, para o e-mail biblioteca.setorial@cedu.ufal.br.
OBS 2.: O tempo de resposta às solicitações enviadas ao RIUFAL é de seis dias úteis.
OBS 3.: Acesse www.sibi.ufal.br para mais informações sobre o RIUFAL.

00 CAMPUS ARISTÓTELES CALAZANS SIMÕES (CAMPUS A. C. SIMÕES) IC - INSTITUTO DE COMPUTAÇÃO TRABALHOS DE CONCLUSÃO DE CURSO (TCC) - GRADUAÇÃO - IC Trabalhos de Conclusão de Curso (TCC) - Bacharelado - CIÊNCIA DA COMPUTAÇÃO- IC

Use este identificador para citar ou linkar para este item: http://www.repositorio.ufal.br/jspui/handle/123456789/17136

Registro completo de metadados

Campo DC	Valor	Idioma
dc.contributor.advisor1	Aquino, André Luiz Lins de	-
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/7957606883987162	pt_BR
dc.contributor.referee1	Cunha, Amanda Lima	-
dc.contributor.referee1Lattes	http://lattes.cnpq.br/1435421375231551	pt_BR
dc.contributor.referee2	Santos, Gean da Silva	-
dc.contributor.referee2Lattes	http://lattes.cnpq.br/6197350980297523	pt_BR
dc.creator	Freire, Danilo Vasconcelos	-
dc.creator.Lattes	http://lattes.cnpq.br/8441959631354299	pt_BR
dc.date.accessioned	2025-10-28T15:09:22Z	-
dc.date.available	2025-10-28	-
dc.date.available	2025-10-28T15:09:22Z	-
dc.date.issued	2024-12-06	-
dc.identifier.citation	FREIRE, Danilo Vasconcelos. Caracterização de técnicas de aprendizado de máquina para classificação de reatividade entre compostos e proteínas. 2025. 38 f. Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) – Instituto de Computação, Universidade Federal de Alagoas, Maceió, 2024.	pt_BR
dc.identifier.uri	http://www.repositorio.ufal.br/jspui/handle/123456789/17136	-
dc.description.abstract	This work aimed to investigate the binary prediction of reactivity between chemical compounds and proteins, using the Drug-Target Interaction (DTI) approach through different machine learning models. The methodology involved segmenting cataloged reactivity indices into groups of reactive and non-reactive compounds, constructing databases for each target compound, and extracting protein feature vectors using various patterns, such as APAAC, CTDD, CTRiad, DDE, Geary, K-SEP PSSM, PFAM, QSO, and SPMAP. The data were collected from the ChEMBL database, and the protein representation was obtained from the UniProt database. The binary classification was performed by separating the reactivity values into reactive and non-reactive, converting them to 1 and 0, respectively. For the analysis, classification models were applied, including Random Forest, KNN, SVM, MLP, XGBoost, and Dummy Classifier, with hyperparameter optimization using the Grid Search algorithm. The results showed that, although no model consistently outperformed the others, some model-feature pairs presented promising results. XGBoost with the CTriad vector achieved an average accuracy of 72.78%, while DDE with Random Forest reached 71.08%. The MLP model, on the other hand, exhibited below-average performance, possibly due to the scarcity of data in the dataset. A detailed analysis of the results revealed that XGBoost and Random Forest excelled in terms of performance, especially in datasets with a smaller number of samples, such as the ChEMBL104 compound. KNN and K-SEP PSSM also showed above-average results, while SVM, using the Geary vector, demonstrated one of the best performances across many compounds, although it faced limitations in some cases. These findings suggest that the choice of model and feature vector is crucial for the effectiveness of predicting reactivity between compounds and proteins. The research highlights the importance of further investigation into the interactions between models and features, as well as the need for a larger volume of data to improve the generalization and consistency of more complex models.	pt_BR
dc.language	por	pt_BR
dc.publisher	Universidade Federal de Alagoas	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.publisher.department	Curso de Ciências da Computação - Bacharelado	pt_BR
dc.publisher.initials	UFAL	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.subject	Classificação reativa	pt_BR
dc.subject	Vetores de representação proteica	pt_BR
dc.subject	Interações droga-alvo	pt_BR
dc.subject	Aprendizado de máquina	pt_BR
dc.subject	Reactive classification	pt_BR
dc.subject	Protein feature vectors	pt_BR
dc.subject	Drug-target interactions	pt_BR
dc.subject	Machine Learning	pt_BR
dc.subject.cnpq	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO	pt_BR
dc.title	Caracterização de técnicas de aprendizado de máquina para classificação de reatividade entre compostos e proteínas	pt_BR
dc.type	Trabalho de Conclusão de Curso	pt_BR
dc.description.resumo	Este trabalho teve como objetivo investigar a previsão binária de reatividade entre compostos químicos e proteínas, utilizando a abordagem de Interação Droga-Alvo (DTI) por meio de diferentes modelos de aprendizado de máquina. A metodologia envolveu a segmentação de índices de reatividade catalogados em grupos de reagentes e não reagentes, a construção de bases de dados para cada composto-alvo e a extração de vetores de características proteicas utilizando diversos padrões, como APAAC, CTDD, CTRiad, DDE, Geary, K-SEP PSSM, PFAM, QSO e SPMAP. Os dados foram coletados a partir da base ChEMBL, e a representação proteica foi obtida da base UniProt. A classificação binária foi realizada separando os valores de reatividade em reagentes e não reagentes, com a conversão em 1 e 0, respectivamente. Para a análise, foram aplicados modelos de classificação, incluindo Random Forest, KNN, SVM, MLP, XGBoost e Dummy Classifier, com otimização de hiperparâmetros utilizando o algoritmo Grid Search. Os resultados mostraram que, embora nenhum modelo tenha se destacado consistentemente em desempenho, alguns pares de modelo-característica apresentaram resultados promissores. O XGBoost com o vetor CTriad obteve uma média de acurácia de 72,78%, enquanto o DDE com Random Forest alcançou 71,08%. O modelo MLP, por outro lado, apresentou desempenho abaixo da média, possivelmente devido à escassez de dados na base. A análise detalhada dos resultados revelou que o XGBoost e o Random Forest se destacaram em termos de performance, especialmente em conjuntos de dados com menor quantidade de amostras, como o composto ChEMBL104. O KNN e o K-SEP PSSM também mostraram resultados acima da média, enquanto o SVM, utilizando o vetor Geary, apresentou uma das melhores performances em muitos compostos, embora tenha enfrentado limitações em alguns casos. Esses achados sugerem que a escolha do modelo e do vetor de características é crucial para a eficácia da predição de reatividade entre compostos e proteínas. A pesquisa destaca a importância de uma investigação mais aprofundada sobre as interações entre os modelos e as características, bem como a necessidade de um maior volume de dados para melhorar a generalização e a consistência dos modelos mais complexos.	pt_BR
Aparece nas coleções:	Trabalhos de Conclusão de Curso (TCC) - Bacharelado - CIÊNCIA DA COMPUTAÇÃO- IC

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
Caracterização de técnicas de aprendizado de máquina para classificação de reatividade entre compostos e proteínas.pdf	Caracterização de técnicas de aprendizado de máquina para classificação de reatividade entre compostos e proteínas	2.43 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro simples do item Visualizar estatísticas