Defesa de dissertação (13/09/2023): Jéssica da Silva Costa
Discente: Jéssica da Silva Costa
Título: Métodos Baseados em Homologia e Aprendizado de Máquina para Identificação de Proteínas Essenciais
Orientadora: Kele Teixeira Belloze
Banca: Kele Teixeira Belloze (CEFET/RJ), Eduardo Bezerra (CEFET/RJ), Diogo Antonio Tschoeke (Coppe/UFRJ), Victor Ströele de Andrade Menezes (UFJF)
Dia/hora: 13 de setembro de 2023, às 8:00.
Resumo:
O desenvolvimento de um fármaco costuma ser um processo complexo e demorado. Principalmente na fase inicial, a seleção de um alvo para desenvolvimento de fármacos pode demorar muitos anos. Genes e proteínas essenciais são entidades biológicas responsáveis por processos biológicos de sobrevivência e reprodução dos organismos. Genes e proteínas com relação de ancestralidade, em organismos de espécies diferentes, costumam conservar a função. Além disso, estudos indicam que genes essenciais tendem a ter maior expressão e codificam proteínas que se envolvem em mais interações proteína-proteína. Todas essas características tornam proteínas essenciais potenciais alvos de fármacos. Muitos trabalhos na literatura propõem abordagens biológicas e computacionais para identificação de essencialidade. Diante disso, este trabalho apresenta dois workflows para identificação de características de essencialidade em proteínas para alvos de fármacos do organismo alvo S. mansoni. Para isso foram abordados um método baseado em homologia e outro método baseado em aprendizado
de máquina com os organismos modelos modelo S. cerevisiae, C. elegans e D. melanogaster. O método baseado em homologia identificou cerca de 11 proteínas candidatas a essenciais com o grupo de organismos modelo e o organismo S. mansoni. Entre os pares, a maior quantidade de candidatas foi com S. cerevisiae onde foram identificadas 726 proteínas candidatas a essenciais. Já o método baseado em aprendizado de máquina, experimentos realizados com três algoritmos baseados em árvore, com características baseadas em contexto (PPI) e baseadas em sequência, apontaram melhores valores de recall com o uso da técnica de Undersampling. Em termos quantitativos, cerca de 4000 proteínas foram preditas como essenciais nos algoritmos XGBoost e GradientBoosting e 3800 proteínas para o algoritmo Random Forest. Cerca de 3300 proteínas foram preditas como essenciais pelos três algoritmos trabalhados, o que demonstrou certa semelhança entre os resultados dos algoritmos.