Defesa de dissertação (13/09/2023): Jéssica da Silva Costa 

Discente: Jéssica da Silva Costa

Título: Métodos Baseados em Homologia e Aprendizado de Máquina para Identificação de Proteínas Essenciais

Orientadora: Kele Teixeira Belloze

Banca: Kele Teixeira Belloze (CEFET/RJ), Eduardo Bezerra (CEFET/RJ), Diogo Antonio Tschoeke (Coppe/UFRJ), Victor Ströele de Andrade Menezes (UFJF)

Dia/hora: 13 de setembro de 2023, às 8:00.

Link da sala: https://teams.microsoft.com/l/meetup-join/19%3a8bd040fc5e004447b6a1fa09484d81d0%40thread.tacv2/1694208843103?context=%7b%22Tid%22%3a%228eeca404-a47d-4555-a2d4-0f3619041c9c%22%2c%22Oid%22%3a%22d0ca0ae9-1955-4759-a7ad-0b2fa49dbe55%22%7d

Resumo: 

O desenvolvimento de um fármaco costuma ser um processo complexo e demorado. Principalmente na fase inicial, a seleção de um alvo para desenvolvimento de fármacos pode demorar muitos anos. Genes e proteínas essenciais são entidades biológicas responsáveis por processos biológicos de sobrevivência e reprodução dos organismos. Genes e proteínas com relação de ancestralidade, em organismos de espécies diferentes, costumam conservar a função. Além disso, estudos indicam que genes essenciais tendem a ter maior expresão e codificam proteínas  que se envolvem em mais interações proteína-proteína. Todas essas características tornam proteínas  essenciais potenciais alvos de fármacos. Muitos trabalhos na literatura propõem abordagens biológicas e computacionais para identificação de essencialidade. Diante disso, este trabalho apresenta dois workflows para identificação de características de essencialidade em proteínas  para alvos de fármacos do organismo alvo S. mansoni. Para isso foram abordados um método baseado em homologia e outro método baseado em aprendizado
de máquina com os organismos modelos modelo S. cerevisiaeC. elegans e D. melanogaster. O método baseado em homologia identificou cerca de 11 proteínas  candidatas a essenciais com o grupo de organismos modelo e o organismo S. mansoni. Entre os pares, a maior quantidade de candidatas foi com S. cerevisiae onde foram identificadas 726 proteínas  candidatas a essenciais. Já o método baseado em aprendizado de máquina, experimentos realizados com três algoritmos baseados em árvore, com caracteríssticas baseadas em contexto (PPI) e baseadas em sequência, apontaram melhores valores de recall com o uso da técnica de Undersampling. Em termos quantitativos,cerca de 4000 proteínas foram preditas como essenciais nos algoritmos XGBoost e GradientBoosting e 3800 proteínas  para o algoritmo Random Forest. Cerca de 3300 proteínas  foram preditas como essenciais pelos três algoritmos trabalhados, o que demonstrou certa semelhança entre os resultados dos algoritmos.