Defesa de dissertação (17/01/2020): Ribamar Santos Ferreira Matias

Discente: Ribamar Santos Ferreira Matias

Título: Integração de Dados como Apoio a Modelagem de Célula Inteira da Bactéria Pseudomonas aeruginosa CCBH4851

Orientadora: Kele Teixeira Belloze

Banca: Kele Teixeira Belloze (presidente), Eduardo Bezerra da Silva (CEFET/RJ), Fabrício Alves Barbosa da Silva (FIOCRUZ)

Dia/Hora: 17 de janeiro de 2020/ 10:00h

Sala: Auditório V – 5º andar

Resumo:

A análise comparativa de genomas por meio de processos computacionais é uma abordagem de baixo custo e com potencial promissor para apoiar pesquisadores. Tal análise é favorecida ao considerar os diversos dados oriundos de estudos sobre organismos modelo, disponíveis em bancos de dados públicos. Esta abordagem foi utilizada no presente trabalho, para analisar o genoma da cepa Pseudomonas aeruginosa CCBH4851. Esta cepa, identificada no Brasil em 2008, está sendo pesquisada pela FIOCRUZ e parceiros, em função de sua associação a infecções hospitalares, e do seu alto grau de resistência, detectado após testes com diversos antibióticos. Neste sentido, o levantamento de proteínas essenciais, que possam auxiliar no desenvolvimento de novos antibióticos no combate à bactéria, torna-se relevante. Deste modo, o objetivo deste trabalho é construir uma base de dados para ampliar o conhecimento disponível sobre a P. aeruginosa CCBH4851, a partir de dados provenientes de estudos aprofundados com outros organismos. Esta base de dados reúne informações como anotações por ontologia das proteínas da bactéria, dados sobre homologia e ortologia, e indicadores de similaridade semântica funcional, entre suas proteínas e as de organismos de referência no estudo da espécie P. aeruginosa. Como complemento, foi elaborado um processo de aprendizado de máquina, com intuito de inferir quais proteínas da bactéria têm características essenciais, que são o alvo preferencial para ação dos antibióticos. Para reunir este conjunto de informações, foram empregados métodos estritamente computacionais, com o apoio de ferramentas para análise de sequências genômicas, como Blast2GO, InterProScan, GOGO, Blastp e Orthofinder, referenciando conjuntos de proteínas provenientes de bancos de dados genômicos públicos, como Uniprot, OGEE, Interpro e KEGG. O processo de aprendizagem de máquina consistiu na execução de uma rede neural LSTM, cujas predições seriam posteriormente confrontadas com os resultados de anotação, semelhança e similaridade semântica. Embora sejam menos precisos que as análises por curadoria manual, os métodos computacionais evoluem continuamente, e novas tecnologias e ferramentas para bioinformática são frequentemente disponibilizadas. Estes recursos têm potencial promissor para auxiliar os pesquisadores nas tarefas de conhecimento dos genomas e tomada de decisão. Na base de dados criada, estão disponíveis as anotações pela ontologia Gene Ontology, de aproximadamente 60% do total de proteínas, indicadores de similaridade semântica, assim como o conjunto de proteínas ortólogas da cepa P. aeruginosa CCBH4851, obtidos através de processos comparativos com proteomas de referência. Por fim, o projeto sugere um fluxo de atividades que pode ser aplicado como abordagem inicial genérica nos estudos de novos genomas, que pode ser aprimorado e estendido por trabalhos futuros.

Dissertação