Categoria:Defesas

Defesa de dissertação (17/01/2020): Ribamar Santos Ferreira Matias

Discente: Ribamar Santos Ferreira Matias

Título: Integração de Dados como Apoio a Modelagem de Célula Inteira da Bactéria Pseudomonas aeruginosa CCBH4851

Orientadora: Kele Teixeira Belloze

Banca: Kele Teixeira Belloze (presidente), Eduardo Bezerra da Silva (CEFET/RJ), Fabrício Alves Barbosa da Silva (FIOCRUZ)

Dia/Hora: 17 de janeiro de 2020/ 10:00h

Sala: Auditório V – 5º andar

Resumo:

A análise comparativa de genomas por meio de processos computacionais é uma abordagem de baixo custo e com potencial promissor para apoiar pesquisadores. Tal análise é favorecida ao considerar os diversos dados oriundos de estudos sobre organismos modelo, disponíveis em bancos de dados públicos. Esta abordagem foi utilizada no presente trabalho, para analisar o genoma da cepa Pseudomonas aeruginosa CCBH4851. Esta cepa, identificada no Brasil em 2008, está sendo pesquisada pela FIOCRUZ e parceiros, em função de sua associação a infecções hospitalares, e do seu alto grau de resistência, detectado após testes com diversos antibióticos. Neste sentido, o levantamento de proteínas essenciais, que possam auxiliar no desenvolvimento de novos antibióticos no combate à bactéria, torna-se relevante. Deste modo, o objetivo deste trabalho é construir uma base de dados para ampliar o conhecimento disponível sobre a P. aeruginosa CCBH4851, a partir de dados provenientes de estudos aprofundados com outros organismos. Esta base de dados reúne informações como anotações por ontologia das proteínas da bactéria, dados sobre homologia e ortologia, e indicadores de similaridade semântica funcional, entre suas proteínas e as de organismos de referência no estudo da espécie P. aeruginosa. Como complemento, foi elaborado um processo de aprendizado de máquina, com intuito de inferir quais proteínas da bactéria têm características essenciais, que são o alvo preferencial para ação dos antibióticos. Para reunir este conjunto de informações, foram empregados métodos estritamente computacionais, com o apoio de ferramentas para análise de sequências genômicas, como Blast2GO, InterProScan, GOGO, Blastp e Orthofinder, referenciando conjuntos de proteínas provenientes de bancos de dados genômicos públicos, como Uniprot, OGEE, Interpro e KEGG. O processo de aprendizagem de máquina consistiu na execução de uma rede neural LSTM, cujas predições seriam posteriormente confrontadas com os resultados de anotação, semelhança e similaridade semântica. Embora sejam menos precisos que as análises por curadoria manual, os métodos computacionais evoluem continuamente, e novas tecnologias e ferramentas para bioinformática são frequentemente disponibilizadas. Estes recursos têm potencial promissor para auxiliar os pesquisadores nas tarefas de conhecimento dos genomas e tomada de decisão. Na base de dados criada, estão disponíveis as anotações pela ontologia Gene Ontology, de aproximadamente 60% do total de proteínas, indicadores de similaridade semântica, assim como o conjunto de proteínas ortólogas da cepa P. aeruginosa CCBH4851, obtidos através de processos comparativos com proteomas de referência. Por fim, o projeto sugere um fluxo de atividades que pode ser aplicado como abordagem inicial genérica nos estudos de novos genomas, que pode ser aprimorado e estendido por trabalhos futuros.

Dissertação

Defesa de dissertação (23/12/2019): Carlos Alberto Martins de Sousa Teles

Discente: Carlos Alberto Martins de Sousa Teles

Título: Um Arcabouço de Caixa-Preta para a Detecção de Tráfego Malicioso em Ambientes de TIC

Orientadores: Felipe da Rocha Henriques (orientador), Raphael Carlos Santos Machado (co-orientador)

Banca: Felipe da Rocha Henriques (presidente), Raphael Carlos Santos Machado (UFF), Pedro Henrique González Silva

 (CEFET/RJ),  Michel Pompeu Tcheou (UERJ)

Dia/Hora: 23 de dezembro de 2019/ 15:30h

Sala: Auditório V – 5º andar

Resumo:

A segurança da informação está se tornando gradualmente uma área que desempenha um papel importante em nossas vidas cotidianas, em função do crescimento dos ativos de Tecnologia da informação e de comunicações (TIC) e os ambientes cada vez mais conectados. Como resultado, os problemas de segurança da informação agora devem ser considerados relevantes a nossa sociedade. Cada vez mais temos informações de Governos, empresas e pessoas tendo seus dados vazados em função de falhas de segurança da informação, tanto em Hardware e Software dos ativos de TIC. Para a inspeção dos ativos de TIC existem oo processos de avaliação de segurança, que são procedimentos para verificar o atendimento a requisitos por meio da execução de testes sistemáticos denominados ensaios, os chamados de Programas de Avaliação da Conformidade (PACs). No intuito de identificar as falhas dos ativos de TIC, através da detecção de tráfego malicioso, este trabalho propõe uma estrutura baseada em caixa preta em ambientes de TIC. O método de caixa preta permite monitorar a rede sem acessar o código do software, que pode ser inviável nas empresas,para seus funcionários. Em nossa proposta, unimos a segurança da informação e do uso de recursos de rede para executar uma detecção confiável de tráfego malicioso. Primeiramente, coletamos informações de tráfego de rede, gerando um conjunto de dados a partir de ferramentas comerciais de rede. Nosso esquema de detecção proposto foi validado verificando a correlação entre alertas de segurança de rede e uso de recursos de rede, como taxa de transferência e número de conexões TCP. Os resultados mostram que o esquema proposto pode detectar com segurança o tráfego malicioso em um ambiente real de rede de TIC.

Dissertação

Defesa de dissertação (23/12/2019): Carlos Roberto Gonçalves Viana Filho

Discente: Carlos Roberto Gonçalves Viana Filho

Título: Uma Proposta de Padronização Brasileira para a Avaliação de Risco em Ambientes Computacionais

Orientadores: Felipe da Rocha Henriques (orientador), Raphael Carlos Santos Machado (co-orientador)

Banca: Felipe da Rocha Henriques (presidente), Raphael Carlos Santos Machado (UFF), Diego Nunes Brandão

 (CEFET/RJ),  Michel Pompeu Tcheou (UERJ)

Dia/Hora: 23 de dezembro de 2019/ 13h

Sala: Auditório V – 5º andar

Resumo:

As sociedades modernas encontram-se cada vez mais dependentes de sistemas computacionais, serviços e de toda sua infraestrutura. Portanto, erros, instabilidades e indisponibilidades destes, podem trazer grandes prejuízos materiais e financeiros para empresas, indústrias  e governos em seus diversos níveis. Com o objetivo de garantir a segurança para os seus sistemas computacionais e minimizar os riscos inerentes a sua crescente utilização as organizações têm trabalhado e investido na implantação de programas de avaliação da conformidade para ativos computacionais.

No Brasil, atualmente não existe uma legislação própria (ou padronização) que exija que os sistemas tenham um mínimo de requisitos de segurança e consequentemente que sua avaliação seja realizada e devidamente comprovada. Em muitos casos, padrões internacionais são usados por empresas Brasileiras para avaliação de conformidade. Porém, nem sempre esses padrões estão adequados ao cenário nacional. Nota-se, seja pela falta de padronização e pela sua pouca maturidade em relação os quesitos de segurança, que o país sofre com vários desafios para assegurar que seus ativos computacionais estejam devidamente protegidos contra os mais diversos tipos de ataques existentes. Entretanto embora o estabelecimento de Programas de Avaliação de Conformidade para Tecnologia da Informação e Ativos de Comunicação seja considerado um grande desafio, podemos afirmar que a avaliação de alguns programas através de uma abordagem orientada para o risco tem contribuído concretamente para a solução do problema supracitado. A adoção de tal abordagem pressupõe a definição de um conjunto de requisitos que devem ser atendidos por um  determinado produto e de uma série de ensaios que deverão ser executados sobre o mesmo, de modo a atestar o atendimento àqueles requisitos.

Neste trabalho, propomos uma padronização para o cenário brasileiro para avaliação de riscos em ambientes computacionais. Uma metanálise é considerada para avaliar a proposta e, com base nos resultados obtidos, verificamos que a adaptação de padrões internacionais para o cenário brasileiro é uma boa alternativa para implantação em larga escala, o que pode levar à redução de custo e tempo para empresas.

Dissertação

Defesa de dissertação (16/12/2019): Alexandre Cunha

Discente: Alexandre Cunha

Título: Detecção de Sinais de eventos Adversos de Medicamentos em Textos Informais

Orientador: Gustavo Paiva Guedes e Silva (orientador)

Banca: Gustavo Paiva Guedes e Silva (presidente), Eduardo Ogasawara (CEFET/RJ), Kele Belloze (CEFET/RJ), Fellipe Duarte (UFRRJ)

Dia/Hora: 16 de dezembro de 2019 / 14h

Sala: Auditório 5 (Bloco E, 5o andar)

Resumo:

A vigilância em saúde, conhecida como farmacovigilância, se define como: “a ciência e as atividades relativas à identificação, avaliação, compreensão e prevenção dos efeitos adversos ou qualquer outro problema relacionado com medicamentos” WHO [2002].  Eventos adversos a medicamentos são responsáveis por aproximadamente 25% dos pacientes internados no atendimento primário, sendo considerados graves em 13% dos casos Meyboom et al. [1999]. A farmacovigilância atua no período de pós-aprovação do medicamento, podendo evitar e atenuar certos eventos adversos. O acesso às várias categorias de dados de saúde no período atual, expande a capacidade de análise para pesquisa relacionada a farmacovigilância. Com o advento das técnicas de mineração de texto (MT), processamento de linguagem natural (PLN), aprendizagem de máquina (AM) e extração da informação (EI), houve a possibilidade de extração de conhecimento de textos não estruturados e informais, obtidos de mídias sociais. O objetivo desta dissertação é, ao utilizar a extração da informação, criar um modelo a partir da MT e PLN e detectar sinais de eventos adversos em medicamentos nos textos da mídia social (Twitter) escritos em português do Brasil. A dissertação apresenta extensa revisão bibliográfica sobre os conceitos citados. Guiando o processo, foi desenvolvida uma abordagem baseada na metodologia de MT para identificar possíveis sinais de eventos adversos. Esse processo foi implementado com auxílio do CoreNLP. Para essa dissertação, foi escolhido o idioma português brasileiro, para o qual não existe suporte nativo do CoreNLP, dessa forma,foram implementados o analisador sintático (Pos-Tagger) e o parse de dependência (DEP-PARSER) em português brasileiro, bem como, treinado um modelo de detecção de entidades nomeadas no domínio da farmacovigilância em português Brasileiro, utilizando AM em uma abordagem híbrida. Foi proposto um algoritmo para efetiva detecção de sinal de eventos adversos em medicamentos. Complementa-se a metodologia com a experimentação dos modelos criados e do algoritmo desenvolvido. Os resultados representem um esforço inicial na tentativa de atuar sobre o idioma português brasileiro no campo da farmacovigilância. Os experimentos abriram caminho para fomentar o tema e fornecer um instrumental para caminhar em direção ao estado da arte, especificamente para a língua portuguesa.

Dissertação

 [:en]Discente: Alexandre Cunha

Título: Detecção de Sinais de eventos Adversos de Medicamentos em Textos Informais

Orientador: Gustavo Paiva Guedes e Silva (orientador)

Banca: Gustavo Paiva Guedes e Silva (presidente), Eduardo Ogasawara (CEFET/RJ), Kele Belloze (CEFET/RJ), Fellipe Duarte (UFRRJ)

Dia/Hora: 16 de dezembro de 2019 / 14h

Sala: Auditório 5 (Bloco E, 5o andar)

Resumo:

A vigilância em saúde, conhecida como farmacovigilância, se define como: “a ciência e as atividades relativas à identificação, avaliação, compreensão e prevenção dos efeitos adversos ou qualquer outro problema relacionado com medicamentos” WHO [2002].  Eventos adversos a medicamentos são responsáveis por aproximadamente 25% dos pacientes internados no atendimento primário, sendo considerados graves em 13% dos casos Meyboom et al. [1999]. A farmacovigilância atua no período de pós-aprovação do medicamento, podendo evitar e atenuar certos eventos adversos. O acesso às várias categorias de dados de saúde no período atual, expande a capacidade de análise para pesquisa relacionada a farmacovigilância. Com o advento das técnicas de mineração de texto (MT), processamento de linguagem natural (PLN), aprendizagem de máquina (AM) e extração da informação (EI), houve a possibilidade de extração de conhecimento de textos não estruturados e informais, obtidos de mídias sociais. O objetivo desta dissertação é, ao utilizar a extração da informação, criar um modelo a partir da MT e PLN e detectar sinais de eventos adversos em medicamentos nos textos da mídia social (Twitter) escritos em português do Brasil. A dissertação apresenta extensa revisão bibliográfica sobre os conceitos citados. Guiando o processo, foi desenvolvida uma abordagem baseada na metodologia de MT para identificar possíveis sinais de eventos adversos. Esse processo foi implementado com auxílio do CoreNLP. Para essa dissertação, foi escolhido o idioma português brasileiro, para o qual não existe suporte nativo do CoreNLP, dessa forma,foram implementados o analisador sintático (Pos-Tagger) e o parse de dependência (DEP-PARSER) em português brasileiro, bem como, treinado um modelo de detecção de entidades nomeadas no domínio da farmacovigilância em português Brasileiro, utilizando AM em uma abordagem híbrida. Foi proposto um algoritmo para efetiva detecção de sinal de eventos adversos em medicamentos. Complementa-se a metodologia com a experimentação dos modelos criados e do algoritmo desenvolvido. Os resultados representem um esforço inicial na tentativa de atuar sobre o idioma português brasileiro no campo da farmacovigilância. Os experimentos abriram caminho para fomentar o tema e fornecer um instrumental para caminhar em direção ao estado da arte, especificamente para a língua portuguesa.

Dissertation

 

Defesa de dissertação (13/11/2019): Leonardo da Silva Moreira

Discente: Leonardo da Silva Moreira

Título: Evaluation of Data Preprocessing Methods for Predicting Brazilian Flight Delays

Orientador: Jorge de Abreu Soares (orientador), Eduardo Soares Ogasawara (co-orientador)

Banca: Jorge de Abreu Soares (presidente), Eduardo Soares Ogasawara (CEFET/RJ), Eduardo Bezerra da Silva (CEFET/RJ), Leonardo Gresta Paulino Murta (IC/UFF)

Dia/Hora: 13 de novembro de 2019 /14 horas

Sala: E-522

Resumo:

Em 2016, as receitas do setor de serviços aéreos do Brasil alcançaram um recorde histórico de receita de R$35,59 bilhões, transportando 109,6 milhões de passageiros de acordo com levantamento da Agência Nacional de Aviação Civil (ANAC). Considerando esse cenário, atrasos nos voos causam vários inconvenientes para as companhias aéreas, aeroportos e passageiros como ocorreram entre 2009 e 2015, onde cerca de 22% dos voos domésticos realizados no Brasil sofreram atrasos superiores a 15 minutos. A previsão desses atrasos é fundamental para mitigar sua ocorrência e otimizar o processo de tomada de decisão de um sistema de transporte aéreo. Particularmente, companhias aéreas, aeroportos e usuários podem estar mais interessados em saber quando é provável que ocorram atrasos do que a previsão precisa de quando não ocorrerão. Neste contexto, esta pesquisa apresenta uma avaliação experimental de métodos de pré-processamento de dados para modelos de classificação de aprendizado de máquina para a predição dos atrasos aéreos, de forma a identificar quais métodos e combinações destes métodos podem auxiliar na melhora da predição e dos resultados do classificador sob uma distribuição desequilibrada de classes de atraso. Para isto a metodologia utilizada inclui a integração de dados aéreos e meteorológicos, etapas de pré-processamento [limpeza, transformação, redução] e finalmente a comparação da predição de dados a partir destes diferentes métodos de pré-processamento. Particularmente, esta pesquisa contribui com a análise de um espectro de métodos de pré-processamento de dados quando comparado à revisão bibliográfica, focando especialmente a distribuição das classes de atraso. Incluem-se entre os objetivos deste trabalho a verificação mais detalhada em relação aos atributos do classificador,a normalização e discretização, principalmente no que diz respeito à faixa de parâmetros do filtro.

Dissertação

 [:en]Student: Leonardo da Silva Moreira

Title: Evaluation of Data Preprocessing Methods for Predicting Brazilian Flight Delays

Advisors: Jorge de Abreu Soares (advisor), Eduardo Soares Ogasawara (co-advisor)

Committee: Jorge de Abreu Soares (president), Eduardo Soares Ogasawara (CEFET/RJ), Eduardo Bezerra da Silva (CEFET/RJ), Leonardo Gresta Paulino Murta (IC/UFF)

Day/Time: November 13, 2019 / 14h

Room: E-522

Abstract:

In 2016, revenues from Brazil’s air services sector reached record revenue of $ R$ 35.59$ billion, transporting 109.6 million passengers, according to a survey by the National Civil Aviation Agency (ANAC). Considering this scenario, delays in flights cause several inconveniences to airlines, airports, and passengers as they occurred between 2009 and 2015, where about 22% of domestic flights made in Brazil were delayed for more than 15 minutes. Predicting these delays is critical to mitigate their occurrence and optimize the decision-making process of an air transport system. In particular, airlines, airports, and users may be more interested in knowing when delays are likely to occur than the forecast needs to know when they will not occur. In this context, this research presents an experimental evaluation of data preprocessing methods for machine learning classification models for the prediction of flight delays, in order to identify which methods and combinations of these methods can help improve prediction and results of the classifier under an unbalanced distribution of delay classes. For this, the methodology used includes the integration of aerial and meteorological data, pre-processing steps [cleaning, transformation, reduction] and finally the comparison of data prediction from these different pre-processing methods. In particular, this research contributes to the analysis of a spectrum of data preprocessing methods when compared to the bibliographic review, especially focusing on the distribution of delay classes. Among the objectives of this work are the more detailed verification in relation to the attributes of the classifier, the normalization, and discretization, mainly with respect to the range of parameters of the filter.

Dissertation

 

Defesa de dissertação (12/07/2019): Gabriel Nascimento dos Santos

Discente: Gabriel Nascimento dos Santos

Título: Tratamento de palavras fora do vocabulário em tarefas de análise de sentimentos com léxicos

Orientador: Gustavo Paiva Guedes e Silva (orientador)

Banca: Gustavo Paiva Guedes e Silva (presidente), Eduardo Bezerra da Silva (CEFET/RJ)  Fellipe Ribeiro Duarte (UFRRJ/RJ), Ronaldo Ribeiro Goldschmidt (IME-RJ)

Dia/Hora: 12 de julho de /2019 / 13h

Sala: Auditório 5

Resumo:

O número de usuários da internet que utilizam número de redes sociais, microblogs e sites de avaliação vem aumentando significantemente nos últimos anos. Com isso, usuários tendem a expor suas opiniões e transmitir o que sentem sobre determinado serviço, produto, e os mais diversos assuntos. Isto tem despertado o interesse de pesquisadores de processamento de linguagem natural, especialmente os de Análise de Sentimentos, que se interessam em explorar técnicas de extrair e entender as opiniões fornecidas pelos usuários que utilizam serviços orientados a opiniões. A Análise de Sentimentos possui três abordagens: a abordagem baseada em aprendizado de máquina, a abordagem baseada em léxicos e a abordagem híbrida. A abordagem baseada em léxicos e a abordagem híbrida sofrem com o problema de palavras fora do vocabulário ao lidar com a natureza dos textos de redes sociais. Lidar com textos provenientes de redes sociais é um grande desafio, pois eles variam de textos bem escritos a sentenças completamente sem sentido. Isso ocorre por diversos motivos, como a limitação do número de caracteres (como no Twitter) e até mesmo por erros ortográficos intencionais. Este trabalho propõe um algoritmo que utiliza word embeddings para tratar palavras fora do vocabulário em tarefas de Análise de Sentimentos com abordagens baseadas em léxico ou abordagens híbridas. A estratégia do algoritmo proposto é baseada na hipótese que palavras que tenham contextos parecidos, possuem significados semelhantes. O algoritmo consiste em eleger as palavras mais similares semanticamente e utilizar as categorias da mais próxima que esteja contida no léxico utilizado. Os experimentos foram conduzidos em três conjuntos de dados em Português do Brasil. Foram utilizados três classificadores e foram observadas melhorias de até 3,3% no F1 score após o uso do algoritmo proposto.

Dissertação

 

Defesa de dissertação (08/05/2019): Roberto de Castro Souza Pinto

Discente: Roberto de Castro Souza Pinto

Título: Ferramenta Robótica para Trabalho com Fotografia Avançada – TilBOT

Orientador: João Roberto de Toledo Quadros (orientador)

Banca: João Roberto de Toledo Quadros (presidente), Aline Gesualdi Manhães (CEFET/RJ)  Eduardo Soares Ogasawaa (CEFET/RJ), Joel André Ferreira dos Santos (CEFET/RJ), Paulo Fernando Ferreira Rosa (IME-RJ)

Dia/Hora: 8 de maio / 14h

Sala: Sala E 515

Resumo: Pesquisas científicas em diversas áreas do conhecimento têm feito uso da técnica cinematográfica de vídeos time-lapse para melhor observar diversos fenômenos da natureza. Essa técnica consiste na criação de vídeos por meio da captura de imagens com uma frequência menor do que quando são reproduzidos, criando uma sensação em que o tempo parece passar mais rápido que o normal. Eventos da natureza, tais como, crescimento de plantas, movimentos de marés, rochas e geleiras, que levam até meses para ocorrer, podem ser vistos em poucos segundos. Pântanos, desertos e até locais submersos, são os lugares de difícil acesso e onde normalmente esses fenômenos ocorrem e precisam ser observados. Câmeras configuradas em modo de disparo contínuo e/ou acopladas a equipamentos especiais que controlam o disparo da câmera, são utilizados para esse fim e estão sujeitos aos efeitos das intempéries desses lugares. Além disso, há um alto custo envolvido com esses equipamentos, sua manutenção e operação. Nesse trabalho é apresentado o TilBOT, uma ferramenta robótica equipada que com uma câmera fotográfica embarcada que vem a atender aos requisitos operacionais associados a configuração, aplicação e custo para obtenção de dados não convencionais do tipo fotografias e vídeos time-lapse e, além de possuir características diferenciais das ferramentas hoje utilizadas para obtenção de dados científicos dessa natureza. Dentre essas novas características se cita a capacidade de utilizar-se do tempo ocioso no processo de captura de imagens para esse tipo de mídia e as novas implementações de mobilidade da ferramenta, com seus vários motores confeccionados para multiposicionamento e de operação da câmera. O TilBOT executa as instruções contidas em um projeto fotográfico que o instrui a movimentar a sua câmera, sendo capaz, com isso, de capturar imagens para a geração de múltiplos vídeos time-lapse a partir de uma mesma coordenada, utilizando-se de um só equipamento, diminuindo a complexidade do processo e reduzindo custos operacionais de obtenção dos dados. Desta feita, o TilBOT é uma ferramenta que facilita a construção de projetos científicos e educacionais que fizerem uso desse tipo de dados não-convencional, no caso, as imagens e os vídeos time-lapse. O TilBOT também pode ser utilizado para a captura de imagens de fotografias digitais avançada para uso em sistemas educacionais, de modo que se possa construir projetos fotográficos com panorâmica horizontal, vertical e 360o imersiva e empilhamento de imagens nas áreas de biologia, geografia e astronomia.

Dissertação

 

Defesa de dissertação (28/03/2019): Flavio Matias Damasceno de Carvalho

Discente: Flavio Matias Damasceno de Carvalho

Título: Desenvolvimento do Dicionário LIWC 2015 em Português do Brasil

Orientadores: Gustavo Paiva Guedes e Silva (orientador)

Banca: Gustavo Paiva Guedes e Silva (CEFET/RJ) (presidente), Eduardo Soares Ogasawara (CEFET/RJ), Joel André Ferreira dos Santos (CEFET/RJ), Lilian Vieira Ferrari (UFRJ)

Dia/Hora: 28 de março / 10h

Sala: Auditório V

Resumo

Uma grande variedade e quantidade de textos são escritos e armazenados em formato digital devido ao desenvolvimento e disseminação de dispositivos computacionais. Dessa grande quantidade de dados textuais, informações úteis podem ser obtidas com técnicas e metodologias da área de Mineração de Texto. Uma dessas metodologias consiste em analisar textos com o Linguistic Inquiry and Word Count, um programa que possui várias versões que foram melhoradas ao longo dos anos. Além de utilizar o arquivo de dicionário padrão, o programa pode utilizar dicionários personalizados ou dicionários traduzidos para outros idiomas. Na utilização com o dicionário traduzido para o português, baseado no dicionário em inglês da versão 2007 do LIWC, as avaliações mostram questões relacionadas ao desempenho da detecção de valência negativa, junto com erros ortográficos e palavras com problemas relacionados à categorização, o que impacta negativamente os resultados obtidos. Desenvolvemos este trabalho observando um aumento no uso desse recurso em estudos acadêmicos nos últimos anos, evidenciado pelo crescente número de citações ao artigo de publicação do dicionário com a tradução para o português. Como não temos conhecimento do desenvolvimento de uma versão mais recente em português e reconhecendo a necessidade de métodos para analisar texto na língua portuguesa, iniciamos o desenvolvimento de uma nova versão em português do dicionário para o LIWC. Trabalhamos com o conjunto de palavras disponíveis na versão de 2015 em inglês e produzimos um novo dicionário compatível com a última versão disponível do programa. Para verificar o desempenho em tarefas de classificação, realizamos experimentos para classificar: (i) autores de textos e (ii) conteúdo das publicações nas redes sociais de acordo com a polaridade do sentimento. As medidas utilizadas para avaliar os resultados obtidos pelos algoritmos de classificação empregados apresentaram valores maiores na nova versão em português do dicionário, comparando com o dicionário atual. Esses experimentos sugerem que o ajuste de palavras a categorias que correspondam adequadamente às características linguísticas e psicológicas permite melhores resultados nas tarefas associadas às áreas de Computação Afetiva e Análise de Sentimentos.

Dissertação

 

Defesa de Dissertação (28/02/2019): Ramon Ferreira Silva

Discente: Ramon Ferreira Silva

Título: Refinement of response models to binary questions

Orientadores: Eduardo Bezerra da Silva (orientador), Joel André Ferreira dos Santos (co-orientador)

Banca: Eduardo Bezerra da Silva (Cefet/RJ) (Presidente), Joel André Ferreira dos Santos (CEFET/RJ), Kele Teixeira Belloze (Cefet/RJ), Ronaldo Ribeiro Goldschmidt (Name-RJ)

Dia/Hora: February 28/9h

Sala: Auditorium V

Resumo:

Responses to visual questions (visual Question Answering, RPV) is a task that unites The fields of computer vision and natural language processing (Natural Language Processing, PLN). Taking as inputs an image I and a question in natural language Q about I, a model for RPV should be able to produce a response R (also in natural language) to Q in a coherent way.  A particular type of visual query is That No Which question is binary (i.e., a question whose answer belongs to the set {Yes, not}). Currently, deep neural networks are the technique that corresponds to state of the art for the training of RPV models. Despite its success, the application of neural networks to the RPV task requires a very large amount of data to be able to produce models with adequate accuracy.  The data sets currently used for the training of RPV models are the result of laborious processes of manual labeling (i.e., made by humans).  This context makes it relevant to study approaches to take greater advantage of these datasets during training. This dissertation proposes to investigate approaches to improve the accuracy of the RPV models for binary questions.  In particular, we present reasoned approaches in active learning techniques (active learning) and increased data (data Increase) to take greater advantage of the existing data set during the training phase of an RPV model.

Dissertação

 

Defesa de dissertação (25/02/2019): João Antônio de Ferreira

Discente: João Antônio de Ferreira

Título:  Um framework Algébrico para Workflows de Análise de Dados em Apache Spark

Orientadores: Eduardo Soares Ogasawara (orientador), Rafaelli de Carvalho Coutinho (coorientador)

Banca: Eduardo Soares Ogasawara (CEFET/RJ) (presidente),
Rafaelli de Carvalho Coutinho (CEFET/RJ), Jorge de Abreu Soares (CEFET/RJ), Fabio Andre Machado Porto (LNCC), Leonardo Gresta Paulino Murta (UFF)

Dia/Hora: 25 de fevereiro / 14h

Sala: H522

Resumo:

A atividade típica de um cientista de dados envolve a implementação de diversos processos que caracterizam experimentos de análise de dados, modelados como workflows. Nestas análises há a necessidade de executar diversos códigos em diferentes linguagens de programação (Python, R, C, Java, Kotlin e Scala) em diferentes ambientes de processamento paralelo e distribuído. Dependendo da complexidade do processo e das inúmeras possibilidades para execução distribuída destas soluções, pode ser necessário gastar muita energia em diferentes implementações que podem afastar o cientista de dados do seu objetivo final, que é o de produzir conhecimento a partir dos grandes volumes de dados. Dentro deste contexto, este trabalho visa apoiar na solução de tal dificuldade ao propor a construção do framework WfF, concebido a partir de uma abordagem algébrica que isola a modelagem do processo da dificuldade de executar, de modo otimizado, tais workflows. Também foi criada uma linguagem agnóstica na forma de uma eDSL (Embedded domain-specific language) inspirada nos conceitos da MDA (Model Driven Architecture) para execução de workflow centrado nos dados (dataflow) e um gerador de código Scala para execução no Apache Spark. O uso de UDF (User Defined Functions) escritas em linguagens diversas, regidas por operadores algébricos (funções de segunda ordem da programação funcional) permite processamento otimizado de dados estruturados, semiestruturados e não estruturados ampliando o domínio de aplicações para além do workflow científico, podendo, ser usado em workflows comerciais de análise de dados. As funcionalidades do ecossistema Apache Spark foram avaliadas no processo de otimização da execução de filtros (operador filter) e mapeamentos (operador map) que operam sobre UDF usando a API (Application Program Interface) Catalyst do SparkSQL, e os experimentos apontam a viabilidade desta abordagem.

Dissertação

 

 

Defesa de dissertação (06/02/2019): Rebecca Pontes Salles

Discente: Rebecca Pontes Salles

Título:  Benchmarking Nonstationary Time Series Prediction

Orientadores: Eduardo Soares Ogasawara (orientador), Pedro Henrique González Silva (coorientador)

Banca: Eduardo Soares Ogasawara (CEFET/RJ) (presidente), Pedro Henrique González Silva (CEFET/RJ), Eduardo Bezerra da Silva (CEFET/RJ), Fabio Andre Machado Porto (LNCC), Florent Masseglia (INRIA)

Dia/Hora: 06 de fevereiro / 9h

Sala: Auditório V

Resumo:

Data preprocessing is a crucial step for mining and learning from data, and one of its primary activities is the transformation of data. This activity is very important in the context of time series prediction since most time series models assume the property of stationarity, i.e., statistical properties do not change over time, which in practice is the exception and not the rule in most real datasets. There are several transformation methods designed to treat nonstationarity in time series. However, the choice of a transformation that is appropriate to the adopted data model and to the problem at hand is not a simple task. This paper provides a review and experimental analysis of methods for transformation of nonstationary time series. The focus of this work is to provide a background on the subject and a discussion on their advantages and limitations to the problem of time series prediction. A subset of the reviewed transformation methods is compared through an experimental evaluation using benchmark datasets from time series prediction competitions and other real macroeconomic datasets. Suitable nonstationary time series transformation methods provided improvements of more than 30% in prediction accuracy for half of the evaluated time series and improved the prediction in more than 95% for 10% of the time series. Furthermore, the adoption of a validation phase during model training enables the selection of suitable transformation methods.

Dissertação

Defesa de dissertação (05/02/2019): Rodrigo Tavares de Souza

Discente: Rodrigo Tavares de Souza

Título:  Appraisal-Spark: uma abordagem para imputação em larga escala

Orientadores: Jorge Abreu Soares (orientador)

Banca: Jorge Abreu Soares (CEFET/RJ) (presidente), Eduardo Soares Ogasawara (CEFET/RJ), Ronaldo Ribeiro Goldschmidt (IME)

Dia/Hora: 05 de fevereiro / 10h

Sala: Auditório V

Resumo:

Cresce continuamente o volume de dados armazenados e a demanda por integração entre os mesmos. Esse cenário aumenta a ocorrência de um problema bastante conhecido dos cientistas de dados: as diversas possibilidades de inconsistências. E um tipo de seus tipos comuns, a ausência de dados, pode prejudicar a análise e resultado de qualquer técnica produtora de informação. A imputação é a área que estuda métodos que buscam aproximar o valor imputado do real. A técnica de imputação composta aplica tarefas de aprendizado de máquina neste processo. Ela utiliza o conceito de plano de imputação, uma sequência lógica de estratégias e algoritmos utilizados na produção do valor imputado final. Neste trabalho, expandiremos a utilização desta técnica, complementando sua utilização com o classificador ensemble bagging. Neste método, os dados são divididos em grupos aleatórios e atrelados a classificadores chamados base learners. Para os subsets gerados no bagging serão retornadas as pontuações (percentual de assertividade) de cada plano de imputação. O plano com maior assertividade dentre todos os subsets será indicado como a sugestão de imputação para o conjunto completo. O trabalho é implementado em um sistema desenvolvido para a ferramenta Spark, denominado Appraisal-Spark, que tem como objetivo gerar valores com maior acurácia e desempenho preditivos para ambientes de larga escala. Através dele será possível compor diversos planos de imputação de alto desempenho, avaliando estratégias e comparando resultados.

Dissertação

Defesa de dissertação (06/12/2018): Leonardo de Souza Preuss

Discente: Leonardo de Souza Preuss

Título:  VITA – Uma ferramenta pedagógica para acompanhamento e auxílio na relação aluno-professor

Orientadores: Joel A. F. dos Santos, Gustavo Paiva Guedes (coorientador)

Banca: Joel A. F. dos Santos (CEFET/RJ) (presidente), Gustavo Paiva Guedes (CEFET/RJ), Eduardo Soares Ogasawara (CEFET/RJ), Alessandro Rosa Lopes Zachi (CEFET/RJ), Diego Gimenez Passos (UFF)

Dia/Hora: 06 de dezembro / 10h

Sala: Auditório V

Resumo:

Um grande problema do sistema de educação atual é o alto índice de evasão em cursos de graduação. Pesquisas na área da educação indicam que o nível de satisfação do estudante é um importante indicador na medida do sucesso de uma universidade. Estudantes com altos níveis de satisfação são mais propensos a continuar no curso, em contraste àqueles que estão insatisfeitos. Nas universidades brasileiras, a qualidade docente e o método de ensino são considerados fatores cruciais e altamente responsáveis na satisfação dos alunos. Nesse contexto, é de grande valia um mecanismo capaz de melhorar a percepção do professor a respeito dos alunos. Isso permite que o professor antecipe a insatisfação dos alunos em uma disciplina e tenha maior agilidade na compreensão de suas necessidades e na adequação das aulas. Reduzindo, assim, a taxa de evasão nas universidades brasileiras. O presente trabalho propõe um sistema que auxilia o professor na percepção do andamento dos alunos em suas aulas, revelando seu grau de satisfação ou insatisfação durante o período letivo. A avaliação é feita tendo como base comentários escritos sobre cada aula, fornecidos pelos alunos. A ferramenta proposta utiliza técnicas da Análise de Sentimentos para processar as avaliações e apresentar ao professor um resultado em formato de gráfico, individual ou por turma. Este gráfico indica apenas os sentimentos predominantes na avaliação do aluno. Assim, é mantida a privacidade do mesmo (com respeito à avaliação fornecida), bem como evita interpretações diferenciadas por parte do professor. Experimentos realizados com 4 turmas de graduação apontam para uma boa precisão da estimativa da satisfação feita por VITA e sua utilidade para professores.

Dissertação

Defesa de dissertação: Raphael Silva de Abreu

Discente: Raphael Silva de Abreu

Título: Autoria de Documentos Multimídia Interativos Baseada na Sincronização de Efeitos Sensoriais em Relação ao Conteúdo Audiovisual

Orientadores: Joel A. F. dos Santos, Eduardo Bezerra da Silva (coorientador)

Banca: Joel A. F. dos Santos (CEFET/RJ) (presidente), Eduardo Bezerra da Silva (CEFET/RJ), Gustavo Paiva Guedes e Silva (CEFET/RJ), Glauco Fiorott Amorim (CEFET/RJ), Débora Christina Muchaluat Saade (UFF)

Dia/Hora: 20 de julho / 10h

Sala: Auditório V

Resumo:

Avanços da computação ubíqua têm se mostrado importantes para aumentar os níveis de imersão de usuários em ambientes virtuais. Tais avanços impulsionam diversas pesquisas visando aumentar a imersão do usuário em aplicações multimídia. Uma delas é a adição de efeitos sensoriais, possibilitando as aplicações mulsemedia. Tais aplicações realizam interface com outros sentidos humanos além da visão e audição. Entretanto, o desenvolvimento destas aplicações necessita de um esforço de autoria para sincronizar efeitos sensoriais com conteúdo audiovisual. Além disso, aplicações interativas carecem de abstrações para facilitar a autoria de efeitos sensoriais. Portanto, este trabalho apresenta uma abordagem para facilitar a autoria de aplicações mulsemedia interativas. Para resolver essas questões, este trabalho se concentrou em três frentes. A primeira é o conceito de âncoras abstratas, que realiza a sincronização de efeitos sensoriais com um objeto de mídia de forma semiautomática. Neste contexto, é apresentado um processador para a linguagem NCL que utiliza redes neurais para identificar quando conteúdos são apresentados para realizar a sincronização. A segunda frente é uma arquitetura de rede neural bimodal, visando melhorar a identificação de conteúdo presentes em objeto audiovisual ao levar em consideração as modalidades de áudio e vídeo. A terceira frente é permitir a definição de efeitos sensoriais em linguagens multimídia declarativas, tornando possível a autoria de aplicações interativas com efeitos sensoriais de acordo com o padrão MPEG-V. Ainda este trabalho apresenta uma extensão do sistema de posicionamento do MPEG-V, permitindo o uso de coordenadas esféricas. Por fim, um simulador 3D de um ambiente mulsemedia interativo é apresentado. Como resultado, este trabalho facilita a autoria das seguintes formas. Primeiramente ao abstrair a sincronização de efeitos sensoriais. Em seguida por aprimorar o método de identificação do conteúdo de um objeto audiovisual. Por fim, permitindo uma definição mais genérica de efeitos sensoriais junto com seu posicionamento em aplicações multimídia interativas e, por meio do simulador 3D, dar suporte ao autor visualizar a execução destes efeitos.

Dissertação

Defesa de dissertação: Rafael Guimarães Rodrigues

Discente: Rafael Guimarães Rodrigues
Título: Análise de Aspectos Semânticos em Traduções Automáticas de Textos
Orientador: Gustavo Paiva Guedes e Silva
Banca:  Gustavo Paiva Guedes e Silva (CEFET/RJ) (Presidente), Eduardo Bezerra da Silva (CEFET/RJ), Eduardo Soares Ogasawara (CEFET/RJ) e Lilian Vieira Ferrari (UFRJ)
Dia/Hora: 4 de julho de 2018 / 10h
Sala: Auditório V
Resumo 
As traduções automáticas de texto surgiram nos anos 50, motivadas por questões militares. Atualmente esse tipo de tradução faz parte do nosso cotidiano e representa uma importante ferramenta para a comunicação no mundo globalizado, especialmente com a utilização de ferramentas de tradução automática de textos disponíveis em ambiente web. No entanto, apesar de tratar-se de uma área com mais de 60 anos de estudos, ainda há diversos desafios a serem superados, o que faz com que esse tipo de processo continue dependente de revisão humana. Existem, atualmente, diversas métricas para avaliar traduções automáticas de textos, dentre as quais, a métrica BLEU apresenta-se como o estado da arte. Essa métrica avalia a qualidade das traduções com base no pareamento exato e ordenado de palavras, sem considerar,
no entanto, a semântica (e.g., aspectos linguísticos e psicológicos) das sentenças avaliadas. Nesse cenário, o principal objetivo deste trabalho é propor uma nova métrica capaz de adicionar semântica às avaliações desse tipo de tradução. Como objetivo secundário, esse trabalho também contribui com dois algoritmos para auxiliar na identificação e quantificação de aspectos psicolinguísticos em traduções do inglês para
o português do Brasil. Para alcançar os objetivos propostos, este trabalho utiliza um léxico afetivo presente em uma ferramenta denominada LIWC (Linguistic Inquiry and Word Count). Esse léxico é capaz de contabilizar palavras em categorias que representam aspectos psicológicos e
linguísticos. Durante os experimentos foram utilizados dez textos traduzidos por dois especialistas humanos e por três dessas ferramentas já citadas. Os referidos textos foram utilizados para estabelecer uma comparação entre a métrica proposta e o estado da arte. Os testes também objetivaram avaliar possíveis problemas produzidos por ferramentas utilizadas para realizar esse tipo de tradução. Os resultados foram considerados promissores e indicam que esse estudo pode contribuir com novos trabalhos direcionados ao desenvolvimento de métricas para avaliação de traduções automáticas de textos e talvez até mesmo para trabalhos direcionados para o desenvolvimento de ferramentas que produzam esse tipo de tradução.
 Dissertação