{"id":2353,"date":"2019-02-11T22:44:44","date_gmt":"2019-02-12T00:44:44","guid":{"rendered":"http:\/\/eic.cefet-rj.br\/ppcic\/?p=2353"},"modified":"2025-09-03T18:55:07","modified_gmt":"2025-09-03T21:55:07","slug":"defesa-de-dissertacao-25-02-2019-joao-antonio-de-ferreira","status":"publish","type":"post","link":"https:\/\/eic.cefet-rj.br\/ppcic\/defesa-de-dissertacao-25-02-2019-joao-antonio-de-ferreira\/","title":{"rendered":"Defesa de disserta\u00e7\u00e3o (25\/02\/2019):  Jo\u00e3o Ant\u00f4nio de Ferreira"},"content":{"rendered":"\r\n\r\n\r\n<p><strong>Discente<\/strong>: Jo\u00e3o Ant\u00f4nio de Ferreira<\/p>\r\n\r\n\r\n\r\n<p><strong>T\u00edtulo<\/strong>:\u00a0 Um <em>framework<\/em> Alg\u00e9brico para <em>Workflows<\/em> de An\u00e1lise de Dados em <em>Apache Spark<\/em><\/p>\r\n\r\n\r\n\r\n<p><strong>Orientadores<\/strong>: Eduardo Soares Ogasawara (orientador),\u00a0Rafaelli de Carvalho Coutinho (coorientador)<\/p>\r\n\r\n\r\n\r\n<p><strong>Banca<\/strong>: Eduardo Soares Ogasawara (CEFET\/RJ) (presidente), <br \/>Rafaelli de Carvalho Coutinho (CEFET\/RJ),\u00a0Jorge de Abreu Soares (CEFET\/RJ), Fabio Andre Machado Porto (LNCC), Leonardo Gresta Paulino Murta (UFF)<\/p>\r\n\r\n\r\n\r\n<p><strong>Dia\/Hora<\/strong>: 25 de fevereiro \/ 14h<\/p>\r\n\r\n\r\n\r\n<p><strong>Sala<\/strong>: H522<\/p>\r\n\r\n\r\n\r\n<p><strong>Resumo<\/strong>:<\/p>\r\n\r\n\r\n\r\n<p>A atividade t\u00edpica de um cientista de dados envolve a implementa\u00e7\u00e3o de diversos processos que caracterizam experimentos de an\u00e1lise de dados, modelados como workflows. Nestas an\u00e1lises h\u00e1 a necessidade de executar diversos c\u00f3digos em diferentes linguagens de programa\u00e7\u00e3o (Python, R, C, Java, Kotlin e Scala) em diferentes ambientes de processamento paralelo e distribu\u00eddo. Dependendo da complexidade do processo e das in\u00fameras possibilidades para execu\u00e7\u00e3o distribu\u00edda destas solu\u00e7\u00f5es, pode ser necess\u00e1rio gastar muita energia em diferentes implementa\u00e7\u00f5es que podem afastar o cientista de dados do seu objetivo final, que \u00e9 o de produzir conhecimento a partir dos grandes volumes de dados. Dentro deste contexto, este trabalho visa apoiar na solu\u00e7\u00e3o de tal dificuldade ao propor a constru\u00e7\u00e3o do framework WfF, concebido a partir de uma abordagem alg\u00e9brica que isola a modelagem do processo da dificuldade de executar, de modo otimizado, tais workflows. Tamb\u00e9m foi criada uma linguagem agn\u00f3stica na forma de uma eDSL (Embedded domain-specific language) inspirada nos conceitos da MDA (Model Driven Architecture) para execu\u00e7\u00e3o de workflow centrado nos dados (dataflow) e um gerador de c\u00f3digo Scala para execu\u00e7\u00e3o no Apache Spark. O uso de UDF (User Defined Functions) escritas em linguagens diversas, regidas por operadores alg\u00e9bricos (fun\u00e7\u00f5es de segunda ordem da programa\u00e7\u00e3o funcional) permite processamento otimizado de dados estruturados, semiestruturados e n\u00e3o estruturados ampliando o dom\u00ednio de aplica\u00e7\u00f5es para al\u00e9m do workflow cient\u00edfico, podendo, ser usado em workflows comerciais de an\u00e1lise de dados. As funcionalidades do ecossistema Apache Spark foram avaliadas no processo de otimiza\u00e7\u00e3o da execu\u00e7\u00e3o de filtros (operador filter) e mapeamentos (operador map) que operam sobre UDF usando a API (Application Program Interface) Catalyst do SparkSQL, e os experimentos apontam a viabilidade desta abordagem.<\/p>\r\n<div><a href=\"https:\/\/sucupira.capes.gov.br\/sucupira\/public\/consultas\/coleta\/trabalhoConclusao\/viewTrabalhoConclusao.jsf?popup=true&amp;id_trabalho=7793658#\"><img decoding=\"async\" class=\"alignnone wp-image-3271\" src=\"https:\/\/eic.cefet-rj.br\/ppcic\/wp-content\/uploads\/2018\/05\/logo-sucupira.png\" alt=\"\" width=\"81\" height=\"29\" \/><\/a><\/div>\r\n<div><strong>Disserta\u00e7\u00e3o <\/strong><a href=\"https:\/\/eic.cefet-rj.br\/ppcic\/wp-content\/uploads\/2019\/02\/06-Jo\u00e3o-Antonio-Ferreira.pdf\"><img decoding=\"async\" class=\"alignnone wp-image-3273\" style=\"-webkit-text-stroke: 0.15px;\" src=\"https:\/\/eic.cefet-rj.br\/ppcic\/wp-content\/uploads\/2018\/05\/download-logo2.png\" alt=\"\" width=\"15\" height=\"14\" srcset=\"https:\/\/eic.cefet-rj.br\/ppcic\/wp-content\/uploads\/2018\/05\/download-logo2.png 222w, https:\/\/eic.cefet-rj.br\/ppcic\/wp-content\/uploads\/2018\/05\/download-logo2-150x150.png 150w\" sizes=\"(max-width: 15px) 100vw, 15px\" \/><\/a><\/div>\r\n\r\n<p>&nbsp;<\/p>\r\n\r\n<p>&nbsp;<\/p>\r\n","protected":false},"excerpt":{"rendered":"<p>Discente: Jo\u00e3o Ant\u00f4nio de Ferreira T\u00edtulo:\u00a0 Um framework Alg\u00e9brico para Workflows de An\u00e1lise de Dados em Apache Spark Orientadores: Eduardo Soares Ogasawara (orientador),\u00a0Rafaelli de Carvalho Coutinho (coorientador) Banca: Eduardo Soares Ogasawara (CEFET\/RJ) (presidente), Rafaelli de Carvalho Coutinho (CEFET\/RJ),\u00a0Jorge de Abreu Soares (CEFET\/RJ), Fabio Andre Machado Porto (LNCC), Leonardo Gresta Paulino Murta (UFF) Dia\/Hora: 25 de [&hellip;]<\/p>\n","protected":false},"author":3,"featured_media":0,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"_monsterinsights_skip_tracking":false,"_monsterinsights_sitenote_active":false,"_monsterinsights_sitenote_note":"","_monsterinsights_sitenote_category":0,"footnotes":""},"categories":[14,33],"tags":[],"class_list":["post-2353","post","type-post","status-publish","format-standard","hentry","category-defesas","category-noticias-pt"],"_links":{"self":[{"href":"https:\/\/eic.cefet-rj.br\/ppcic\/wp-json\/wp\/v2\/posts\/2353","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/eic.cefet-rj.br\/ppcic\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/eic.cefet-rj.br\/ppcic\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/eic.cefet-rj.br\/ppcic\/wp-json\/wp\/v2\/users\/3"}],"replies":[{"embeddable":true,"href":"https:\/\/eic.cefet-rj.br\/ppcic\/wp-json\/wp\/v2\/comments?post=2353"}],"version-history":[{"count":11,"href":"https:\/\/eic.cefet-rj.br\/ppcic\/wp-json\/wp\/v2\/posts\/2353\/revisions"}],"predecessor-version":[{"id":3316,"href":"https:\/\/eic.cefet-rj.br\/ppcic\/wp-json\/wp\/v2\/posts\/2353\/revisions\/3316"}],"wp:attachment":[{"href":"https:\/\/eic.cefet-rj.br\/ppcic\/wp-json\/wp\/v2\/media?parent=2353"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/eic.cefet-rj.br\/ppcic\/wp-json\/wp\/v2\/categories?post=2353"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/eic.cefet-rj.br\/ppcic\/wp-json\/wp\/v2\/tags?post=2353"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}