Defesa de Dissertação (19/09/2025): Fernando Henrique de Jesus Fraga da Silva

Discente: Fernando Henrique de Jesus Fraga da Silva

Título: Day Trading Multi-Ações via Aprendizado por Reforço Profundo | Multi-Stock Day Trading via Deep Reinforcement Learning

Orientador: Eduardo Bezerra da Silva

Banca: Glauco Fiorott Amorim (CEFET/RJ) e Pedro Henrique González Silva (CEFET/RJ & COPPE/PESC)

Dia/Hora: 19/09/2025 às 10h

Sala ou Link para apresentação remota: https://teams.microsoft.com/l/meetup-join/19%3a0bb9d0e20b004f5f81e8993357000fa9%40thread.tacv2/1755006816852?context=%7b%22Tid%22%3a%228eeca404-a47d-4555-a2d4-0f3619041c9c%22%2c%22Oid%22%3a%22c03d6068-4733-48a6-bbb4-aa78f351d9cf%22%7d

Resumo:
O mercado de ações representa o ambiente em que empresas de capital aberto disponibilizam ao público parcelas de sua estrutura, por meio da emissão e negociação de ações. Cada ação corresponde a uma fração do valor da companhia e está sujeita a constantes oscilações de preço. Essa volatilidade pode ser influenciada por uma ampla variedade de fatores, como mudanças no cenário econômico, decisões políticas, acontecimentos sociais e até mesmo eventos inesperados de escala global. Compreender e, principalmente, tentar antecipar os efeitos desses elementos no comportamento do mercado configura-se como uma tarefa desafiadora e, em muitos casos, de elevada complexidade. Essa dificuldade torna-se ainda mais evidente em operações de day trading, em que decisões precisam ser tomadas em questão de minutos ou até segundos, exigindo análises precisas em intervalos extremamente curtos. É nesse contexto que o aprendizado por reforço surge como uma alternativa promissora, oferecendo modelos capazes de desenvolver estratégias adaptativas a partir da interação contínua com o ambiente de negociação. O presente trabalho tem como objetivo investigar a aplicação do aprendizado por reforço no setor financeiro, com ênfase em operações de day trade. Nesse contexto, busca-se propor uma técnica de aprendizado por reforço profundo capaz de estimar transações de day trade para diversas empresas simultaneamente, utilizando uma granularidade de dados que se aproxime ao máximo da realidade do mercado. Para isso conduzimos testes experimentais empregando o algoritmo PPO. Os resultados alcançados apontam que, comparado aos benchmarks, o agente de aprendizado por reforço foi capaz de obter resultados melhores em diversas ações. Em alguns casos, nosso agente chegou a alcançar um retorno em comparação ao benchmark de acima de 10 pontos percentuais.