Defesa de dissertação (13/05/2026): Ana Gabriela Viana de Araújo
Divulgação de defesa de dissertação e de qualificação
Discente: Ana Gabriela Viana de Araújo
Título: Aplicação de métodos baseados em concept drift para previsão de gols no futebol profissional
Application of concept drift-based methods for predicting goals in professional football
Orientador: Jorge de Abreu Soares (Cefet/RJ)
Banca: Jorge de Abreu Soares (Cefet/RJ), Glauco Fiorott Amorim (Cefet/RJ), Pedro Henrique González Silva (UFRJ), Carlos Eduardo Ribeiro de Mello (Unirio)
Dia/Hora: 13/05/2026 às 9h
Sala ou Link para apresentação remota: https://teams.microsoft.com/meet/235075217075845?p=ezgpJ8dNRKnMa8dTfM
Resumo:
Este trabalho investiga a aplicação de técnicas de detecção de \textit{concept drift} para a identificação antecipada de gols em partidas de futebol, com base em dados de eventos intra-partida. A abordagem trata o problema como monitoramento de mudanças na
distribuição de passes intra-partida, utilizando \textit{drift} virtual operacionalmente, isto é, detecção baseada exclusivamente em P(X) sem rótulos em tempo real, com a premissa de que essas mudanças precedem alterações na probabilidade de gol. A robustez dos resultados é verificada por divisão temporal com 190 partidas de treino e 190 de teste. Foram utilizados dados da temporada 2015/2016 da La Liga: 380 partidas, agregadas em intervalos de um minuto, com análise tanto do comportamento ofensivo quanto defensivo. Três detectores de \textit{drift} foram avaliados (Page-Hinkley, KSWIN e ADWIN) em comparação com baselines determinístico e estocástico, utilizando como sinal de entrada médias móveis da frequência de passes. A avaliação adota uma variante assimétrica do \textit{SoftED evaluation}, que penaliza alarmes tardios por meio de uma função de pontuação linear decrescente na janela [t-K,t], com K=10 minutos. Os resultados indicam que o Page-Hinkley obteve o maior MCC entre os detectores avaliados, superando ambos os \textit{baselines}; Page-Hinkley e KSWIN apresentaram F1 equivalentes, com vantagem marginal do KSWIN. A comparação com abordagem supervisionada da literatura evidencia que o método proposto, embora mais simples e sem necessidade de dados rotulados, atinge desempenho competitivo a partir da primeira partida. Discutem-se limitações da abordagem, incluindo o uso de passes como único sinal \textit{proxy} e a restrição a uma única temporada, além de perspectivas para trabalhos futuros com variáveis multivariadas e análise longitudinal.
distribuição de passes intra-partida, utilizando \textit{drift} virtual operacionalmente, isto é, detecção baseada exclusivamente em P(X) sem rótulos em tempo real, com a premissa de que essas mudanças precedem alterações na probabilidade de gol. A robustez dos resultados é verificada por divisão temporal com 190 partidas de treino e 190 de teste. Foram utilizados dados da temporada 2015/2016 da La Liga: 380 partidas, agregadas em intervalos de um minuto, com análise tanto do comportamento ofensivo quanto defensivo. Três detectores de \textit{drift} foram avaliados (Page-Hinkley, KSWIN e ADWIN) em comparação com baselines determinístico e estocástico, utilizando como sinal de entrada médias móveis da frequência de passes. A avaliação adota uma variante assimétrica do \textit{SoftED evaluation}, que penaliza alarmes tardios por meio de uma função de pontuação linear decrescente na janela [t-K,t], com K=10 minutos. Os resultados indicam que o Page-Hinkley obteve o maior MCC entre os detectores avaliados, superando ambos os \textit{baselines}; Page-Hinkley e KSWIN apresentaram F1 equivalentes, com vantagem marginal do KSWIN. A comparação com abordagem supervisionada da literatura evidencia que o método proposto, embora mais simples e sem necessidade de dados rotulados, atinge desempenho competitivo a partir da primeira partida. Discutem-se limitações da abordagem, incluindo o uso de passes como único sinal \textit{proxy} e a restrição a uma única temporada, além de perspectivas para trabalhos futuros com variáveis multivariadas e análise longitudinal.
Abstract
This work investigates the application of concept drift detection techniques for the early identification of goals in soccer matches, based on intra-match event data. The approach treats the problem as monitoring changes in the intra-match pass distribution, using operationally virtual drift, that is, detection based exclusively on P(X) without labels in real time, with the premise that these changes precede changes in the probability of a goal. The robustness of the results is verified by temporal division with 190 training matches and 190 test matches. Data from the 2015/2016 La Liga season were used: 380 matches, aggregated in one-minute intervals, with analysis of both offensive and defensive behavior. Three drift detectors were evaluated (Page-Hinkley, KSWIN, and ADWIN) in comparison with deterministic and stochastic baselines, using moving averages of pass frequency as input signal. The evaluation adopts an asymmetric variant of the SoftED evaluation, which penalizes late alarms through a decreasing linear scoring function in the [t-K,t] window, with K=10 minutes. The results indicate that Page-Hinkley obtained the highest MCC among the detectors evaluated, surpassing both baselines; Page-Hinkley and KSWIN presented equivalent F1 values, with a marginal advantage for KSWIN. Comparison with supervised approaches from the literature shows that the proposed method, although simpler and without the need for labeled data, achieves competitive performance from the first match. Limitations of the approach are discussed, including the use of passes as the only proxy signal and the restriction to a single season, as well as perspectives for future work with multivariate variables and longitudinal analysis.