Defesa de dissertação (13/11/2019): Leonardo da Silva Moreira
Discente: Leonardo da Silva Moreira
Título: Evaluation of Data Preprocessing Methods for Predicting Brazilian Flight Delays
Orientador: Jorge de Abreu Soares (orientador), Eduardo Soares Ogasawara (co-orientador)
Banca: Jorge de Abreu Soares (presidente), Eduardo Soares Ogasawara (CEFET/RJ), Eduardo Bezerra da Silva (CEFET/RJ), Leonardo Gresta Paulino Murta (IC/UFF)
Dia/Hora: 13 de novembro de 2019 /14 horas
Sala: E-522
Resumo:
Em 2016, as receitas do setor de serviços aéreos do Brasil alcançaram um recorde histórico de receita de R$35,59 bilhões, transportando 109,6 milhões de passageiros de acordo com levantamento da Agência Nacional de Aviação Civil (ANAC). Considerando esse cenário, atrasos nos voos causam vários inconvenientes para as companhias aéreas, aeroportos e passageiros como ocorreram entre 2009 e 2015, onde cerca de 22% dos voos domésticos realizados no Brasil sofreram atrasos superiores a 15 minutos. A previsão desses atrasos é fundamental para mitigar sua ocorrência e otimizar o processo de tomada de decisão de um sistema de transporte aéreo. Particularmente, companhias aéreas, aeroportos e usuários podem estar mais interessados em saber quando é provável que ocorram atrasos do que a previsão precisa de quando não ocorrerão. Neste contexto, esta pesquisa apresenta uma avaliação experimental de métodos de pré-processamento de dados para modelos de classificação de aprendizado de máquina para a predição dos atrasos aéreos, de forma a identificar quais métodos e combinações destes métodos podem auxiliar na melhora da predição e dos resultados do classificador sob uma distribuição desequilibrada de classes de atraso. Para isto a metodologia utilizada inclui a integração de dados aéreos e meteorológicos, etapas de pré-processamento [limpeza, transformação, redução] e finalmente a comparação da predição de dados a partir destes diferentes métodos de pré-processamento. Particularmente, esta pesquisa contribui com a análise de um espectro de métodos de pré-processamento de dados quando comparado à revisão bibliográfica, focando especialmente a distribuição das classes de atraso. Incluem-se entre os objetivos deste trabalho a verificação mais detalhada em relação aos atributos do classificador,a normalização e discretização, principalmente no que diz respeito à faixa de parâmetros do filtro.
[:en]Student: Leonardo da Silva Moreira
Title: Evaluation of Data Preprocessing Methods for Predicting Brazilian Flight Delays
Advisors: Jorge de Abreu Soares (advisor), Eduardo Soares Ogasawara (co-advisor)
Committee: Jorge de Abreu Soares (president), Eduardo Soares Ogasawara (CEFET/RJ), Eduardo Bezerra da Silva (CEFET/RJ), Leonardo Gresta Paulino Murta (IC/UFF)
Day/Time: November 13, 2019 / 14h
Room: E-522
Abstract:
In 2016, revenues from Brazil’s air services sector reached record revenue of $ R$ 35.59$ billion, transporting 109.6 million passengers, according to a survey by the National Civil Aviation Agency (ANAC). Considering this scenario, delays in flights cause several inconveniences to airlines, airports, and passengers as they occurred between 2009 and 2015, where about 22% of domestic flights made in Brazil were delayed for more than 15 minutes. Predicting these delays is critical to mitigate their occurrence and optimize the decision-making process of an air transport system. In particular, airlines, airports, and users may be more interested in knowing when delays are likely to occur than the forecast needs to know when they will not occur. In this context, this research presents an experimental evaluation of data preprocessing methods for machine learning classification models for the prediction of flight delays, in order to identify which methods and combinations of these methods can help improve prediction and results of the classifier under an unbalanced distribution of delay classes. For this, the methodology used includes the integration of aerial and meteorological data, pre-processing steps [cleaning, transformation, reduction] and finally the comparison of data prediction from these different pre-processing methods. In particular, this research contributes to the analysis of a spectrum of data preprocessing methods when compared to the bibliographic review, especially focusing on the distribution of delay classes. Among the objectives of this work are the more detailed verification in relation to the attributes of the classifier, the normalization, and discretization, mainly with respect to the range of parameters of the filter.