Detecção de eventos

No contexto de análise de dados de séries temporais, frequentemente é possível observar a ocorrência de uma mudança significativa no comportamento de uma série temporal em um certo ponto ou intervalo de tempo. Tal mudança de comportamento geralmente caracteriza a ocorrência de um evento. Um evento detectado em dados de séries temporais muitas vezes pode representar a ocorrência de um fenômeno com significado específico e definido em um determinado domínio de conhecimento.

Eventos detectados em séries temporais comumente se apresentam como anomalias ou pontos de mudança. As anomalias são observações que não estão em conformidade com o padrão de comportamento esperado dentro do conjunto de dados. Por sua vez, pontos de mudança separam diferentes estados no processo que gera a série temporal. O problema de detecção de pontos de mudança está relacionado ao problema de detecção de desvio de conceito (i.e., concept drift) em séries temporais. Neste caso, a detecção de pontos de mudança objetiva encontrar o instante (ou intervalo) específico no tempo que marca a ocorrência do desvio de conceito.

A complexidade desta tarefa é agravada considerando-se que a natureza dos eventos observados em uma série temporal muitas vezes não é conhecida. Ademais, os desafios de se detectar eventos se tornam ainda mais críticos quando em sistemas de monitoramento de tempo real (comumente associadas a dados em streaming), onde a demanda de detecção destes eventos é pressionada pela necessidade de velocidade para o processamento computacional.

Descoberta de padrões e motifs

A pesquisa em métodos para descoberta de padrões em séries temporais e séries espaço-temporais é dividida em duas principais atividades: (i) mineração de padrões e sequências e (ii) identificação de motifs. A primeira é voltada no apoio ao processo de extração de conhecimento usando as técnicas transacionais na observação de padrões de itens frequentes e de sequências de itens frequentes. Na segunda, busca-se explorar as técnicas criadas para descoberta de padrões em séries temporais de observações contínuas.

A mineração de padrões é um amplo campo de pesquisa abrangendo várias abordagens. Dentre elas, a mineração de padrões frequentes desempenha um papel importante na descoberta de associações e correlações entre dados. Os padrões que são frequentes em um conjunto de dados podem ser expressos por regras de associação (RAs). RAs destacam conjuntos de itens frequentes no antecedente, levando aos do consequente.

Durante a mineração de padrões frequentes, é comum a produção de milhares de RAs, tornando árduo o estudo de cada uma. Este problema enfraquece o processo de descoberta de informações úteis. Há um esforço científico para desenvolver abordagens capazes de filtrar padrões interessantes, equilibrando a quantidade de RAs produzidas com o objetivo de não serem triviais e conhecidos por especialistas. Entre as abordagens para filtrar padrões interessantes, algumas usam medidas de interesse, outras as listam com base em propriedades, e outras usam análise subjetiva.

Alguns desafios associados a não-estacionariedade dos dados que se pretende explorar neste projeto. O primeiro consiste em descobrir padrões que se apresentem em divergência em relação a distribuição geral dos dados. O segundo consiste em estudar padrões emergentes. O terceiro está inserido no contexto de estabelecer relações dinâmicas no espaço-tempo, este projeto faz uso das técnicas de mineração de sequências frequentes. Neste cenário, busca-se descobrir sequências de eventos relacionados no espaço e tempo. Finalmente, a identificação de padrões previamente desconhecidos em séries temporais contínuas é conhecida como identificação de motifs. Neste projeto tem-se por interesse encontrar motifs restritos no espaço-tempo, i.e., padrões que podem não ser frequentes em todo o conjunto de dados, mas são frequentes dentro de um intervalo de tempo e espaço (blocos espaço-temporais).

 

Predição

A pesquisa em métodos para predição é dividida em três principais atividades: (i) métodos de regressão, (ii) métodos de classificação e (iii) métodos para tratamento de desvio de conceito. A primeira é voltada na predição de valores contínuos. Na segunda, tem-se o problema geral de classificação. Finalmente, na terceira, há influência de desvio de conceito, em especial no contexto de conjunto de dados não balanceados e de influência do fluxo de dados. Em especial, há várias possibilidades de exploração e desenvolvimento de modelos capazes de abordar as diferentes faces do desvio de conceito. Espera-se que os modelos se ajustem dinamicamente visando alcançar maior robustez e estabilidade no seu uso. No entanto, a adaptabilidade pode não levar à robustez. Um modelo adaptativo que reaja a fenômenos de curta duração muda rapidamente e, portanto, tende a fazer com que os modelos respondam a distúrbios espúrios. As adaptações devem acontecer quando os fenômenos tiverem uma duração suficiente que os caracterizem como mudanças significativas. Tal relação entre robustez e adaptabilidade não é trivial, remontando novamente ao dilema da plasticidade-estabilidade e é objeto de estudo neste projeto.

 

Para mais informações, assista ao seguinte vídeo:

A apresentação está também disponível: slides.pdf