📢 Palestra Convidada — Data Analytics Lab
Temos o prazer de convidar toda a comunidade para a palestra do Prof. Mario Nascimento, Professor Emérito da University of Alberta (Canadá), que estará conosco na próxima semana.
🗓 Data: quarta-feira
🕒 Horário: 14h30min

Imputação e Geração de Trajetórias usando Modelos de Linguagem Probabilísticos Simples
Resumo
Dados de trajetórias coletados por GPS têm sido amplamente utilizados em diversas aplicações críticas. No entanto, muitos conjuntos de dados de trajetórias apresentam lacunas devido a problemas técnicos ou às estratégias de amostragem adotadas. A imputação de trajetórias consiste em preencher essas lacunas, estimando pontos que se ajustem de forma “natural” às trajetórias existentes.
Considerando que tanto trajetórias (discretizadas) quanto a linguagem natural podem ser representadas como sequências de símbolos, exploramos o uso de modelos de linguagem probabilísticos para a imputação de trajetórias. Utilizando uma representação do espaço baseada em grade, convertemos os pontos das trajetórias em tokens correspondentes às células da grade onde ocorrem e treinamos modelos de diferentes tamanhos.
Apresentamos experimentos com um conjunto real contendo mais de 500.000 viagens de táxi, demonstrando que é possível preencher lacunas de até 2 km entre observações de GPS com 83% de precisão. Esses resultados são comparáveis aos obtidos por abordagens baseadas em Large Language Models, que são significativamente mais custosas do ponto de vista computacional.
Se o tempo permitir, também apresentaremos como essa abordagem pode ser estendida para gerar conjuntos de dados de trajetórias realistas em larga escala, a partir de amostras reais, os quais podem ser utilizados, por exemplo, no treinamento de modelos de aprendizado de máquina.
(*) Pesquisa desenvolvida em colaboração com Hayat Sultan Mohammed, Denilson Barbosa e Han Pai, apresentada no IEEE MDM 2024 e no ACM SIGSPATIAL 2024 GeoSim Workshop.