DAL Toolbox é um framework para análise de dados inspirado no modelo de Experiment Lines. O pacote organiza, em um ambiente integrado, atividades de pré-processamento, classificação, regressão, agrupamento, análise gráfica e construção de pipelines analíticos reprodutíveis. Na versão atual do pacote, 1.3.727, a documentação foi reorganizada para apoiar uma trilha de aprendizado guiada e coleções temáticas mais didáticas.

Organização didática

O material do daltoolbox passou a ser organizado em duas portas de entrada complementares. A primeira é uma trilha guiada, indicada para quem deseja aprender o fluxo de um experimento analítico passo a passo. A segunda é composta por coleções temáticas, voltadas a quem quer estudar famílias específicas de transformações, modelos e visualizações.

Essa organização reforça a proposta central do framework: análise de dados não deve ser tratada como uma sequência solta de funções isoladas, mas como um workflow coerente que integra preparação dos dados, modelagem, avaliação, comparação de modelos, visualização e extensão do ambiente.

Etapas e métodos disponíveis

  • Transformações:
    amostragem, limpeza de dados, tratamento de outliers, escalonamento, codificação categórica, discretização, balanceamento, seleção de atributos, redução de dimensionalidade e heurísticas baseadas em curvatura.
  • Classificação:
    baselines, árvores de decisão, métodos baseados em instâncias, modelos probabilísticos, ensembles, máquinas de vetor de suporte, redes neurais e seleção de hiperparâmetros.
  • Regressão:
    modelos interpretáveis, métodos baseados em vizinhança, ensembles, regressão por margens, redes neurais e ajuste de hiperparâmetros.
  • Agrupamento:
    métodos particionais, baseados em medoids, abordagens baseadas em densidade e seleção de modelos em cenários não supervisionados.
  • Gráficos:
    visualizações para comparação de categorias, análise de distribuição, relações entre variáveis, séries temporais e exportação de figuras para relatórios.
  • Customização:
    integração de novas transformações, classificadores, regressores e métodos de agrupamento preservando o contrato do framework.
  • Integração e extensibilidade:
    suporte à integração com bibliotecas externas e uso complementar de ecossistemas como Python quando necessário.

Arquitetura

A arquitetura do daltoolbox foi construída para manter estável o ciclo experimental de dividir, ajustar, predizer, avaliar e comparar, independentemente da família de método utilizada. Com um modelo uniforme de dados e uma API consistente, o framework facilita reprodutibilidade, extensibilidade e integração entre diferentes etapas do processo analítico.

Instalação

A versão estável do DAL Toolbox no CRAN está disponível em: https://CRAN.R-project.org/package=daltoolbox

Para instalar a versão estável do CRAN:

install.packages("daltoolbox")

Para instalar a versão em desenvolvimento diretamente do GitHub:

library(devtools)
devtools::install_github("cefet-rj-dal/daltoolbox", force = TRUE, dependencies = FALSE, upgrade = "never")

Documentação e exemplos

Os exemplos do daltoolbox estão organizados em trilha guiada e em coleções temáticas de transformações, classificação, regressão, agrupamento, gráficos e customização:

https://github.com/cefet-rj-dal/daltoolbox/tree/main/examples

Trilha guiada

A trilha guiada atual cobre a lógica completa de um experimento analítico: primeiro experimento, estratégias de amostragem, qualidade e limpeza de dados, pré-processamento, baselines, métricas, comparação de modelos, tuning, pipelines fim a fim, regressão, agrupamento, análise visual e extensão customizada do framework.

Material complementar

Além dos exemplos temáticos, o daltoolbox serve de base conceitual e arquitetural para outros frameworks do ecossistema DAL, como tspredit e harbinger, oferecendo a infraestrutura comum para organização de workflows analíticos reprodutíveis.

https://cefet-rj-dal.github.io/daltoolbox/

Playlist do tutorial: