Apresentação
Os constantes avanços na área da Tecnologia da Informação têm viabilizado o armazenamento de grandes, múltiplas, heterogêneas e distribuídas bases de dados de natureza administrativa, científica, comercial, educacional, governamental e social em todo o mundo. Estima-se que, em 2020, a humanidade terá cerca de 44 zettabytes de informações digitais disponíveis. Na era globalizada em que vivemos onde é cada vez maior a competitividade entre as empresas, informação e conhecimento são elementos fundamentais para se obter diferenciais mercadológicos frente à concorrência. Então, como tirar proveito do conhecimento subjacente a todo esse patrimônio digital que vem sendo acumulado? A análise desses dados pelo homem é inviável sem o auxílio de ferramentas computacionais apropriadas.
Diante deste cenário, encontra-se uma nova área popularmente conhecida como Big Data, para referenciar (e lidar com) esse massivo e acelerado crescimento de volumes de dados ao redor do mundo. Data Mining, foco deste livro, é o subconjunto do universo Big Data que se concentra no desenvolvimento e na aplicação de técnicas que permitam analisar e obter conhecimentos novos e úteis a partir de grandes bases de dados.
Diversas técnicas de Data Mining vêm sendo utilizadas com sucesso no mundo inteiro e estão presentes em importantes instituições (nacionais e internacionais) tais como: Nasa, Wal-Mart, FedEx, UPS, Amazon, Caixa Econômica Federal, Banco do Brasil, Vale do Rio Doce, Petrobras, Dataprev, entre muitas outras. Detecção de fraudes em arrecadações, tendências de consumo e de opiniões de clientes, acompanhamento personalizado de estudantes, compreensão da evolução de redes sociais virtuais, previsão de produção na indústria e de riscos no mercado financeiro são alguns exemplos dentre as inúmeras aplicações de Data Mining na atualidade.
Público alvo
Este livro é destinado a estudantes de nível técnico, de graduação e pós-graduação em informática, computação ou em engenharia que estejam cursando alguma disciplina introdutória sobre KDD. Profissionais de outras áreas como a Estatística também podem encontrar neste livro uma boa iniciação aos conceitos computacionais de KDD e à sua aplicação.
Em geral, o livro é adequado para profissionais de Tecnologia da Informação interessados em utilizar dados históricos para extrair conhecimento que possa ser utilizado na tomada de decisões. Assim sendo, o texto mescla uma abordagem conceitual e formal com linguagem acessível, recomendada a todos os tipos de leitores, seguido de informações de cunho mais prático, voltado ao público com interesse na aplicação da tecnologia.
O conhecimento dos fundamentos de programação e de banco de dados é desejável (mas não obrigatório) para o bom entendimento dos assuntos tratados.
Material complementar
O material complementar ao livro disponibilizado nessa página serve como fonte de estudo adicional e de referência para aprofundamento nos assuntos abordados.
- Prefácio e sumário do livro
- Material (em formato MS PowerPoint) para aulas
- Soluções para alguns dos exercícios propostos
- Complementos. Textos introdutórios sobre Redes Neurais Artificiais, Lógica Nebulosa, Algoritmos Genéticos e Data Warehouse. Recomenda-se aos leitores não familiarizados com um ou mais desses temas que leiam os textos respectivos como preparação para o conteúdo abordado no Capítulo 5.
- Errata
- Recursos na Internet. Nesta página são fornecidos alguns links relacionados aos assuntos tratados no livro.
Como citar este livro
GOLDSCHMIDT, R., PASSOS, E., BEZERRA, E.: Data Mining: Conceitos, técnicas, algoritmos, orientações e aplicações. Rio de Janeiro: Elsevier. ISBN-13: 978-85-352-7822-4. 2015.
@book{md-2ed-2015,
title={Data Mining: Conceitos, técnicas, algoritmos, orientações e aplicações},
isbn={978-85-352-7822-4},
url={},
publisher={Elsevier},
author={Ronaldo Goldschmidt, Emmanuel Passos, Eduardo Bezerra},
edition={2},
year={2015}
}
Sobre os autores
Ronaldo Goldschmidt
Possui graduação em Matemática pela Universidade Federal Fluminense, mestrado em Sistemas e Computação pelo Instituto Militar de Engenharia e doutorado em Engenharia Elétrica - Métodos de Apoio à Decisão pela Pontifícia Universidade Católica do Rio de Janeiro. Atualmente é professor adjunto do Instituto Militar de Engenharia. Tem experiência na área de Ciência da Computação, com ênfase em Inteligência Artificial e Lógica, atuando principalmente nos seguintes temas: sistemas de apoio à decisão, mineração de dados e textos, linguagens formais e banco de dados.
Contato: ronaldo.rgold (at) ime.eb.br
É Doutor em Computação pela COPPE/UFRJ, com experiência em ensino universitário desde 1968. Atualmente é professor colaborador do Departamento de Engenharia Elétrica na PUC-Rio e consultor de empresas, tendo desenvolvido diversas aplicações de Data Mining no mercado.
Eduardo Bezerra
Possui graduação em Ciência da Computação pela UFRJ, mestrado e doutorado em Engenharia de Sistemas e Computação pela COPPE/UFRJ. Desde 2005, é professor da Escola de Informática e Computação do CEFET/RJ. Seus interesses e experiência em pesquisa incluem Engenharia de Software, Linguagens de Programação e Mineração de Dados.
Contato: ebezerra (at) cefet-rj.br