Apostila Data Mining 3
Apostila Data Mining 3
Introdução 1
Objetivos 1
9 | Introdução ao data mining 2
Visão geral do processo de data mining 2
Atividade 4
Caracterização de KDD 5
Atividade 7
Processo de KDD 7
Atividade 9
Etapas operacionais de KDD 10
Atividade 14
Objetivos e operações de KDD 14
Atividade 16
Visão geral das técnicas de KDD 16
Atividade 18
10 | Etapas de KDD 19
Tipos de dados 19
Atividade 21
Métodos de pré-processamento 21
Atividade 24
Mineração de dados 24
Atividade 26
Conceito de similaridade 27
Atividade 29
Redução da dimensionalidade 29
Atividade 31
Etapa de pós-processamento 32
Atividade 34
11 | Tarefas de KDD 34
Regras de associação 35
Atividade 37
Classificação 38
Atividade 40
Regressão 40
Atividade 42
Clusterização/agrupamento 43
Atividade 45
Previsão de séries temporais 45
Atividade 47
Classificação bayesiana 48
Atividade 50
12 | Métodos de mineração 50
K-NN em casos de classificação 51
Atividade 53
Regressão linear 53
Atividade 55
Apriori na tarefa de associação 55
Atividade 57
Clusterização com k-means 58
Atividade 59
Support Vector Machine 60
Atividade 62
Árvore de decisão 62
Atividade 65
Data Mining e Big
Data
Tema 3
Pag. 1
Data mining e obtenção de informação e
conhecimento pelos dados
9 | Introdução ao data mining
Prof. Autor Silas P. Lima Filho
Ao final deste módulo, você deverá ser capaz de:
• Observar a visão geral do processo de data mining.
• Perceber a caracterização do processo de KDD.
• Analisar as etapas do processo de KDD.
• Verificar as etapas operacionais KDD.
• Notas os objetivos e operações de KDD.
• Aplicar a visão geral das técnicas de KDD.
Pag. 2
Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora Ltda., 2015.
Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora Ltda., 2015.
Esse processo de obtenção de padrão dos dados é o que caracteriza o processo de descoberta de conhecimento. KDD
significa a descoberta de conhecimento em bases de dados que relacionados auxiliam na identificação dos padrões.
Pag. 3
Saiba mais!
Saiba mais sobre os assuntos apresentados até aqui através do material
complementar:
BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora
Ltda., 2015.
Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?
Qual das opções abaixo não possui relação com a atividade de mineração de
dados?
Pag. 4
Caracterização de KDD
Caracterização de KDD
Sua caracterização de acordo com Brachman e Anand (1996): “O processo de KDD consiste
de uma sequência de interações complexas, que se estende sobre um determinado período
de tempo, entre um usuário e uma coleção de dados, possivelmente auxiliado por um
conjunto heterogêneo de ferramentas computacionais”.
Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora Ltda., 2015.
Pag. 5
• Opinion mining.
Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora Ltda., 2015.
Tarefas de KDD
Nas tarefas que englobam as caracterizações de dados pelos KDD, temos:
Preditivos: padrões construídos com o intuito de resolver um problema específico.
Podem ser avaliados pela efetividade na predição. Tarefas podem ser como
classificação usada para predizer variáveis discretas ou regressão onde
se desejam predizer variáveis contínuas.
Descritivos: têm o objetivo de encontrar informações que possam ser úteis ao domínio
e que um especialista não conheça. De caráter exploratório, requerem
pós-processamento e podem ser subjetivos.
Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora Ltda., 2015.
Saiba mais!
Saiba mais sobre os assuntos apresentados até aqui através do material
complementar:
BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora
Ltda., 2015.
Pag. 6
Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?
Preditiva
Normativa
Descritiva
Associativa
Processo de KDD
Processo de KDD
Uma aplicação de KDD pode ser dividida em três componentes:
• Problema que será aplicado.
• Recursos disponíveis para solução do problema.
• Resultados obtidos a partir da aplicação.
Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora Ltda., 2015.
Pag. 7
Problema no processo de KDD
Já o problema do KDD envolve os componentes, como:
Conjunto de dados: dados medidos sobre alguma entidade, que será analisada, podendo
formar um banco de dados, data warehouses, dentre outros.
Especialista de domínio: grupo ou pessoa que conhece o domínio, assunto e ambiente
da aplicação de KDD.
Objetivo da aplicação: compreende as tarefas de KDD, características esperadas do
modelo, acurácia do modelo de conhecimento.
Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora Ltda., 2015.
Pag. 8
Saiba mais!
Saiba mais sobre os assuntos apresentados até aqui através do material
complementar:
BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora
Ltda., 2015.
Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?
Dados medidos sobre alguma entidade e que serão analisados são chamados de
conjunto de dados.
Aprendemos sobre o processo de KDD, divididos nos problemas que serão aplicados,
recursos disponíveis para solução do problema e resultados obtidos a partir da
aplicação. A seguir, estudaremos sobre quais são as etapas operacionais de KDD.
Pag. 9
Etapas operacionais de KDD
Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora Ltda., 2015.
Pré-processamento
Etapas a serem compridas:
Seleção de dados.
Limpeza de dados.
Codificação.
Enriquecimento.
Pag. 10
Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora Ltda., 2015.
Mineração de dados
Etapas a serem compridas:
Descoberta de associações.
Classificação.
Regressão.
Agrupamento.
Sumarização.
Detecção de desvios.
Descoberta de sequências.
Pag. 11
Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora Ltda., 2015.
Pós-processamento
Etapas:
Tratamento do conhecimento obtido.
Elaboração do conhecimento.
Organização do conhecimento.
Gráficos, diagramas, relatórios.
Pag. 12
Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora Ltda., 2015.
Saiba mais!
Saiba mais sobre os assuntos apresentados até aqui através do material
complementar:
BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora
Ltda., 2015.
Pag. 13
Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?
Pag. 14
Objetivos de KDD
KDD inicia com exame do conjunto de dados a fim de
analisar e explorar os dados, além de entrevistar
especialistas do domínio. Os objetivos devem nortear
o processo, validar as hipóteses e descobrir todo o
conhecimento.
Os objetivos de uma aplicação de KDD podem ser
classificados como de predição ou descrição. Fontes: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining
. Elsevier Editora Ltda., 2015; Imagem:
Aplicações de predição buscam um modelo de istockphoto.com/br.
Operações de KDD
As operações do KDD são referentes a qualquer função das etapas operacionais da
metodologia de KDD, por exemplo: seleção de dados, limpeza, codificação e
classificação.
As operações pertencentes à etapa de mineração são determinadas como tarefas de KDD
que podem ser dos tipos primários ou compostos.
As operações primárias são únicas e não podem ser desmembradas em outras operações.
As operações compostas são caracterizadas pelo encadeamento de duas ou mais
operações, simbolizado pelo sinal .
Podemos exemplificar a sequência de duas tarefas: clusterização - classificação.
Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora Ltda., 2015.
Pag. 15
Saiba mais!
Saiba mais sobre os assuntos apresentados até aqui através do material
complementar:
BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora
Ltda., 2015.
Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?
Operação de limpeza.
Exploração.
Tarefa de mineração.
Descrição de KDD.
Vimos, nesta videoaula, sobre quais são os objetivos que norteiam o processo e etapas
que envolvem o armazenamento e uso dos dados e operações que regem o KDD.
A seguir, estudaremos sobre a visão geral das técnicas de KDD.
Pag. 16
Visão geral das técnicas de KDD
O termo “técnica de KDD” faz referência a qualquer teoria que fundamente a
implementação de um método de KDD, como: redes neurais embasam a técnica de SVM, que
é usada na tarefa de classificação e algoritmos genéticos que subsidiam o método rule
evolver.
As técnicas são divididas em: tradicionais, específicas e híbridas.
Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora Ltda., 2015.
Pag. 17
Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora Ltda., 2015.
Saiba mais!
Saiba mais sobre os assuntos apresentados até aqui através do material
complementar:
BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora
Ltda., 2015.
Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?
Nesta videoaula, vimos uma visão geral das técnicas de KDD. Na próxima, aprenderemos
sobre as etapas de KDD, tipos de dados, mineração de dados e suas aplicações.
Pag. 18
Data mining e obtenção de informação e
conhecimento pelos dados
10 | Etapas de KDD
Prof. Autor Silas P. Lima Filho
Ao final deste módulo, você deverá ser capaz de:
• Identificar os tipos de dados.
• Verificar o pré-processamento.
• Perceber a mineração de dados.
• Entender o conceito de similaridade.
• Analisar a redução de dimensões.
• Aplicar o pós-processamento.
Tipos de dados
TIPOS DE DADOS
Considere o exemplo de um dataset armazenado num banco relacional para analisarmos os tipos de dados. As
características podem também ser chamadas de atributos.
CPF Nome Sex Data_Nasciment Est_Civi Num_Dep Rend Tp_Residenci Bairro Resultad
o o l t a a o
Tipos de dados
Destacam-se três tipos de dados:
Estruturados: dados que usam o formato tabular para persistir as informações. Usados
em bancos de dados relacionais, ex.: postgresql, oracle, sql server, mysql.
Semiestruturados: possuem maior flexibilidade na estrutura do dado persistente. Nem
sempre todos os atributos são preenchidos, o que reflete a flexibilização no
esquema de dados, ex.: mongodb, neo4j.
Não estruturados: não possuem modelo ou esquema que define a estrutura básica que um
registro deve seguir, ex.: imagens, vídeos, áudio.
Além de definidos, os dados podem ser explorados em alguns tipos: nominais, ou
categóricos, representados pelos dados que não podem ser ordenados, representam
nomes, atributos, rótulos; discretos, que são valores que podem ser ordenados e
possuem significado; contínuos, que, representados por dados quantitativos, possuem
ordenação e valores os quais podem ser finitos ou infinitos, correspondentes aos
dados numéricos.
Fonte: CASTRO, L. N. de; FERRARI, D. G. Introdução à mineração de dados: conceitos básicos, algoritmos e aplicações. São
Paulo: Saraiva Educação S. A., 2017.
Qualidade de dados
Nem sempre os dados estão bem formatados, ajustados e prontos para processamento, e
isso afetará diretamente o processo de aprendizagem do modelo de conhecimento.
A metodologia de KDD inclui a etapa para separar, filtrar, preparar ou retirar dados
que estejam inconsistentes ou que possam afetar o modelo e, consequentemente, o
conhecimento a ser extraído.
Fontes: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora Ltda., 2015.
Pag. 20
Saiba mais!
Saiba mais sobre os assuntos apresentados até aqui através do material
complementar:
BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora
Ltda., 2015.
Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?
Categórico
Contínuo
Nominal
Discreto
Métodos de pré-processamento
Pag. 21
Visão geral – abordagens de
pré-processamento
O pré-processamento aborda a seleção, limpeza e
codificação dos dados armazenados, seja em bancos ou
datasets.
A seleção horizontal abrange consultas sql,
amostragens, agregação.
A redução vertical escolhe quais atributos serão Fontes: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining
. Elsevier Editora Ltda., 2015 | Imagem:
utilizados na etapa de mineração. Uma das técnicas istockphoto.com/br.
- Desvio-padrão;
- Soma elementos.
• Construção de Atributos.
• Correção de Prevalência.
• Partição de Conjuntos.
Pag. 22
Com os cálculos de normalização (linear, desvio de padrão e a soma de elementos), temos:
Saiba mais!
Saiba mais sobre os assuntos apresentados até aqui através do material
complementar:
BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora
Ltda., 2015.
Pag. 23
Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?
Mineração de dados
Pag. 24
Mineração de dados
A mineração de dados busca de forma efetiva
conhecimentos e informações úteis. A principal etapa
de KDD envolve a aplicação de algoritmos definidos e
as técnicas sobre os conjuntos de dados.
A escolha de tais técnicas é dependente do tipo de
tarefa a ser realizada.
Fontes: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining • Tarefas preditivas.
. Elsevier Editora Ltda., 2015. | Imagem:
istockphoto.com/br. • Tarefas descritivas.
Medidas de interesse
São usadas após a etapa de mineração de dados.
Medidas objetivas são baseadas nas estatísticas e medidas dos dados, por exemplo, a
taxa de erro; as medidas subjetivas são fundamentadas no conhecimento do
especialista de domínio.
Pag. 25
Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora Ltda., 2015.
Saiba mais!
Saiba mais sobre os assuntos apresentados até aqui através do material
complementar:
BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora
Ltda., 2015.
Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?
Classificação
Regressão
Clusterização
Descoberta de associações
Previsão de normalização
Pag. 26
Conceito de similaridade
Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora Ltda., 2015.
Medidas de similaridade
Para dados numéricos, podemos usar as seguintes funções:
Pag. 27
Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora Ltda., 2015.
Medidas de similaridade
Para dados numéricos, podemos usar as seguintes
funções:
Saiba mais!
Saiba mais sobre os assuntos apresentados até aqui através do material
complementar:
BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora
Ltda., 2015.
Pag. 28
Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?
Qual das medidas abaixo não é utilizada para medir a similaridade de dados
categóricos?
Jaccard
Sobreposição
Cosseno
Euclidiana
Redução da dimensionalidade
Pag. 29
Redução de dimensionalidade
Nesta videoaula, exemplificamos como a similaridade
no processo de data mining pode trazer medidas
diferentes e interpretações diferentes de acordo com
as fórmulas propostas baseadas nas distâncias dos
pontos.
A seguir, vamos entender um pouco sobre a redução da
dimensionalidade. Fontes: KUMAR, V.; STEINBACH, M.; TAN, P.-N. Introdução ao
data mining: mineração de dados. Ciência Moderna, 2009
| Imagem: istockphoto.com/br.
Maldição da dimensionalidade
Refere-se ao fenômeno recorrente em análise de dados por conta da quantidade de
atributos e features que os conjuntos de dados possuem.
Quanto maior a dimensionalidade, mais dispersos os dados estarão ocupando no espaço
associado. As técnicas de redução usam conceitos de álgebra linear para projetar
dados que estão num espaço vetorial com muitas dimensões para um espaço com menos
dimensões.
Pag. 30
Saiba mais!
Saiba mais sobre os assuntos apresentados até aqui através do material
complementar:
KUMAR, V.; STEINBACH, M.; TAN, P.-N. Introdução ao data mining: mineração
de dados. Ciência Moderna, 2009.
Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?
Datasets com grande número de atributos podem ter problemas como maldição da
dimensionalidade.
Datasets que representam textos podem ter diversos atributos, o que pode
interferir na performance de algoritmos.
Pag. 31
Etapa de pós-processamento
Pós-processamento
Envolve visualização, análise e interpretação do modelo de conhecimento gerado na
etapa de mineração de dados, além de simplificações do modelo de conhecimento e
transformar o modelo de conhecimento organizacional e apresentar de resultados.
Pag. 32
Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora Ltda., 2015.
Saiba mais!
Saiba mais sobre os assuntos apresentados até aqui através do material
complementar:
BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora
Ltda., 2015.
Pag. 33
Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?
Pag. 34
O professor Silas compartilhou os arquivos usados neste módulo, e que podem
ser usados por você em ambientes com a linguagem Python instalada.
Recomendamos conhecimento prévio em Python, mas não sendo obrigatório, para
melhor aproveitamento. Para usá-los é só baixar e executá-los numa máquina
com a linguagem instalada, bem como as bibliotecas indicadas no início de
cada script.
Preparados? Mãos à obra!
Regras de associação
Regras de associação
A descoberta de associações consiste em encontrar subconjuntos de itens que ocorrem
de forma simultânea e frequente em uma fração mínima do conjunto de dados.
Dentre os cenários de aplicação, podemos listar o uso de regras de associação para
incrementar as vendas de algum determinado item, por exemplo:
X Y, onde X e Y são conjuntos de itens:
{pão, manteiga} {café}.
Regras de associação
Metrificarão através de análise desses itens que ocorrerão em associação.
Pag. 35
Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora Ltda., 2015.
Regras de associação
Como sabemos o quanto uma regra de associação é
relevante?
Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora Ltda., 2015.
Pag. 36
Saiba mais!
Saiba mais sobre os assuntos apresentados até aqui através do material
complementar:
BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora
Ltda., 2015.
Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?
Pag. 37
Classificação
Classificação
Algumas das atividades mais importantes e recorrentes nas atividades de mineração e
KDD: tarefa de aprendizado supervisionado, tarefa de aprender uma função f que mapeie
cada instância de um conjunto para um determinado rótulo.
Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora Ltda., 2015.
Classificação
Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora Ltda., 2015.
Classificação
Pag. 38
Podemos demonstrar a acurácia de um modelo através da matriz de confusão.
Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora Ltda., 2015.
Classificação
Tal como citamos, o objetivo é a criação de um
modelo de classificação.
Alguns algoritmos de classificação:
• Redes neurais.
• Árvores de decisão.
• Algoritmos genéticos.
• Classificador bayesiano.
• k-NN. Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining.
Elsevier Editora Ltda., 2015.
Saiba mais!
Saiba mais sobre os assuntos apresentados até aqui através do material
complementar:
BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora
Ltda., 2015.
Pag. 39
Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?
Tentamos descobrir um valor contínuo para uma variável ou atributo numa tarefa
de classificação.
Regressão
Pag. 40
Regressão
Para alguns casos de mineração, buscamos a predição
de valores. Sejam preços, probabilidades, quantidade
de algum produto.
Em tais tarefas usamos algoritmos que buscam definir
uma função que consiga gerar tal valor desejado. O
modo mais simples e comum é a regressão linear. Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining.
Elsevier Editora Ltda., 2015.
Regressão linear
São elementos da regressão:
Y - variável dependente.
X - variável independente.
, - coeficientes.
O objetivo é encontrar valores apropriados para ,
Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. , próximos aos dados reais, de modo a encontrar o
Elsevier Editora Ltda., 2015.
valor apropriado de Y. Uma forma de obter os valores
dos coeficientes é através do método de mínimos
quadrados.
Saiba mais!
Saiba mais sobre os assuntos apresentados até aqui através do material
complementar:
BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora
Ltda., 2015.
Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?
Variável independente.
Variável predizente.
Variável dependente.
Valor resiliente.
Dado iminente.
Pag. 42
Clusterização/agrupamento
Clusterização
A tarefa de clusterização, ou de agrupamento, separa os elementos de um conjunto que
compartilham propriedades. Tem como objetivo maximizar a similaridade intracluster e
minimizar a similaridade intercluster e indução não supervisionada, onde os objetos
não possuem rótulos associados e para identificação de grupos naturais.
Algoritmos de clusterização:
- k-means - (distância).
- fuzzy k-means - (distância).
- dbscan - (densidade).
- expectation-maximization - (distribuição de probabilidade).
Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora Ltda., 2015.
Clusterização
Em alguns algoritmos, o usuário deve informar a quantidade de grupos a serem formados. Embora existam métodos que tentam
detectar a quantidade de grupos.
Três grupos de algoritmos:
• Distância.
• Distribuição de probabilidade.
• Densidade.
Agrupamento por distância, representada pela fórmula:
Pag. 43
Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora Ltda., 2015.
Saiba mais!
Saiba mais sobre os assuntos apresentados até aqui através do material
complementar:
BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora
Ltda., 2015.
Pag. 44
Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?
K-means
Dbscan
Fuzzy k-means
Todas as respostas
Pag. 45
Previsão de séries temporais
Conjunto de observações de um fenômeno ordenado no
tempo, calculando o consumo mensal de energia,
vendas diárias no período de anos, valor de ações
por trimestres. É o processo de identificação das
características, padrões e propriedades da série,
utilizados para descrever em termos gerais o
Fontes: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining fenômeno gerador.
. Elsevier Editora Ltda., 2015 | Imagem:
istockphoto.com/br. Os valores são normalmente medidos em intervalos de
tempo iguais, por exemplo, a cada minuto, hora ou
dia. A pesquisa de similaridade encontra sequências
de dados que diferem apenas ligeiramente da
sequência de consulta fornecida.
Tipos de movimento
Movimentos de tendência, indicam a direção geral na qual o gráfico da série temporal
se move.
Cíclico: oscilações de curvas periódicas ou não.
Sazonal: com movimentos que ocorrem por conta de eventos que se repetem, por
exemplo: vendas em feriados.
Irregulares, ou randômicos: influenciados por eventos aleatórios, tais como eventos
climáticos, catástrofes etc.
Pag. 46
Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora Ltda., 2015.
Saiba mais!
Saiba mais sobre os assuntos apresentados até aqui através do material
complementar:
BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora
Ltda., 2015.
Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?
Vimos, nesta videoaula, que a série atemporal identificará os tipos de movimentos que
os dados terão ao longo do tempo. A seguir, estudaremos sobre a classificação
bayesiana e suas vertentes.
Pag. 47
Classificação bayesiana
Classificadores bayesianos
Classificadores bayesianos criam modelos estatísticos baseados no teorema de Bayes e
trabalham com cálculo de probabilidade de um registro pertencer a alguma das classes.
Naive Bayes é o classificador bayeasiano mais popular.
Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora Ltda., 2015.
Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora Ltda., 2015.
Pag. 48
Classificador Naive Bayes
O classificador Naive Bayes calcula a probabilidade
a posteriori P(Ci | X) – probabilidade de X ser da
classe Ci considerando os valores dos atributos de X
– para cada classe Ci.
O classificador decide que X é da classe Ci se e
somente se P(Ci | X) for maior do que P(Cj | X) para Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining.
Elsevier Editora Ltda., 2015.
qualquer outra classe Cj, ou seja, X é da classe Ci
se e somente se:
Teorema de Bayes
Utiliza o conceito de probabilidade condicional: P
(A | B).
Maximização da probabilidade a posteriori de acordo
com a fórmula:
Saiba mais!
Saiba mais sobre os assuntos apresentados até aqui através do material
complementar:
Bezerra, E., Goldschmidt, R., Passos, E. (2015). Data Mining. Brasil:
Elsevier Editora Ltda.
Pag. 49
Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?
Pag. 50
K-NN em casos de classificação
Pag. 51
Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora Ltda., 2015.
Saiba mais!
Saiba mais sobre os assuntos apresentados até aqui através do material
complementar:
BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora
Ltda., 2015.
Pag. 52
Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?
Regressão linear
Regressão linear
Consideremos o mesmo cenário da aula anterior, mas em uma nova situação.
A empresa receberá novos funcionários, e o setor de RH precisa definir os salários
usando como referência a experiência e o quanto o quadro de funcionários recebe. O
objetivo da tarefa de regressão é prever o valor de uma determinada variável. No
caso, estamos trabalhando com um resultado de valor contínuo.
O objetivo da regressão é a criação de um modelo, que representa uma função, que
mapeie um conjunto de atributos em uma determinada saída.
Pag. 53
A função que desejamos encontrar deve mapear os dados com o menor erro possível,
criando uma função e medindo o quão precisa ela é. Para tarefas de classificação,
utiliza-se regressão logística.
Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora Ltda., 2015.
Saiba mais!
Saiba mais sobre os assuntos apresentados até aqui através do material
complementar:
BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora
Ltda., 2015.
Pag. 54
Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?
Nesta videoaula, vimos que a regressão linear tem como objetivo predizer o valor de
um determinado atributo ou variável, com uma linha reta dentro do dataset.
Pag. 55
plataforma de filmes deseja descobrir qual o perfil dos clientes.
• Descobrir quais filmes geralmente são consumidos em conjunto pode auxiliar a
recomendar novos filmes.
1 - {Beirut,Martian,Get Out}
2 - {Deadpool}
3 - {X-Men,Allied}
4 - {Ninja Turtles,Moana,Ghost in the Shell,John Wick}
5 - {Mad Max}
6 - {The Spy Who Dumped Me,Hotel Transylvania}
7 - {Thor,London Has Fallen,The Lego Movie}
8 - {Intern,Tomb Rider,John Wick}
Nosso dataset, desta vez, possui uma lista (dicionário) para cada registro de
cliente. Essa lista possui os filmes a que o usuário está assistindo ou possui
cadastrado na lista.
Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora Ltda., 2015.
Fonte: Bezerra, E., Goldschmidt, R., Passos, E. (2015). Data Mining. Brasil: Elsevier Editora Ltda.
Pag. 56
Fonte: Bezerra, E., Goldschmidt, R., Passos, E. (2015). Data Mining. Brasil: Elsevier Editora Ltda.
Saiba mais!
Saiba mais sobre os assuntos apresentados até aqui através do material
complementar:
BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora
Ltda., 2015.
Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?
A tarefa de Apriori tem como objetivo conseguir descobrir quais atributos possuem
Pag. 57
relação entre si. Na próxima videoaula, aprenderemos sobre clusterização com k-means.
Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora Ltda., 2015.
Pag. 58
Saiba mais!
Saiba mais sobre os assuntos apresentados até aqui através do material
complementar:
BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora
Ltda., 2015.
Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?
Aprendemos nesta videoaula, sobre o algoritmo k-means, que faz parte dos métodos de
clusterização de dados. Na próxima videoaula, estudaremos sobre support vector
machine, conhecido como SVM.
Pag. 59
Support Vector Machine
Pag. 60
Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora Ltda., 2015.
Saiba mais!
Saiba mais sobre os assuntos apresentados até aqui através do material
complementar:
Bezerra, E., Goldschmidt, R., Passos, E. (2015). Data Mining. Brasil:
Elsevier Editora Ltda.
Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora Ltda., 2015.
Pag. 61
Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?
O algoritmo SVM linear visa construir uma "curva" para separar registros
dispersos.
Vimos, nesta videoaula, sobre o algoritmo support vector machine (SVM), que é
utilizado nas tarefas de classificação ou regressão. A partir disso, aprenderemos
posteriormente sobre a árvore de decisão que representa uma decisão sobre os
atributos do dataset.
Árvore de decisão
Pag. 62
Árvore de decisão na classificação
Modelo de representação onde cada nó interno
representa uma decisão sobre os atributos do dataset
e como tais atributos particionam os dados.
Árvores de decisão podem ser usadas em tarefas de
classificação ou de regressão, criando um modelo que
prediz o valor de uma variável através do
aprendizado de regras de decisão inferidas dos Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining.
Elsevier Editora Ltda., 2015.
dados.
Árvores de decisão são intuitivas e tornam o modelo
de classificação fácil de utilizar e entender, com
boa taxa de acerto. As previsões podem ser
comparadas aos outros modelos.
Algoritmos rápidos e escaláveis podem ser
implementados na construção de árvores de decisão.
Fonte: Bezerra, E., Goldschmidt, R., Passos, E. (2015). Data Mining. Brasil: Elsevier Editora Ltda.
Pag. 63
Como árvore de decisão na regressão temos:
Fonte: Bezerra, E., Goldschmidt, R., Passos, E. (2015). Data Mining. Brasil: Elsevier Editora Ltda.
Saiba mais!
Saiba mais sobre os assuntos apresentados até aqui através do material
complementar:
BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora
Ltda., 2015.
Pag. 64
Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?
Vimos, nesta última videoaula, que as árvores de decisão podem ser usadas em tarefas
de classificação ou de regressão a fim de criar um modelo que prediz o valor de uma
variável. Foi um prazer acompanhar vocês nesta jornada de conhecimento! Até a
próxima!
Referências autorais
BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora Ltda., 2015.
CASTRO, L. N. de; FERRARI, D. G. Introdução à mineração de dados: conceitos básicos,
algoritmos e aplicações. São Paulo: Saraiva Educação S. A., 2017.
COREA, F. An introduction to data: everything you need to know about AI, big data and
data science. Springer International Publishing, 2018.
KAMBER, M.; PEI, J.; HAN, J. Data mining: concepts and techniques. Elsevier Science,
2011.
STEINBACH, M. et al. Introduction to data mining. Pearson, 2019.