0% acharam este documento útil (0 voto)

50 visualizações67 páginas

Apostila Data Mining 3

Este documento apresenta uma introdução ao processo de mineração de dados (data mining) e descoberta de conhecimento em bancos de dados (KDD). O documento discute as etapas do processo de KDD, as técnicas de mineração de dados e as principais tarefas de KDD, como classificação, regressão e clusterização.

Enviado por

Vitor Gabriel

Direitos autorais

Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.

Formatos disponíveis

Baixe no formato PDF, TXT ou leia on-line no Scribd

0% acharam este documento útil (0 voto)

50 visualizações67 páginas

Apostila Data Mining 3

Enviado por

Vitor Gabriel

Direitos autorais

Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.

Formatos disponíveis

Baixe no formato PDF, TXT ou leia on-line no Scribd

Você está na página 1/ 67

SUMÁRIO

Introdução 1
Objetivos 1
9 | Introdução ao data mining 2
Visão geral do processo de data mining 2
Atividade 4
Caracterização de KDD 5
Atividade 7
Processo de KDD 7
Atividade 9
Etapas operacionais de KDD 10
Atividade 14
Objetivos e operações de KDD 14
Atividade 16
Visão geral das técnicas de KDD 16
Atividade 18
10 | Etapas de KDD 19
Tipos de dados 19
Atividade 21
Métodos de pré-processamento 21
Atividade 24
Mineração de dados 24
Atividade 26
Conceito de similaridade 27
Atividade 29
Redução da dimensionalidade 29
Atividade 31
Etapa de pós-processamento 32
Atividade 34
11 | Tarefas de KDD 34
Regras de associação 35
Atividade 37
Classificação 38
Atividade 40
Regressão 40
Atividade 42
Clusterização/agrupamento 43
Atividade 45
Previsão de séries temporais 45
Atividade 47
Classificação bayesiana 48
Atividade 50
12 | Métodos de mineração 50
K-NN em casos de classificação 51
Atividade 53
Regressão linear 53
Atividade 55
Apriori na tarefa de associação 55
Atividade 57
Clusterização com k-means 58
Atividade 59
Support Vector Machine 60
Atividade 62
Árvore de decisão 62
Atividade 65
Data Mining e Big
Data
Tema 3

Data mining e obtenção de informação e conhecimento pelos dados

Introdução ao data Etapas de KDD Tarefas de KDD Métodos de mineração
mining Ao final deste módulo, o aluno Este módulo apresentará Este módulo apresentará
Este módulo apresentará uma deverá conhecer as etapas do algoritmos de tarefas de KDD algoritmos amplamente
visão introdutória aos processo de KDD, bem como os utilizados na etapa de utilizados para a mineração de
conceitos de mineração de tipos de dados utilizados no mineração de dados. dados.
dados e o conceito de processo. Deverão ser
descoberta de conhecimento em reconhecidos os objetivos e
bancos de dados (KDD). Ao sistemáticas das etapas de
final do módulo, serão pré-processamento, mineração e
conhecidos: as etapas pós-processamento.
características do método de
KDD, seus objetivos e técnicas
de extração, processamento e
identificação de dados.

Pag. 1
Data mining e obtenção de informação e
conhecimento pelos dados
9 | Introdução ao data mining
Prof. Autor Silas P. Lima Filho
Ao final deste módulo, você deverá ser capaz de:
• Observar a visão geral do processo de data mining.
• Perceber a caracterização do processo de KDD.
• Analisar as etapas do processo de KDD.
• Verificar as etapas operacionais KDD.
• Notas os objetivos e operações de KDD.
• Aplicar a visão geral das técnicas de KDD.

Visão geral do processo de data mining

Os avanços na capacidade de armazenamento, barateamento de tecnologias resultam em
aumento na geração de dados, como IoT, mídia social, e-gov, a fim de armazenarem
conhecimento. Seu valor está ligado à capacidade de extrair informações e
conhecimento de alto nível a partir deles.
Os dados podem apresentar padrões ou tendências, que se encontrados, podem auxiliar
na tomada de decisão.

Pag. 2
Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora Ltda., 2015.

Caracterização do processo de KDD

Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora Ltda., 2015.

Esse processo de obtenção de padrão dos dados é o que caracteriza o processo de descoberta de conhecimento. KDD
significa a descoberta de conhecimento em bases de dados que relacionados auxiliam na identificação dos padrões.

KDD – visão geral

Significado da sigla: Knowledge Discovery in Databases, que engloba áreas como:
mineração de dados (data mining), uma das etapas da descoberta de conhecimento:
dados, que são itens captados e armazenados, sem semântica; informação, que
representa dados processados e possuem significado; conhecimento representado pelo
padrão ou conjunto de padrões que envolvam os dados ou informações.
Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora Ltda., 2015.

Pag. 3
Saiba mais!
Saiba mais sobre os assuntos apresentados até aqui através do material
complementar:
BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora
Ltda., 2015.

Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?

Qual das opções abaixo não possui relação com a atividade de mineração de
dados?

Descoberta de padrões em bancos de dados.

Construção de bases relacionais e não relacionais.

Análise de associações entre os dados.

Análise dos dados de modo a descobrir informações relevantes.

Suporte na tomada de decisões.

Nesta primeira videoaula, correlacionamos os termos à prática de armazenamento de

dados do data mining ao KDD.
A seguir, vamos caracterizá-los.

Pag. 4
Caracterização de KDD

KDD – visão geral

Encontrado na literatura, Fayyad et al. (1996) assim definem: "KDD é um processo não
trivial, interativo, iterativo para identificação de padrões compreensíveis, válidos,
novos e potencialmente úteis a partir de grandes conjuntos de dados”.
Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora Ltda., 2015.

Caracterização de KDD
Sua caracterização de acordo com Brachman e Anand (1996): “O processo de KDD consiste
de uma sequência de interações complexas, que se estende sobre um determinado período
de tempo, entre um usuário e uma coleção de dados, possivelmente auxiliado por um
conjunto heterogêneo de ferramentas computacionais”.
Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora Ltda., 2015.

Cenários de aplicação de KDD

Por meio da metodologia de KDD, podemos aplicá-los em:
• Web mining.
• Multimedia data mining.
• Text mining.
• Graph mining.
• Educational data mining.
• Social data mining.

Pag. 5
• Opinion mining.
Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora Ltda., 2015.

Tarefas de KDD
Nas tarefas que englobam as caracterizações de dados pelos KDD, temos:
Preditivos: padrões construídos com o intuito de resolver um problema específico.
Podem ser avaliados pela efetividade na predição. Tarefas podem ser como
classificação usada para predizer variáveis discretas ou regressão onde
se desejam predizer variáveis contínuas.
Descritivos: têm o objetivo de encontrar informações que possam ser úteis ao domínio
e que um especialista não conheça. De caráter exploratório, requerem
pós-processamento e podem ser subjetivos.
Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora Ltda., 2015.

Saiba mais!
Saiba mais sobre os assuntos apresentados até aqui através do material
complementar:
BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora
Ltda., 2015.

Pag. 6
Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?

Ao minerar dados para predizer o salário de um novo funcionário, que tipo de

tarefa melhor descreve tal processo?

Preditiva

Normativa

Descritiva

Associativa

Nesta videoaula, conceituamos o KDD de acordo com a literatura e caracterizando as

suas respectivas tarefas. A seguir, aprenderemos sobre o processo de KDD.

Processo de KDD

Processo de KDD
Uma aplicação de KDD pode ser dividida em três componentes:
• Problema que será aplicado.
• Recursos disponíveis para solução do problema.
• Resultados obtidos a partir da aplicação.
Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora Ltda., 2015.

Pag. 7
Problema no processo de KDD
Já o problema do KDD envolve os componentes, como:
Conjunto de dados: dados medidos sobre alguma entidade, que será analisada, podendo
formar um banco de dados, data warehouses, dentre outros.
Especialista de domínio: grupo ou pessoa que conhece o domínio, assunto e ambiente
da aplicação de KDD.
Objetivo da aplicação: compreende as tarefas de KDD, características esperadas do
modelo, acurácia do modelo de conhecimento.
Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora Ltda., 2015.

Processo de KDD – recursos disponíveis

Especialista de KDD: representa a pessoa ou grupo com experiência na execução de
processos de KDD.
Ferramenta: ambiente de software ou qualquer recurso computacional para execução no
processo de mineração de dados.
Plataforma computacional: indica recursos de hardware e software para execução da
aplicação de KDD. Máquinas isoladas, paralelas ou em nuvem.
Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora Ltda., 2015.

Processo de KDD – resultados obtidos

Modelos de conhecimento: padrão ou conjunto de padrões expresso em linguagem formal
que descreve total ou parcialmente de conjunto de dados. O modelo de conhecimento
deve cumprir as expectativas definidas nos objetivos da aplicação.
Comparação entre modelos: histórico sobre como os modelos de conhecimento são usados
para fins de comparação e revisão das escolhas e decisões tomadas.
Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora Ltda., 2015.

Pag. 8
Saiba mais!
Saiba mais sobre os assuntos apresentados até aqui através do material
complementar:
BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora
Ltda., 2015.

Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?

Qual afirmação abaixo não está correta?

Um problema de KDD é caracterizado por conjuntos de dados, especialistas e

objetivos de aplicação.

Dados medidos sobre alguma entidade e que serão analisados são chamados de
conjunto de dados.

Modelo de conhecimento é um padrão ou conjunto de padrões que descreve

parcialmente um conjunto de dados.

Especialista de KDD é a pessoa que melhor conhece o domínio, ambiente e

contexto.

Aprendemos sobre o processo de KDD, divididos nos problemas que serão aplicados,
recursos disponíveis para solução do problema e resultados obtidos a partir da
aplicação. A seguir, estudaremos sobre quais são as etapas operacionais de KDD.

Pag. 9
Etapas operacionais de KDD

Etapas operacionais de KDD

Obtemos os dados das bases respectivas, para evoluir gradativamente ao pré-processamento de dados e manipulação para
passar à etapa de mineração (extração do conhecimento).O pós-processamento gerará relatórios de conhecimento.

Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora Ltda., 2015.

Pré-processamento
Etapas a serem compridas:
Seleção de dados.
Limpeza de dados.
Codificação.
Enriquecimento.

Pag. 10
Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora Ltda., 2015.

Mineração de dados
Etapas a serem compridas:
Descoberta de associações.
Classificação.
Regressão.
Agrupamento.
Sumarização.
Detecção de desvios.
Descoberta de sequências.

Pag. 11
Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora Ltda., 2015.

Pós-processamento
Etapas:
Tratamento do conhecimento obtido.
Elaboração do conhecimento.
Organização do conhecimento.
Gráficos, diagramas, relatórios.

Pag. 12
Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora Ltda., 2015.

Saiba mais!
Saiba mais sobre os assuntos apresentados até aqui através do material
complementar:
BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora
Ltda., 2015.

Pag. 13
Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?

Assinale a opção que melhor caracteriza a etapa de pré-processamento.

Preparar relatórios para análise.

Treinamento de modelo de regressão.

Comparação da acurácia de modelo.

Remoção de registros nulos.

Aprendemos com essa videoaula quais são as etapas de operações do KDD

(pré-processamento, mineração de dados, pós-processamento). A seguir, entenderemos os
objetivos e operações do KDD.

Objetivos e operações de KDD

Pag. 14
Objetivos de KDD
KDD inicia com exame do conjunto de dados a fim de
analisar e explorar os dados, além de entrevistar
especialistas do domínio. Os objetivos devem nortear
o processo, validar as hipóteses e descobrir todo o
conhecimento.
Os objetivos de uma aplicação de KDD podem ser
classificados como de predição ou descrição. Fontes: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining
. Elsevier Editora Ltda., 2015; Imagem:
Aplicações de predição buscam um modelo de istockphoto.com/br.

conhecimento que permita prever os valores de

determinados atributos a partir de um histórico de
dados.
Aplicações de descrição buscam um modelo de
conhecimento que descreva de forma compreensível o
conhecimento de um conjunto de dados.

Operações de KDD
As operações do KDD são referentes a qualquer função das etapas operacionais da
metodologia de KDD, por exemplo: seleção de dados, limpeza, codificação e
classificação.
As operações pertencentes à etapa de mineração são determinadas como tarefas de KDD
que podem ser dos tipos primários ou compostos.
As operações primárias são únicas e não podem ser desmembradas em outras operações.
As operações compostas são caracterizadas pelo encadeamento de duas ou mais
operações, simbolizado pelo sinal .
Podemos exemplificar a sequência de duas tarefas: clusterização - classificação.
Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora Ltda., 2015.

Pag. 15
Saiba mais!
Saiba mais sobre os assuntos apresentados até aqui através do material
complementar:
BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora
Ltda., 2015.

Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?

Ao aplicar um algoritmo de classificação para determinar a classe de um

registro, essa atividade é chamada de:

Operação de limpeza.

Exploração.

Tarefa de mineração.

Descrição de KDD.

Vimos, nesta videoaula, sobre quais são os objetivos que norteiam o processo e etapas
que envolvem o armazenamento e uso dos dados e operações que regem o KDD.
A seguir, estudaremos sobre a visão geral das técnicas de KDD.

Visão geral das técnicas de KDD

Pag. 16
Visão geral das técnicas de KDD
O termo “técnica de KDD” faz referência a qualquer teoria que fundamente a
implementação de um método de KDD, como: redes neurais embasam a técnica de SVM, que
é usada na tarefa de classificação e algoritmos genéticos que subsidiam o método rule
evolver.
As técnicas são divididas em: tradicionais, específicas e híbridas.
Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora Ltda., 2015.

Técnicas tradicionais de KDD

As técnicas tradicionais independem do contexto de mineração de dados. Podemos listar
algumas tais como:
Redes neurais: representadas por uma técnica que constrói um modelo matemático
baseado no sistema neural biológico, com capacidade de aprendizado,
generalização, associação e abstração.
Lógica nebulosa: constrói sistemas que lidam com informações imprecisas e
subjetivas, oferecendo flexibilidade.
Algoritmos genéticos: representados por uma técnica inspirada na teoria da evolução,
indicada para problemas complexos com muitas variáveis e restrições ou
grandes espaços de busca.
Técnicas estatísticas: por exemplo, as redes bayesianas, regressão e análise
exploratória.
Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora Ltda., 2015.

Técnicas específicas de KDD

Técnicas desenvolvidas especificamente para a aplicação das tarefas de KDD como
algoritmo de associação Apriori.

Técnicas híbridas de KDD

Combinação das técnicas anteriores de modo a obter maior performance, com
interpretações e aprendizado melhores e melhor generalização.

Pag. 17
Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora Ltda., 2015.

Saiba mais!
Saiba mais sobre os assuntos apresentados até aqui através do material
complementar:
BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora
Ltda., 2015.

Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?

Uma rede neural usada para classificar um registro é definida como:

Técnica híbrida de KDD.

Técnica específica de KDD.

Técnica tradicional de KDD.

Técnica mista de KDD.

Nesta videoaula, vimos uma visão geral das técnicas de KDD. Na próxima, aprenderemos
sobre as etapas de KDD, tipos de dados, mineração de dados e suas aplicações.

Pag. 18
Data mining e obtenção de informação e
conhecimento pelos dados
10 | Etapas de KDD
Prof. Autor Silas P. Lima Filho
Ao final deste módulo, você deverá ser capaz de:
• Identificar os tipos de dados.
• Verificar o pré-processamento.
• Perceber a mineração de dados.
• Entender o conceito de similaridade.
• Analisar a redução de dimensões.
• Aplicar o pós-processamento.

Tipos de dados

TIPOS DE DADOS
Considere o exemplo de um dataset armazenado num banco relacional para analisarmos os tipos de dados. As
características podem também ser chamadas de atributos.

CPF Nome Sex Data_Nasciment Est_Civi Num_Dep Rend Tp_Residenci Bairro Resultad
o o l t a a o

99999999999 John M 5/5/1960 S 1 20.00 P Centro A

11111111111 Paul M 6/6/1970 C 5 4.500 A Urca A

55555555555 Ringo M 2/3/1965 S 8 10.00 F Leblon I

8888888888 Georg M 2/6/1971 V 2 6.000 A Recrei A

e o

54321987011 Yoko F 23/8/1967 S 1 Null X Centro A

Fonte: Elaborado pelo autor.

Tipos de dados
Destacam-se três tipos de dados:
Estruturados: dados que usam o formato tabular para persistir as informações. Usados
em bancos de dados relacionais, ex.: postgresql, oracle, sql server, mysql.
Semiestruturados: possuem maior flexibilidade na estrutura do dado persistente. Nem
sempre todos os atributos são preenchidos, o que reflete a flexibilização no
esquema de dados, ex.: mongodb, neo4j.
Não estruturados: não possuem modelo ou esquema que define a estrutura básica que um
registro deve seguir, ex.: imagens, vídeos, áudio.
Além de definidos, os dados podem ser explorados em alguns tipos: nominais, ou
categóricos, representados pelos dados que não podem ser ordenados, representam
nomes, atributos, rótulos; discretos, que são valores que podem ser ordenados e
possuem significado; contínuos, que, representados por dados quantitativos, possuem
ordenação e valores os quais podem ser finitos ou infinitos, correspondentes aos
dados numéricos.
Fonte: CASTRO, L. N. de; FERRARI, D. G. Introdução à mineração de dados: conceitos básicos, algoritmos e aplicações. São
Paulo: Saraiva Educação S. A., 2017.

Qualidade de dados
Nem sempre os dados estão bem formatados, ajustados e prontos para processamento, e
isso afetará diretamente o processo de aprendizagem do modelo de conhecimento.
A metodologia de KDD inclui a etapa para separar, filtrar, preparar ou retirar dados
que estejam inconsistentes ou que possam afetar o modelo e, consequentemente, o
conhecimento a ser extraído.
Fontes: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora Ltda., 2015.

Pag. 20
Saiba mais!
Saiba mais sobre os assuntos apresentados até aqui através do material
complementar:
BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora
Ltda., 2015.

Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?

Um dataset possui um atributo que representa o salário de um conjunto de

trabalhadores de uma empresa. Esse dado pode ser categorizado como:

Categórico

Contínuo

Nominal

Discreto

Nesta videoaula, aprendemos sobre os tipos de dados. A seguir, estudaremos sobre os

métodos de pré-processamento.

Métodos de pré-processamento

Pag. 21
Visão geral – abordagens de
pré-processamento
O pré-processamento aborda a seleção, limpeza e
codificação dos dados armazenados, seja em bancos ou
datasets.
A seleção horizontal abrange consultas sql,
amostragens, agregação.
A redução vertical escolhe quais atributos serão Fontes: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining
. Elsevier Editora Ltda., 2015 | Imagem:
utilizados na etapa de mineração. Uma das técnicas istockphoto.com/br.

que pode ser utilizada é a de PCA. Que prioriza os

atributos pela sua relevância.
A limpeza trata informações ausentes e
inconsistentes. Para tal, podemos usar recursos como
a exclusão total ou o preenchimento de tais
registros inconsistentes.
O mapeamento é a mudança da representação que um
dado possui. A criação de categorias para intervalos
de valores, ou a técnica de one-hot encoding são
exemplos de técnicas de mapeamento.

Visão Geral - abordagens de

pré-processamento
Quanto às abordagens de pré-processamento,
destacam:
• Enriquecimento: acréscimo de informações
(pesquisas, consultas bases externas).
• Normalização:
- Linear; Fonte: Elaborado pelo autor.

- Desvio-padrão;
- Soma elementos.
• Construção de Atributos.
• Correção de Prevalência.
• Partição de Conjuntos.

Pag. 22
Com os cálculos de normalização (linear, desvio de padrão e a soma de elementos), temos:

Fonte: Elaborado pelo autor.

Saiba mais!
Saiba mais sobre os assuntos apresentados até aqui através do material
complementar:
BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora
Ltda., 2015.

Pag. 23
Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?

Quais das atividades abaixo não representam uma atividade da etapa de

pré-processamento?

Normalização dos atributos quantitativos.

Remoção de registros faltosos.

Criação de um modelo de regressão linear.

Seleção de dados em um banco relacional.

Estudamos, com auxílio desta videoaula, sobre as abordagens do pré-processamento de

dados. A seguir, estudaremos sobre a mineração de dados.

Mineração de dados

Pag. 24
Mineração de dados
A mineração de dados busca de forma efetiva
conhecimentos e informações úteis. A principal etapa
de KDD envolve a aplicação de algoritmos definidos e
as técnicas sobre os conjuntos de dados.
A escolha de tais técnicas é dependente do tipo de
tarefa a ser realizada.
Fontes: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining • Tarefas preditivas.
. Elsevier Editora Ltda., 2015. | Imagem:
istockphoto.com/br. • Tarefas descritivas.

A escolha do algoritmo ou técnica depende do tipo de tarefa de KDD a ser realizada,

como a previsão ou descrição.
Com o fim da etapa de mineração, o modelo de conhecimento gerado deve ser capaz de
classificar novos dados que sejam inseridos ao dataset.
Podemos agrupar as técnicas de mineração da seguinte forma:
• Descoberta de associações.
• Classificação.
• Regressão.
• Agrupamento (clusterização).
• Sumarização.
• Detecção de desvios.
• Descoberta de sequências.
Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora Ltda., 2015.

Medidas de interesse
São usadas após a etapa de mineração de dados.
Medidas objetivas são baseadas nas estatísticas e medidas dos dados, por exemplo, a
taxa de erro; as medidas subjetivas são fundamentadas no conhecimento do
especialista de domínio.

Pag. 25
Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora Ltda., 2015.

Saiba mais!
Saiba mais sobre os assuntos apresentados até aqui através do material
complementar:
BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora
Ltda., 2015.

Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?

A etapa de mineração é o centro da descoberta de conhecimento em bases de

dados. Quais das atividades abaixo não representam uma tarefa da etapa de
mineração de dados?

Classificação

Regressão

Clusterização

Descoberta de associações

Previsão de normalização

Nesta videoaula, estudamos sobre a mineração de dados que auxilia na escolha do

algoritmo ou técnica que depende do tipo de tarefa de KDD a ser realizada, como a
previsão ou descrição; estudamos também a medida de interesse de maneiras objetivas e
subjetivas. A seguir, estudaremos sobre os conceitos de similaridade.

Pag. 26
Conceito de similaridade

Similaridade no processo de data mining

Já que podemos representar os dados como pontos num hiperplano, podemos também medir a distância entre tais pontos e
mensurar a similaridade entre as instâncias, resultando em: quanto menor a distância entre os pontos, maior a
similaridade entre os registros.

Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora Ltda., 2015.

Medidas de similaridade
Para dados numéricos, podemos usar as seguintes funções:

Pag. 27
Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora Ltda., 2015.

Medidas de similaridade
Para dados numéricos, podemos usar as seguintes
funções:

Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining.

Elsevier Editora Ltda., 2015.

Saiba mais!
Saiba mais sobre os assuntos apresentados até aqui através do material
complementar:
BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora
Ltda., 2015.

Pag. 28
Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?

Qual das medidas abaixo não é utilizada para medir a similaridade de dados
categóricos?

Jaccard

Sobreposição

Cosseno

Euclidiana

Nesta videoaula, exemplificamos como a similaridade no processo de data mining pode

trazer medidas diferentes e interpretações diferentes de acordo com as fórmulas
propostas baseadas nas distâncias dos pontos. A seguir, vamos entender um pouco sobre
a redução da dimensionalidade.

Redução da dimensionalidade

Pag. 29
Redução de dimensionalidade
Nesta videoaula, exemplificamos como a similaridade
no processo de data mining pode trazer medidas
diferentes e interpretações diferentes de acordo com
as fórmulas propostas baseadas nas distâncias dos
pontos.
A seguir, vamos entender um pouco sobre a redução da
dimensionalidade. Fontes: KUMAR, V.; STEINBACH, M.; TAN, P.-N. Introdução ao
data mining: mineração de dados. Ciência Moderna, 2009
| Imagem: istockphoto.com/br.

Maldição da dimensionalidade
Refere-se ao fenômeno recorrente em análise de dados por conta da quantidade de
atributos e features que os conjuntos de dados possuem.
Quanto maior a dimensionalidade, mais dispersos os dados estarão ocupando no espaço
associado. As técnicas de redução usam conceitos de álgebra linear para projetar
dados que estão num espaço vetorial com muitas dimensões para um espaço com menos
dimensões.

Abordagens de redução de dimensionalidade

Algumas das abordagens de redução de dimensionalidade são: a análise de componente
principal (PCA) tende a selecionar uma quantidade pequena de dimensões (atributos ou
features) que representam todo o conjunto; singular value decomposition (SVD); e
análise de fatores.
Fonte: KUMAR, V.; STEINBACH, M.; TAN, P.-N. Introdução ao data mining: mineração de dados. Ciência Moderna, 2009.

Pag. 30
Saiba mais!
Saiba mais sobre os assuntos apresentados até aqui através do material
complementar:
KUMAR, V.; STEINBACH, M.; TAN, P.-N. Introdução ao data mining: mineração
de dados. Ciência Moderna, 2009.

Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?

Qual das afirmações abaixo é falsa?

Datasets com grande número de atributos podem ter problemas como maldição da
dimensionalidade.

Algoritmos de redução de dimensões visam diminuir o dataset a atributos

representativos.

Datasets que representam textos podem ter diversos atributos, o que pode
interferir na performance de algoritmos.

PCA é um algoritmo de redução de dimensões que significa primary clusters

analysis.

Nesta videoaula, vimos a redução de dimensionalidade representada pela técnica na

etapa de mineração de dados. A seguir, estudaremos sobre a etapa de
pós-processamento.

Pag. 31
Etapa de pós-processamento

Pós-processamento
Envolve visualização, análise e interpretação do modelo de conhecimento gerado na
etapa de mineração de dados, além de simplificações do modelo de conhecimento e
transformar o modelo de conhecimento organizacional e apresentar de resultados.

Simplificações do modelo de conhecimento

Consiste em remover detalhes do modelo de conhecimento de forma a torná-lo menos
complexo, sem perda de informação relevante. A representação de conhecimento por meio
de regras é muito utilizada em KDD e em conjuntos com grandes quantidades de regras
com difícil interpretação.
Existem métodos voltados ao corte de regras. Esses métodos se baseiam em medidas de
qualidade das regras tais como precisão e abrangência (HAN; KEMBER, 2001).
Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora Ltda., 2015.

Simplificações do modelo de conhecimento

Pag. 32
Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora Ltda., 2015.

Transformação do modelo de conhecimento

Conversão na forma de representação dos modelos de conhecimento. Representados em
etapas, o valor que está sendo avaliado traz regras sobre o quão apurada a etapa de
processamento está.
Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora Ltda., 2015.

Saiba mais!
Saiba mais sobre os assuntos apresentados até aqui através do material
complementar:
BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora
Ltda., 2015.

Pag. 33
Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?

A etapa de pós-processamento não envolve:

Utilização de métricas para medir a acurácia do modelo de conhecimento criado.

Aplicação de algoritmos de redes neurais.

Criação de gráficos que representem o modelo de conhecimento treinado na etapa

de mineração.

Criação de regras que representam o modelo de conhecimento criado.

Nesta videoaula, entendemos sobre as etapas de pós-processamento e suas tangentes.

No próximo módulo, estudaremos sobre: as tarefas do KDD, aplicadas nas regras de
associação, classificação e regressão; a clusterização/agrupamento série-temporal; a
classificação bayesiana.

Data mining e obtenção de informação e

conhecimento pelos dados
11 | Tarefas de KDD
Prof. Autor Silas P. Lima Filho
Ao final deste módulo, você deverá ser capaz de:
• Aplicar as regras de associação.
• Perceber a classificação.
• Observar a regressão.
• Entender a clusterização/agrupamento série-temporal.
• Conhecer a classificação bayesiana.

Pag. 34
O professor Silas compartilhou os arquivos usados neste módulo, e que podem
ser usados por você em ambientes com a linguagem Python instalada.
Recomendamos conhecimento prévio em Python, mas não sendo obrigatório, para
melhor aproveitamento. Para usá-los é só baixar e executá-los numa máquina
com a linguagem instalada, bem como as bibliotecas indicadas no início de
cada script.
Preparados? Mãos à obra!

Regras de associação

Regras de associação
A descoberta de associações consiste em encontrar subconjuntos de itens que ocorrem
de forma simultânea e frequente em uma fração mínima do conjunto de dados.
Dentre os cenários de aplicação, podemos listar o uso de regras de associação para
incrementar as vendas de algum determinado item, por exemplo:
X Y, onde X e Y são conjuntos de itens:
{pão, manteiga} {café}.

Regras de associação
Metrificarão através de análise desses itens que ocorrerão em associação.

Pag. 35
Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora Ltda., 2015.

Regras de associação
Como sabemos o quanto uma regra de associação é
relevante?

Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining.

Elsevier Editora Ltda., 2015.

Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora Ltda., 2015.

Pag. 36
Saiba mais!
Saiba mais sobre os assuntos apresentados até aqui através do material
complementar:
BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora
Ltda., 2015.

Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?

Qual das afirmações abaixo é a mais apropriada para a tarefa de regras de

associação?

Árvore de decisão é um tipo de algoritmo de regra de associação.

Encontrar subconjuntos de itens que ocorrem de forma simultânea.

Útil para descobrir o valor final de um item a ser vendido.

As medidas de fidelidade e credibilidade são úteis para medir a relevância de

regras de associação.

Nesta videoaula, vimos a descoberta de associações que consistem em encontrar

subconjuntos de itens que ocorrem de forma simultânea e frequente em uma fração
mínima do conjunto de dados. A seguir, aprenderemos sobre uma das mais importantes e
recorrentes atividades de mineração e KDD, a classificação.

Pag. 37
Classificação

Classificação
Algumas das atividades mais importantes e recorrentes nas atividades de mineração e
KDD: tarefa de aprendizado supervisionado, tarefa de aprender uma função f que mapeie
cada instância de um conjunto para um determinado rótulo.
Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora Ltda., 2015.

Classificação

Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora Ltda., 2015.

Um modelo pode sofrer de dois casos:

Overfitting: quando um modelo é supertreinado, ruim para novas entradas.
Underfitting: quando um modelo não consegue boas medidas de acurácia.

Classificação

Pag. 38
Podemos demonstrar a acurácia de um modelo através da matriz de confusão.

Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora Ltda., 2015.

Classificação
Tal como citamos, o objetivo é a criação de um
modelo de classificação.
Alguns algoritmos de classificação:
• Redes neurais.
• Árvores de decisão.
• Algoritmos genéticos.
• Classificador bayesiano.
• k-NN. Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining.
Elsevier Editora Ltda., 2015.

Saiba mais!
Saiba mais sobre os assuntos apresentados até aqui através do material
complementar:
BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora
Ltda., 2015.

Pag. 39
Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?

Qual das afirmações abaixo não corresponde à tarefa de classificação?

A tarefa de classificação tenta rotular um registro de uma determinada classe.

A classificação é útil com dados categóricos.

Tentamos descobrir um valor contínuo para uma variável ou atributo numa tarefa
de classificação.

Redes neurais podem ser utilizadas na tarefa de classificação.

Definimos, nesta videoaula, uma categoria para um determinado registro através da

classificação. A seguir, estudaremos sobre a regressão a predição de valores.

Regressão

Pag. 40
Regressão
Para alguns casos de mineração, buscamos a predição
de valores. Sejam preços, probabilidades, quantidade
de algum produto.
Em tais tarefas usamos algoritmos que buscam definir
uma função que consiga gerar tal valor desejado. O
modo mais simples e comum é a regressão linear. Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining.
Elsevier Editora Ltda., 2015.

Regressão linear
São elementos da regressão:
Y - variável dependente.
X - variável independente.
, - coeficientes.
O objetivo é encontrar valores apropriados para ,
Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. , próximos aos dados reais, de modo a encontrar o
Elsevier Editora Ltda., 2015.
valor apropriado de Y. Uma forma de obter os valores
dos coeficientes é através do método de mínimos
quadrados.

Regressão linear múltipla

Extensão da regressão linear, mas é utilizada em contextos com mais de uma variável
independente. Também utiliza o método de mínimos quadrados.
Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora Ltda., 2015.

Regressão não linear

Pag. 41
Regressão polinomial: utiliza termos polinomiais ao modelo linear, permitindo um
modelo de conhecimento mais apropriado aos dados.
Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora Ltda., 2015.

Saiba mais!
Saiba mais sobre os assuntos apresentados até aqui através do material
complementar:
BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora
Ltda., 2015.

Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?

O elemento, ou variável, que pretendemos prever numa tarefa de regressão pode

ser chamado de:

Variável independente.

Variável predizente.

Variável dependente.

Valor resiliente.

Dado iminente.

Vimos que o objetivo da regressão é encontrar valores apropriados, tanto de alfa e

beta, que são os coeficientes, de modo a encontrar o melhor valor para Y, com menor
erro possível. Na próxima aula, aprenderemos sobre clusterização e agrupamento.

Pag. 42
Clusterização/agrupamento

Clusterização
A tarefa de clusterização, ou de agrupamento, separa os elementos de um conjunto que
compartilham propriedades. Tem como objetivo maximizar a similaridade intracluster e
minimizar a similaridade intercluster e indução não supervisionada, onde os objetos
não possuem rótulos associados e para identificação de grupos naturais.
Algoritmos de clusterização:
- k-means - (distância).
- fuzzy k-means - (distância).
- dbscan - (densidade).
- expectation-maximization - (distribuição de probabilidade).
Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora Ltda., 2015.

Clusterização
Em alguns algoritmos, o usuário deve informar a quantidade de grupos a serem formados. Embora existam métodos que tentam
detectar a quantidade de grupos.
Três grupos de algoritmos:
• Distância.
• Distribuição de probabilidade.
• Densidade.
Agrupamento por distância, representada pela fórmula:

Pag. 43
Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora Ltda., 2015.

Saiba mais!
Saiba mais sobre os assuntos apresentados até aqui através do material
complementar:
BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora
Ltda., 2015.

Pag. 44
Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?

Qual dos algoritmos abaixo não é utilizado para tarefas de clusterização?

K-means

Dbscan

Support vector machine

Fuzzy k-means

Todas as respostas

Vimos que a clusterização nos auxiliará a agrupar dados similares. Na próxima

videoaula, estudaremos sobre a previsão de séries temporais.

Previsão de séries temporais

Pag. 45
Previsão de séries temporais
Conjunto de observações de um fenômeno ordenado no
tempo, calculando o consumo mensal de energia,
vendas diárias no período de anos, valor de ações
por trimestres. É o processo de identificação das
características, padrões e propriedades da série,
utilizados para descrever em termos gerais o
Fontes: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining fenômeno gerador.
. Elsevier Editora Ltda., 2015 | Imagem:
istockphoto.com/br. Os valores são normalmente medidos em intervalos de
tempo iguais, por exemplo, a cada minuto, hora ou
dia. A pesquisa de similaridade encontra sequências
de dados que diferem apenas ligeiramente da
sequência de consulta fornecida.

Tipos de movimento
Movimentos de tendência, indicam a direção geral na qual o gráfico da série temporal
se move.
Cíclico: oscilações de curvas periódicas ou não.
Sazonal: com movimentos que ocorrem por conta de eventos que se repetem, por
exemplo: vendas em feriados.
Irregulares, ou randômicos: influenciados por eventos aleatórios, tais como eventos
climáticos, catástrofes etc.

Previsão de séries temporais

Construção do gráfico da série que revela características importantes como tendência,
sazonalidade e outliers.
Dentre os principais objetivos da análise de séries temporais está a geração de
modelos para previsão de valores futuros.
Auxilia a média móvel simples (MMS) que aplica a média dos N elementos da janela de
previsão para identificar o próximo elemento da série.

Pag. 46
Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora Ltda., 2015.

Saiba mais!
Saiba mais sobre os assuntos apresentados até aqui através do material
complementar:
BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora
Ltda., 2015.

Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?

Assinale a opção correta sobre os algoritmos de série-temporal:

Uma previsão série-temporal é quando desejamos prever um rótulo para uma

variável dependente.

Os movimentos de tendência de uma série temporal indicam a direção geral de

movimento da série.

Movimentos cíclicos são ocorrências que acontecem de maneira irregular.

Movimentos sazonais são ocorrências não periódicas.

Vimos, nesta videoaula, que a série atemporal identificará os tipos de movimentos que
os dados terão ao longo do tempo. A seguir, estudaremos sobre a classificação
bayesiana e suas vertentes.

Pag. 47
Classificação bayesiana

Classificadores bayesianos
Classificadores bayesianos criam modelos estatísticos baseados no teorema de Bayes e
trabalham com cálculo de probabilidade de um registro pertencer a alguma das classes.
Naive Bayes é o classificador bayeasiano mais popular.
Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora Ltda., 2015.

Classificador Naive Bayes

Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora Ltda., 2015.

Pag. 48
Classificador Naive Bayes
O classificador Naive Bayes calcula a probabilidade
a posteriori P(Ci | X) – probabilidade de X ser da
classe Ci considerando os valores dos atributos de X
– para cada classe Ci.
O classificador decide que X é da classe Ci se e
somente se P(Ci | X) for maior do que P(Cj | X) para Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining.
Elsevier Editora Ltda., 2015.
qualquer outra classe Cj, ou seja, X é da classe Ci
se e somente se:

Teorema de Bayes
Utiliza o conceito de probabilidade condicional: P
(A | B).
Maximização da probabilidade a posteriori de acordo
com a fórmula:

Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining.

Elsevier Editora Ltda., 2015.

Saiba mais!
Saiba mais sobre os assuntos apresentados até aqui através do material
complementar:
Bezerra, E., Goldschmidt, R., Passos, E. (2015). Data Mining. Brasil:
Elsevier Editora Ltda.

Pag. 49
Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?

Um classificador bayesiano é um conjunto de algoritmos também chamado de:

Modelo de classificação generalista.

Modelo de classificação probabilística.

Modelo de regressão probabilística.

Modelo de classificação especialista.

Vimos, nesta videoaula, que os classificadores bayesianos criam modelos estatísticos

baseados no teorema de Bayes. A partir disso, estudaremos, adiante, sobre os métodos
de mineração e suas vertentes.

Data mining e obtenção de informação e

conhecimento pelos dados
12 | Métodos de mineração
Prof. Autor Silas P. Lima Filho
Ao final deste módulo, você deverá ser capaz de:
• Identificar k-NN em casos de regressão e classificação.
• Aplicar o support vector machine.
• Verificar a associação com Apriori.
• Perceber a clusterização com k-means.
• Entender as árvores de decisão.
• Perceber as redes neurais.

Pag. 50
K-NN em casos de classificação

Classificação com k-NN

Para exemplificar a tarefa de classificação com o uso do algoritmo k-NN, consideremos
o cenário de uma empresa de marketing, onde temos informações de compras feitas em
propaganda em mídias sociais. O objetivo da tarefa de classificação é prever se um
novo registro no dataset será de um provável comprador de forma de pré-processamento
do dataset e treino do modelo com os datasets respectivos.
Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora Ltda., 2015.

Classificação com k-NN

Com o modelo gerado, conseguimos concluir o que é a classificação de fato: os pontos brancos, são os potenciais
compradores, e o modelo de classificação consegue traçar uma linha reta separando os registros.

Pag. 51
Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora Ltda., 2015.

Saiba mais!
Saiba mais sobre os assuntos apresentados até aqui através do material
complementar:
BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora
Ltda., 2015.

Pag. 52
Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?

Assinale a opção incorreta:

O algoritmo k-NN é utilizado em tarefas de classificação, apesar de também

poder ser utilizado em regressões.

K-NN tenta inferir a classe pelos vizinhos próximos ao registro.

O algoritmo k-NN é usado para tarefas de clusterização.

Uma das métricas de medição de vizinhos é a distância euclidiana.

Aprendemos que o objetivo da tarefa de classificação é prever um novo registro no

dataset. A seguir, estudaremos sobre a regressão linear.

Regressão linear

Regressão linear
Consideremos o mesmo cenário da aula anterior, mas em uma nova situação.
A empresa receberá novos funcionários, e o setor de RH precisa definir os salários
usando como referência a experiência e o quanto o quadro de funcionários recebe. O
objetivo da tarefa de regressão é prever o valor de uma determinada variável. No
caso, estamos trabalhando com um resultado de valor contínuo.
O objetivo da regressão é a criação de um modelo, que representa uma função, que
mapeie um conjunto de atributos em uma determinada saída.

Pag. 53
A função que desejamos encontrar deve mapear os dados com o menor erro possível,
criando uma função e medindo o quão precisa ela é. Para tarefas de classificação,
utiliza-se regressão logística.

Veja a seguir um exemplo de de regressão linear:

Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora Ltda., 2015.

Saiba mais!
Saiba mais sobre os assuntos apresentados até aqui através do material
complementar:
BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora
Ltda., 2015.

Pag. 54
Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?

Assinale a alternativa mais correta:

A regressão linear pode ser utilizada para estimar valores reais.

A regressão linear é utilizada para prever dados categóricos.

A regressão linear é mais bem aplicada quando se deseja prever a classe de um

dado.

O objetivo principal de uma função é prever o valor da variável independente.

Nesta videoaula, vimos que a regressão linear tem como objetivo predizer o valor de
um determinado atributo ou variável, com uma linha reta dentro do dataset.

Apriori na tarefa de associação

Na tarefa de associação, nosso objetivo é conseguir descobrir quais atributos possuem
relação entre si. Podemos decompor um algoritmo de associação em duas etapas:
encontrar todos os conjuntos de itens frequentes (satisfazendo a condição de suporte
mínimo) e gerar as regras de associação a partir dos itens frequentes (satisfazendo a
condição de confiança mínima).
Para exemplificar a tarefa de regra de associação:
• Considere o mesmo cenário da empresa de marketing. Um proprietário de uma

Pag. 55
plataforma de filmes deseja descobrir qual o perfil dos clientes.
• Descobrir quais filmes geralmente são consumidos em conjunto pode auxiliar a
recomendar novos filmes.
1 - {Beirut,Martian,Get Out}
2 - {Deadpool}
3 - {X-Men,Allied}
4 - {Ninja Turtles,Moana,Ghost in the Shell,John Wick}
5 - {Mad Max}
6 - {The Spy Who Dumped Me,Hotel Transylvania}
7 - {Thor,London Has Fallen,The Lego Movie}
8 - {Intern,Tomb Rider,John Wick}
Nosso dataset, desta vez, possui uma lista (dicionário) para cada registro de
cliente. Essa lista possui os filmes a que o usuário está assistindo ou possui
cadastrado na lista.
Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora Ltda., 2015.

Apriori na tarefa de associação

Em uma tarefa de associação é possível em min_support e min_confidence:

Fonte: Bezerra, E., Goldschmidt, R., Passos, E. (2015). Data Mining. Brasil: Elsevier Editora Ltda.

Apriori na tarefa de associação

Nos resultados das regras de associação teremos:

Pag. 56
Fonte: Bezerra, E., Goldschmidt, R., Passos, E. (2015). Data Mining. Brasil: Elsevier Editora Ltda.

Saiba mais!
Saiba mais sobre os assuntos apresentados até aqui através do material
complementar:
BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora
Ltda., 2015.

Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?

Assinale a alternativa INCORRETA a respeito da utilização do algoritmo

Apriori:

Apriori é um algoritmo para descobrir associações.

Um exemplo de utilização do Apriori é a previsão do valor estimado de

temperatura.

Um exemplo de aplicação do Apriori é a associação entre filmes de um catálogo.

Podemos usar os algoritmos de associação para fazer recomendações de itens ou

produtos.

A tarefa de Apriori tem como objetivo conseguir descobrir quais atributos possuem

Pag. 57
relação entre si. Na próxima videoaula, aprenderemos sobre clusterização com k-means.

Clusterização com k-means

O algoritmo k-means faz parte dos métodos de clusterização de dados, com o objetivo
de agrupar registros que tenham similaridade em “clusters”, maximizar similaridade
intracluster e minimizar similaridade intercluster.
Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora Ltda., 2015.

Clusterização com k-means

Num cenário onde possuímos uma base de clientes, com informações sobre idade, gênero, receita e gastos. Nesse algoritmo,
definimos a quantidade de centroides (clusters) e medimos a distância de cada centroide para os demais registros.

Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora Ltda., 2015.

Pag. 58
Saiba mais!
Saiba mais sobre os assuntos apresentados até aqui através do material
complementar:
BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora
Ltda., 2015.

Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?

O algoritmo de clusterização k-means tem como objetivo:

Encontrar pontos centrais que maximizem a similaridade intercluster.

Encontrar pontos centrais que minimizem a similaridade intracluster.

Definir pontos chamados centroides que eliminem registros divergentes com

baixa similaridade.

Definir pontos centroides que consigam agrupar os registros do dataset em

núcleos.

Aprendemos nesta videoaula, sobre o algoritmo k-means, que faz parte dos métodos de
clusterização de dados. Na próxima videoaula, estudaremos sobre support vector
machine, conhecido como SVM.

Pag. 59
Support Vector Machine

Support Vector Machine em classificação

O algoritmo support vector machine (SVM) é utilizado
nas tarefas de classificação ou regressão.
Basicamente, SVM define um hiperplano que separa os
dados a serem classificados. Ao definir o
hiperplano, definimos também as margens que evitarão
erros de classificação.
Consideremos o mesmo caso de classificar usuários de
mídias sociais que podem ser prováveis clientes. Em Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining.
Elsevier Editora Ltda., 2015.
alguns casos, uma reta não é suficiente para separar
devidamente os registros do dataset. Para melhor
classificação dos dados, podemos fazer uso de SVM
não linear.

Na sequência é possível notar o support vector em classificação:

Pag. 60
Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora Ltda., 2015.

Saiba mais!
Saiba mais sobre os assuntos apresentados até aqui através do material
complementar:
Bezerra, E., Goldschmidt, R., Passos, E. (2015). Data Mining. Brasil:
Elsevier Editora Ltda.

SVM não linear em classificação

Para melhor classificação dos dados, podemos fazer uso de SVM não linear.

Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora Ltda., 2015.

Pag. 61
Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?

Baseado no conteúdo apresentado, assinale a afirmação menos correta.

Conceitualmente, o algoritmo SVM visa definir um divisor entre os registros do

dataset.

Uma matriz de confusão apresenta as previsões falsas e corretas de um modelo

criado.

O algoritmo SVM linear visa construir uma "curva" para separar registros
dispersos.

Ao definir um hiperplano, definimos também margens de erro ao redor do

hiperplano.

Vimos, nesta videoaula, sobre o algoritmo support vector machine (SVM), que é
utilizado nas tarefas de classificação ou regressão. A partir disso, aprenderemos
posteriormente sobre a árvore de decisão que representa uma decisão sobre os
atributos do dataset.

Árvore de decisão

Pag. 62
Árvore de decisão na classificação
Modelo de representação onde cada nó interno
representa uma decisão sobre os atributos do dataset
e como tais atributos particionam os dados.
Árvores de decisão podem ser usadas em tarefas de
classificação ou de regressão, criando um modelo que
prediz o valor de uma variável através do
aprendizado de regras de decisão inferidas dos Fonte: BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining.
Elsevier Editora Ltda., 2015.
dados.
Árvores de decisão são intuitivas e tornam o modelo
de classificação fácil de utilizar e entender, com
boa taxa de acerto. As previsões podem ser
comparadas aos outros modelos.
Algoritmos rápidos e escaláveis podem ser
implementados na construção de árvores de decisão.

Árvore de Decisão na Classificação

Conforme exibido na videoaula, o professor apresenta um exemplo de uma árvore de decisão ou árvore de classificação:

Fonte: Bezerra, E., Goldschmidt, R., Passos, E. (2015). Data Mining. Brasil: Elsevier Editora Ltda.

Árvore de Decisão na Regressão

Pag. 63
Como árvore de decisão na regressão temos:

Fonte: Bezerra, E., Goldschmidt, R., Passos, E. (2015). Data Mining. Brasil: Elsevier Editora Ltda.

Saiba mais!
Saiba mais sobre os assuntos apresentados até aqui através do material
complementar:
BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora
Ltda., 2015.

Pag. 64
Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos?

Assinale a alternativa menos correta sobre a árvore de decisão.

Árvores de decisão são utilizadas apenas na tarefa de classificação.

Árvores de decisão são utilizadas em classificação e regressão.

O objetivo da árvore de decisão é a criação de regras de decisão a partir dos

dados do dataset.

Cada aresta de uma árvore de decisão representa uma opção de escolha.

Vimos, nesta última videoaula, que as árvores de decisão podem ser usadas em tarefas
de classificação ou de regressão a fim de criar um modelo que prediz o valor de uma
variável. Foi um prazer acompanhar vocês nesta jornada de conhecimento! Até a
próxima!

Referências autorais
BEZERRA, E.; GOLDSCHMIDT, R.; PASSOS, E. Data mining. Elsevier Editora Ltda., 2015.
CASTRO, L. N. de; FERRARI, D. G. Introdução à mineração de dados: conceitos básicos,
algoritmos e aplicações. São Paulo: Saraiva Educação S. A., 2017.
COREA, F. An introduction to data: everything you need to know about AI, big data and
data science. Springer International Publishing, 2018.
KAMBER, M.; PEI, J.; HAN, J. Data mining: concepts and techniques. Elsevier Science,
2011.
STEINBACH, M. et al. Introduction to data mining. Pearson, 2019.