0% found this document useful (0 votes)

10 views52 pages

02 Pre Processing

The document outlines a course on data mining, covering topics such as data processing, classification, association rules, and clustering. It includes practical examples of data smoothing techniques using bin boundaries and means, as well as regression and clustering methods for data analysis. Additionally, it discusses data integration approaches and group work assignments related to attribute subset selection and normalization techniques.

Uploaded by

ndanyuzweklaus2002

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

10 views52 pages

02 Pre Processing

Uploaded by

ndanyuzweklaus2002

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 52

By MBABAZI Daniel Citoyen

Course Outline
Chapter 1: Introduction to Data Mining
Chapter 2: Data Processing
Chapter 3: Classification and Prediction
Chapter 4: Mining Association Rules
Chapter 5: Cluster Analysis
Given the following data (in increasing order)
for the attribute age: 13, 15, 16, 16, 19, 20,
20, 21, 22, 22, 25, 25, 25, 25, 30, 33, 33, 35,
35, 35, 35, 36, 40, 45, 46. Use smooth by bin
boundaries to smooth these data, using
depth of 5.
Bins Boundaries:
•Bin 1: 13, 15, 16, 16, 19 •Bin 1: [13,19]
•Bin 2: 20, 20, 21, 22, 22 •Bin 2: [20,22]
•Bin 3: 25, 25, 25, 25, 30 •Bin 3: [25,30]
•Bin 4: 33, 33, 35, 35, 35 •Bin 4: [33,35]
•Bin 5: 35, 36, 40, 45, 46 •Bin 5: [35,46]
Replacing by closest boundary value
•Bin 1: 13, 13, 13, 13, 19
•Bin 2: 20, 20, 20, 22, 22
•Bin 3: 25, 25, 25, 25, 30
•Bin 4: 33, 33, 35, 35, 35
•Bin 5: 35, 35, 35, 46, 46
Given the following data (in increasing order)
for the attribute age: 13, 15, 16, 16, 19, 20, 20,
21, 22, 22, 25, 25, 25, 25, 30, 33, 33, 35, 35, 35,
35, 36, 40, 45, 46. Use smooth by bin means to
smooth these data, using depth of 5.
Bins Means:
•Bin 1: 13, 15, 16, 16, 19 •Bin 1: 16
•Bin 2: 20, 20, 21, 22, 22 •Bin 2: 21
•Bin 3: 25, 25, 25, 25, 30 •Bin 3: 26
•Bin 4: 33, 33, 35, 35, 35 •Bin 4: 34
•Bin 5: 35, 36, 40, 45, 46 •Bin 5: 40
Replacing by means
•Bin 1: 16, 16, 16, 16, 16
•Bin 2: 21, 21, 21, 21, 21
•Bin 3: 26, 26, 26, 26, 26
•Bin 4: 34, 34, 34, 34, 34
•Bin 5: 40, 40, 40, 40, 40
Regression: Data smoothing can also be done by
regression, a technique that conforms data values
to a function.
Linear regression involves finding the “best” line to
fit two attributes (or variables) so that one
attribute can be used to predict the other.
Multiple linear regression is an extension of linear
regression, where more than two attributes are
involved and the data are fit to a multidimensional
surface.
Clustering: It is used for grouping the similar
data in clusters and is used for finding
outliers.
Outliers may be detected by clustering, for
example, where similar values are organized
into groups, or “clusters.”
Intuitively, values that fall outside of the set of
clusters may be considered outliers.
Some approaches to integrate data:
• Data consolidation: Data is physically brought together and stored
in a single place. Having all data in one place increases efficiency
and productivity. This step typically involves using data warehouse
software.
• Data virtualization: In this approach, an interface provides a
unified and real-time view of data from multiple sources. In other
words, data can be viewed from a single point of view.
• Data propagation: Involves copying data from one location to
another with the help of specific applications. This process can be
synchronous or asynchronous and is usually event-driven
Group Work
Grp 1: Discuss the following steps of Attribute Subset
Selection:
- Discuss Stepwise forward selection
- Discuss Stepwise backward elimination
Grp 2: Discuss min-max normalization.
Grp 3: Discuss z-score normalization.
Grp 4: Discuss normalization by decimal scaling.
Grp 5: Discuss Discretization
Grp 6: Concept Hierarchy Generation

Knowledge Discovery Database - Unit 2
No ratings yet
Knowledge Discovery Database - Unit 2
53 pages
Stacked It
No ratings yet
Stacked It
28 pages
Data Preprocessing
No ratings yet
Data Preprocessing
77 pages
DWDM Lecture PPT Unit3 Part3
No ratings yet
DWDM Lecture PPT Unit3 Part3
29 pages
Week2 2
No ratings yet
Week2 2
25 pages
03 Data Preparation
No ratings yet
03 Data Preparation
28 pages
Module1.5 Preprocessing
No ratings yet
Module1.5 Preprocessing
40 pages
Slide 2 - Data Preprocessing
100% (1)
Slide 2 - Data Preprocessing
39 pages
Unit 2
No ratings yet
Unit 2
34 pages
DMiningKuliah 2A DPreparation
No ratings yet
DMiningKuliah 2A DPreparation
32 pages
Data Preprocessing
100% (1)
Data Preprocessing
109 pages
Unit 6
No ratings yet
Unit 6
5 pages
W2-Data Preparation
No ratings yet
W2-Data Preparation
46 pages
Data Cleaning and Datamining
No ratings yet
Data Cleaning and Datamining
54 pages
Data Preprocessing - Data Cleaning
100% (2)
Data Preprocessing - Data Cleaning
29 pages
DWDM Unit-Ii
No ratings yet
DWDM Unit-Ii
18 pages
Data Preprocessing Techniques
No ratings yet
Data Preprocessing Techniques
11 pages
Data Mining: Concepts and Techniques: January 14, 2014 1
0% (1)
Data Mining: Concepts and Techniques: January 14, 2014 1
46 pages
Big Data Lecture # 04
No ratings yet
Big Data Lecture # 04
22 pages
02 Data Warehouse
No ratings yet
02 Data Warehouse
18 pages
Unit - 1 Data Preprocessing
No ratings yet
Unit - 1 Data Preprocessing
66 pages
Preprocessing 935
No ratings yet
Preprocessing 935
68 pages
Week 2 - Data Quality
No ratings yet
Week 2 - Data Quality
43 pages
Lecture 5
No ratings yet
Lecture 5
27 pages
Nature-Inspired Optimizers: Theories, Literature Reviews and Applications Seyedali Mirjalili Download
No ratings yet
Nature-Inspired Optimizers: Theories, Literature Reviews and Applications Seyedali Mirjalili Download
60 pages
Data Preprocessing
No ratings yet
Data Preprocessing
77 pages
DATA MINING Chapter 1 and 2 Lect Slide
No ratings yet
DATA MINING Chapter 1 and 2 Lect Slide
47 pages
6-Significance of Exploratory Data Analysis, Making Sense of Data-06!02!2024
No ratings yet
6-Significance of Exploratory Data Analysis, Making Sense of Data-06!02!2024
85 pages
Data Mining: Concepts and Techniques
No ratings yet
Data Mining: Concepts and Techniques
50 pages
Lecture 7 - Data Preprocessing - Cleaning-M
No ratings yet
Lecture 7 - Data Preprocessing - Cleaning-M
21 pages
Normalization 05032024 010758pm
No ratings yet
Normalization 05032024 010758pm
17 pages
Physiological Control Systems
No ratings yet
Physiological Control Systems
49 pages
Down 2
No ratings yet
Down 2
61 pages
DM-2Preprocessing 2
No ratings yet
DM-2Preprocessing 2
61 pages
Data Preprocessing Solution-24-37
No ratings yet
Data Preprocessing Solution-24-37
14 pages
Data Mining: Concepts and Techniques
No ratings yet
Data Mining: Concepts and Techniques
59 pages
6 Data Preprocessing
No ratings yet
6 Data Preprocessing
37 pages
Week 4 - 5 - Data Preprocessing
No ratings yet
Week 4 - 5 - Data Preprocessing
67 pages
Unit 2
No ratings yet
Unit 2
37 pages
Preprocessing
No ratings yet
Preprocessing
62 pages
Preprocessing
No ratings yet
Preprocessing
52 pages
Data Pre Processing
No ratings yet
Data Pre Processing
48 pages
Lec2 - Data Preprocessing
No ratings yet
Lec2 - Data Preprocessing
30 pages
Anushka Tech IITK-2
No ratings yet
Anushka Tech IITK-2
1 page
Chapter 10 - Determining How Costs Behave
100% (1)
Chapter 10 - Determining How Costs Behave
41 pages
Unit-2 Lecture Notes
No ratings yet
Unit-2 Lecture Notes
33 pages
DSR Unit III
No ratings yet
DSR Unit III
11 pages
Knowledge Discovery and Data Mining
No ratings yet
Knowledge Discovery and Data Mining
55 pages
Project1 Report
No ratings yet
Project1 Report
21 pages
Que Es Datamin
No ratings yet
Que Es Datamin
52 pages
Data Mining and Business Intelligence
No ratings yet
Data Mining and Business Intelligence
52 pages
3 Data Preprocessing
No ratings yet
3 Data Preprocessing
25 pages
AI Lecture 5 - Heuristic Search
No ratings yet
AI Lecture 5 - Heuristic Search
23 pages
Week 5 EMQ Solution
100% (2)
Week 5 EMQ Solution
4 pages
ML Assignment-1
No ratings yet
ML Assignment-1
7 pages
CS-DM Module-2
No ratings yet
CS-DM Module-2
29 pages
Lab 2
No ratings yet
Lab 2
15 pages
Final - Unit 3 Data Preprocessing - Phases
No ratings yet
Final - Unit 3 Data Preprocessing - Phases
42 pages
Normalization
No ratings yet
Normalization
35 pages
Data Pre-Processing: - Data Cleaning - Data Integration - Data Transformation - Data Reduction - Data Discretization
No ratings yet
Data Pre-Processing: - Data Cleaning - Data Integration - Data Transformation - Data Reduction - Data Discretization
55 pages
Homwork 2, 3, and 4
No ratings yet
Homwork 2, 3, and 4
7 pages
07 - ML - Naive-Bayes-update
No ratings yet
07 - ML - Naive-Bayes-update
26 pages
Introduction To Time Series Analysis
No ratings yet
Introduction To Time Series Analysis
17 pages
Data Mining CSE-443: Ayesha Aziz Prova Lecturer, Dept. of CSE CWU
No ratings yet
Data Mining CSE-443: Ayesha Aziz Prova Lecturer, Dept. of CSE CWU
21 pages
In Randomized Quick Sort A Random Element Is Choose As A Pivot Element
No ratings yet
In Randomized Quick Sort A Random Element Is Choose As A Pivot Element
17 pages
Heatmap Regression Via Randomized Rounding
No ratings yet
Heatmap Regression Via Randomized Rounding
18 pages
Control Syste1
No ratings yet
Control Syste1
26 pages
Spatial and Temporal Data Mining
No ratings yet
Spatial and Temporal Data Mining
52 pages
Stability of Linear Control Systems
100% (1)
Stability of Linear Control Systems
11 pages
Numerical Analysis Final Exam
No ratings yet
Numerical Analysis Final Exam
2 pages
Basic Addition To 20 Number Line Worksheet
No ratings yet
Basic Addition To 20 Number Line Worksheet
6 pages
Summer Term 2024 Course Handout: Date: 28.05.2024
No ratings yet
Summer Term 2024 Course Handout: Date: 28.05.2024
3 pages
BAB 9 Matroid
No ratings yet
BAB 9 Matroid
15 pages
CS344: Introduction To Artificial Intelligence: Pushpak Bhattacharyya
No ratings yet
CS344: Introduction To Artificial Intelligence: Pushpak Bhattacharyya
32 pages
Data Pre Processing - NG
No ratings yet
Data Pre Processing - NG
43 pages
Question Bank
No ratings yet
Question Bank
15 pages
EE462 Design of Digital Control Systems PDF
No ratings yet
EE462 Design of Digital Control Systems PDF
2 pages
Lecture 09 DM
No ratings yet
Lecture 09 DM
14 pages
Chap 3
No ratings yet
Chap 3
55 pages
Dy Fxy Yx y DX: 2. Taylor's Series Method
No ratings yet
Dy Fxy Yx y DX: 2. Taylor's Series Method
2 pages
STA4026S 2021 - Continuous Assessment 2 Ver0.0 - 2021!09!29
No ratings yet
STA4026S 2021 - Continuous Assessment 2 Ver0.0 - 2021!09!29
6 pages
A Branch and Bound Algorithm For The Traveling Purchaser Problem
No ratings yet
A Branch and Bound Algorithm For The Traveling Purchaser Problem
9 pages
Numerical Methods For CSE Problem Sheet 4: Problem 1. Order of Convergence From Error Recursion (Core Prob-Lem)
No ratings yet
Numerical Methods For CSE Problem Sheet 4: Problem 1. Order of Convergence From Error Recursion (Core Prob-Lem)
14 pages
Rise of The Machines: Larry Wasserman
No ratings yet
Rise of The Machines: Larry Wasserman
12 pages
Decomposing Design Effects For Stratified Sampling: Deff Var y Var y UWE Deff
No ratings yet
Decomposing Design Effects For Stratified Sampling: Deff Var y Var y UWE Deff
3 pages
Threaded Representation of Binary Trees
No ratings yet
Threaded Representation of Binary Trees
6 pages
Applied Predictive Analytics: Principles and Techniques for the Professional Data Analyst
From Everand
Applied Predictive Analytics: Principles and Techniques for the Professional Data Analyst
Dean Abbott
No ratings yet
Data Mining Models: Techniques and Applications
From Everand
Data Mining Models: Techniques and Applications
Ravi Deshpande
No ratings yet
Mesh Generation: Application to Finite Elements
From Everand
Mesh Generation: Application to Finite Elements
Pascal Frey
No ratings yet
IGNOU MCA Data Science and Big Data Previous Years Unsolved Papers MCS 226
From Everand
IGNOU MCA Data Science and Big Data Previous Years Unsolved Papers MCS 226
Manish Soni
No ratings yet

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.

02 Pre Processing

Uploaded by

02 Pre Processing

Uploaded by

By MBABAZI Daniel Citoyen

You might also like

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.