0% found this document useful (0 votes)

6 views5 pages

14.1 Data Preprocessing Class Imbalance and AUC Curve

The lecture covered essential data preprocessing steps including data cleansing, feature engineering, and handling missing data. It also addressed class imbalance through techniques like stratified k-fold cross-validation and the use of micro and macro-averaged recall/precision. Finally, the ROC-AUC curve was discussed, highlighting the significance of AUC values in evaluating model performance.

Uploaded by

dev3421667

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

6 views5 pages

14.1 Data Preprocessing Class Imbalance and AUC Curve

Uploaded by

dev3421667

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 5

Recap of Lecture on Data

Preprocessing, Class imbalance

and ROC –AUC curve
Data Preprocessing steps
• Data Cleansing:
• Tackle missing data
• For text applications, remove stop words, convert all verbs to root forms
• Remove inconsistencies (rows with same attribute values but different labels)
• Feature engineering – Converting raw data to a usable form for ML.
Ex
• Feature rejection (drop unrelated features) and feature selection
• Feature Transformation: transform raw data with PCA and reduce
dimensionality by using only important components
• Feature extraction: Generate new features by combining existing features
Tackling missing data
• Missing values
• Delete rows with missing data
• Delete columns if it has multiple empty entries
• Assign all possible values if categorical
• Assign average value of column, if values are continuous. Assign median value
of column if categorical
• Decision relative mean/median: Use only rows with same label as that of row
with missing value
• Closest Assign feature value with closest matched row with same label or
with centroid of closest matched cluster with same label
Handling class imbalance
• Use stratified k fold cross validation – each fold has same ratio of two
or more classes
• Use micro-averaged recall / precision if you want that class with
greater representation should be given more priority (Microaverage
gives equal priority to each instance)
• Use macro-averaged recall / precision if you want that class with less
presentation also gets equal priority as other classes. (Macroaverage
gives equal priority to all classes)
ROC – AUC Curve
Receiver Operating Characteristics - Area Under the Curve

AUC of Curve 1: 0.92 (best)

AUC of curve 2: 0.75
AUC of Curve 3: 0.5
Curve 1
Curve 2
Sensitivity or Recall

Curve 3

Specificity

FAI Lecture - 23-10-2023 PDF
No ratings yet
FAI Lecture - 23-10-2023 PDF
12 pages
l09 Machine Learning
No ratings yet
l09 Machine Learning
39 pages
6 Data Preprocessing
No ratings yet
6 Data Preprocessing
37 pages
Introduction To Data Mining
No ratings yet
Introduction To Data Mining
19 pages
SMOTE: Synthetic Minority Over-Sampling Technique: Nitesh V. Chawla
No ratings yet
SMOTE: Synthetic Minority Over-Sampling Technique: Nitesh V. Chawla
37 pages
Complete Data Science Questions
No ratings yet
Complete Data Science Questions
5 pages
DIFFERENCES
No ratings yet
DIFFERENCES
3 pages
Ai&ml 2
No ratings yet
Ai&ml 2
15 pages
Catboost ET Comparaison
No ratings yet
Catboost ET Comparaison
20 pages
Data Imbalance Problem
No ratings yet
Data Imbalance Problem
14 pages
Class Imbalance Problem: BY Dr. Anupam Ghosh 4 SEPT, 2023
No ratings yet
Class Imbalance Problem: BY Dr. Anupam Ghosh 4 SEPT, 2023
27 pages
8 Classification
No ratings yet
8 Classification
16 pages
ML Lecture 11 Evaluation
No ratings yet
ML Lecture 11 Evaluation
17 pages
Personalized Learning
No ratings yet
Personalized Learning
13 pages
Classification Metrics
No ratings yet
Classification Metrics
39 pages
Data Cleaning and Preprocessing
No ratings yet
Data Cleaning and Preprocessing
4 pages
Data Preprocessing
No ratings yet
Data Preprocessing
49 pages
Chap3 Part1 Classification
No ratings yet
Chap3 Part1 Classification
38 pages
A10 Model Performance v2 2up
No ratings yet
A10 Model Performance v2 2up
11 pages
Model Evaluation and Selection
No ratings yet
Model Evaluation and Selection
49 pages
Accuracy Measures
No ratings yet
Accuracy Measures
18 pages
ML-Lecture-12 (Evaluation Metrics For Classification)
No ratings yet
ML-Lecture-12 (Evaluation Metrics For Classification)
15 pages
Be A 65 Ads Exp 3
No ratings yet
Be A 65 Ads Exp 3
6 pages
Credit Card Fraud Analysis Ashutosh
No ratings yet
Credit Card Fraud Analysis Ashutosh
3 pages
AI Performance Evaluation - Annotated
No ratings yet
AI Performance Evaluation - Annotated
52 pages
Session01 DataScience
No ratings yet
Session01 DataScience
79 pages
Notes On ML Basics (Classifier, Types of Classification Algorithms, AUC-ROC Curve, Cross-Validation)
No ratings yet
Notes On ML Basics (Classifier, Types of Classification Algorithms, AUC-ROC Curve, Cross-Validation)
1 page
1608 06048 PDF
No ratings yet
1608 06048 PDF
7 pages
Module 2 - Data Preprocessing
No ratings yet
Module 2 - Data Preprocessing
16 pages
Project Report-Micro Credit Loan
No ratings yet
Project Report-Micro Credit Loan
8 pages
DS Notes
No ratings yet
DS Notes
36 pages
Performance Parameters
No ratings yet
Performance Parameters
23 pages
Components of Ai System Design PDF
No ratings yet
Components of Ai System Design PDF
1 page
Week2 DataPreprocessing
No ratings yet
Week2 DataPreprocessing
43 pages
Components of Ai System Design PDF
No ratings yet
Components of Ai System Design PDF
1 page
DL IT324a 4
No ratings yet
DL IT324a 4
52 pages
Machine Learning II
No ratings yet
Machine Learning II
61 pages
Unit 2 Chap 4
No ratings yet
Unit 2 Chap 4
14 pages
Data Preprocessing
No ratings yet
Data Preprocessing
77 pages
Unit 2
No ratings yet
Unit 2
46 pages
Ads Exp2 C35
No ratings yet
Ads Exp2 C35
9 pages
Week 2 - Data Quality
No ratings yet
Week 2 - Data Quality
43 pages
Data Preprocessing
No ratings yet
Data Preprocessing
9 pages
Machine Learning Lecture1 - 26-27 Aug
No ratings yet
Machine Learning Lecture1 - 26-27 Aug
30 pages
Lecture 3 1611410001002
No ratings yet
Lecture 3 1611410001002
51 pages
Dsbda Ut5
No ratings yet
Dsbda Ut5
7 pages
Performance Parameters
No ratings yet
Performance Parameters
14 pages
L06 Features
No ratings yet
L06 Features
44 pages
DWDM Unit-3
No ratings yet
DWDM Unit-3
9 pages
Business Analytics
No ratings yet
Business Analytics
14 pages
DS 1
No ratings yet
DS 1
20 pages
Model Performance Assessment
No ratings yet
Model Performance Assessment
13 pages
Data Preprocessing
No ratings yet
Data Preprocessing
12 pages
Unit 3
No ratings yet
Unit 3
55 pages
Imbalanced Dataset Techniques
No ratings yet
Imbalanced Dataset Techniques
16 pages
MSDSModule 2
No ratings yet
MSDSModule 2
35 pages
ML 2022
No ratings yet
ML 2022
10 pages
Machine Learning
No ratings yet
Machine Learning
28 pages
Data Science Interview Questions (#Day11) PDF
100% (1)
Data Science Interview Questions (#Day11) PDF
11 pages

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.

14.1 Data Preprocessing Class Imbalance and AUC Curve

Uploaded by

14.1 Data Preprocessing Class Imbalance and AUC Curve

Uploaded by

Recap of Lecture on Data

Preprocessing, Class imbalance

AUC of Curve 1: 0.92 (best)

You might also like

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.