0% found this document useful (0 votes)

20 views39 pages

l09_machine_learning

The document discusses model evaluation in machine learning, focusing on metrics for binary classification and the challenges posed by class imbalance. It covers various evaluation metrics such as precision, recall, F1 score, and ROC curves, emphasizing the importance of selecting appropriate metrics based on the specific goals of the analysis. Additionally, it addresses multi-class classification and the use of custom scoring in cross-validation.

Uploaded by

sashakayukov23

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

20 views39 pages

l09_machine_learning

Uploaded by

sashakayukov23

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 39

6012B0419Y Machine Learning

Model Evaluation and Class

Imbalance
27-11-2023

Guido van Capelleveen

(Prepared by: Stevan Rudinac)
Slide Credit
●Andreas Müller, lecturer at the Data Science
Institute at Columbia University
● Author of the book we will be using for this course
“Introduction to Machine Learning with Python”

● Great materials available at:

● https://github.com/amueller/applied_ml_spring_2017/
● https://amueller.github.io/applied_ml_spring_2017/
Reading

Pages: 277 – 305

Metrics for Binary Classification
Kinds of Errors
● Example: Early cancer detection screening
– The test is negative: patient is assumed healthy
– The test is positive: patient undergoes additional test

● Possible mistakes:
– Healthy patient is classified as positive: false positive
or type I error
– Sick patient is classified as negative: false negative or
type II error
Review: confusion matrix

Diagonal divided by everything.

Problems with accuracy
● Imbalanced classes lead to hard-to-interpret accuracy:

Data with 90% negatives

(class, is this OK?)
Precision, Recall, f-score
Positive Predictive Value
(PPV)

limit

Sensitivity, coverage, true positive rate.

limit

All depend on definition of positive and

negative!
The
zoo

https://en.wikipedia.org/wiki/Precision_and_recall
Goal setting!
● What do I want? What do I care
about? (precision, recall, something
else)
● Can I assign costs to the confusion matrix?
(i.e. a false positive costs me $10, a false negative
$100)
● What guarantees do we want to give?
Changing Thresholds
Precision-Recall Curve
Precision-Recall Curve
Comparing RF and SVC
Comparing RF and SVC
Average Precision
Precision at threshold k

Change in recall
between k and k-1

Sum over data points, ranked by decision function

Same as area under the precision-recall curve

(depending on how you treat edge-cases)
F1 vs average precision
Receiver Operating Characteristics
(ROC) Curve

= recall
ROC
●
AUC
Area under ROC Curve
● Always .5 for random / constant prediction
●Evaluation of the ranking: probability that a randomly
picked positive sample will have a higher score than a
randomly picked negative sample

The Relationship Between Precision-Recall and ROC Curves

https://www.biostat.wisc.edu/~page/rocpr.pdf
Multi-class classification
Confusion Matrix

Normalizing confusion matrix (by rows) can be

helpful
Micro and Macro F1
● Macro-average f1: Average f1 scores over classes
●Micro-average f1: Computes the total number of FP,
FN and TP over all classes and then computes P, R and
f1 using these counts.
●Weighted: Mean of the per-class f1 scores, weighted
by support

Macro: “all classes are equally important”

Micro: “all samples are equally important” - same for other metric averages
Multi-class ROC AUC
● Hand & Till, 2001 one vs one

● Provost & Domingo, 2000 one vs

rest

● https://github.com/scikit-learn/scikit-learn/pull/7663
Picking metrics?
● Accuracy rarely what you want
● Problems are rarely balanced
● Find the right criterion for the task
● OR pick one arbitrarily, but at least think about it
● Emphasis on recall or precision?
● Which classes are the important ones?
Using metrics in cross-validation

Same for GridSearchCV

Will make GridSearchCV.score use your
metric!
Built-in scoring
● “scoring” can be string or callable.
● Strings:
Providing your own callable
● Takes estimator, X, y
● Returns score – higher is better (always!)

def accuracy_scoring(est, X, y):

return (est.predict(X) == y).mean()
You can access the model!
Metrics for regression models
Build-in standard metrics
● R^2 : easy to understand scale
● MSE : easy to relate to input
● Mean absolute error, median absolute
error: more robust.

●When using “scoring” use

“neg_mean_squared_error” etc
Prediction plots
Residual Plots
Target vs Feature
Residual vs Feature
Absolute vs relative:
MAPE Mean absolute percentage error (MAPE)
Over vs under
●Overprediction and underprediction can
have different cost.
●Try to create cost-matrix: how much
does overprediction and underprediction
cost?
● Is it linear?

Session 1 Evaluation Model
No ratings yet
Session 1 Evaluation Model
58 pages
Performance Metrics Classification (1)
No ratings yet
Performance Metrics Classification (1)
39 pages
3 - Model Evaluation & Validation
No ratings yet
3 - Model Evaluation & Validation
47 pages
Ca 3 Merged
No ratings yet
Ca 3 Merged
275 pages
08 Classifier Evaluation
No ratings yet
08 Classifier Evaluation
39 pages
Int3209 - Data Mining: Week 5: Classification Model Improvements
No ratings yet
Int3209 - Data Mining: Week 5: Classification Model Improvements
56 pages
Last Day
No ratings yet
Last Day
35 pages
Handling imbalanced datasets
No ratings yet
Handling imbalanced datasets
21 pages
Lecture 10
No ratings yet
Lecture 10
16 pages
Rajat Rastogi Thesis
No ratings yet
Rajat Rastogi Thesis
76 pages
Evaluating A Machine Learning Model
No ratings yet
Evaluating A Machine Learning Model
14 pages
Model Evaluation and Selection
No ratings yet
Model Evaluation and Selection
49 pages
ML Interview Questions placements
No ratings yet
ML Interview Questions placements
99 pages
Lecture 3 1611410001002
No ratings yet
Lecture 3 1611410001002
51 pages
8 Classification
No ratings yet
8 Classification
16 pages
Session-11 Machine Learning
No ratings yet
Session-11 Machine Learning
27 pages
How To Use ROC Curves and Precision-Recall Curves For Classification in Python
No ratings yet
How To Use ROC Curves and Precision-Recall Curves For Classification in Python
47 pages
Performance Parameters
No ratings yet
Performance Parameters
14 pages
Machine Learning Evaluation Metrics Lecturer
No ratings yet
Machine Learning Evaluation Metrics Lecturer
30 pages
Basics of ML and Evaluation
No ratings yet
Basics of ML and Evaluation
42 pages
جلسه 13
No ratings yet
جلسه 13
76 pages
AIML-HC Mod 03
No ratings yet
AIML-HC Mod 03
46 pages
14.1 Data Preprocessing Class Imbalance and AUC Curve
No ratings yet
14.1 Data Preprocessing Class Imbalance and AUC Curve
5 pages
Nishanth Project
No ratings yet
Nishanth Project
75 pages
Rishi S S(41111058) Final Report
No ratings yet
Rishi S S(41111058) Final Report
60 pages
FALLSEM2024-25 BCSE334L TH VL2024250101768 2024-10-08 Reference-Material-I
No ratings yet
FALLSEM2024-25 BCSE334L TH VL2024250101768 2024-10-08 Reference-Material-I
18 pages
Hands On Machine Learning 3 Edition
No ratings yet
Hands On Machine Learning 3 Edition
31 pages
Tutorial 6 Evaluation Metrics For Machine Learning Models: Classification and Regression Models
No ratings yet
Tutorial 6 Evaluation Metrics For Machine Learning Models: Classification and Regression Models
22 pages
W6 CSE 4781 Classification Metrics
No ratings yet
W6 CSE 4781 Classification Metrics
28 pages
lecture11evaluationmetricsforclassification-240913060639-0c766554
No ratings yet
lecture11evaluationmetricsforclassification-240913060639-0c766554
28 pages
Machine_Learning_II
No ratings yet
Machine_Learning_II
61 pages
Lect_02_Evaluation_Part_1
No ratings yet
Lect_02_Evaluation_Part_1
33 pages
CH 4
No ratings yet
CH 4
9 pages
Model Evaluation - II
No ratings yet
Model Evaluation - II
12 pages
IT 138 - Lecture 4
No ratings yet
IT 138 - Lecture 4
30 pages
ML-Lecture-11-Evaluation
No ratings yet
ML-Lecture-11-Evaluation
17 pages
ML3 Evaluating Models
No ratings yet
ML3 Evaluating Models
40 pages
Evaluation Measures
No ratings yet
Evaluation Measures
8 pages
lec5_Classification
No ratings yet
lec5_Classification
27 pages
A10-Model-Performance-v2-2up
No ratings yet
A10-Model-Performance-v2-2up
11 pages
da-unit-iii
No ratings yet
da-unit-iii
43 pages
Intermediate Analytics-Regression-Week 3-1
No ratings yet
Intermediate Analytics-Regression-Week 3-1
44 pages
L 13 Choose Your Own Algorithm D 07062024 111828am
No ratings yet
L 13 Choose Your Own Algorithm D 07062024 111828am
36 pages
Unit 4 ML
No ratings yet
Unit 4 ML
28 pages
Classification Metrics.pptx
No ratings yet
Classification Metrics.pptx
39 pages
Evaluation Metrics
No ratings yet
Evaluation Metrics
11 pages
Chap3 Part1 Classification
No ratings yet
Chap3 Part1 Classification
38 pages
DL_IT324a_4
No ratings yet
DL_IT324a_4
52 pages
ML-Lecture-12 (Evaluation Metrics For Classification)
No ratings yet
ML-Lecture-12 (Evaluation Metrics For Classification)
15 pages
A. Data Science Methods
No ratings yet
A. Data Science Methods
25 pages
Data & Knowledge Engineering: R. Bache, F. Crestani, D. Canter, D. Youngs
No ratings yet
Data & Knowledge Engineering: R. Bache, F. Crestani, D. Canter, D. Youngs
13 pages
A Systematic Review of Unsupervised Learning Techniques For Software Defect Prediction
No ratings yet
A Systematic Review of Unsupervised Learning Techniques For Software Defect Prediction
18 pages
Species Distribution Modelling Vith R
100% (1)
Species Distribution Modelling Vith R
72 pages
Module 5 ML
No ratings yet
Module 5 ML
12 pages
Unit III Iml Final
No ratings yet
Unit III Iml Final
36 pages
Catena: A A B C D
No ratings yet
Catena: A A B C D
13 pages
Variable Importance Analysis in Imbalanced Datasets A New Approach
No ratings yet
Variable Importance Analysis in Imbalanced Datasets A New Approach
27 pages
Confusion Matrix
No ratings yet
Confusion Matrix
5 pages
WaLIDD Score a New Tool to Diagnose Dysmenorrhea A
No ratings yet
WaLIDD Score a New Tool to Diagnose Dysmenorrhea A
11 pages
chapter 5 Model Evaluation
No ratings yet
chapter 5 Model Evaluation
21 pages
Google.Professional-Machine-Learning-Engineer.v2023-08-28.q121
No ratings yet
Google.Professional-Machine-Learning-Engineer.v2023-08-28.q121
56 pages
Confusion Matrix
No ratings yet
Confusion Matrix
8 pages
ML CH 5
No ratings yet
ML CH 5
45 pages
Machine Learningassignment
No ratings yet
Machine Learningassignment
10 pages
Balneo768
No ratings yet
Balneo768
18 pages
ML Metrics
No ratings yet
ML Metrics
9 pages
11.2 - Classification Evaluation Metrics
No ratings yet
11.2 - Classification Evaluation Metrics
22 pages
Loewy2012 - Prodromal Psychosis Screening in Adolescent Psychiatry Clinics
No ratings yet
Loewy2012 - Prodromal Psychosis Screening in Adolescent Psychiatry Clinics
7 pages
Cart-Rf-Ann: Prepared by Muralidharan N
67% (3)
Cart-Rf-Ann: Prepared by Muralidharan N
33 pages
Unit 4 Model Evaluation
No ratings yet
Unit 4 Model Evaluation
24 pages
Analysis of The Performance of Feature Optimization Tech - 2022 - Machine Learni
No ratings yet
Analysis of The Performance of Feature Optimization Tech - 2022 - Machine Learni
12 pages
IAI&ML UNIT-5
No ratings yet
IAI&ML UNIT-5
15 pages
Deep Learning For Detection of Periapical Radiolucent Lesions: A Systematic Review and Meta-Analysis of Diagnostic Test Accuracy
No ratings yet
Deep Learning For Detection of Periapical Radiolucent Lesions: A Systematic Review and Meta-Analysis of Diagnostic Test Accuracy
17 pages
Methodsx: Protocol Article
No ratings yet
Methodsx: Protocol Article
8 pages
Performance Metrics (Classification) : Enrique J. de La Hoz D
100% (1)
Performance Metrics (Classification) : Enrique J. de La Hoz D
30 pages
The Internal State of An LLM Knows When Its Lying: Preprint. Under Review
No ratings yet
The Internal State of An LLM Knows When Its Lying: Preprint. Under Review
10 pages
ssrn-3808539
No ratings yet
ssrn-3808539
14 pages
Drug Recommendation System Based On Sentiment Analysis of Drug Reviews Using Machine Learning
No ratings yet
Drug Recommendation System Based On Sentiment Analysis of Drug Reviews Using Machine Learning
8 pages
Conference Paper
No ratings yet
Conference Paper
10 pages
Development and Validation of College Students ' Tuberculosis Knowledge, Attitudes and Practices Questionnaire (CS-TBKAPQ)
No ratings yet
Development and Validation of College Students ' Tuberculosis Knowledge, Attitudes and Practices Questionnaire (CS-TBKAPQ)
11 pages
Analysis of Imbalanced Classification Algorithms A Perspective View
No ratings yet
Analysis of Imbalanced Classification Algorithms A Perspective View
5 pages
Prediction of Graduate Admission IEEE - 2020
No ratings yet
Prediction of Graduate Admission IEEE - 2020
6 pages
Ai DS 2 Book-Chpt-5
No ratings yet
Ai DS 2 Book-Chpt-5
17 pages
HARNESSING-MACHINE-LEARNING-AND-EXPLAINABLE-AI-FOR-ACCURATE-RECURRENCE-PREDICTION-IN-DIFFERENTIATED-THYROID-CANCER
No ratings yet
HARNESSING-MACHINE-LEARNING-AND-EXPLAINABLE-AI-FOR-ACCURATE-RECURRENCE-PREDICTION-IN-DIFFERENTIATED-THYROID-CANCER
7 pages
Kuesioner TBMAS (ENGLISH)
No ratings yet
Kuesioner TBMAS (ENGLISH)
6 pages
Exp7_MLAI2
No ratings yet
Exp7_MLAI2
8 pages
Handling Imbalanced Data
No ratings yet
Handling Imbalanced Data
21 pages
INNOVATION IN CYBER THREAT DETECTION: TRANSFORMER-BASED APPROACH
No ratings yet
INNOVATION IN CYBER THREAT DETECTION: TRANSFORMER-BASED APPROACH
15 pages
Nutrition Services Screening Assessment (NSSA) Sebagai
No ratings yet
Nutrition Services Screening Assessment (NSSA) Sebagai
8 pages
Multi-dimensional Monte Carlo Integrations Utilizing Mathematica
From Everand
Multi-dimensional Monte Carlo Integrations Utilizing Mathematica
SUJAUL CHOWDHURY
No ratings yet

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.

l09_machine_learning

Uploaded by

l09_machine_learning

Uploaded by

6012B0419Y Machine Learning

Model Evaluation and Class

Guido van Capelleveen

● Great materials available at:

Pages: 277 – 305

Diagonal divided by everything.

Data with 90% negatives

Sensitivity, coverage, true positive rate.

All depend on definition of positive and

Sum over data points, ranked by decision function

Same as area under the precision-recall curve

The Relationship Between Precision-Recall and ROC Curves

Normalizing confusion matrix (by rows) can be

Macro: “all classes are equally important”

● Provost & Domingo, 2000 one vs

Same for GridSearchCV

def accuracy_scoring(est, X, y):

●When using “scoring” use

You might also like

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.