0% found this document useful (0 votes)

32 views15 pages

Overfitting and Mitigation

The document discusses methods for avoiding overfitting in machine learning models. It explains the concepts of bias and variance, and how the bias-variance tradeoff affects model performance. It also describes several regularization techniques like Lasso, Ridge and Elastic Net regression that can be used to reduce overfitting.

Uploaded by

Hitendra Karotiya

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

32 views15 pages

Overfitting and Mitigation

Uploaded by

Hitendra Karotiya

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

You are on page 1/ 15

Managing Overfitting

1
Overfitting
§ Errors in machine learning
§ Bias and Variance
§ Example
§ Methods to avoid Overfitting in DL
§ Simpler Architecture
§ Regularization
§ Drop-out layer

2
Errors in machine learning model
Errors in Machine
Learning Model

Correctable Errors Uncorrectable Errors

Bias Variance

3
Bias and Variance
Bias:
• Bias is the inability of the model to learn the patterns in the data effectively.
• High bias models (read as simple models) will not learn the relationship between the inputs and the
features.
• Consequently, the model's predictions will also be inaccurate, resulting in errors.

Example of Simple (High Bias) Model:

Low Accuracy
Y = Bo + B1.X1 + B2.X2

High Accuracy
Example of Complex (Low Bias) Model:

Y = Bo + B1.X1 + B2.X2 + B3.X3 + B4.X4 + B5.X5 + B6.X6 4

Bias and Variance
Variance:
• Variance is the model's inability to repeat its performance consistently.
• Variance increases with model’s complexity
• A complex model learns the patterns so minutely in a training data set that it cannot produce the results
in the test data.
• Typically, complex models tend to have high variance, and simpler models tend to have low variance.

Example of Low Variance Model:

Low Variance (Highly consistent)
Y = Bo + B1.X1 + B2.X2

High Variance (Highly Inconsistent)

Example of High Variance Model:

Y = Bo + B1.X1 + B2.X2 + B3.X3 + B4.X4 + B5.X5 + B6.X6 5

Bias and Variance
Variance = Low Variance = High

Low Bias, High Variance

[Too Complex Models]
Low Bias, Low Variance [Model memorizes
Bias = Low
[IDEAL Model] patterns]
[Non-Generalizable]
[Overfitting]

High Bias, Low Variance

[Too Simple Models]
High Bias, High Variance
Bias = High [Too few data points] [Inconsistent Models]
[Unrepresentative data]
[Underfitting]

6
Bias and Variance
But finding the ideal model is non-trivial. Why ?

Bias Variance Bias Variance

7
Bias and Variance

Bias Curve
Variance Curve

overfitting
Underfitting Ideal
zone
zone zone

8
Example
Train Data Test Data Ideal Model = Similar and
Model Bias Variance Inference
RMSE RMSE Reasonable performance in Train
0.3 0.3 and Test Data
Model 1 Low Low Satisfactory
(reasonable) (reasonable)
0.7 0.7 Underfitting Model = Poor
Model 2 High Low Underfitting
(poor) (poor)
performance in Train and Test Data
0.2 0.8
Model 3 Low High Overfitting
(reasonable) (poor)
Overfitting Model = Reasonable
0.9 0.9 Inconsistent and
Model 4
(poor) (poor)
High High
Inaccurate performance in Train but poor
performance Test Data

9
Remedies to Avoid Overfitting

Avoiding Overfitting

Regularization

10
Lasso Regression
Addition of Penalty factor
will result in shrinkage of
Minimize + λ and may even force some to
zero

Where ŷ = β0 + β1. x1i + β2. x2i + β3. x3i + …. βp. xni

λ is called the shrinkage coefficient, λ controls the amount of regularization.

As λ ↓ 0, the solution is similar to least squares solution.
As λ ↑ ∞, the solution will tend towards an intercept only model.

11
Ridge Regression
Addition of Penalty
factor will result in
Minimize + λ shrinkage of

Where ŷ = β0 + β1. x1i + β2. x2i + β3. x3i + …. βp. xni

λ is called the shrinkage coefficient, λ controls the amount of regularization.

As λ ↓ 0, the solution is similar to least squares solution.
As λ ↑ ∞, the solution will tend towards a intercept only model.

12
ELNET Regression

Minimize + λ + λ

Where ŷ = β0 + β1. x1i + β2. x2i + β3. x3i + …. βp. xni

λ is called the shrinkage coefficient, λ controls the amount of regularization.

As λ ↓ 0, the solution is similar to least squares solution.
As λ ↑ ∞, the solution will tend towards a intercept only model.

13
Regularization
LASSO Regression Ridge Regression

• L1 produces results with sparse betas • Ridge achieves parameter shrinkage only
and smaller coefficients • Difficult to interpret as it retains all
• betas may be set to zeros predictors
• Useful when you are interested in
keeping less no of attributes in the
model

So what ? So what ?
• Model is efficient to store • Model is useful when over-fitting /variance is
• Model is efficient to compute the main concern

14
Thank You

Unit 1-Week2: Linear Regression, Bias, Variance, Under and Over Fitting, Curse of Dimensionality and ROC
No ratings yet
Unit 1-Week2: Linear Regression, Bias, Variance, Under and Over Fitting, Curse of Dimensionality and ROC
53 pages
Session 3
No ratings yet
Session 3
26 pages
Regularization Linear Models
No ratings yet
Regularization Linear Models
23 pages
(Technical) Machine Learning U3-6 (2019 Pattern)
No ratings yet
(Technical) Machine Learning U3-6 (2019 Pattern)
101 pages
Chapter5 Regularization Summary Final
No ratings yet
Chapter5 Regularization Summary Final
10 pages
Ridge Lasso Regression Bias Variance Tradeoff 71
No ratings yet
Ridge Lasso Regression Bias Variance Tradeoff 71
19 pages
Regularization in Machine Learning
No ratings yet
Regularization in Machine Learning
5 pages
Variance and Bias
No ratings yet
Variance and Bias
14 pages
DL-Lec 2 - Bias-Variance-Tradeoff
No ratings yet
DL-Lec 2 - Bias-Variance-Tradeoff
33 pages
Unit 4
No ratings yet
Unit 4
50 pages
Irreducible Error Bias Variance Underfitting Overfitting Regularization Lasso Ridge
No ratings yet
Irreducible Error Bias Variance Underfitting Overfitting Regularization Lasso Ridge
8 pages
Theory in Machine Learning
No ratings yet
Theory in Machine Learning
60 pages
Linear Regression, Polynomical, Gradiant Descent
No ratings yet
Linear Regression, Polynomical, Gradiant Descent
42 pages
4.bias and Variance
No ratings yet
4.bias and Variance
19 pages
Diagnosing Bias Vs Variance
No ratings yet
Diagnosing Bias Vs Variance
11 pages
Machine Learning
No ratings yet
Machine Learning
19 pages
Lecture 19
No ratings yet
Lecture 19
25 pages
Linear Regression Summary
No ratings yet
Linear Regression Summary
57 pages
Csa202 Unit 2
No ratings yet
Csa202 Unit 2
36 pages
Lecture 7 - Part A - Mutli Class and Overfitting and Regularization
No ratings yet
Lecture 7 - Part A - Mutli Class and Overfitting and Regularization
43 pages
Unit II - 2.5 - Overfitting Underfitting at CSJMU - 6 Slides Handouts
No ratings yet
Unit II - 2.5 - Overfitting Underfitting at CSJMU - 6 Slides Handouts
5 pages
Module 3 Modified
No ratings yet
Module 3 Modified
48 pages
9 - Linear Regression-Problems and Solutions
No ratings yet
9 - Linear Regression-Problems and Solutions
23 pages
NNDL Notes
No ratings yet
NNDL Notes
73 pages
Bais and Variance
No ratings yet
Bais and Variance
4 pages
Lecture 4 and 5
No ratings yet
Lecture 4 and 5
17 pages
Lecture 8
No ratings yet
Lecture 8
15 pages
Lec 24
No ratings yet
Lec 24
8 pages
Model Evaluation
No ratings yet
Model Evaluation
29 pages
Overfitting and Underfitting in Machine Learning
No ratings yet
Overfitting and Underfitting in Machine Learning
3 pages
15-The Bias - Variance - Trade-Off-08-04-2024
No ratings yet
15-The Bias - Variance - Trade-Off-08-04-2024
23 pages
Unit 1.2 Perceptron 2024
No ratings yet
Unit 1.2 Perceptron 2024
107 pages
Lasso Vs Ridge Vs Elastic 1
No ratings yet
Lasso Vs Ridge Vs Elastic 1
5 pages
4 - Bias-Variance Tradeoff
No ratings yet
4 - Bias-Variance Tradeoff
28 pages
L11+ Regularization
No ratings yet
L11+ Regularization
24 pages
Unit 4
No ratings yet
Unit 4
35 pages
Chapter2 1 22
No ratings yet
Chapter2 1 22
9 pages
U&O Fitting
No ratings yet
U&O Fitting
6 pages
DL Unit1
100% (2)
DL Unit1
79 pages
ML Unit 3
No ratings yet
ML Unit 3
2 pages
Bias Variance Tradeoff 2slides WithPicture
No ratings yet
Bias Variance Tradeoff 2slides WithPicture
4 pages
Lec 3
No ratings yet
Lec 3
13 pages
ML 1
No ratings yet
ML 1
24 pages
Ensemble Method
No ratings yet
Ensemble Method
12 pages
DL Mod 4 & 6 Notes
No ratings yet
DL Mod 4 & 6 Notes
12 pages
CMPE257 - W2C3 - ML Fundamentals - Part 2
No ratings yet
CMPE257 - W2C3 - ML Fundamentals - Part 2
34 pages
Bias Variance Tradeoff
No ratings yet
Bias Variance Tradeoff
10 pages
12 Bias-Variance - Underfit - Overfit
No ratings yet
12 Bias-Variance - Underfit - Overfit
4 pages
All DL
No ratings yet
All DL
72 pages
5-LR Doc - R Sqared-Bias-Variance-Ridg-Lasso
No ratings yet
5-LR Doc - R Sqared-Bias-Variance-Ridg-Lasso
26 pages
Ai - W7L14
No ratings yet
Ai - W7L14
22 pages
Underfitting Overfitting
No ratings yet
Underfitting Overfitting
38 pages
Bias Variance
No ratings yet
Bias Variance
8 pages
Machine Learning Interview Question
No ratings yet
Machine Learning Interview Question
72 pages
0 Regularization PDF
No ratings yet
0 Regularization PDF
88 pages
Bias and Variance
No ratings yet
Bias and Variance
7 pages
ML Solved Endsem
No ratings yet
ML Solved Endsem
16 pages
Data Science Interview Question
No ratings yet
Data Science Interview Question
23 pages

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.

Overfitting and Mitigation

Uploaded by

Overfitting and Mitigation

Uploaded by

Managing Overfitting

Correctable Errors Uncorrectable Errors

Example of Simple (High Bias) Model:

Y = Bo + B1.X1 + B2.X2 + B3.X3 + B4.X4 + B5.X5 + B6.X6 4

Example of Low Variance Model:

High Variance (Highly Inconsistent)

Y = Bo + B1.X1 + B2.X2 + B3.X3 + B4.X4 + B5.X5 + B6.X6 5

Low Bias, High Variance

High Bias, Low Variance

Bias Variance Bias Variance

Where ŷ = β0 + β1. x1i + β2. x2i + β3. x3i + …. βp. xni

λ is called the shrinkage coefficient, λ controls the amount of regularization.

Where ŷ = β0 + β1. x1i + β2. x2i + β3. x3i + …. βp. xni

λ is called the shrinkage coefficient, λ controls the amount of regularization.

Where ŷ = β0 + β1. x1i + β2. x2i + β3. x3i + …. βp. xni

λ is called the shrinkage coefficient, λ controls the amount of regularization.

You might also like

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.