0% found this document useful (0 votes)

135 views15 pages

Resampling Methods: Prof. Asim Tewari IIT Bombay

Resampling methods such as cross-validation and the bootstrap are used for model assessment and selection. Cross-validation involves splitting the data into training and validation sets to evaluate a model's performance, while avoiding overfitting. Leave-one-out cross-validation uses a single observation for validation each time. The bootstrap randomly samples observations with replacement to estimate properties of estimators like standard errors. While useful for complex models, it provides little benefit for simple linear models where standard errors can be directly calculated.

Uploaded by

Scion Of Virikvas

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

135 views15 pages

Resampling Methods: Prof. Asim Tewari IIT Bombay

Uploaded by

Scion Of Virikvas

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 15

Resampling Methods

Prof. Asim Tewari

IIT Bombay

Asim Tewari, IIT Bombay ME 781: Engineering Data Mining and Applications
Resampling
• Resampling involve repeatedly drawing
samples from a training set and refitting a
model of interest on each sample

• Can be computationally expensive

• Resampling methods
– Cross-validation
– Bootstrap

Asim Tewari, IIT Bombay ME 781: Engineering Data Mining and Applications
Resampling
• Model assessment: The process of evaluating
a model’s performance

• Model selection: The process of selecting the

proper level of flexibility.

Asim Tewari, IIT Bombay ME 781: Engineering Data Mining and Applications
Resampling
Cross-Validation
• The Validation Set Approach
– It involves randomly dividing the available set of
observations into two parts, a training set and a
validation set or hold-out set.

A schematic display of the validation set approach. A set of n observations are randomly split
into a training set (shown in blue, containing observations 7, 22, and 13, among others) and a
validation set (shown in beige, and containing observation 91, among others). The statistical
learning method is fit on the training set, and its performance is evaluated on the validation
set.
Asim Tewari, IIT Bombay ME 781: Engineering Data Mining and Applications
Resampling
Cross-Validation
• The Validation Set Approach

Left: Validation error estimates for a single split into training and validation data sets. Right:
The validation method was repeated ten times, each time using a different random split of the
observations into a training set and a validation set. This illustrates the variability in the
estimated test MSE that results from this approach.
Asim Tewari, IIT Bombay ME 781: Engineering Data Mining and Applications
Resampling
Cross-Validation
• The Validation Set Approach
– Test error rate can be highly variable, depending
on which observations are included in the training
set and the validation set.
– In the validation approach, only a subset of the
observations are used to fit the model. This is a
problem since statistical methods tend to perform
worse when trained on fewer observations.

Asim Tewari, IIT Bombay ME 781: Engineering Data Mining and Applications
Resampling
Cross-Validation
• Leave-One-Out Cross-Validation

A schematic display of LOOCV. A set of n data points is repeatedly split into a training set
(shown in blue) containing all but one observation, and a validation set that contains only that
observation (shown in beige). The test error is then estimated by averaging the n resulting
MSE’s. The first training set contains all but observation 1, the second training set contains all
but observation 2, and so forth.
Asim Tewari, IIT Bombay ME 781: Engineering Data Mining and Applications
Resampling
Cross-Validation

Asim Tewari, IIT Bombay ME 781: Engineering Data Mining and Applications
The Bootstrap Method
• Can be used to estimate the standard errors of the
coefficients. But not very useful for linear models
since the standard errors of the coefficients can be
directly estimated.

Asim Tewari, IIT Bombay ME 781: Engineering Data Mining and Applications
The Bootstrap Method

Asim Tewari, IIT Bombay ME 781: Engineering Data Mining and Applications
The Bootstrap Method
• The Bootstrap method can be used to estimate the standard errors of the
coefficients. But not very useful for linear models since the standard errors
of the coefficients can be directly estimated

A graphical illustration of
the bootstrap approach on
a small sample containing n
= 3 observations. Each
bootstrap data set contains
n observations, sampled
with replacement from the
original data set. Each
bootstrap data set is used
to obtain an estimate of α

Asim Tewari, IIT Bombay ME 781: Engineering Data Mining and Applications
The Bootstrap Method

Asim Tewari, IIT Bombay ME 781: Engineering Data Mining and Applications

Test Bank For Business Analytics 3rd Edition by Evans
No ratings yet
Test Bank For Business Analytics 3rd Edition by Evans
28 pages
Quiz 3
100% (1)
Quiz 3
6 pages
Quiz 10 - Regression, Cluster Analysis, & Association Analysis
No ratings yet
Quiz 10 - Regression, Cluster Analysis, & Association Analysis
3 pages
MG 602 Probability Theories Exercise
No ratings yet
MG 602 Probability Theories Exercise
5 pages
Essentials of Modern Business Statistics (7e) : Anderson, Sweeney, Williams, Camm, Cochran © 2018 Cengage Learning
No ratings yet
Essentials of Modern Business Statistics (7e) : Anderson, Sweeney, Williams, Camm, Cochran © 2018 Cengage Learning
52 pages
BRM Data Analysis Techniques
No ratings yet
BRM Data Analysis Techniques
53 pages
Telco Customer Churn
100% (2)
Telco Customer Churn
11 pages
Favar Package
No ratings yet
Favar Package
2 pages
Statistical Inference For Decision Making
No ratings yet
Statistical Inference For Decision Making
9 pages
Sampling & Sampling Distributions
No ratings yet
Sampling & Sampling Distributions
26 pages
Topic 1
100% (1)
Topic 1
37 pages
Sampling Design
No ratings yet
Sampling Design
31 pages
Sample Design and Sampling Procedures
No ratings yet
Sample Design and Sampling Procedures
43 pages
EC2303 Final Formula Sheet PDF
No ratings yet
EC2303 Final Formula Sheet PDF
8 pages
Full Stats Notes
No ratings yet
Full Stats Notes
126 pages
Chapter 1 Basic Definitions of Stochastic Process, Kolmogorov Consistency Theorem (Lecture On 01-05-2021) - STAT 243 - Stochastic Process
No ratings yet
Chapter 1 Basic Definitions of Stochastic Process, Kolmogorov Consistency Theorem (Lecture On 01-05-2021) - STAT 243 - Stochastic Process
5 pages
Stats Chap12 Notes
No ratings yet
Stats Chap12 Notes
89 pages
Stat 138 Course Syllabus
No ratings yet
Stat 138 Course Syllabus
4 pages
JNTUA Probability and Statistics Notes - R20
No ratings yet
JNTUA Probability and Statistics Notes - R20
109 pages
Statistics Handouts
No ratings yet
Statistics Handouts
73 pages
Introduction To Business Statistics
No ratings yet
Introduction To Business Statistics
17 pages
Chapter 9. Test of Hypotheses For A Single Sample
No ratings yet
Chapter 9. Test of Hypotheses For A Single Sample
98 pages
Frequency Distribution
No ratings yet
Frequency Distribution
24 pages
Chapter 6 Section 4-5: Probability: Multiple Choice
No ratings yet
Chapter 6 Section 4-5: Probability: Multiple Choice
7 pages
Statistics For Business and Economics,: 11E Anderson/Sweeney/Williams
100% (1)
Statistics For Business and Economics,: 11E Anderson/Sweeney/Williams
57 pages
SEM:Confirmatory Factor Analysis (CFA)
No ratings yet
SEM:Confirmatory Factor Analysis (CFA)
28 pages
Applications of Statistical Software For Data Analysis
No ratings yet
Applications of Statistical Software For Data Analysis
5 pages
Chapter 4 - Data Collection and Sampling Methods
No ratings yet
Chapter 4 - Data Collection and Sampling Methods
22 pages
Bca-629 Ob PDF
No ratings yet
Bca-629 Ob PDF
107 pages
Concept of Sampling Theory
100% (1)
Concept of Sampling Theory
2 pages
Data Mining: Concepts and Techniques: - Chapter 6
No ratings yet
Data Mining: Concepts and Techniques: - Chapter 6
172 pages
CURRICULUM OF STATISTICS BOS BS (Hons)
No ratings yet
CURRICULUM OF STATISTICS BOS BS (Hons)
48 pages
Business Statistics
100% (1)
Business Statistics
60 pages
Epsc 123 Statistical Methods in Edc
100% (1)
Epsc 123 Statistical Methods in Edc
34 pages
Chapter 7 - Sampling Distributions
No ratings yet
Chapter 7 - Sampling Distributions
43 pages
Psychology Revision: Research Methods
No ratings yet
Psychology Revision: Research Methods
17 pages
2ND Quarter Exam - PR1
100% (1)
2ND Quarter Exam - PR1
5 pages
Skewness and Kurtosis Original
No ratings yet
Skewness and Kurtosis Original
38 pages
Z-Test and T-Test
No ratings yet
Z-Test and T-Test
6 pages
Theresa Hughes Data Analysis and Surveying 101
No ratings yet
Theresa Hughes Data Analysis and Surveying 101
37 pages
Measures of Central Tendency and Dispersion
No ratings yet
Measures of Central Tendency and Dispersion
64 pages
9.data Analysis
No ratings yet
9.data Analysis
25 pages
Basic Business Statistics: 11 Edition
No ratings yet
Basic Business Statistics: 11 Edition
24 pages
Chapter 9 Estimation From Sampling Data
No ratings yet
Chapter 9 Estimation From Sampling Data
23 pages
Topic 2 - Sampling Techniques
No ratings yet
Topic 2 - Sampling Techniques
34 pages
Stat Term Paper
No ratings yet
Stat Term Paper
17 pages
Sampling Methods
100% (1)
Sampling Methods
21 pages
4-Data Cleaning - Handout
No ratings yet
4-Data Cleaning - Handout
6 pages
1.3 Acids, Bases and Indicators Good Good
No ratings yet
1.3 Acids, Bases and Indicators Good Good
12 pages
Data Collection and Presentation
100% (2)
Data Collection and Presentation
15 pages
Ch07. Sampling and Sampling Distribution
No ratings yet
Ch07. Sampling and Sampling Distribution
44 pages
Reubs High School: Statistics Project
No ratings yet
Reubs High School: Statistics Project
13 pages
Standard Deviation (Ungrouped Data)
No ratings yet
Standard Deviation (Ungrouped Data)
6 pages
Probability Sampling
100% (1)
Probability Sampling
3 pages
Interval Estimation
No ratings yet
Interval Estimation
19 pages
Unit 2 Classification of Data
100% (1)
Unit 2 Classification of Data
6 pages
Lecture Notes Chapter 5 Data Collection Sampling and Data Analysis
No ratings yet
Lecture Notes Chapter 5 Data Collection Sampling and Data Analysis
41 pages
Spss Project (Prashant Rajput)
No ratings yet
Spss Project (Prashant Rajput)
23 pages
AK - STATISTIKA - 01 - Describing Data
No ratings yet
AK - STATISTIKA - 01 - Describing Data
26 pages
Sampling Techniques and Data Gathering
No ratings yet
Sampling Techniques and Data Gathering
34 pages
19 Assessing Model Accuracy
No ratings yet
19 Assessing Model Accuracy
16 pages
4-ResamplingMethods 1
No ratings yet
4-ResamplingMethods 1
23 pages
00 ME781 Merged Till SVM
No ratings yet
00 ME781 Merged Till SVM
604 pages
Linear Regression-3: Prof. Asim Tewari IIT Bombay
No ratings yet
Linear Regression-3: Prof. Asim Tewari IIT Bombay
50 pages
Linear Regression-1: Prof. Asim Tewari IIT Bombay
No ratings yet
Linear Regression-1: Prof. Asim Tewari IIT Bombay
27 pages
ME 781 Statistical Machine Learning and Data Mining-Outline
No ratings yet
ME 781 Statistical Machine Learning and Data Mining-Outline
2 pages
L - 1 - 2 - Emerging Trends in Artificial Intelligence and Data Science
No ratings yet
L - 1 - 2 - Emerging Trends in Artificial Intelligence and Data Science
106 pages
L 4 5 Probability
No ratings yet
L 4 5 Probability
45 pages
Data Scales and Representation: Prof. Asim Tewari IIT Bombay
No ratings yet
Data Scales and Representation: Prof. Asim Tewari IIT Bombay
27 pages
Linear Regression-2: Prof. Asim Tewari IIT Bombay
No ratings yet
Linear Regression-2: Prof. Asim Tewari IIT Bombay
19 pages
Set Theory: Prof. Asim Tewari IIT Bombay
No ratings yet
Set Theory: Prof. Asim Tewari IIT Bombay
22 pages
16 Linear Regression - CP, AIC, BIC, and Adjusted R2 - PCA
No ratings yet
16 Linear Regression - CP, AIC, BIC, and Adjusted R2 - PCA
83 pages
Classification: Prof. Asim Tewari IIT Bombay
No ratings yet
Classification: Prof. Asim Tewari IIT Bombay
35 pages
21 K-Nearest Neighbors Regression
No ratings yet
21 K-Nearest Neighbors Regression
8 pages
24 Support Vector Machine
No ratings yet
24 Support Vector Machine
14 pages
ME 781 - Statistical Machine: Learning and Data Mining
No ratings yet
ME 781 - Statistical Machine: Learning and Data Mining
2 pages
Confusion Matrix: Prof. Asim Tewari IIT Bombay
No ratings yet
Confusion Matrix: Prof. Asim Tewari IIT Bombay
8 pages
Økonometri Sammendrag
No ratings yet
Økonometri Sammendrag
54 pages
Assignment-2: Abhishek Shringi
No ratings yet
Assignment-2: Abhishek Shringi
8 pages
Star Test
No ratings yet
Star Test
7 pages
WINSEM2023-24 BITE410L TH VL2023240503970 2024-03-06 Reference-Material-I
No ratings yet
WINSEM2023-24 BITE410L TH VL2023240503970 2024-03-06 Reference-Material-I
21 pages
Practical Machine Learning-1
No ratings yet
Practical Machine Learning-1
5 pages
Tutorial - Minitab - Part II - 2011
No ratings yet
Tutorial - Minitab - Part II - 2011
18 pages
Machine Learning - Exploring The Model
No ratings yet
Machine Learning - Exploring The Model
2 pages
ADM2304 Multiple Regression Dr. Suren Phansalker
No ratings yet
ADM2304 Multiple Regression Dr. Suren Phansalker
12 pages
Machine Learning Algorithms
No ratings yet
Machine Learning Algorithms
28 pages
12 Articulo - A New Cost Model For Estimation of Open Pit Copper Mine Capital Expenditure
No ratings yet
12 Articulo - A New Cost Model For Estimation of Open Pit Copper Mine Capital Expenditure
8 pages
Diabetes Prediction Using Machine Learning Algorithms and Ontology
No ratings yet
Diabetes Prediction Using Machine Learning Algorithms and Ontology
19 pages
CH 11 Correlatiion Analysis
No ratings yet
CH 11 Correlatiion Analysis
26 pages
Assignment
No ratings yet
Assignment
7 pages
Assg 2
No ratings yet
Assg 2
10 pages
Metodologi Penelitian: Prof. Dr. H. UJIANTO, MS
No ratings yet
Metodologi Penelitian: Prof. Dr. H. UJIANTO, MS
11 pages
ML Important Topic
No ratings yet
ML Important Topic
13 pages
SC&RP - Unit 5
No ratings yet
SC&RP - Unit 5
36 pages
Notes For Finals - Spss
No ratings yet
Notes For Finals - Spss
4 pages
n n x¯ x¯ σ = σ =: Sample 1 Sample 2
No ratings yet
n n x¯ x¯ σ = σ =: Sample 1 Sample 2
8 pages
Chapter 4
No ratings yet
Chapter 4
5 pages
Correlation
No ratings yet
Correlation
3 pages
Regression Analysis - Chapter 4 - Model Adequacy Checking - Shalabh, IIT Kanpur
No ratings yet
Regression Analysis - Chapter 4 - Model Adequacy Checking - Shalabh, IIT Kanpur
36 pages
J K Shah Classes Class Room Test: Syjc Feb' 19
No ratings yet
J K Shah Classes Class Room Test: Syjc Feb' 19
12 pages
ANCOVA Example #1-Covariate Choice Matters!: Descriptives
No ratings yet
ANCOVA Example #1-Covariate Choice Matters!: Descriptives
5 pages
3 Free Courses That Helped Me Land My First Data Scientist Job in Amazon - by Farzad Mahmoodinobar - Medium
No ratings yet
3 Free Courses That Helped Me Land My First Data Scientist Job in Amazon - by Farzad Mahmoodinobar - Medium
15 pages
Sec 4 A
No ratings yet
Sec 4 A
14 pages
Structural Equation Modeling in R
No ratings yet
Structural Equation Modeling in R
28 pages
Company Bankruptcy Detection PDF
No ratings yet
Company Bankruptcy Detection PDF
34 pages

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.

Resampling Methods: Prof. Asim Tewari IIT Bombay

Uploaded by

Resampling Methods: Prof. Asim Tewari IIT Bombay

Uploaded by

Resampling Methods

Prof. Asim Tewari

• Can be computationally expensive

• Model selection: The process of selecting the

You might also like

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.