0% found this document useful (0 votes)

102 views7 pages

Model Evaluation and Selection Cheatsheet 1708023215

This document provides a cheatsheet on various machine learning techniques for model evaluation and selection. It lists functions and approaches for data splitting, model evaluation metrics, cross-validation, hyperparameter tuning, model selection, ensemble methods, dimensionality reduction, data preprocessing, advanced evaluation, text processing, clustering, neural networks, imbalanced data handling, interpretation, and time series analysis. The cheatsheet acts as a reference for popular scikit-learn and other Python machine learning libraries.

Uploaded by

felipe.burneo.posavac

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

102 views7 pages

Model Evaluation and Selection Cheatsheet 1708023215

Uploaded by

felipe.burneo.posavac

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 7

# [ Model Evaluation and Selection ] [ cheatsheet ]

Data Splitting

● Splitting dataset into training and test sets: from

sklearn.model_selection import train_test_split
● Splitting dataset with stratification: X_train, X_test, y_train, y_test =
train_test_split(X, y, test_size=0.2, stratify=y)
● Creating a validation set: X_train, X_val, y_train, y_val =
train_test_split(X_train, y_train, test_size=0.25)

Model Evaluation Metrics

● Accuracy score: from sklearn.metrics import accuracy_score

● Precision score: from sklearn.metrics import precision_score
● Recall score: from sklearn.metrics import recall_score
● F1 score: from sklearn.metrics import f1_score
● Area under ROC curve: from sklearn.metrics import roc_auc_score
● Mean squared error: from sklearn.metrics import mean_squared_error
● Mean absolute error: from sklearn.metrics import mean_absolute_error
● R2 score: from sklearn.metrics import r2_score
● Confusion matrix: from sklearn.metrics import confusion_matrix
● Classification report: from sklearn.metrics import classification_report
● Log loss: from sklearn.metrics import log_loss

Cross-validation

● K-fold cross-validation: from sklearn.model_selection import

cross_val_score
● Stratified K-fold for classification: from sklearn.model_selection import
StratifiedKFold
● Leave-One-Out cross-validation: from sklearn.model_selection import
LeaveOneOut
● Cross-validation with multiple scoring metrics: from
sklearn.model_selection import cross_validate

Hyperparameter Tuning

● Grid search CV: from sklearn.model_selection import GridSearchCV

By: Waleed Mousa

● Randomized search CV: from sklearn.model_selection import
RandomizedSearchCV
● Specifying parameter grid for grid search: param_grid = {'param1': [1, 2,
3], 'param2': ['a', 'b', 'c']}
● Running grid search: grid_search = GridSearchCV(estimator, param_grid,
cv=5)
● Accessing best parameters: grid_search.best_params_
● Accessing best model: grid_search.best_estimator_

Model Selection

● Comparing multiple classifiers: [cross_val_score(estimator, X, y,

cv=5).mean() for estimator in [estimator1, estimator2]]
● Feature importance from models: model.feature_importances_
● Selecting features based on importance: from sklearn.feature_selection
import SelectFromModel
● Pipeline creation: from sklearn.pipeline import make_pipeline
● Saving a model: from joblib import dump
● Loading a model: from joblib import load

Ensemble Methods

● Random Forest: from sklearn.ensemble import RandomForestClassifier

● Gradient Boosting: from sklearn.ensemble import
GradientBoostingClassifier
● AdaBoost: from sklearn.ensemble import AdaBoostClassifier
● Stacking classifiers: from sklearn.ensemble import StackingClassifier

Dimensionality Reduction

● PCA: from sklearn.decomposition import PCA

● t-SNE: from sklearn.manifold import TSNE
● Selecting features with high variance: from sklearn.feature_selection
import VarianceThreshold

Data Preprocessing

● Scaling features: from sklearn.preprocessing import StandardScaler

● Encoding categorical variables: from sklearn.preprocessing import
OneHotEncoder

By: Waleed Mousa

● Imputing missing values: from sklearn.impute import SimpleImputer
● Generating polynomial features: from sklearn.preprocessing import
PolynomialFeatures

Model Evaluation Techniques

● Bootstrapping: from sklearn.utils import resample

● Calculating information criteria: AIC = 2*k - 2*np.log(L) (where k is
the number of parameters and L is the likelihood of the model)
● BIC for model selection: BIC = n*np.log(RSS/n) + k*np.log(n) (where RSS
is the residual sum of squares)

Advanced Model Evaluation

● Plotting ROC curve: from sklearn.metrics import roc_curve

● Plotting precision-recall curve: from sklearn.metrics import
precision_recall_curve
● Visualizing confusion matrix: from sklearn.metrics import
plot_confusion_matrix
● Calculating adjusted R2: adjusted_R2 = 1 - (1-R2)*(n-1)/(n-p-1)

Text Data Processing

● Count Vectorization: from sklearn.feature_extraction.text import

CountVectorizer
● TF-IDF Transformation: from sklearn.feature_extraction.text import
TfidfTransformer
● HashingVectorizer: from sklearn.feature_extraction.text import
HashingVectorizer

Clustering and Unsupervised Learning

● K-Means clustering: from sklearn.cluster import KMeans

● DBSCAN for density-based clustering: from sklearn.cluster import DBSCAN
● Hierarchical clustering: from sklearn.cluster import
AgglomerativeClustering

Neural Networks and Deep Learning

● Using Keras/TensorFlow for neural networks: from tensorflow.keras.models

import Sequential

By: Waleed Mousa

● Defining a simple neural network architecture: model =
Sequential([Dense(10, activation='relu'), Dense(1)])

Handling Imbalanced Datasets

● Under-sampling the majority class: from imblearn.under_sampling import

RandomUnderSampler
● Over-sampling the minority class: from imblearn.over_sampling import
RandomOverSampler
● SMOTE for synthetic minority over-sampling: from imblearn.over_sampling
import SMOTE
● Using class weights to handle imbalance: class_weight='balanced'
(applicable in many sklearn classifiers)

Advanced Feature Selection

● Recursive feature elimination: from sklearn.feature_selection import RFE

● Feature selection using mutual information: from
sklearn.feature_selection import mutual_info_classif
● SelectKBest with custom scoring function: from sklearn.feature_selection
import SelectKBest

Model Interpretability and Explanation

● Permutation importance: from sklearn.inspection import

permutation_importance
● SHAP values: import shap (requires SHAP library)
● LIME for local interpretability: import lime (requires LIME library)

Advanced Cross-validation Techniques

● TimeSeriesSplit for time-series data: from sklearn.model_selection import

TimeSeriesSplit
● GroupKFold for grouped data: from sklearn.model_selection import
GroupKFold
● PredefinedSplit to use custom splits: from sklearn.model_selection import
PredefinedSplit

Hyperparameter Optimization Beyond Grid and Random Search

By: Waleed Mousa

● Bayesian optimization with Hyperopt: from hyperopt import fmin, tpe, hp,
Trials
● Optuna for optimization: import optuna
● Scikit-optimize for Bayesian optimization: from skopt import
BayesSearchCV

Ensemble and Meta-models Advanced Techniques

● VotingClassifier for combining models by voting: from sklearn.ensemble

import VotingClassifier
● Bagging with base estimator: from sklearn.ensemble import
BaggingClassifier
● Feature stacking for meta-modeling: from sklearn.ensemble import
StackingClassifier

Performance Improvement and Efficiency

● Using joblib for parallel processing in GridSearchCV:

GridSearchCV(estimator, param_grid, cv=5, n_jobs=-1)
● Incremental learning with partial_fit: estimator.partial_fit(X_batch,
y_batch)
● Using categorical dtype for pandas to reduce memory usage: df['feature']
= df['feature'].astype('category')

Working with Text Data Advanced Techniques

● N-grams with CountVectorizer: CountVectorizer(ngram_range=(1, 2))

● Custom tokenizer in TfidfVectorizer:
TfidfVectorizer(tokenizer=custom_tokenizer)
● Word embeddings with Gensim or Spacy: from gensim.models import Word2Vec
or import spacy

Advanced Clustering Techniques

● Spectral clustering for non-linearly separable data: from

sklearn.cluster import SpectralClustering
● Affinity propagation for clustering without specifying the number of
clusters: from sklearn.cluster import AffinityPropagation
● Mean shift clustering for arbitrary shaped clusters: from
sklearn.cluster import MeanShift

By: Waleed Mousa

Evaluation Metrics for Regression Advanced

● Explained variance score: from sklearn.metrics import

explained_variance_score
● Mean squared logarithmic error: from sklearn.metrics import
mean_squared_log_error
● Median absolute error: from sklearn.metrics import median_absolute_error

Evaluation Metrics for Classification Advanced

● Balanced accuracy score: from sklearn.metrics import

balanced_accuracy_score
● Cohen's kappa: from sklearn.metrics import cohen_kappa_score
● Matthews correlation coefficient: from sklearn.metrics import
matthews_corrcoef

Multioutput and Multiclass Strategies

● OneVsRest for multiclass classification: from sklearn.multiclass import

OneVsRestClassifier
● MultiOutputClassifier for multi-output regression: from
sklearn.multioutput import MultiOutputClassifier

Advanced Data Preprocessing Techniques

● Power transformation for normalizing data: from sklearn.preprocessing

import PowerTransformer
● Binarizing features: from sklearn.preprocessing import Binarizer
● Custom transformers with FunctionTransformer: from sklearn.preprocessing
import FunctionTransformer

Model Persistence Advanced

● Pickle for model saving: import pickle

● Using dill for more complex objects: import dill as pickle

Time Series Analysis

● Rolling window features: df['rolling_mean'] =

df['feature'].rolling(window=5).mean()

By: Waleed Mousa

● Expanding window features: df['expanding_mean'] =
df['feature'].expanding(2).mean()
● Time series cross-validation: from sklearn.model_selection import
TimeSeriesSplit

Neural Networks and Deep Learning Advanced

● Early stopping in Keras: from tensorflow.keras.callbacks import

EarlyStopping
● Custom loss functions in TensorFlow/Keras: def custom_loss(y_true,
y_pred): return tf.reduce_mean(tf.abs(y_true - y_pred))
● Fine-tuning pre-trained models in TensorFlow/Keras: model.trainable =
True and model.compile(...)

Working with Large Datasets

● Incremental PCA for large datasets: from sklearn.decomposition import

IncrementalPCA
● Online learning algorithms (e.g., SGDClassifier): from
sklearn.linear_model import SGDClassifier
● Dask for parallel computing: import dask.dataframe as dd

By: Waleed Mousa

RDF and RDF Schema
No ratings yet
RDF and RDF Schema
44 pages
Regression Analysis - Cheatsheet
No ratings yet
Regression Analysis - Cheatsheet
9 pages
German Vocabulary and Grammar Guide
No ratings yet
German Vocabulary and Grammar Guide
30 pages
MPDF
No ratings yet
MPDF
7 pages
Machine Learning Feature - Week 5-8
No ratings yet
Machine Learning Feature - Week 5-8
54 pages
Progress of GRADIENT BOOSTING ALGORITHM FOR ELECTRICITY THEFT DETECTION IN POWER UTILITIES
No ratings yet
Progress of GRADIENT BOOSTING ALGORITHM FOR ELECTRICITY THEFT DETECTION IN POWER UTILITIES
10 pages
NSDA Question-1 (Automotive Mech, Level-I) 22
No ratings yet
NSDA Question-1 (Automotive Mech, Level-I) 22
2 pages
Object Detection ppt-1
100% (2)
Object Detection ppt-1
16 pages
MLT 1 - 7 Kanish
No ratings yet
MLT 1 - 7 Kanish
24 pages
Thermo-Calc Data Optimisation User Guide Version 2015a
No ratings yet
Thermo-Calc Data Optimisation User Guide Version 2015a
50 pages
TP - Ipynb - Colab
No ratings yet
TP - Ipynb - Colab
6 pages
ML Lab-1
No ratings yet
ML Lab-1
32 pages
Decision Tree
No ratings yet
Decision Tree
6 pages
AI
No ratings yet
AI
16 pages
Data Modeling - Cheatsheet
No ratings yet
Data Modeling - Cheatsheet
9 pages
German Cover Letter (TEMPLATE)
No ratings yet
German Cover Letter (TEMPLATE)
2 pages
Da Lab Mannual
No ratings yet
Da Lab Mannual
25 pages
NF Assighment4
No ratings yet
NF Assighment4
5 pages
NLP Notes
No ratings yet
NLP Notes
92 pages
SciAps 2020
No ratings yet
SciAps 2020
13 pages
Skit Learn Cheatsheet
No ratings yet
Skit Learn Cheatsheet
11 pages
ML Functions
No ratings yet
ML Functions
12 pages
Scikit Learn
No ratings yet
Scikit Learn
10 pages
1
No ratings yet
1
13 pages
Deutsch B1 Exam Guide
No ratings yet
Deutsch B1 Exam Guide
2 pages
Data Mining Practicals
No ratings yet
Data Mining Practicals
22 pages
A Detailed Study Analysis of Artificial Intelligence Implementation in Social Media Applications
No ratings yet
A Detailed Study Analysis of Artificial Intelligence Implementation in Social Media Applications
4 pages
Admission Test Saarland 2021
No ratings yet
Admission Test Saarland 2021
2 pages
Phase 3 IBM
No ratings yet
Phase 3 IBM
7 pages
German Vocabulary A1 To C1 Reuploaded
No ratings yet
German Vocabulary A1 To C1 Reuploaded
1 page
ML Sheet01 Handout PDF
No ratings yet
ML Sheet01 Handout PDF
3 pages
ML in Python Part-2
No ratings yet
ML in Python Part-2
21 pages
Python Essential Methods in Machine Learning
No ratings yet
Python Essential Methods in Machine Learning
6 pages
Aufnahmeprufung
No ratings yet
Aufnahmeprufung
2 pages
Example 1
No ratings yet
Example 1
139 pages
Saarland Mint Program
No ratings yet
Saarland Mint Program
2 pages
Submitted by Ashish Agrawal and Rahul Sharma
No ratings yet
Submitted by Ashish Agrawal and Rahul Sharma
34 pages
Transcript
No ratings yet
Transcript
1 page
Section 2 Python Programming
No ratings yet
Section 2 Python Programming
12 pages
Synopsis For Shopping Mania
No ratings yet
Synopsis For Shopping Mania
38 pages
1-2 Syllabus 2010-2011
No ratings yet
1-2 Syllabus 2010-2011
42 pages
Technical University of Darmstadt Aerospace
No ratings yet
Technical University of Darmstadt Aerospace
11 pages
WinXPow Manual
No ratings yet
WinXPow Manual
7 pages
German For Beginners PDF Dli DR Notes
No ratings yet
German For Beginners PDF Dli DR Notes
52 pages
NEODB
No ratings yet
NEODB
30 pages
Build ETL Using Python
No ratings yet
Build ETL Using Python
7 pages
Learn German in Three Minutes #1 Self-Introduction: Lesson Notes
No ratings yet
Learn German in Three Minutes #1 Self-Introduction: Lesson Notes
3 pages
Question Bank of Applied Machine Learning
No ratings yet
Question Bank of Applied Machine Learning
2 pages
Unit 1 Deep Learning
No ratings yet
Unit 1 Deep Learning
20 pages
Basic Admission Requirements For Germany PDF
No ratings yet
Basic Admission Requirements For Germany PDF
20 pages
FAQ German Résumé
No ratings yet
FAQ German Résumé
2 pages
New KV - Rao Core Java PDF
No ratings yet
New KV - Rao Core Java PDF
382 pages
Summary of MATLAB Onramp: Basic Syntax
100% (1)
Summary of MATLAB Onramp: Basic Syntax
3 pages
Cisco Unified IP Phone 6921, 6941, and 6961 User Guide For Cisco Unified Communications Manager 8.0 (SCCP)
No ratings yet
Cisco Unified IP Phone 6921, 6941, and 6961 User Guide For Cisco Unified Communications Manager 8.0 (SCCP)
120 pages
Module 1-Data Mining Introduction (Student Edition)
No ratings yet
Module 1-Data Mining Introduction (Student Edition)
39 pages
A 1
No ratings yet
A 1
14 pages
Deloitte CN TMT Ai Report en 190927
No ratings yet
Deloitte CN TMT Ai Report en 190927
110 pages
Stochastic Processes Notes
100% (1)
Stochastic Processes Notes
22 pages
ME211 Mechanics of Solids and Mechanics of Machines
No ratings yet
ME211 Mechanics of Solids and Mechanics of Machines
2 pages
Importing Waveform To ADS
No ratings yet
Importing Waveform To ADS
2 pages
German Vocab Book
No ratings yet
German Vocab Book
133 pages
English-German Verb Index: Bekommen Ankommen
No ratings yet
English-German Verb Index: Bekommen Ankommen
11 pages
A1 - Lektion 3 - Numbers 0-20
No ratings yet
A1 - Lektion 3 - Numbers 0-20
3 pages
The Months Seasons Days and Dates 4068457 PDF
No ratings yet
The Months Seasons Days and Dates 4068457 PDF
7 pages
The Illustrated BERT, ELMo, and Co. (How NLP Cracked Transfer Learning) - Jay Alammar - Visualizing Machine Learning One Concept at A Time
No ratings yet
The Illustrated BERT, ELMo, and Co. (How NLP Cracked Transfer Learning) - Jay Alammar - Visualizing Machine Learning One Concept at A Time
19 pages
ML Midsem 2022
No ratings yet
ML Midsem 2022
8 pages
Flyer German Knowledge
No ratings yet
Flyer German Knowledge
2 pages
Predicting Student Dropout Based On Machine Learning and Deep Learning
No ratings yet
Predicting Student Dropout Based On Machine Learning and Deep Learning
7 pages
AIOps Fundamentals Level 1 Quiz - Attempt Review 1
No ratings yet
AIOps Fundamentals Level 1 Quiz - Attempt Review 1
23 pages
Final Project
No ratings yet
Final Project
9 pages
Yoga Major Project Final PDF
No ratings yet
Yoga Major Project Final PDF
19 pages
ROHIT PROJECT Sem 6
No ratings yet
ROHIT PROJECT Sem 6
38 pages
Random Forest Classification
No ratings yet
Random Forest Classification
8 pages
CS L03 MachineLearning Basics 01
No ratings yet
CS L03 MachineLearning Basics 01
73 pages
Object Tracking Thesis PDF
100% (3)
Object Tracking Thesis PDF
8 pages
2019 PHD Proposal Ai Machine Learning Bioinformatics
100% (1)
2019 PHD Proposal Ai Machine Learning Bioinformatics
2 pages
Baixados 1
No ratings yet
Baixados 1
30 pages
How Transformers Work - A Detailed Exploration of Transformer Architecture - DataCamp
No ratings yet
How Transformers Work - A Detailed Exploration of Transformer Architecture - DataCamp
19 pages
Anjeza Kanxha Bachelor Thesis FinalPresentation
No ratings yet
Anjeza Kanxha Bachelor Thesis FinalPresentation
24 pages
01 IEEE 2023 A Data Mesh Approach For Enabling Data-Centric Applications at The Tactical Edge
No ratings yet
01 IEEE 2023 A Data Mesh Approach For Enabling Data-Centric Applications at The Tactical Edge
9 pages
Aws Scholarship
No ratings yet
Aws Scholarship
48 pages
DI The Skills Based Organization Report
No ratings yet
DI The Skills Based Organization Report
36 pages
Smart AI Driven Adaptive Study Platform Mood Mentor
No ratings yet
Smart AI Driven Adaptive Study Platform Mood Mentor
24 pages
DLMDSDL01 JoelKazadi 9213934 SemiSupervisedLearning 20240907
No ratings yet
DLMDSDL01 JoelKazadi 9213934 SemiSupervisedLearning 20240907
10 pages
Aishwarya DL Mini Project Report
No ratings yet
Aishwarya DL Mini Project Report
4 pages
Shravya Banala
No ratings yet
Shravya Banala
29 pages
Facial Final Mini
No ratings yet
Facial Final Mini
38 pages
Krishna Singh Resume Up1
No ratings yet
Krishna Singh Resume Up1
1 page
Ai ML Research Paper-219311275
No ratings yet
Ai ML Research Paper-219311275
6 pages
Student Placement Prediction
No ratings yet
Student Placement Prediction
4 pages

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.

Model Evaluation and Selection Cheatsheet 1708023215

Uploaded by

Model Evaluation and Selection Cheatsheet 1708023215

Uploaded by

# [ Model Evaluation and Selection ] [ cheatsheet ]

● Splitting dataset into training and test sets: from

Model Evaluation Metrics

● Accuracy score: from sklearn.metrics import accuracy_score

● K-fold cross-validation: from sklearn.model_selection import

● Grid search CV: from sklearn.model_selection import GridSearchCV

By: Waleed Mousa

● Comparing multiple classifiers: [cross_val_score(estimator, X, y,

● Random Forest: from sklearn.ensemble import RandomForestClassifier

● PCA: from sklearn.decomposition import PCA

● Scaling features: from sklearn.preprocessing import StandardScaler

By: Waleed Mousa

Model Evaluation Techniques

● Bootstrapping: from sklearn.utils import resample

Advanced Model Evaluation

● Plotting ROC curve: from sklearn.metrics import roc_curve

Text Data Processing

● Count Vectorization: from sklearn.feature_extraction.text import

Clustering and Unsupervised Learning

● K-Means clustering: from sklearn.cluster import KMeans

Neural Networks and Deep Learning

● Using Keras/TensorFlow for neural networks: from tensorflow.keras.models

By: Waleed Mousa

Handling Imbalanced Datasets

● Under-sampling the majority class: from imblearn.under_sampling import

Advanced Feature Selection

● Recursive feature elimination: from sklearn.feature_selection import RFE

Model Interpretability and Explanation

● Permutation importance: from sklearn.inspection import

Advanced Cross-validation Techniques

● TimeSeriesSplit for time-series data: from sklearn.model_selection import

Hyperparameter Optimization Beyond Grid and Random Search

By: Waleed Mousa

Ensemble and Meta-models Advanced Techniques

● VotingClassifier for combining models by voting: from sklearn.ensemble

Performance Improvement and Efficiency

● Using joblib for parallel processing in GridSearchCV:

Working with Text Data Advanced Techniques

● N-grams with CountVectorizer: CountVectorizer(ngram_range=(1, 2))

Advanced Clustering Techniques

● Spectral clustering for non-linearly separable data: from

By: Waleed Mousa

● Explained variance score: from sklearn.metrics import

Evaluation Metrics for Classification Advanced

● Balanced accuracy score: from sklearn.metrics import

Multioutput and Multiclass Strategies

● OneVsRest for multiclass classification: from sklearn.multiclass import

Advanced Data Preprocessing Techniques

● Power transformation for normalizing data: from sklearn.preprocessing

Model Persistence Advanced

● Pickle for model saving: import pickle

Time Series Analysis

● Rolling window features: df['rolling_mean'] =

By: Waleed Mousa

Neural Networks and Deep Learning Advanced

● Early stopping in Keras: from tensorflow.keras.callbacks import

Working with Large Datasets

● Incremental PCA for large datasets: from sklearn.decomposition import

By: Waleed Mousa

You might also like

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.