0% found this document useful (0 votes)

10 views5 pages

baseline.ipynb - Colab

The document outlines a Jupyter Notebook for analyzing stroke data using Python libraries such as pandas, numpy, and sklearn. It involves loading training and test datasets, performing exploratory data analysis, and building a baseline logistic regression model to predict strokes. The model evaluation includes metrics like AUC and F-beta scores, with results indicating a baseline AUC of 0.7565 and F-beta of 0.5719.

Uploaded by

gacia der

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

10 views5 pages

baseline.ipynb - Colab

Uploaded by

gacia der

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 5

2/23/25, 2:09 PM baseline.

ipynb - Colab

Importing and Loading the training and test datasets

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.impute import SimpleImputer
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import fbeta_score, precision_recall_curve, roc_auc_score, classification_report, confusion_matri
import os

from google.colab import files

uploaded = files.upload()

Choose Files 2 files

test.csv(text/csv) - 152301 bytes, last modified: 2/21/2025 - 100% done
train.csv(text/csv) - 146010 bytes, last modified: 2/21/2025 - 100% done
Saving test.csv to test.csv
Saving train csv to train csv

train_path = "/content/train.csv"
test_path = "/content/test.csv"

import os
print(os.path.exists(train_path))
print(os.path.exists(test_path))

True
True

# Load Data (for manually uploaded files in Colab or Jupyter)

train_path = "/content/train.csv"
test_path = "/content/test.csv"

if not os.path.isfile(train_path):
raise FileNotFoundError(f"Train file not found at {train_path}")
if not os.path.isfile(test_path):
raise FileNotFoundError(f"Test file not found at {test_path}")

train_df = pd.read_csv(train_path)
test_df = pd.read_csv(test_path)

# Display dataset description

print(train_df.describe(include='all'))

gender age hypertension heart_disease ever_married \

count 2555 2555.000000 2555.000000 2555.000000 2555
unique 5 NaN NaN NaN 2
top Female NaN NaN NaN Yes
freq 1309 NaN NaN NaN 1699
mean NaN 46.373777 0.099804 0.053620 NaN
std NaN 149.971251 0.299798 0.225311 NaN
min NaN 0.000100 0.000000 0.000000 NaN
25% NaN 26.000000 0.000000 0.000000 NaN
50% NaN 44.000000 0.000000 0.000000 NaN
75% NaN 60.000000 0.000000 0.000000 NaN
max NaN 7500.000000 1.000000 1.000000 NaN

work_type Residence_type avg_glucose_level bmi \

count 2555 2555 2555.000000 2454.000000
https://colab.research.google.com/drive/1c7A42T1cSYjgGBxwg3EqrD-DLX2Q_M80#scrollTo=V_4Zg9S-Yrjt&printMode=true 1/5
2/23/25, 2:09 PM baseline.ipynb - Colab
unique 5 2 NaN NaN
top Private Urban NaN NaN
freq 1461 1288 NaN NaN
mean NaN NaN 105.534755 28.898248
std NaN NaN 44.689250 7.958036
min NaN NaN 55.220000 10.300000
25% NaN NaN 77.000000 23.500000
50% NaN NaN 91.450000 28.000000
75% NaN NaN 113.160000 33.200000
max NaN NaN 271.740000 92.000000

smoking_status stroke
count 2555 2554
unique 4 4
top never smoked 0
freq 945 2429
mean NaN NaN
std NaN NaN
min NaN NaN
25% NaN NaN
50% NaN NaN
75% NaN NaN
max NaN NaN

# Frequency distributions
print("Frequency of Males vs Females:")
print(train_df['gender'].value_counts())

print("\nFrequency of Males vs Females with Stroke:")

print(pd.crosstab(train_df['gender'], train_df['stroke']))

print("\nFrequency of People with Hypertension vs Without Hypertension:")

print(train_df['hypertension'].value_counts())

print("\nStroke distribution among those with and without Hypertension:")

print(pd.crosstab(train_df['hypertension'], train_df['stroke']))

print("\nStroke distribution among those with and without Heart Disease:")

print(pd.crosstab(train_df['heart_disease'], train_df['stroke']))

Frequency of Males vs Females:

gender
Female 1309
Male 945
female 183
male 117
Other 1
Name: count, dtype: int64

Frequency of Males vs Females with Stroke:

stroke 0 1 Yes yes
gender
Female 1247 58 3 0
Male 895 47 2 1
Other 1 0 0 0
female 172 11 0 0
male 114 3 0 0

Frequency of People with Hypertension vs Without Hypertension:

hypertension
0 2300
1 255
Name: count, dtype: int64

Stroke distribution among those with and without Hypertension:

stroke 0 1 Yes yes
hypertension
0 2208 86 4 1

https://colab.research.google.com/drive/1c7A42T1cSYjgGBxwg3EqrD-DLX2Q_M80#scrollTo=V_4Zg9S-Yrjt&printMode=true 2/5
2/23/25, 2:09 PM baseline.ipynb - Colab
1 221 33 1 0

Stroke distribution among those with and without Heart Disease:

stroke 0 1 Yes yes
heart_disease
0 2315 96 5 1
1 114 23 0 0

# Check distribution of numerical features

numerical_features = ["age", "avg_glucose_level", "bmi"]
for feature in numerical_features:
plt.figure(figsize=(6, 4))
sns.histplot(train_df[feature], kde=True, bins=30)
plt.title(f"Distribution of {feature}")
plt.show()

https://colab.research.google.com/drive/1c7A42T1cSYjgGBxwg3EqrD-DLX2Q_M80#scrollTo=V_4Zg9S-Yrjt&printMode=true 3/5
2/23/25, 2:09 PM baseline.ipynb - Colab

https://colab.research.google.com/drive/1c7A42T1cSYjgGBxwg3EqrD-DLX2Q_M80#scrollTo=V_4Zg9S-Yrjt&printMode=true 4/5
2/23/25, 2:09 PM baseline.ipynb - Colab
# Baseline Model Without Preprocessing
X_baseline = train_df.drop(columns=["stroke"], errors='ignore')
y_baseline = train_df["stroke"].replace({"Yes": 1, "yes": 1, "0": 0, "1": 1})

<ipython-input-8-1aa6d9e1dc84>:3: FutureWarning: Downcasting behavior in `replace` is deprecated and will be remov

y_baseline = train_df["stroke"].replace({"Yes": 1, "yes": 1, "0": 0, "1": 1})

# Handle missing values in stroke column

y_baseline = y_baseline.fillna(0).astype(int)

# Handle missing values in features

X_baseline = X_baseline.fillna(X_baseline.median())

# Handle categorical variables by simple label encoding (no one-hot encoding for baseline)
X_baseline = X_baseline.apply(lambda col: col.astype('category').cat.codes if col.dtypes == 'O' else col)

# Train-Test Split
X_train_base, X_val_base, y_train_base, y_val_base = train_test_split(X_baseline, y_baseline, test_size=0.2, random_stat

# Train Logistic Regression Model

model_base = LogisticRegression(class_weight='balanced', max_iter=1000)
model_base.fit(X_train_base, y_train_base)

# Predictions
y_probs_base = model_base.predict_proba(X_val_base)[:, 1]
y_pred_base = model_base.predict(X_val_base)

# Evaluation Metrics
auc_score = roc_auc_score(y_val_base, y_probs_base)
f_beta_base = fbeta_score(y_val_base, y_pred_base, beta=10)
class_report = classification_report(y_val_base, y_pred_base)
conf_matrix = confusion_matrix(y_val_base, y_pred_base)

# Gender-based predictions
gender_counts = pd.crosstab(train_df["gender"], train_df["stroke"])

def print_baseline_results():
print(f"Baseline AUC: {auc_score:.4f}")
print(f"Baseline F-beta (β=10): {f_beta_base:.4f}")
print("Classification Report:\n", class_report)
print("Confusion Matrix:\n", conf_matrix)
print("Stroke distribution by gender:\n", gender_counts)

print_baseline_results()

Baseline AUC: 0.7565

Baseline F-beta (β=10): 0.5719
Classification Report:
precision recall f1-score support

0 0.97 0.72 0.83 486

1 0.10 0.60 0.17 25

https://colab.research.google.com/drive/1c7A42T1cSYjgGBxwg3EqrD-DLX2Q_M80#scrollTo=V_4Zg9S-Yrjt&printMode=true 5/5

Model2.ipynb - Colab
No ratings yet
Model2.ipynb - Colab
11 pages
Preprocessing1.ipynb - Colab
No ratings yet
Preprocessing1.ipynb - Colab
13 pages
Heart Failure Prediction
100% (1)
Heart Failure Prediction
41 pages
Diabetis Project
No ratings yet
Diabetis Project
7 pages
Stroke Prediction Dataset
No ratings yet
Stroke Prediction Dataset
48 pages
LAB8_LogisticReg_HeartDisease[1]
No ratings yet
LAB8_LogisticReg_HeartDisease[1]
31 pages
IMO-2023-notes
No ratings yet
IMO-2023-notes
16 pages
Vedant,Aiml
No ratings yet
Vedant,Aiml
63 pages
Aids
No ratings yet
Aids
88 pages
Python Solution
No ratings yet
Python Solution
30 pages
Heart Disease Prediction! ❤️?
No ratings yet
Heart Disease Prediction! ❤️?
52 pages
Anemia Code
No ratings yet
Anemia Code
33 pages
ML Practical 04
No ratings yet
ML Practical 04
20 pages
ML Proj Diabetes.pptx
No ratings yet
ML Proj Diabetes.pptx
51 pages
Data Science Code
No ratings yet
Data Science Code
29 pages
Stroke Prediction
No ratings yet
Stroke Prediction
10 pages
Logistic Regression 205
No ratings yet
Logistic Regression 205
8 pages
Diabetes_Prediction_1704256341
No ratings yet
Diabetes_Prediction_1704256341
17 pages
Lab Manual - MachineLearningLaboratory-DR.vaishnavi (1)
No ratings yet
Lab Manual - MachineLearningLaboratory-DR.vaishnavi (1)
71 pages
LP Practical ! Jupyter Notebook
No ratings yet
LP Practical ! Jupyter Notebook
6 pages
eda-ml-decision-tree.ipynb - Colab
No ratings yet
eda-ml-decision-tree.ipynb - Colab
20 pages
AML Sessional 1 Students
No ratings yet
AML Sessional 1 Students
16 pages
Logistic Regression
No ratings yet
Logistic Regression
12 pages
Copy of TP3.ipynb - Colab
No ratings yet
Copy of TP3.ipynb - Colab
17 pages
vertopal.com_python2025
No ratings yet
vertopal.com_python2025
25 pages
Assignment 1
No ratings yet
Assignment 1
10 pages
1728086737277
No ratings yet
1728086737277
26 pages
Binary Prediction of Smoker Status using Bio-Signals
No ratings yet
Binary Prediction of Smoker Status using Bio-Signals
20 pages
KNN For Classification
No ratings yet
KNN For Classification
5 pages
KNN - Jupyter Notebook (1)
No ratings yet
KNN - Jupyter Notebook (1)
7 pages
DSBDA2
No ratings yet
DSBDA2
6 pages
m3125 Practical 3
No ratings yet
m3125 Practical 3
13 pages
Data Pre-Processing
No ratings yet
Data Pre-Processing
22 pages
DSBDA 5
No ratings yet
DSBDA 5
12 pages
Major project - Colab
No ratings yet
Major project - Colab
15 pages
ExNo 08ml
No ratings yet
ExNo 08ml
4 pages
Heart_Disease_1.Ipynb - Colaboratory (1)[1]
No ratings yet
Heart_Disease_1.Ipynb - Colaboratory (1)[1]
9 pages
Import: Sys - Executable - M Pip Install
No ratings yet
Import: Sys - Executable - M Pip Install
23 pages
HEART DISEASE CLASSIFICATION USING ANN HANDS-ON
No ratings yet
HEART DISEASE CLASSIFICATION USING ANN HANDS-ON
7 pages
Dovdush_KN-305_lab3
No ratings yet
Dovdush_KN-305_lab3
2 pages
data science programs
No ratings yet
data science programs
11 pages
Student Notebook HR Analysis
No ratings yet
Student Notebook HR Analysis
11 pages
Untitled2.Ipynb - Colab
No ratings yet
Untitled2.Ipynb - Colab
8 pages
# Load Packages: Pandas Pandas PD PD Numpy Numpy NP NP
No ratings yet
# Load Packages: Pandas Pandas PD PD Numpy Numpy NP NP
17 pages
Cardio Screen RF
100% (1)
Cardio Screen RF
27 pages
Heart Disease Indicator Prediction Model
No ratings yet
Heart Disease Indicator Prediction Model
17 pages
Dovdush_KN-305_lab2
No ratings yet
Dovdush_KN-305_lab2
2 pages
B58_ Handling Missing Values,Feature_Selection (1)
No ratings yet
B58_ Handling Missing Values,Feature_Selection (1)
4 pages
Diabetes - Prediction - Project - Ipynb - Colab
No ratings yet
Diabetes - Prediction - Project - Ipynb - Colab
11 pages
healthcare-project-simplilearn- Week1
No ratings yet
healthcare-project-simplilearn- Week1
6 pages
Linear and Multilinear Regression
No ratings yet
Linear and Multilinear Regression
5 pages
5
No ratings yet
5
5 pages
ADS Exp-1
No ratings yet
ADS Exp-1
3 pages
earth pressure theory
No ratings yet
earth pressure theory
38 pages
Batch-2 Ieee DMT
No ratings yet
Batch-2 Ieee DMT
4 pages
Lect_06_Feature_Engineering_and_Selection
No ratings yet
Lect_06_Feature_Engineering_and_Selection
41 pages
Project 3 - Diabetes Prediction.ipynb - Colab
No ratings yet
Project 3 - Diabetes Prediction.ipynb - Colab
4 pages
Lect_05_Preprocessing_text
No ratings yet
Lect_05_Preprocessing_text
25 pages
M1120 Calculus (IV) Lecture
No ratings yet
M1120 Calculus (IV) Lecture
11 pages
Bio-Signal Analysis For Smoking
No ratings yet
Bio-Signal Analysis For Smoking
1 page
Artificial Neural Network (Ann)
No ratings yet
Artificial Neural Network (Ann)
1 page
Practical 1
No ratings yet
Practical 1
7 pages
Orientation of Runway: The Runway Is Usually Oriented in The Direction of The Prevailing Winds
No ratings yet
Orientation of Runway: The Runway Is Usually Oriented in The Direction of The Prevailing Winds
20 pages
Step-By-Step-Diabetes-Classification-Knn-Detailed-Copy1 - Jupyter Notebook
No ratings yet
Step-By-Step-Diabetes-Classification-Knn-Detailed-Copy1 - Jupyter Notebook
12 pages
Nov Dec 2011
No ratings yet
Nov Dec 2011
2 pages
Functions - CAPS
No ratings yet
Functions - CAPS
70 pages
Models - Heat.light Bulb
No ratings yet
Models - Heat.light Bulb
18 pages
HANDOUT
No ratings yet
HANDOUT
13 pages
Chapter 6
No ratings yet
Chapter 6
28 pages
Brain Tumour Analysis Using Image Processsing
No ratings yet
Brain Tumour Analysis Using Image Processsing
48 pages
Consequences and Detection of Misspecified Nonlinear Regression Models
No ratings yet
Consequences and Detection of Misspecified Nonlinear Regression Models
16 pages
MSBA315_Syllabus_2025
No ratings yet
MSBA315_Syllabus_2025
6 pages
Introduction To Object-Oriented Programming COMP2011: Some New Features in C++11
No ratings yet
Introduction To Object-Oriented Programming COMP2011: Some New Features in C++11
16 pages
CV1 and CV2 Calculations PDF
No ratings yet
CV1 and CV2 Calculations PDF
59 pages
QUIZ Week 2 CART Practice PDF
No ratings yet
QUIZ Week 2 CART Practice PDF
10 pages
01 Analisa Hidrologi Cemara (Tugas Periode Ulang)
No ratings yet
01 Analisa Hidrologi Cemara (Tugas Periode Ulang)
34 pages
Vedic Maths - Tricks
100% (2)
Vedic Maths - Tricks
41 pages
Python For Business Decision Making Asm2
No ratings yet
Python For Business Decision Making Asm2
21 pages
MMW-Chapter 3-1 Reasoning (New)
No ratings yet
MMW-Chapter 3-1 Reasoning (New)
35 pages
RE1 - LNA - Design - Part - 2 2021
No ratings yet
RE1 - LNA - Design - Part - 2 2021
13 pages
ML_Science
No ratings yet
ML_Science
6 pages
PW M 20 Rectifiers 20 Survey
No ratings yet
PW M 20 Rectifiers 20 Survey
19 pages
Enggmath 2 Module 8
No ratings yet
Enggmath 2 Module 8
6 pages
Land Use Land Cover and Land Surface Temperature Analysis in Wayanad District India Using Satellite Imagery PDF
No ratings yet
Land Use Land Cover and Land Surface Temperature Analysis in Wayanad District India Using Satellite Imagery PDF
19 pages
Quest - Potential Energy and Energy Conservation
No ratings yet
Quest - Potential Energy and Energy Conservation
9 pages
Singa math P1
No ratings yet
Singa math P1
1 page
MBA - V20PBBA02 - EA2252001010148 - G V N Selvavindhan Vaither
No ratings yet
MBA - V20PBBA02 - EA2252001010148 - G V N Selvavindhan Vaither
4 pages
Group B - EXP1 - Material Balance On Non-Reactive Processes
No ratings yet
Group B - EXP1 - Material Balance On Non-Reactive Processes
3 pages
Kcs074 Cryptography and Network Security
No ratings yet
Kcs074 Cryptography and Network Security
2 pages
IIT Jam 2016 Physics Solutions
100% (2)
IIT Jam 2016 Physics Solutions
24 pages
A Tutorial On CGAL Polyhedron For Subdivision Algorithms
No ratings yet
A Tutorial On CGAL Polyhedron For Subdivision Algorithms
25 pages
Zec Timetable2023
No ratings yet
Zec Timetable2023
2 pages
MSBA315-Project-Description
No ratings yet
MSBA315-Project-Description
1 page
Srikage &creep
No ratings yet
Srikage &creep
10 pages
Learn Digital and Microprocessor Techniques On Your Smartphone: Portable Learning, Reference and Revision Tools.
From Everand
Learn Digital and Microprocessor Techniques On Your Smartphone: Portable Learning, Reference and Revision Tools.
Clive W. Humphris
No ratings yet

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.

baseline.ipynb - Colab

Uploaded by

baseline.ipynb - Colab

Uploaded by

2/23/25, 2:09 PM baseline.

Importing and Loading the training and test datasets

from google.colab import files

Choose Files 2 files

# Load Data (for manually uploaded files in Colab or Jupyter)

# Display dataset description

gender age hypertension heart_disease ever_married \

work_type Residence_type avg_glucose_level bmi \

print("\nFrequency of Males vs Females with Stroke:")

print("\nFrequency of People with Hypertension vs Without Hypertension:")

print("\nStroke distribution among those with and without Hypertension:")

print("\nStroke distribution among those with and without Heart Disease:")

Frequency of Males vs Females:

Frequency of Males vs Females with Stroke:

Frequency of People with Hypertension vs Without Hypertension:

Stroke distribution among those with and without Hypertension:

Stroke distribution among those with and without Heart Disease:

# Check distribution of numerical features

<ipython-input-8-1aa6d9e1dc84>:3: FutureWarning: Downcasting behavior in `replace` is deprecated and will be remov

# Handle missing values in stroke column

# Handle missing values in features

# Train Logistic Regression Model

Baseline AUC: 0.7565

0 0.97 0.72 0.83 486

You might also like

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.