0% found this document useful (0 votes)

3 views10 pages

Step 1

The document outlines a comprehensive Python code for analyzing an insurance claims dataset, covering data preprocessing, exploratory data analysis, hypothesis testing, feature engineering, and model building using linear regression. Key steps include handling missing values and outliers, encoding categorical variables, performing statistical tests, and evaluating model performance. The final submission includes saving the code and creating a presentation summarizing insights, test results, and model performance metrics.

Uploaded by

ilias ahmed

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

3 views10 pages

Step 1

Uploaded by

ilias ahmed

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

You are on page 1/ 10

# Step 1: Import Libraries

import pandas as pd

import numpy as np

import matplotlib.pyplot as plt

import seaborn as sns

from scipy.stats import ttest_ind, chi2_contingency, f_oneway

from sklearn.model_selection import train_test_split

from sklearn.linear_model import LinearRegression

from sklearn.metrics import mean_squared_error, r2_score

# Step 2: Load the Dataset

data = pd.read_csv(r"C:\Users\User\Desktop\assignment4\insurance - insurance (2).csv")

# Display the first few rows

print("First few rows of the dataset:")

print(data.head())

# Step 3: Data Preprocessing and Cleaning

# a. Handle Missing Values

print("\nMissing values in the dataset:")

print(data.isnull().sum())

data = data.dropna() # Drop rows with missing values

# b. Handle Outliers
sns.boxplot(data['bmi'])

plt.title("BMI Outliers")

plt.show()

# Remove outliers (e.g., BMI outside plausible range)

data = data[(data['bmi'] >= 18.5) & (data['bmi'] <= 50)]

# c. Encode Categorical Variables

data['sex'] = data['sex'].map({'male': 0, 'female': 1})

data['smoker'] = data['smoker'].map({'no': 0, 'yes': 1})

data = pd.get_dummies(data, columns=['region'], drop_first=True)

# d. Normalize Numerical Features

data['age'] = (data['age'] - data['age'].mean()) / data['age'].std()

data['bmi'] = (data['bmi'] - data['bmi'].mean()) / data['bmi'].std()

# Step 4: Exploratory Data Analysis (EDA)

# a. Statistical Analysis

print("\nStatistical summary of the dataset:")

print(data.describe())

# b. Visualizations

# Scatter plot: Age vs Charges

plt.scatter(data['age'], data['charges'])

plt.title("Age vs Charges")

plt.xlabel("Age")

plt.ylabel("Charges")

plt.show()
# Box plot: Charges by Smoker Status

sns.boxplot(x=data['smoker'], y=data['charges'])

plt.title("Charges by Smoker Status")

plt.show()

# Distribution of BMI by Sex

sns.histplot(data, x='bmi', hue='sex', kde=True)

plt.title("BMI Distribution by Sex")

plt.show()

# Step 5: Frequentist Hypothesis Testing

# a. Proportion of Male Beneficiaries

male_count = sum(data['sex'] == 0)

total_count = len(data)

prop_male = male_count / total_count

print(f"\nProportion of Male Beneficiaries: {prop_male}")

# b. Medical Claims by Smokers vs Non-Smokers

smoker_charges = data[data['smoker'] == 1]['charges']

non_smoker_charges = data[data['smoker'] == 0]['charges']

t_stat, p_value = ttest_ind(smoker_charges, non_smoker_charges)

print(f"\nT-Test (Smokers vs Non-Smokers): t-stat={t_stat}, p-value={p_value}")

# c. BMI of Females vs Males

female_bmi = data[data['sex'] == 1]['bmi']

male_bmi = data[data['sex'] == 0]['bmi']

t_stat, p_value = ttest_ind(female_bmi, male_bmi)

print(f"\nT-Test (BMI of Females vs Males): t-stat={t_stat}, p-value={p_value}")

# d. Proportion of Smokers Across Regions

region_smoker = pd.crosstab(data['region_northwest'], data['smoker'])

chi2, p, dof, expected = chi2_contingency(region_smoker)

print(f"\nChi-Square Test (Smokers Across Regions): chi2={chi2}, p-value={p}")

# Step 6: Feature Engineering

# a. Create Age Groups

data['age_group'] = pd.cut(data['age'], bins=[-np.inf, 30, 50, np.inf], labels=['young', 'middle', 'senior'])

# b. Create Interaction Feature

data['smoker_BMI'] = data['smoker'] * data['bmi']

# Step 7: Region Analysis

# a. Mean Charges by Region

region_charges = data.groupby('region_northwest')['charges'].mean()

print("\nMean charges by region:")

print(region_charges)

# b. ANOVA Test

f_stat, p_value = f_oneway(data[data['region_northwest'] == 1]['charges'],

data[data['region_southeast'] == 1]['charges'],

data[data['region_southwest'] == 1]['charges'])

print(f"\nANOVA Test (Mean Charges Across Regions): f-stat={f_stat}, p-value={p_value}")

# Step 8: Model Building

# a. Build Linear Regression Model

X = data[['age', 'bmi', 'children', 'smoker', 'region_northwest', 'region_southeast', 'region_southwest']]

y = data['charges']
# Train-test split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Train the model

model = LinearRegression()

model.fit(X_train, y_train)

# Evaluate the model

y_pred = model.predict(X_test)

print(f"\nLinear Regression Model Performance:")

print(f"R-squared: {r2_score(y_test, y_pred)}")

print(f"MSE: {mean_squared_error(y_test, y_pred)}")

Below is the full Python code for the Insurance Claims Dataset Assignment, along with explanations for
each step. This code addresses all the tasks mentioned in the assignment.

Step 1: Import Libraries

Python

import pandas as pd

import numpy as np

import matplotlib.pyplot as plt

import seaborn as sns

from scipy.stats import ttest_ind, chi2_contingency, f_oneway

from sklearn.model_selection import train_test_split

from sklearn.linear_model import LinearRegression

from sklearn.metrics import mean_squared_error, r2_score

1. Purpose: Import necessary libraries for data manipulation, visualization, statistical analysis, and
machine learning.

Step 2: Load the Dataset

Python

# Load the dataset

data = pd.read_csv(r"C:\Users\User\Desktop\assignment4\insurance - insurance (2).csv")

# Display the first few rows

print(data.head())

1. Purpose: Load the dataset into a pandas DataFrame and display the first few rows to understand
its structure.

Step 3: Data Preprocessing and Cleaning

a. Handle Missing Values

Python

# Check for missing values

print(data.isnull().sum())

# Drop rows with missing values (if any)

data = data.dropna()

b. Handle Outliers

Python

# Identify outliers in BMI

sns.boxplot(data['bmi'])

plt.title("BMI Outliers")

plt.show()

# Remove outliers (e.g., BMI outside plausible range)

data = data[(data['bmi'] >= 18.5) & (data['bmi'] <= 50)]

c. Encode Categorical Variables

Python

# Encode categorical variables

data['sex'] = data['sex'].map({'male': 0, 'female': 1})

data['smoker'] = data['smoker'].map({'no': 0, 'yes': 1})

data = pd.get_dummies(data, columns=['region'], drop_first=True)

d. Normalize Numerical Features

Python

# Normalize age and BMI

data['age'] = (data['age'] - data['age'].mean()) / data['age'].std()

data['bmi'] = (data['bmi'] - data['bmi'].mean()) / data['bmi'].std()

Step 4: Exploratory Data Analysis (EDA)

a. Statistical Analysis

Python

print(data.describe())

b. Visualizations

Python

# Scatter plot: Age vs Charges

plt.scatter(data['age'], data['charges'])

plt.title("Age vs Charges")

plt.xlabel("Age")

plt.ylabel("Charges")

plt.show()

# Box plot: Charges by Smoker Status

sns.boxplot(x=data['smoker'], y=data['charges'])

plt.title("Charges by Smoker Status")

plt.show()

# Distribution of BMI by Sex

sns.histplot(data, x='bmi', hue='sex', kde=True)

plt.title("BMI Distribution by Sex")

plt.show()

Step 5: Frequentist Hypothesis Testing

a. Proportion of Male Beneficiaries

Python

male_count = sum(data['sex'] == 0)

total_count = len(data)

prop_male = male_count / total_count

print(f"Proportion of Male Beneficiaries: {prop_male}")

b. Medical Claims by Smokers vs Non-Smokers

Python

smoker_charges = data[data['smoker'] == 1]['charges']

non_smoker_charges = data[data['smoker'] == 0]['charges']

t_stat, p_value = ttest_ind(smoker_charges, non_smoker_charges)

print(f"T-Test: t-stat={t_stat}, p-value={p_value}")

c. BMI of Females vs Males

Python

female_bmi = data[data['sex'] == 1]['bmi']

male_bmi = data[data['sex'] == 0]['bmi']

t_stat, p_value = ttest_ind(female_bmi, male_bmi)

print(f"T-Test: t-stat={t_stat}, p-value={p_value}")

d. Proportion of Smokers Across Regions

Python

region_smoker = pd.crosstab(data['region_northwest'], data['smoker'])

chi2, p, dof, expected = chi2_contingency(region_smoker)

print(f"Chi-Square Test: chi2={chi2}, p-value={p}")

Step 6: Feature Engineering

a. Create Age Groups

Python

data['age_group'] = pd.cut(data['age'], bins=[-np.inf, 30, 50, np.inf], labels=['young', 'middle', 'senior'])

b. Create Interaction Feature

Python

data['smoker_BMI'] = data['smoker'] * data['bmi']

Step 7: Region Analysis

a. Mean Charges by Region

Python

region_charges = data.groupby('region_northwest')['charges'].mean()

print(region_charges)

b. ANOVA Test

Python

f_stat, p_value = f_oneway(data[data['region_northwest'] == 1]['charges'],

data[data['region_southeast'] == 1]['charges'],

data[data['region_southwest'] == 1]['charges'])

print(f"ANOVA: f-stat={f_stat}, p-value={p_value}")

Step 8: Model Building

a. Build Linear Regression Model

Python

X = data[['age', 'bmi', 'children', 'smoker', 'region_northwest', 'region_southeast', 'region_southwest']]

y = data['charges']

# Train-test split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Train the model

model = LinearRegression()

model.fit(X_train, y_train)

# Evaluate the model

y_pred = model.predict(X_test)

print(f"R-squared: {r2_score(y_test, y_pred)}")

print(f"MSE: {mean_squared_error(y_test, y_pred)}")

Step 9: Submission

1. Save the code in .ipynb or .py format.

2. Create a one-page presentation summarizing:

1. EDA insights (e.g., plots).

2. Hypothesis test results (e.g., p-values).

3. Model performance (e.g., R-squared, MSE).

Healthcare Insurance Prediction Main
No ratings yet
Healthcare Insurance Prediction Main
74 pages
Great Writing - 1 - Catherinescrossculturalcafe - Page 1 - 210 - Flip PDF Online - PubHTML5
No ratings yet
Great Writing - 1 - Catherinescrossculturalcafe - Page 1 - 210 - Flip PDF Online - PubHTML5
210 pages
Project Report On Data Science of Heart Disease Prediction
No ratings yet
Project Report On Data Science of Heart Disease Prediction
54 pages
FM - Time Value of Money Main Slides (Part 2)
No ratings yet
FM - Time Value of Money Main Slides (Part 2)
62 pages
ML
No ratings yet
ML
131 pages
RISK AND RETURN-Part 7
No ratings yet
RISK AND RETURN-Part 7
34 pages
STOCK VALUATION-Part 8
No ratings yet
STOCK VALUATION-Part 8
29 pages
DS Food
No ratings yet
DS Food
18 pages
CAPITAL BUDGETING (FM-Part 5)
No ratings yet
CAPITAL BUDGETING (FM-Part 5)
38 pages
Jupyter Notebook On Obesity Prediction
No ratings yet
Jupyter Notebook On Obesity Prediction
15 pages
CAPESTONE
No ratings yet
CAPESTONE
16 pages
Diesel Engine - It's Parts - Exhaust System - Electrical System - Installation
No ratings yet
Diesel Engine - It's Parts - Exhaust System - Electrical System - Installation
47 pages
Linear Regression Modelfor Predicting Medical Expenses
No ratings yet
Linear Regression Modelfor Predicting Medical Expenses
5 pages
Medical Cost Analysis
No ratings yet
Medical Cost Analysis
17 pages
Lab Manual - MachineLearningLaboratory-DR - Vaishnavi
No ratings yet
Lab Manual - MachineLearningLaboratory-DR - Vaishnavi
71 pages
User Manual Foi Voice Recording (Funcrowd)
No ratings yet
User Manual Foi Voice Recording (Funcrowd)
14 pages
Data Science Fundamentals
No ratings yet
Data Science Fundamentals
22 pages
Cardio Screen RF
100% (1)
Cardio Screen RF
27 pages
SML Lab 1
No ratings yet
SML Lab 1
19 pages
Machine Learning
No ratings yet
Machine Learning
9 pages
ML Manual Final
No ratings yet
ML Manual Final
35 pages
Medical Insurance Analysis ??
No ratings yet
Medical Insurance Analysis ??
17 pages
Future and Present Value of Ordinary Annuity Formula
No ratings yet
Future and Present Value of Ordinary Annuity Formula
1 page
4-R Code and PPT - Predicting Medical Expenses Using Linear Regression - New Without Prerequsit
No ratings yet
4-R Code and PPT - Predicting Medical Expenses Using Linear Regression - New Without Prerequsit
17 pages
Lisp
No ratings yet
Lisp
11 pages
Task 2
No ratings yet
Task 2
4 pages
Estimation of Obesity Levels Based On Computational Intelligence
No ratings yet
Estimation of Obesity Levels Based On Computational Intelligence
5 pages
Heart Disease Diagnosis Using Machine Learning
No ratings yet
Heart Disease Diagnosis Using Machine Learning
26 pages
Omni Legend Scanner
No ratings yet
Omni Legend Scanner
13 pages
Turing Data Analysis
No ratings yet
Turing Data Analysis
30 pages
HW 1
No ratings yet
HW 1
6 pages
Stroke Prediction
No ratings yet
Stroke Prediction
10 pages
AI Searching
No ratings yet
AI Searching
8 pages
Intership
No ratings yet
Intership
6 pages
Data Pre-Processing
No ratings yet
Data Pre-Processing
22 pages
Libre Office Writer MCQ
No ratings yet
Libre Office Writer MCQ
13 pages
Testing An OnBase Solution PDF
100% (1)
Testing An OnBase Solution PDF
27 pages
Explanationdocx
No ratings yet
Explanationdocx
9 pages
Hariks
No ratings yet
Hariks
5 pages
Ass 1 Dsbda
No ratings yet
Ass 1 Dsbda
8 pages
AI Chapter 3
No ratings yet
AI Chapter 3
22 pages
Rapport
No ratings yet
Rapport
21 pages
22-Nmap Scan Types
No ratings yet
22-Nmap Scan Types
4 pages
17-Installing Nmap-Zenmap Ubuntu
No ratings yet
17-Installing Nmap-Zenmap Ubuntu
4 pages
Internships
No ratings yet
Internships
3 pages
LAb Test 2
No ratings yet
LAb Test 2
4 pages
Part 6-WACC FORMULA AND SAMPLE QUESTION-Part 6
No ratings yet
Part 6-WACC FORMULA AND SAMPLE QUESTION-Part 6
1 page
53-NMAP Idle Scan
No ratings yet
53-NMAP Idle Scan
3 pages
SQLi WAF Class
No ratings yet
SQLi WAF Class
3 pages
Testbank and Solutions For Microelectronic Circuits 7th Edition
No ratings yet
Testbank and Solutions For Microelectronic Circuits 7th Edition
18 pages
State - Trends Code Book
No ratings yet
State - Trends Code Book
2 pages
Warshall's Algorithm
No ratings yet
Warshall's Algorithm
6 pages
Gate Pass
No ratings yet
Gate Pass
2 pages
Medical Cost Prediction
No ratings yet
Medical Cost Prediction
27 pages
48-TCP Maimon Scanning Lab
No ratings yet
48-TCP Maimon Scanning Lab
2 pages
46-TCP Xmas Scanning Lab
No ratings yet
46-TCP Xmas Scanning Lab
2 pages
42-TCP FIN Scanning Lab
No ratings yet
42-TCP FIN Scanning Lab
2 pages
44-TCP Null Scanning Lab
No ratings yet
44-TCP Null Scanning Lab
2 pages
Attiq Ahmad Afsar Mid Exam
No ratings yet
Attiq Ahmad Afsar Mid Exam
8 pages
DSBDA2
No ratings yet
DSBDA2
6 pages
Test Questions and Analysis
No ratings yet
Test Questions and Analysis
10 pages
4164 ML-Assignment
No ratings yet
4164 ML-Assignment
4 pages
Data Analysis
No ratings yet
Data Analysis
3 pages
Avanti Kumari - A Report
No ratings yet
Avanti Kumari - A Report
39 pages
About Dork
No ratings yet
About Dork
1 page
Volunteer Resume Example
100% (2)
Volunteer Resume Example
7 pages
23UCC554
No ratings yet
23UCC554
9 pages
50-TCP Window Scanning Lab
No ratings yet
50-TCP Window Scanning Lab
1 page
45-Xmas Scan
No ratings yet
45-Xmas Scan
1 page
37-TCP SYN or Half-Open Scan
No ratings yet
37-TCP SYN or Half-Open Scan
1 page
27-TCP ACK Ping Lab
No ratings yet
27-TCP ACK Ping Lab
1 page
21-Default Nmap Scan
No ratings yet
21-Default Nmap Scan
1 page
BMI Data Analysis.
No ratings yet
BMI Data Analysis.
5 pages
Stroke Prediction Dataset
No ratings yet
Stroke Prediction Dataset
48 pages
Report - SVM
No ratings yet
Report - SVM
13 pages
BIA B350F Assignment 1 Regression Analysis Sample
No ratings yet
BIA B350F Assignment 1 Regression Analysis Sample
19 pages
Assignment On ANOVA
No ratings yet
Assignment On ANOVA
7 pages
Gaurav - Data Mining Lab Assignment
No ratings yet
Gaurav - Data Mining Lab Assignment
36 pages
Assignment: Name: Md. Nasim Uddin ID: 15162103276 Intake: 32 Section: 07
No ratings yet
Assignment: Name: Md. Nasim Uddin ID: 15162103276 Intake: 32 Section: 07
8 pages
SMP07082023CW36932019 130738
No ratings yet
SMP07082023CW36932019 130738
20 pages
Coloring Fruits
No ratings yet
Coloring Fruits
15 pages
Week1 Code Corrected
No ratings yet
Week1 Code Corrected
2 pages
Healthcare-Project-Simplilearn - Week3
No ratings yet
Healthcare-Project-Simplilearn - Week3
7 pages
Hypothesis Testing
No ratings yet
Hypothesis Testing
17 pages
Linear Regression: Data Exploration
No ratings yet
Linear Regression: Data Exploration
12 pages
Sending and Receiving Email With Attached Interactive Forms in ABAP - Webinar Powerpoint
No ratings yet
Sending and Receiving Email With Attached Interactive Forms in ABAP - Webinar Powerpoint
47 pages
G9 Dietexpert Report
No ratings yet
G9 Dietexpert Report
56 pages
Stock Ledger
0% (1)
Stock Ledger
25 pages
Group Work Assignment Supervised and Unsupervised Learning
No ratings yet
Group Work Assignment Supervised and Unsupervised Learning
10 pages
RL - EX1.Ipynb - Colab
No ratings yet
RL - EX1.Ipynb - Colab
3 pages
Hunting Vulnerabilities: Asynchronous
No ratings yet
Hunting Vulnerabilities: Asynchronous
31 pages
Cardiovascular Disease Prediction
No ratings yet
Cardiovascular Disease Prediction
2 pages
ML Data Preprocessing in Python
No ratings yet
ML Data Preprocessing in Python
9 pages
Mock - Coding: Numpy NP CSV Sklearn - Linear - Model Pandas PD Matplotlib - Pyplot PLT Sklearn - Metrics
No ratings yet
Mock - Coding: Numpy NP CSV Sklearn - Linear - Model Pandas PD Matplotlib - Pyplot PLT Sklearn - Metrics
2 pages
Vuex en
No ratings yet
Vuex en
42 pages
PPS Mini Project
No ratings yet
PPS Mini Project
5 pages
Linear and Multilinear Regression
No ratings yet
Linear and Multilinear Regression
5 pages
Medical
No ratings yet
Medical
4 pages
Diabetic Prediction Using LogicalRegression
No ratings yet
Diabetic Prediction Using LogicalRegression
9 pages
PROJECTS
No ratings yet
PROJECTS
6 pages
ExNo 08ml
No ratings yet
ExNo 08ml
4 pages
Batch-2 Ieee DMT
No ratings yet
Batch-2 Ieee DMT
4 pages
VX2757-mhd/VX2757-mhd-CN/ VX2757-mhd-7 Display: User Guide
No ratings yet
VX2757-mhd/VX2757-mhd-CN/ VX2757-mhd-7 Display: User Guide
27 pages
Python Cod1
No ratings yet
Python Cod1
3 pages
Class 6 10 Aug 2019 DataCleaning PatientData
No ratings yet
Class 6 10 Aug 2019 DataCleaning PatientData
1 page
Database Management System Practical
No ratings yet
Database Management System Practical
3 pages
Aditya College of Engineering: B R E A K B R E A K
No ratings yet
Aditya College of Engineering: B R E A K B R E A K
6 pages
Network Cable Tester SC8108-A PDF
No ratings yet
Network Cable Tester SC8108-A PDF
20 pages
Solutions To Assignment 2: Problem 1: Smallest Error in Differentiation
No ratings yet
Solutions To Assignment 2: Problem 1: Smallest Error in Differentiation
3 pages
Introduction To Openenterprise: Product Overview
No ratings yet
Introduction To Openenterprise: Product Overview
4 pages
Goals & Objectives of An Inventory-Control System: U Ruoih Woeuffgo Uwefoi Hweefoihuh Woeiheufh Oiwweheffoiu
No ratings yet
Goals & Objectives of An Inventory-Control System: U Ruoih Woeuffgo Uwefoi Hweefoihuh Woeiheufh Oiwweheffoiu
5 pages
Kranji MYSEP Jan2011 Web
No ratings yet
Kranji MYSEP Jan2011 Web
9 pages
XP Ndo DLL With GUI Fix
No ratings yet
XP Ndo DLL With GUI Fix
2 pages
Dear Candidate
No ratings yet
Dear Candidate
3 pages
Automatic Drilling Machine Using PLC I Ji Set
No ratings yet
Automatic Drilling Machine Using PLC I Ji Set
7 pages
Maxdna Distributed Control System: Max Station 1 Max Station 2 Max Station 3
No ratings yet
Maxdna Distributed Control System: Max Station 1 Max Station 2 Max Station 3
78 pages
Mivec Fault
No ratings yet
Mivec Fault
1 page
Website Development Agreement
No ratings yet
Website Development Agreement
9 pages
ETA Floor Mounted PKG Unit
No ratings yet
ETA Floor Mounted PKG Unit
16 pages
C Language Programming Codes
From Everand
C Language Programming Codes
Durgesh
No ratings yet

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.