0% found this document useful (0 votes)

11 views3 pages

ADS Exp-1

The document outlines a data analysis process using a diabetes healthcare dataset, including importing libraries, loading data, and performing exploratory data analysis. It details data cleaning steps, basic statistics calculations, and the application of a Poisson distribution and ANOVA test to analyze glucose levels across BMI categories. The results indicate significant differences in glucose levels among different BMI groups.

Uploaded by

pritiyadavce2021

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

11 views3 pages

ADS Exp-1

Uploaded by

pritiyadavce2021

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 3

2/4/25, 9:00 PM ADS.

ipynb - Colab

Rohit Goud

Import Libraries

import pandas as pd
import numpy as np
import seaborn as sns # For visualization
import matplotlib.pyplot as plt # For plotting graphs
from scipy import stats # For statistical analysis
from scipy.stats import poisson, chi2_contingency, f_oneway

Load and Read the Datasets

# Upload the file manually

uploaded = files.upload()

# Get the uploaded file name dynamically

file_name = list(uploaded.keys())[0]

# Read the dataset

df = pd.read_csv("/content/health care diabetes.csv")

Choose Files health care diabetes.csv

health care diabetes.csv(text/csv) - 23873 bytes, last modified: 2/4/2025 - 100% done
Saving health care diabetes csv to health care diabetes (2) csv

Exploratory Data Analysis

print("Dataset Info:")
df.info()

Dataset Info:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 768 entries, 0 to 767
Data columns (total 9 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 Pregnancies 768 non-null int64
1 Glucose 768 non-null int64
2 BloodPressure 768 non-null int64
3 SkinThickness 768 non-null int64
4 Insulin 768 non-null int64
5 BMI 768 non-null float64
6 DiabetesPedigreeFunction 768 non-null float64
7 Age 768 non-null int64
8 Outcome 768 non-null int64
dtypes: float64(2), int64(7)
memory usage: 54.1 KB

print("\nFirst 5 rows:")
print(df.head())

First 5 rows:
Pregnancies Glucose BloodPressure SkinThickness Insulin BMI \
0 6 148 72 35 0 33.6
1 1 85 66 29 0 26.6
2 8 183 64 0 0 23.3
3 1 89 66 23 94 28.1
4 0 137 40 35 168 43.1

DiabetesPedigreeFunction Age Outcome

0 0.627 50 1
1 0.351 31 0
2 0.672 32 1
3 0.167 21 0
4 2.288 33 1

Data Cleaning

# Data Cleaning - Check for duplicate records

duplicates = df.duplicated().sum()
print(f"\nNumber of duplicate records: {duplicates}")

Number of duplicate records: 0

https://colab.research.google.com/drive/1aL4Hcol5NWRAh7AJ9uJv6plSMcoCg8Q6#scrollTo=st01zBF7kzvh&printMode=true 1/3
2/4/25, 9:00 PM ADS.ipynb - Colab

Replace number of zero values with mean of that column (excluding Outcome column)

numeric_cols = df.columns[df.columns != 'Outcome']

for col in numeric_cols:
df[col] = df[col].replace(0, df[col].mean())

Basic Statistics

print("\nDescriptive Statistics:")
print(df.describe())

Descriptive Statistics:
Pregnancies Glucose BloodPressure SkinThickness Insulin \
count 768.000000 768.000000 768.000000 768.000000 768.000000
mean 3.845052 120.894531 69.105469 20.536458 79.799479
std 3.369578 31.972618 19.355807 15.952218 115.244002
min 0.000000 0.000000 0.000000 0.000000 0.000000
25% 1.000000 99.000000 62.000000 0.000000 0.000000
50% 3.000000 117.000000 72.000000 23.000000 30.500000
75% 6.000000 140.250000 80.000000 32.000000 127.250000
max 17.000000 199.000000 122.000000 99.000000 846.000000

BMI DiabetesPedigreeFunction Age Outcome

count 768.000000 768.000000 768.000000 768.000000
mean 31.992578 0.471876 33.240885 0.348958
std 7.884160 0.331329 11.760232 0.476951
min 0.000000 0.078000 21.000000 0.000000
25% 27.300000 0.243750 24.000000 0.000000
50% 32.000000 0.372500 29.000000 0.000000
75% 36.600000 0.626250 41.000000 1.000000
max 67.100000 2.420000 81.000000 1.000000

Poisson Distribution

lambda_val = df['Glucose'].mean() # Using Glucose levels as an example

poisson_dist = poisson(lambda_val)
x_vals = np.arange(0, lambda_val * 2)
poisson_probs = poisson_dist.pmf(x_vals)

plt.figure(figsize=(6, 4))
plt.bar(x_vals, poisson_probs, color='blue', alpha=0.7)
plt.title(f"Poisson Distribution (λ = {lambda_val:.2f})")
plt.xlabel("Number of Events")
plt.ylabel("Probability")
plt.show()

ANOVA Test Code

from scipy import stats

# Ensure 'BMI_Category' exists before running ANOVA

if 'BMI_Category' in df.columns:
# ANOVA Test: Difference in 'Glucose' levels among BMI categories
anova_result = stats.f_oneway(df[df['BMI_Category'] == 'Low']['Glucose'],
df[df['BMI_Category'] == 'Medium']['Glucose'],
df[df['BMI Category'] 'High']['Glucose'])
https://colab.research.google.com/drive/1aL4Hcol5NWRAh7AJ9uJv6plSMcoCg8Q6#scrollTo=st01zBF7kzvh&printMode=true 2/3
2/4/25, 9:00 PM ADS.ipynb - Colab
df[df[ BMI_Category ] == High ][ Glucose ])

# Display results in the desired format

print("\nANOVA Test for Difference in Glucose Levels among BMI Categories:")
print(f"F-Statistic: {anova_result.statistic:.4f}, P-Value: {anova_result.pvalue:.4f}")

# Conclusion based on p-value

if anova_result.pvalue < 0.05:
print("Conclusion: Significant differences exist between BMI groups in Glucose levels.")
else:
print("Conclusion: No significant differences found between BMI groups in Glucose levels.")
else:
print("Error: 'BMI_Category' column not found. Please ensure it is created before running ANOVA.")

ANOVA Test for Difference in Glucose Levels among BMI Categories:

F-Statistic: 16.0193, P-Value: 0.0000
Conclusion: Significant differences exist between BMI groups in Glucose levels.

https://colab.research.google.com/drive/1aL4Hcol5NWRAh7AJ9uJv6plSMcoCg8Q6#scrollTo=st01zBF7kzvh&printMode=true 3/3

Özet Kitapçığı Syf 368-369
No ratings yet
Özet Kitapçığı Syf 368-369
676 pages
Pima Indian Diabetes Data Analysis in Python - Canopus Business Management Group
No ratings yet
Pima Indian Diabetes Data Analysis in Python - Canopus Business Management Group
21 pages
Diabetes
No ratings yet
Diabetes
97 pages
linear_merged_pagenumber
No ratings yet
linear_merged_pagenumber
48 pages
LOPC Definition and Threshold Values
No ratings yet
LOPC Definition and Threshold Values
26 pages
مختار النعيري - The Course Work Submission (1)
No ratings yet
مختار النعيري - The Course Work Submission (1)
31 pages
ML Proj Diabetes.pptx
No ratings yet
ML Proj Diabetes.pptx
51 pages
vertopal.com_python2025
No ratings yet
vertopal.com_python2025
25 pages
Psychological Foundations of Guidance
No ratings yet
Psychological Foundations of Guidance
42 pages
Artificial Intelligence (AI) in Biotechnology Sheeza - PPTM
No ratings yet
Artificial Intelligence (AI) in Biotechnology Sheeza - PPTM
13 pages
lab_8__(6)عفان عبدالله احمد_التكليف_
No ratings yet
lab_8__(6)عفان عبدالله احمد_التكليف_
18 pages
Pythone code for predicting diabetes using ML
No ratings yet
Pythone code for predicting diabetes using ML
18 pages
eda-ml-decision-tree.ipynb - Colab
No ratings yet
eda-ml-decision-tree.ipynb - Colab
20 pages
Data Pre-Processing
No ratings yet
Data Pre-Processing
22 pages
Diabetes_Prediction_1704256341
No ratings yet
Diabetes_Prediction_1704256341
17 pages
Documentation Code
No ratings yet
Documentation Code
20 pages
AML Sessional 1 Students
No ratings yet
AML Sessional 1 Students
16 pages
NCE 2024 Physics
No ratings yet
NCE 2024 Physics
16 pages
DRV Enka
No ratings yet
DRV Enka
6 pages
Human Resource Management
100% (1)
Human Resource Management
3 pages
EBS빈칸의정의_10강_교안_주교재+분석집[20230209233818150]
No ratings yet
EBS빈칸의정의_10강_교안_주교재+분석집[20230209233818150]
12 pages
Major project - Colab
No ratings yet
Major project - Colab
15 pages
ML Practical 04
No ratings yet
ML Practical 04
20 pages
Diabetes Prediction Using Machine Learning
No ratings yet
Diabetes Prediction Using Machine Learning
20 pages
Logidtic_Regression_ASSIGNMENT
No ratings yet
Logidtic_Regression_ASSIGNMENT
13 pages
NEGRO, Antonio - Making Sense of Sense Containment
No ratings yet
NEGRO, Antonio - Making Sense of Sense Containment
23 pages
M and E PLAN for Opening of Classes SY 2025 20261
No ratings yet
M and E PLAN for Opening of Classes SY 2025 20261
2 pages
Preprocessing1.ipynb - Colab
No ratings yet
Preprocessing1.ipynb - Colab
13 pages
Building Visual Basic Application
No ratings yet
Building Visual Basic Application
13 pages
Capstone Project 2
No ratings yet
Capstone Project 2
15 pages
E_AI_Lab_EX_2and_3
No ratings yet
E_AI_Lab_EX_2and_3
9 pages
Diabetes and Glucose Correlation - IBM Machine Learning Training Project
No ratings yet
Diabetes and Glucose Correlation - IBM Machine Learning Training Project
10 pages
According To 2001 Census Greater Mumbai
No ratings yet
According To 2001 Census Greater Mumbai
12 pages
KNN - Jupyter Notebook (1)
No ratings yet
KNN - Jupyter Notebook (1)
7 pages
ML Data Preprocessing in Python
No ratings yet
ML Data Preprocessing in Python
9 pages
Geography Syllabus
No ratings yet
Geography Syllabus
111 pages
Diabetes
No ratings yet
Diabetes
7 pages
CBSE - X Social Science 2025 - Analysis & Answer key
No ratings yet
CBSE - X Social Science 2025 - Analysis & Answer key
10 pages
Stroke Prediction Dataset
No ratings yet
Stroke Prediction Dataset
48 pages
8.Perform Correlation and scatter plots (1)
No ratings yet
8.Perform Correlation and scatter plots (1)
5 pages
SVM - RF - Diabetes - CSV - 26 - 6 - 2023.ipynb - Colaboratory
No ratings yet
SVM - RF - Diabetes - CSV - 26 - 6 - 2023.ipynb - Colaboratory
8 pages
diabetes-prediction-using-machine-learning
No ratings yet
diabetes-prediction-using-machine-learning
16 pages
Diabetis Project
No ratings yet
Diabetis Project
7 pages
Cia 2 ML 2348352
No ratings yet
Cia 2 ML 2348352
6 pages
Diabetes EDA and Kears Modeling
No ratings yet
Diabetes EDA and Kears Modeling
26 pages
222ECO01 Anand Advanced Econometrics Activity1
No ratings yet
222ECO01 Anand Advanced Econometrics Activity1
6 pages
Project 190
No ratings yet
Project 190
6 pages
Project 10 Movie Recommendation - Ipynb - Colaboratory
No ratings yet
Project 10 Movie Recommendation - Ipynb - Colaboratory
6 pages
DAL Experiment Outputs 6to10
No ratings yet
DAL Experiment Outputs 6to10
16 pages
# Diabetes: Pandas PD Numpy NP Seaborn Sns
No ratings yet
# Diabetes: Pandas PD Numpy NP Seaborn Sns
4 pages
Logistic - Ipynb - Colaboratory
No ratings yet
Logistic - Ipynb - Colaboratory
6 pages
Heart Disease Indicator Prediction Model
No ratings yet
Heart Disease Indicator Prediction Model
17 pages
healthcare-project-simplilearn- Week1
No ratings yet
healthcare-project-simplilearn- Week1
6 pages
Logistic Regression
No ratings yet
Logistic Regression
12 pages
Logistic Regression 205
No ratings yet
Logistic Regression 205
8 pages
John B. Watson: What Are Some Examples of Behaviorism?
No ratings yet
John B. Watson: What Are Some Examples of Behaviorism?
2 pages
Mean Vector and Correlation Matrix in R - Jupyter Notebook
No ratings yet
Mean Vector and Correlation Matrix in R - Jupyter Notebook
7 pages
Diabetes Prediction System
No ratings yet
Diabetes Prediction System
4 pages
Ml4.ipynb - Colab
No ratings yet
Ml4.ipynb - Colab
3 pages
Diabetes
No ratings yet
Diabetes
10 pages
Project
No ratings yet
Project
8 pages
Research Paper Sample
No ratings yet
Research Paper Sample
7 pages
5
No ratings yet
5
5 pages
Diabetes - Prediction - Project - Ipynb - Colab
No ratings yet
Diabetes - Prediction - Project - Ipynb - Colab
11 pages
Exp 5
No ratings yet
Exp 5
7 pages
Univariate and Multivariate Analysis - Jupyter Notebook
No ratings yet
Univariate and Multivariate Analysis - Jupyter Notebook
5 pages
KNN - Jupyter Notebook
No ratings yet
KNN - Jupyter Notebook
5 pages
Experiment 4
No ratings yet
Experiment 4
5 pages
KNN For Classification
No ratings yet
KNN For Classification
4 pages
335MIE UnderGrad Health and Safety Course
No ratings yet
335MIE UnderGrad Health and Safety Course
57 pages
SDT 6 C
No ratings yet
SDT 6 C
51 pages
ABYIP Draft
No ratings yet
ABYIP Draft
2 pages
Project 3 - Diabetes Prediction.ipynb - Colab
No ratings yet
Project 3 - Diabetes Prediction.ipynb - Colab
4 pages
GPS01 1027701 Halopin Oven
No ratings yet
GPS01 1027701 Halopin Oven
5 pages
5 Steps To Writing A Position Paper
No ratings yet
5 Steps To Writing A Position Paper
16 pages
Assignment 1
No ratings yet
Assignment 1
2 pages
Class 1 Maths Worksheets Chapter 10
No ratings yet
Class 1 Maths Worksheets Chapter 10
6 pages
Diabetes Prediction
No ratings yet
Diabetes Prediction
1 page
Blends Literacy Centers - Beginning and Ending Co
No ratings yet
Blends Literacy Centers - Beginning and Ending Co
1 page
Step-By-Step-Diabetes-Classification-Knn-Detailed-Copy1 - Jupyter Notebook
No ratings yet
Step-By-Step-Diabetes-Classification-Knn-Detailed-Copy1 - Jupyter Notebook
12 pages
All About Space - Black Holes, First Edition 2021
100% (1)
All About Space - Black Holes, First Edition 2021
132 pages
Pima Indians Diabetes Database Analysis - Kaggle
No ratings yet
Pima Indians Diabetes Database Analysis - Kaggle
37 pages
Daily Lesson Log 4
100% (2)
Daily Lesson Log 4
5 pages
Analytical Mechanics, 6th Ed.: 132.177.228.65 On: Thu, 19 Feb 2015 12:48:34
0% (1)
Analytical Mechanics, 6th Ed.: 132.177.228.65 On: Thu, 19 Feb 2015 12:48:34
6 pages
Pima Indian Diabetes Questions
No ratings yet
Pima Indian Diabetes Questions
6 pages
The Bio-Well Camera Incorporating The GDV/EPI Technique
No ratings yet
The Bio-Well Camera Incorporating The GDV/EPI Technique
13 pages
Topic 4 Tecahing Science in The Primary Grades
No ratings yet
Topic 4 Tecahing Science in The Primary Grades
6 pages
Cco Registration Form
0% (1)
Cco Registration Form
5 pages
Six Sigma Yellow Belt: Introduction to Lean six Sigma Methodology for Beginners
From Everand
Six Sigma Yellow Belt: Introduction to Lean six Sigma Methodology for Beginners
Elias Soussi
No ratings yet
Amazing Java: Learn Java Quickly
From Everand
Amazing Java: Learn Java Quickly
Andrei Besedin
No ratings yet

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.

ADS Exp-1

Uploaded by

ADS Exp-1

Uploaded by

2/4/25, 9:00 PM ADS.

Load and Read the Datasets

# Upload the file manually

# Get the uploaded file name dynamically

# Read the dataset

Choose Files health care diabetes.csv

Exploratory Data Analysis

DiabetesPedigreeFunction Age Outcome

# Data Cleaning - Check for duplicate records

Number of duplicate records: 0

numeric_cols = df.columns[df.columns != 'Outcome']

BMI DiabetesPedigreeFunction Age Outcome

lambda_val = df['Glucose'].mean() # Using Glucose levels as an example

ANOVA Test Code

from scipy import stats

# Ensure 'BMI_Category' exists before running ANOVA

# Display results in the desired format

# Conclusion based on p-value

ANOVA Test for Difference in Glucose Levels among BMI Categories:

You might also like

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.