0% found this document useful (0 votes)

5 views6 pages

Phase 2

The project focuses on leveraging AI and machine learning to enhance early disease detection and personalized treatment in healthcare by analyzing patient data. Key objectives include developing predictive models for diseases like diabetes and cardiovascular issues, providing actionable insights for healthcare providers, and ensuring model interpretability. The project utilizes various data processing techniques and tools, with contributions from team members in areas such as data cleaning, visualization, and documentation.

Uploaded by

dom37070

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

5 views6 pages

Phase 2

Uploaded by

dom37070

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 6

Phase-2 Submission – Data Analytics

Student Name: BHAVAN S

Register Number: 512223104012
Institution: SKP ENGINEERING COLLEGE
Department: CSE
Date of Submission:
GitHub Repository Link: github profile

1. Problem Statement
The healthcare industry faces significant challenges in early disease detection and
personalized treatment. Traditional diagnostic methods often rely on reactive approaches,
leading to delayed interventions and higher costs. This project aims to leverage AI and
machine learning to predict diseases early by analyzing patient data such as medical
history, lifestyle factors, and biometric measurements. By transitioning from reactive to
proactive healthcare, we can improve patient outcomes, reduce treatment costs, and
optimize resource allocation.

2. Project Objectives
The primary goal is to develop an AI-powered system that predicts diseases (e.g.,
diabetes, cardiovascular diseases) based on patient data. Key objectives include:
- Identifying patterns and risk factors in patient data that correlate with specific diseases.
- Building predictive models to assess disease likelihood and recommend preventive
measures.
- Providing actionable insights to healthcare providers for early intervention.
- Ensuring the model is interpretable and scalable for real-world deployment.

3. Flowchart of the Project Workflow

Data Collection
- EHRs, Wearables, Surveys
- Lab results, Demographics
Data Cleaning
- Missing values
- Outlier removal
- Standardization.
│ - Standardization.

Exploratory Data Analysis (EDA)

- Distributions
- Correlations
- Visualizations

Feature Selection
- Statistical tests
- Domain knowledge
- Feature importance.

Insight Extraction
- SHAP value analysis
- Key risk factor identification
- Patient stratification

Visualization
- Interactive dashboards
- Risk prediction charts
- Trend analysis graphs

Reporting & Recommendations

Automated PDF reports
Executive summaries
Personalized prevention plans

4. Data Description
Public datasets (e.g., Kaggle, UCI ML Repository) or synthetic data mimicking real-
world patient records.
• Data Type: Structured tabular data (e.g., CSV files).
• Number of Rows and Columns: 1,00 rows × 12 columns
• Dataset Nature: Static (data does not change in real time)
Key Fields Relevant to the Problem:
• - Patient_ID, Age, Gender
• - Medical history (e.g., past diagnoses, family history)
• - Biometrics (e.g., blood pressure, cholesterol levels)
• - Lifestyle factors (e.g., smoking, exercise habits)
• - Target variable: Disease diagnosis (binary/multi-class)
5. Data Preprocessing

To ensure accurate analysis, we performed the following data cleaning and preparation
steps:

• Handling Missing Values:

Mean/Median Imputation for numerical fields (e.g., blood pressure, glucose
levels).

• Mode Imputation for categorical values (e.g., gender, disease history).

• Removing Duplicates:
Each patient is uniquely identified using a Patient_ID. Duplicates are removed to
avoid bias in model training and disease prediction outcomes.

• Formatting and Parsing:

Dates (e.g., admission, diagnosis, follow-up) are standardized to datetime
format.

• Clinical values are formatted as float/int to ensure compatibility with ML models.

• Encoding Categorical Variables:

Label Encoding for binary features like gender (Male/Female).

• One-Hot Encoding for multi-class variables like symptoms or departments visited.

• Outlier Detection and Treatment:

• Interquartile Range (IQR) and Z-score methods are used to detect anomalies in
lab results (e.g., extremely high cholesterol).

• Outliers are either capped or removed if medically implausible.

• Transformations:
• Creating New Fields: New fields like Efficiency_Score =
Performance_Score / Monthly_Hours_Worked were created to better reflect
productivity.

Deeper Insights: These transformations helped in uncovering deeper insights.

● 6. Exploratory Data Analysis (EDA)

● Univariate Analysis:

Histograms for age distribution, bar charts for disease prevalence.

• Bivariate/Multivariate Analysis:

Scatter plots (e.g., glucose vs. diabetes), correlation heatmaps.

● Key Insights:

- High cholesterol and age are strong predictors of cardiovascular diseases.

- Lifestyle factors (e.g., sedentary habits) correlate with higher diabetes risk.

7. Tools and Technologies Used

• Programming Language: Python

• Notebook/IDE: Google Colab, Jupyter Notebook

• Libraries Used:

- Data Processing: pandas, numpy

- Visualization: matplotlib, seaborn, plotly

- ML Models: scikit-learn, XGBoost, TensorFlow (for deep learning

• Optional Tools:

o pandas-profiling – For quick automated EDA reports

o These tools helped efficiently clean, explore, and visualize the data for
performance analysis.

8. Team Members and Contributions

Name Contribution

BHAVAN S Data Cleaning, EDA.

C K YESU Data Collection, Visualization,

Insights

GOKUL Documentation, Flowchart Design,

Presentation

DSC652 - Project Heart Attack Prediction
No ratings yet
DSC652 - Project Heart Attack Prediction
26 pages
Distillation Column Design and Simulation
No ratings yet
Distillation Column Design and Simulation
29 pages
ICT583 Data Science Applications - Final Assignment - Individual - UPDATED!!! - Explanation
0% (1)
ICT583 Data Science Applications - Final Assignment - Individual - UPDATED!!! - Explanation
5 pages
Exploring Data Analytics in The Healthcare Industry For Improved Patient Care
No ratings yet
Exploring Data Analytics in The Healthcare Industry For Improved Patient Care
10 pages
Health Monitoring and Diagnosis: University College of Engineering, Bit Campus
No ratings yet
Health Monitoring and Diagnosis: University College of Engineering, Bit Campus
21 pages
Heart Disease Detection
No ratings yet
Heart Disease Detection
14 pages
Medhun Final 1
No ratings yet
Medhun Final 1
4 pages
Predicting Disease With Machine Learning
No ratings yet
Predicting Disease With Machine Learning
20 pages
BDA Miniproject
No ratings yet
BDA Miniproject
5 pages
L&T Final Project
No ratings yet
L&T Final Project
23 pages
Hgs Phase II
No ratings yet
Hgs Phase II
27 pages
4 11 Final Modified Chapter-4
No ratings yet
4 11 Final Modified Chapter-4
32 pages
DS Report 03
No ratings yet
DS Report 03
30 pages
Natural Language Understanding
No ratings yet
Natural Language Understanding
14 pages
Journal Heart Attack
No ratings yet
Journal Heart Attack
6 pages
Healthcare Analytics On Patient Data Using Big Data Technologies For Disease Prediction and Readmission Analysis
No ratings yet
Healthcare Analytics On Patient Data Using Big Data Technologies For Disease Prediction and Readmission Analysis
6 pages
2 - Clinical Data Lecture
No ratings yet
2 - Clinical Data Lecture
24 pages
Health Care MLH File
No ratings yet
Health Care MLH File
76 pages
Ibm PROJECT 1 1 Output
No ratings yet
Ibm PROJECT 1 1 Output
10 pages
Prashant Detailed Document
No ratings yet
Prashant Detailed Document
18 pages
Report 4
No ratings yet
Report 4
38 pages
Unit 5 Healthcare Analytics GPT O4 Reasoning
No ratings yet
Unit 5 Healthcare Analytics GPT O4 Reasoning
29 pages
Batch-2 (Review 2)
No ratings yet
Batch-2 (Review 2)
19 pages
AIH Lab5
No ratings yet
AIH Lab5
6 pages
Developing A System For Early Detection of Specific
No ratings yet
Developing A System For Early Detection of Specific
9 pages
Healthcare Data Exploration Report Word File
No ratings yet
Healthcare Data Exploration Report Word File
9 pages
PROJECTS
No ratings yet
PROJECTS
6 pages
Analysis of Research in Healthcare Data Analytics - Sathyabama
No ratings yet
Analysis of Research in Healthcare Data Analytics - Sathyabama
43 pages
Boo PH 3
No ratings yet
Boo PH 3
11 pages
AIML Record Batch 9
No ratings yet
AIML Record Batch 9
88 pages
TCFL Projects Proposal Outline 2025 (1) .PPTX Anotidaishe
No ratings yet
TCFL Projects Proposal Outline 2025 (1) .PPTX Anotidaishe
5 pages
Total Documentation
No ratings yet
Total Documentation
21 pages
Experiment 5
No ratings yet
Experiment 5
10 pages
Health Care Predictive Analytics (1) Subashish
No ratings yet
Health Care Predictive Analytics (1) Subashish
13 pages
(Ibm) 2390
No ratings yet
(Ibm) 2390
5 pages
Liver Disease Prediction Using Machine Learning
No ratings yet
Liver Disease Prediction Using Machine Learning
28 pages
Bda 22 - Merged
No ratings yet
Bda 22 - Merged
8 pages
Final Mini Project PPT (d8)
No ratings yet
Final Mini Project PPT (d8)
15 pages
Phase 3 Health Monitoring and Diagnosis
No ratings yet
Phase 3 Health Monitoring and Diagnosis
10 pages
Hca Unit - 3 Answers
No ratings yet
Hca Unit - 3 Answers
19 pages
Ai Powered Medical Diagnosis-Phase 3
No ratings yet
Ai Powered Medical Diagnosis-Phase 3
10 pages
Adnan Lakdawala Medpace Resume
No ratings yet
Adnan Lakdawala Medpace Resume
1 page
Intel Report
No ratings yet
Intel Report
15 pages
Final Report Pneumonia Detection CV1 Group 1
No ratings yet
Final Report Pneumonia Detection CV1 Group 1
100 pages
Fraud Detection in Finance Refers To The Process of Identifying and Preven - 20250215 - 153408 - 0000
No ratings yet
Fraud Detection in Finance Refers To The Process of Identifying and Preven - 20250215 - 153408 - 0000
56 pages
Final Project Guidelines: Dataset Selection & Planning
No ratings yet
Final Project Guidelines: Dataset Selection & Planning
3 pages
Ass Report
No ratings yet
Ass Report
6 pages
Thyroid Disease Classification Using Machine Learning Project
No ratings yet
Thyroid Disease Classification Using Machine Learning Project
34 pages
DS Assignment
No ratings yet
DS Assignment
7 pages
Rubric 2 (10020,10033,10216)
No ratings yet
Rubric 2 (10020,10033,10216)
10 pages
Sonu Kumar
No ratings yet
Sonu Kumar
3 pages
(2023) Unlocking The Power of Data An Introduction To Data Analysis in Healthcare
No ratings yet
(2023) Unlocking The Power of Data An Introduction To Data Analysis in Healthcare
10 pages
Machine Learning For Medical and Healthcare Data Analysis and Modelling
No ratings yet
Machine Learning For Medical and Healthcare Data Analysis and Modelling
6 pages
An Introduction To Healthcare Data Analytics
No ratings yet
An Introduction To Healthcare Data Analytics
18 pages
Experiment 5
No ratings yet
Experiment 5
9 pages
Aruna
No ratings yet
Aruna
2 pages
A Study On Predictive Algorithms in Heal
No ratings yet
A Study On Predictive Algorithms in Heal
7 pages
PPS Batch 1
No ratings yet
PPS Batch 1
25 pages
TFM Miguel Perez Mateo
No ratings yet
TFM Miguel Perez Mateo
54 pages
Veeraragavan
No ratings yet
Veeraragavan
10 pages
PHYS182 Final Report
No ratings yet
PHYS182 Final Report
4 pages
Casting and Casting Processes: Prof. (DR.) Dalgobind Mahto 3/10/2015
No ratings yet
Casting and Casting Processes: Prof. (DR.) Dalgobind Mahto 3/10/2015
28 pages
Bruxism Defined and Graded: An International Consensus
No ratings yet
Bruxism Defined and Graded: An International Consensus
3 pages
Unit III - Naz Foundation Case
No ratings yet
Unit III - Naz Foundation Case
21 pages
Annex 14
No ratings yet
Annex 14
60 pages
SB1 Exam Questions
No ratings yet
SB1 Exam Questions
6 pages
Primary Care Ultrasound
No ratings yet
Primary Care Ultrasound
23 pages
Controlmanual Honeywell
100% (1)
Controlmanual Honeywell
903 pages
Grade 7
100% (1)
Grade 7
6 pages
Presentation Schedule 5nov 1page
No ratings yet
Presentation Schedule 5nov 1page
6 pages
100 Hand Cases.59
No ratings yet
100 Hand Cases.59
2 pages
Surge Arester 2. Wave Trap 3. Reaktor 4. Earthing Switch 5. Pms 6. CT 7. PMT 8. BB 9. Trafo
No ratings yet
Surge Arester 2. Wave Trap 3. Reaktor 4. Earthing Switch 5. Pms 6. CT 7. PMT 8. BB 9. Trafo
1 page
Psychiatry Cheat Sheet
No ratings yet
Psychiatry Cheat Sheet
2 pages
Yuva Bharat Health Policy Brochure 2025
No ratings yet
Yuva Bharat Health Policy Brochure 2025
8 pages
001 - Pdfsam - Commissioning Documentation - Euro Rig 5
No ratings yet
001 - Pdfsam - Commissioning Documentation - Euro Rig 5
73 pages
Hydro SafetyReliefValves Threaded Series12001400
No ratings yet
Hydro SafetyReliefValves Threaded Series12001400
4 pages
Abdomen - Pelvis: Lecturer: Prof. Dr. Wahyuni Lukita Atmodjo, PH.D
No ratings yet
Abdomen - Pelvis: Lecturer: Prof. Dr. Wahyuni Lukita Atmodjo, PH.D
33 pages
Synthetic Cutting Fluid 073
No ratings yet
Synthetic Cutting Fluid 073
1 page
Introduction To Survival
0% (1)
Introduction To Survival
45 pages
Colgrout PDF
No ratings yet
Colgrout PDF
14 pages
Greenheck Jetfans GJ Tunnel Carpark Ventilation
No ratings yet
Greenheck Jetfans GJ Tunnel Carpark Ventilation
12 pages
3 038r R v2 English - Om - v1.2 Dilo Usa
No ratings yet
3 038r R v2 English - Om - v1.2 Dilo Usa
65 pages
PDF Veterinary Surgery: Small Animal Expert Consult E BOOK 2nd Edition, (Ebook PDF) Download
100% (1)
PDF Veterinary Surgery: Small Animal Expert Consult E BOOK 2nd Edition, (Ebook PDF) Download
47 pages
Wood Frame Prescriptive Provisions One Story Residential Construction Only Ib P bc2011 004
No ratings yet
Wood Frame Prescriptive Provisions One Story Residential Construction Only Ib P bc2011 004
9 pages
NEW INTERCHANGE 1 Review From 9 To 12
No ratings yet
NEW INTERCHANGE 1 Review From 9 To 12
3 pages
WFA Hose Fittings PDF
No ratings yet
WFA Hose Fittings PDF
46 pages
Installation, Operation, and Maintenance Manual: 80 Series Pump
No ratings yet
Installation, Operation, and Maintenance Manual: 80 Series Pump
29 pages
Cook Static Pak
No ratings yet
Cook Static Pak
2 pages
FT42 Broz PDF
No ratings yet
FT42 Broz PDF
8 pages

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.

Phase 2

Uploaded by

Phase 2

Uploaded by

Phase-2 Submission – Data Analytics

Student Name: BHAVAN S

3. Flowchart of the Project Workflow

Exploratory Data Analysis (EDA)

Reporting & Recommendations

• Handling Missing Values:

• Mode Imputation for categorical values (e.g., gender, disease history).

• Formatting and Parsing:

• Clinical values are formatted as float/int to ensure compatibility with ML models.

• Encoding Categorical Variables:

• One-Hot Encoding for multi-class variables like symptoms or departments visited.

• Outlier Detection and Treatment:

• Outliers are either capped or removed if medically implausible.

Deeper Insights: These transformations helped in uncovering deeper insights.

Histograms for age distribution, bar charts for disease prevalence.

Scatter plots (e.g., glucose vs. diabetes), correlation heatmaps.

- High cholesterol and age are strong predictors of cardiovascular diseases.

7. Tools and Technologies Used

• Programming Language: Python

• Notebook/IDE: Google Colab, Jupyter Notebook

- Data Processing: pandas, numpy

- Visualization: matplotlib, seaborn, plotly

- ML Models: scikit-learn, XGBoost, TensorFlow (for deep learning

o pandas-profiling – For quick automated EDA reports

8. Team Members and Contributions

BHAVAN S Data Cleaning, EDA.

C K YESU Data Collection, Visualization,

GOKUL Documentation, Flowchart Design,

You might also like

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.