0% found this document useful (0 votes)

17 views5 pages

Mini Project (BDA) Output

The document details a BigMart Sales Analysis Project aimed at predicting product sales using machine learning techniques. It includes data loading from Kaggle, preprocessing steps such as handling missing values and feature engineering, and the implementation of a Random Forest Regressor for model training and evaluation. The project concludes with the creation of a submission file and visualizations of actual versus predicted sales and feature importance.

Uploaded by

Samruddhi Sandip kangude

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

17 views5 pages

Mini Project (BDA) Output

Uploaded by

Samruddhi Sandip kangude

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 5

4/22/25, 1:36 AM Untitled4.

ipynb - Colab

# BigMart Sales Analysis Project

# Predicting sales of products in BigMart stores

# Import necessary libraries

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder, StandardScaler
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error
import warnings
warnings.filterwarnings('ignore')

# BigMart Sales Analysis Project

# Predicting sales of products in BigMart stores

# Import necessary libraries

# Import data using kagglehub

try:
# Install dependencies if needed
# pip install kagglehub[pandas-datasets]
import kagglehub
from kagglehub import KaggleDatasetAdapter

# Load train data

print("Loading train data from Kaggle...")
train = kagglehub.load_dataset(
KaggleDatasetAdapter.PANDAS,
"brijbhushannanda1979/bigmart-sales-data",
"Train.csv"
)

# Load test data

print("Loading test data from Kaggle...")
test = kagglehub.load_dataset(
KaggleDatasetAdapter.PANDAS,
"brijbhushannanda1979/bigmart-sales-data",
"Test.csv"
)

print("Data loaded successfully from Kaggle!")

except Exception as e:
print(f"Error loading data from Kaggle: {e}")
print("Falling back to URL loading...")

try:
# Fallback to GitHub URLs
train_url = "https://raw.githubusercontent.com/suvikramsain/Bigmart-Sales/master/Train.csv"
test_url = "https://raw.githubusercontent.com/suvikramsain/Bigmart-Sales/master/Test.csv"

train = pd.read_csv(train_url)
test = pd.read_csv(test_url)
print("Data loaded successfully from GitHub URLs")
except:
print("Error loading data from URLs. Using local files if available.")
try:
train = pd.read_csv('Train.csv')
test = pd.read_csv('Test.csv')
print("Data loaded successfully from local files")
except:

https://colab.research.google.com/drive/1nQacKbOQQd-CivRD_lxjOwG0_1Eg0wf0#scrollTo=dx1pZ_GLtDdh&printMode=true 1/5
4/22/25, 1:36 AM Untitled4.ipynb - Colab
print("Error: Unable to load data. Please check data availability.")
import sys
sys.exit(1)

Loading train data from Kaggle...

Downloading from https://www.kaggle.com/api/v1/datasets/download/brijbhushannanda1979/bigmart-sales-data?dataset_version_number=1&fi
100%|██████████| 849k/849k [00:00<00:00, 70.8MB/s]Loading test data from Kaggle...

Data loaded successfully from Kaggle!

 

# Take a look at the data

print("Train data shape:", train.shape)
print("Test data shape:", test.shape)
print("\nTrain data columns:", train.columns.tolist())
print("\nFirst few rows of train data:")
print(train.head())

Train data shape: (8523, 12)

Test data shape: (5681, 11)

Train data columns: ['Item_Identifier', 'Item_Weight', 'Item_Fat_Content', 'Item_Visibility', 'Item_Type', 'Item_MRP', 'Outlet_Ident

First few rows of train data:

Item_Identifier Item_Weight Item_Fat_Content Item_Visibility \
0 FDA15 9.30 Low Fat 0.016047
1 DRC01 5.92 Regular 0.019278
2 FDN15 17.50 Low Fat 0.016760
3 FDX07 19.20 Regular 0.000000
4 NCD19 8.93 Low Fat 0.000000

Item_Type Item_MRP Outlet_Identifier \

0 Dairy 249.8092 OUT049
1 Soft Drinks 48.2692 OUT018
2 Meat 141.6180 OUT049
3 Fruits and Vegetables 182.0950 OUT010
4 Household 53.8614 OUT013

Outlet_Establishment_Year Outlet_Size Outlet_Location_Type \

0 1999 Medium Tier 1
1 2009 Medium Tier 3
2 1999 Medium Tier 1
3 1998 NaN Tier 3
4 1987 High Tier 3

Outlet_Type Item_Outlet_Sales
0 Supermarket Type1 3735.1380
1 Supermarket Type2 443.4228
2 Supermarket Type1 2097.2700
3 Grocery Store 732.3800
4 Supermarket Type1 994.7052

 

# Check for missing values

print("\nMissing values in train data:")
print(train.isnull().sum())
print("\nMissing values in test data:")
print(test.isnull().sum())

Missing values in train data:

Item_Identifier 0
Item_Weight 1463
Item_Fat_Content 0
Item_Visibility 0
Item_Type 0
Item_MRP 0
Outlet_Identifier 0
Outlet_Establishment_Year 0
Outlet_Size 2410
Outlet_Location_Type 0
Outlet_Type 0
Item_Outlet_Sales 0
dtype: int64

Missing values in test data:

Item_Identifier 0
Item_Weight 976
Item_Fat_Content 0
Item_Visibility 0
Item_Type 0

https://colab.research.google.com/drive/1nQacKbOQQd-CivRD_lxjOwG0_1Eg0wf0#scrollTo=dx1pZ_GLtDdh&printMode=true 2/5
4/22/25, 1:36 AM Untitled4.ipynb - Colab
Item_MRP 0
Outlet_Identifier 0
Outlet_Establishment_Year 0
Outlet_Size 1606
Outlet_Location_Type 0
Outlet_Type 0
dtype: int64

# Combine train and test datasets for preprocessing

test['Item_Outlet_Sales'] = np.nan
combined = pd.concat([train, test], ignore_index=True)
print("\nCombined data shape:", combined.shape)

# Data preprocessing
# Fill missing values
combined['Item_Weight'].fillna(combined['Item_Weight'].mean(), inplace=True)
combined['Outlet_Size'].fillna('Unknown', inplace=True)

# Fix inconsistent categories

combined['Item_Fat_Content'] = combined['Item_Fat_Content'].replace({
'LF': 'Low Fat',
'low fat': 'Low Fat',
'reg': 'Regular'
})

Combined data shape: (14204, 12)

# Feature Engineering
# Extract year feature from establishment year
current_year = 2025
combined['Outlet_Years'] = current_year - combined['Outlet_Establishment_Year']
combined.drop('Outlet_Establishment_Year', axis=1, inplace=True)

# Item visibility should not be 0, replace with mean

zero_visibility_mask = combined['Item_Visibility'] == 0
combined.loc[zero_visibility_mask, 'Item_Visibility'] = combined['Item_Visibility'].mean()

# Normalize Item_Visibility
combined['Item_Visibility'] = combined['Item_Visibility'] / combined['Item_Visibility'].max()

# Encode categorical variables

le = LabelEncoder()
for column in ['Item_Fat_Content', 'Item_Type', 'Outlet_Size', 'Outlet_Location_Type', 'Outlet_Type']:
combined[column] = le.fit_transform(combined[column])

# Create dummy variables for categorical features

categorical_columns = ['Item_Identifier', 'Outlet_Identifier']
combined = pd.get_dummies(combined, columns=categorical_columns, drop_first=True)

# Split back into train and test

train_processed = combined[~combined['Item_Outlet_Sales'].isnull()]
test_processed = combined[combined['Item_Outlet_Sales'].isnull()]

# Prepare data for modeling

X = train_processed.drop('Item_Outlet_Sales', axis=1)
y = train_processed['Item_Outlet_Sales']
X_test = test_processed.drop('Item_Outlet_Sales', axis=1)

# Split into training and validation sets

X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=42)

# Scale the numerical features

scaler = StandardScaler()
numerical_columns = ['Item_Weight', 'Item_Visibility', 'Item_MRP', 'Outlet_Years']
X_train[numerical_columns] = scaler.fit_transform(X_train[numerical_columns])
X_val[numerical_columns] = scaler.transform(X_val[numerical_columns])
X_test[numerical_columns] = scaler.transform(X_test[numerical_columns])

# Train a Random Forest Regressor

print("\nTraining Random Forest Regressor...")
rf = RandomForestRegressor(n_estimators=100, max_depth=10, random_state=42)
rf.fit(X_train, y_train)

https://colab.research.google.com/drive/1nQacKbOQQd-CivRD_lxjOwG0_1Eg0wf0#scrollTo=dx1pZ_GLtDdh&printMode=true 3/5
4/22/25, 1:36 AM Untitled4.ipynb - Colab

Training Random Forest Regressor...

▾ RandomForestRegressor i ?

RandomForestRegressor(max_depth=10, random_state=42)

# Evaluate the model

y_pred_val = rf.predict(X_val)
rmse_val = np.sqrt(mean_squared_error(y_val, y_pred_val))
print(f"Validation RMSE: {rmse_val:.4f}")

# Feature importance
feature_importances = pd.DataFrame({
'Feature': X_train.columns,
'Importance': rf.feature_importances_
}).sort_values('Importance', ascending=False)

print("\nTop 10 most important features:")

print(feature_importances.head(10))

# Make predictions on test data

y_pred_test = rf.predict(X_test)

# Create submission file

submission = pd.DataFrame({
'Item_Identifier': test['Item_Identifier'],
'Outlet_Identifier': test['Outlet_Identifier'],
'Item_Outlet_Sales': y_pred_test
})

# Save the submission file

submission.to_csv('bigmart_sales_prediction.csv', index=False)
print("\nSubmission file created successfully!")

# Visualize actual vs predicted values on validation set

plt.figure(figsize=(10, 6))
plt.scatter(y_val, y_pred_val, alpha=0.5)
plt.plot([y_val.min(), y_val.max()], [y_val.min(), y_val.max()], 'r--')
plt.xlabel('Actual Sales')
plt.ylabel('Predicted Sales')
plt.title('Actual vs Predicted Sales')
plt.tight_layout()
plt.savefig('actual_vs_predicted.png')

# Visualize feature importance

plt.figure(figsize=(12, 8))
sns.barplot(x='Importance', y='Feature', data=feature_importances.head(15))
plt.title('Top 15 Feature Importance')
plt.tight_layout()
plt.savefig('feature_importance.png')

print("\nAnalysis completed!")

https://colab.research.google.com/drive/1nQacKbOQQd-CivRD_lxjOwG0_1Eg0wf0#scrollTo=dx1pZ_GLtDdh&printMode=true 4/5
4/22/25, 1:36 AM Untitled4.ipynb - Colab

Validation RMSE: 1027.9054

Top 10 most important features:

Feature Importance
4 Item_MRP 0.498320
7 Outlet_Type 0.314966
8 Outlet_Years 0.042362
1571 Outlet_Identifier_OUT027 0.033873
2 Item_Visibility 0.015169
0 Item_Weight 0.005936
3 Item_Type 0.005011
1318 Item_Identifier_NCE42 0.003391
796 Item_Identifier_FDQ19 0.002214
1218 Item_Identifier_FDY55 0.002083

Submission file created successfully!

Analysis completed!

https://colab.research.google.com/drive/1nQacKbOQQd-CivRD_lxjOwG0_1Eg0wf0#scrollTo=dx1pZ_GLtDdh&printMode=true 5/5

WWW Studocu
No ratings yet
WWW Studocu
1 page
Tata Motors Finance Limited: Simulated Premature Termination Statement As On 22.04.2022
No ratings yet
Tata Motors Finance Limited: Simulated Premature Termination Statement As On 22.04.2022
2 pages
IPID Holiday
No ratings yet
IPID Holiday
2 pages
Task 1 - Data preparation and customer analytics - Jupyter Notebook
No ratings yet
Task 1 - Data preparation and customer analytics - Jupyter Notebook
64 pages
vertopal.com_Project_12_Big_Mart_Sales_Prediction
No ratings yet
vertopal.com_Project_12_Big_Mart_Sales_Prediction
15 pages
CDAC_Assignment
No ratings yet
CDAC_Assignment
3 pages
Law Firm Schedule of Fees 2024
No ratings yet
Law Firm Schedule of Fees 2024
9 pages
Task 2 - Experimentation and uplift testing - Jupyter Notebook
No ratings yet
Task 2 - Experimentation and uplift testing - Jupyter Notebook
41 pages
[Arirang TV] Business Proposal_The Senses of K-Culture
No ratings yet
[Arirang TV] Business Proposal_The Senses of K-Culture
14 pages
Immediate download (PowerPoint) A First Course in Statistics 12th Edition by James T. McClave ebooks 2024
100% (5)
Immediate download (PowerPoint) A First Course in Statistics 12th Edition by James T. McClave ebooks 2024
24 pages
AICS Endsem Paper 2023
No ratings yet
AICS Endsem Paper 2023
3 pages
Grocery
No ratings yet
Grocery
41 pages
- Colab
No ratings yet
- Colab
2 pages
Deep Learning in AI Unit 2 Technical
No ratings yet
Deep Learning in AI Unit 2 Technical
7 pages
PL Appropriation Ac
100% (1)
PL Appropriation Ac
6 pages
assignment1
No ratings yet
assignment1
7 pages
Project_details
No ratings yet
Project_details
5 pages
Mini Project2 DAV Answers - Jupyter Notebook
No ratings yet
Mini Project2 DAV Answers - Jupyter Notebook
21 pages
IP PROJECT MGD GROUP - Removed
No ratings yet
IP PROJECT MGD GROUP - Removed
20 pages
Big Sales Mart Final Script PDF
No ratings yet
Big Sales Mart Final Script PDF
36 pages
BIG Mart Data Analyst Project
No ratings yet
BIG Mart Data Analyst Project
19 pages
Lab1 Features Selections-Class-GI2
No ratings yet
Lab1 Features Selections-Class-GI2
25 pages
BigMart Case Study
No ratings yet
BigMart Case Study
3 pages
Aiml Team 6
No ratings yet
Aiml Team 6
22 pages
E-Commerce Product Delivery Prediction
No ratings yet
E-Commerce Product Delivery Prediction
13 pages
Assingment No1
No ratings yet
Assingment No1
2 pages
The Factors Affecting Big Mart's Sales
No ratings yet
The Factors Affecting Big Mart's Sales
20 pages
1Demand
No ratings yet
1Demand
13 pages
WIN SEM (2023-24) FRESHERS - CSE0504 - ETH - AP2023247000196 - 2024-02-29 - Reference-Material-II
No ratings yet
WIN SEM (2023-24) FRESHERS - CSE0504 - ETH - AP2023247000196 - 2024-02-29 - Reference-Material-II
13 pages
Level F Homework Answers
33% (3)
Level F Homework Answers
7 pages
Amazon Sales Analysis-1
No ratings yet
Amazon Sales Analysis-1
14 pages
Genetic Algorithm 1
No ratings yet
Genetic Algorithm 1
31 pages
Life Processes
No ratings yet
Life Processes
4 pages
7
No ratings yet
7
18 pages
5-2a dataframes column operations - instruction
No ratings yet
5-2a dataframes column operations - instruction
2 pages
Guides
No ratings yet
Guides
23 pages
Representatives Guide For MSC Conference 2019
No ratings yet
Representatives Guide For MSC Conference 2019
16 pages
module-5_SPI-assigned-topic-for-reporter
No ratings yet
module-5_SPI-assigned-topic-for-reporter
35 pages
Room Automation Using Bluetooth and Wifi
No ratings yet
Room Automation Using Bluetooth and Wifi
50 pages
LSD and Its Lysergamide Cousins: David E. Nichols, Ph.D.
No ratings yet
LSD and Its Lysergamide Cousins: David E. Nichols, Ph.D.
8 pages
Task 6
No ratings yet
Task 6
14 pages
PRJ Sales Forecasting
No ratings yet
PRJ Sales Forecasting
22 pages
Data Science Tutorial 1686911993
No ratings yet
Data Science Tutorial 1686911993
41 pages
Filtro Bessel, Explicación PDF
No ratings yet
Filtro Bessel, Explicación PDF
3 pages
Sinter-1: Furnace Properties
No ratings yet
Sinter-1: Furnace Properties
1 page
Aquino - Dominic Bien - MP10
No ratings yet
Aquino - Dominic Bien - MP10
3 pages
Project
No ratings yet
Project
12 pages
Project 2
No ratings yet
Project 2
40 pages
Project Amazon Sales Data Analysis
No ratings yet
Project Amazon Sales Data Analysis
12 pages
Ventilator: Integrated
100% (1)
Ventilator: Integrated
10 pages
Miranda Mcbride Resume 2016
No ratings yet
Miranda Mcbride Resume 2016
3 pages
HET ka FML
No ratings yet
HET ka FML
13 pages
KPMG - Task 1
No ratings yet
KPMG - Task 1
22 pages
Implement K-Means Clustering.: Preprocessing
No ratings yet
Implement K-Means Clustering.: Preprocessing
8 pages
Lab Manual 4
No ratings yet
Lab Manual 4
23 pages
Supermarket Sales Analysis 1
No ratings yet
Supermarket Sales Analysis 1
13 pages
Project 4: Final Project: Bigmart Sales Prediction: Chapter 1: Problem Statement
No ratings yet
Project 4: Final Project: Bigmart Sales Prediction: Chapter 1: Problem Statement
35 pages
65e96f310a2c085797483a34_original
No ratings yet
65e96f310a2c085797483a34_original
14 pages
RFM - Analysis - Ipynb - Colaboratory
No ratings yet
RFM - Analysis - Ipynb - Colaboratory
10 pages
Deep Learning Assignments
No ratings yet
Deep Learning Assignments
13 pages
ML 5
No ratings yet
ML 5
11 pages
Solution
No ratings yet
Solution
4 pages
Python For Business Decision Making Asm2
No ratings yet
Python For Business Decision Making Asm2
21 pages
Interactive Learning Activities
No ratings yet
Interactive Learning Activities
2 pages
Olp 88
No ratings yet
Olp 88
8 pages
Masterclass Data Analysis.ipynb - Colab
No ratings yet
Masterclass Data Analysis.ipynb - Colab
4 pages
CUSTOMER ANALYSIS_Report
No ratings yet
CUSTOMER ANALYSIS_Report
10 pages
Karmakitta Tarni Deisgn Flood
No ratings yet
Karmakitta Tarni Deisgn Flood
11 pages
SalesDataAnalysis__1693296057
No ratings yet
SalesDataAnalysis__1693296057
14 pages
Appointment of Auditors of Coop Housing Society
No ratings yet
Appointment of Auditors of Coop Housing Society
4 pages
Grammar in Use Elementary-26
No ratings yet
Grammar in Use Elementary-26
1 page
Advance Data Analytics ASSIGNMENT
No ratings yet
Advance Data Analytics ASSIGNMENT
10 pages
Marketing Analytics Assignment 1
No ratings yet
Marketing Analytics Assignment 1
6 pages
B M Sale Analysis
No ratings yet
B M Sale Analysis
3 pages
Big Mart Sales Analysis
No ratings yet
Big Mart Sales Analysis
3 pages
Good Morning To You v. Warner Chappell - Happy Birthday To You Amended Cross Motions For Summary Judgment PDF
No ratings yet
Good Morning To You v. Warner Chappell - Happy Birthday To You Amended Cross Motions For Summary Judgment PDF
61 pages
Lectura 4 - KPMG Avoiding Major Project Failure
No ratings yet
Lectura 4 - KPMG Avoiding Major Project Failure
8 pages
MEDICATION-ncm 109 Skill
No ratings yet
MEDICATION-ncm 109 Skill
2 pages
Another Project-Creating Customer Segments
No ratings yet
Another Project-Creating Customer Segments
31 pages
Supermarket Sales Analysis Project
No ratings yet
Supermarket Sales Analysis Project
8 pages
Supermart Grocery Sales - Retail Analytics Dataset - (Data Analyst)
No ratings yet
Supermart Grocery Sales - Retail Analytics Dataset - (Data Analyst)
17 pages
Customer Segmentation 1683225943
No ratings yet
Customer Segmentation 1683225943
34 pages
Group 24 Business Analytics
100% (1)
Group 24 Business Analytics
21 pages
SalesMgmtSystem XII IP Projectreport 2022 23
No ratings yet
SalesMgmtSystem XII IP Projectreport 2022 23
18 pages
BigMart PDF
100% (1)
BigMart PDF
42 pages
BigMart Sales Data Analysis
No ratings yet
BigMart Sales Data Analysis
16 pages
Essential n8n Playbook
From Everand
Essential n8n Playbook
Leandro Calado
No ratings yet
Specification and Contract Max Fajardo
No ratings yet
Specification and Contract Max Fajardo
162 pages
Big Mart Sales Analysis
No ratings yet
Big Mart Sales Analysis
3 pages
SPORTS
100% (3)
SPORTS
80 pages
Data Analysis On BigMart Sales
67% (3)
Data Analysis On BigMart Sales
17 pages
Ptr-"Leadership and Values Reorientation
100% (1)
Ptr-"Leadership and Values Reorientation
5 pages
Hazardous Waste Management Plan
No ratings yet
Hazardous Waste Management Plan
1 page
Stripe Integration in Angular: A Step-by-Step Guide to Creating Payment Functionality
From Everand
Stripe Integration in Angular: A Step-by-Step Guide to Creating Payment Functionality
Abdelfattah Ragab
No ratings yet
MCTS 70-515 Exam: Web Applications Development with Microsoft .NET Framework 4 (Exam Prep)
From Everand
MCTS 70-515 Exam: Web Applications Development with Microsoft .NET Framework 4 (Exam Prep)
Eddie Vi
4/5 (1)

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.

Mini Project (BDA) Output

Uploaded by

Mini Project (BDA) Output

Uploaded by

4/22/25, 1:36 AM Untitled4.

# BigMart Sales Analysis Project

# Import necessary libraries

# BigMart Sales Analysis Project

# Import necessary libraries

# Import data using kagglehub

# Load train data

# Load test data

print("Data loaded successfully from Kaggle!")

Loading train data from Kaggle...

Data loaded successfully from Kaggle!

# Take a look at the data

Train data shape: (8523, 12)

First few rows of train data:

Item_Type Item_MRP Outlet_Identifier \

Outlet_Establishment_Year Outlet_Size Outlet_Location_Type \

# Check for missing values

Missing values in train data:

Missing values in test data:

# Combine train and test datasets for preprocessing

# Fix inconsistent categories

Combined data shape: (14204, 12)

# Item visibility should not be 0, replace with mean

# Encode categorical variables

# Create dummy variables for categorical features

# Split back into train and test

# Prepare data for modeling

# Split into training and validation sets

# Scale the numerical features

# Train a Random Forest Regressor

Training Random Forest Regressor...

# Evaluate the model

print("\nTop 10 most important features:")

# Make predictions on test data

# Create submission file

# Save the submission file

# Visualize actual vs predicted values on validation set

# Visualize feature importance

Validation RMSE: 1027.9054

Top 10 most important features:

Submission file created successfully!

You might also like

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.