0% found this document useful (0 votes)

7 views1 page

DS Unit 1

The document discusses data processing tools in data science, focusing on Apache Spark and its components such as Spark Core, Spark SQL, and Spark Streaming, which facilitate efficient data handling and analysis. It also outlines the CRISP-DM methodology for data mining, emphasizing its iterative phases from business understanding to deployment. Additionally, it compares data lakes and data swamps, highlighting differences in data quality, organization, governance, accessibility, and performance.

Uploaded by

hardikng24hmit

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

7 views1 page

DS Unit 1

Uploaded by

hardikng24hmit

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 1

.

o Explore data properties o Assess data quality •

Q1 Explain any five data processing tools in data science
Outcome: A refined dataset with initial insights and an
: Apache Spark·Apache Spark is an open-source,
understanding of its potential for analysis. 3. Data
distributed computing system designed to process large
Preparation • Objective: Prepare the data for modeling by
datasets quickly. Spark is popular for its speed, ease of use,
cleaning, transforming, and organizing it. • Key Steps: o
and versatility in handling both batch and real-time
Handle missing . o Transform data into required formats. o
processing workloads. ·In-memory processing: Spark
Select relevant features and create derived attributes. •
stores data in memory (RAM) for faster computation,. Outcome: A final dataset ready for modeling. 4. Modeling
Spark Core ·Spark Core is the foundational component of • Objective: Apply data mining techniques to extract
Apache Spark that provides essential functionalities for the patterns and insights. • Key Steps: o Select appropriate
entire Spark ecosystem, such as task scheduling, memory modeling techniques o Train and test models. o Tune
management, fault tolerance, and resource distribution. hyperparameters to optimize performance. • Outcome:
·RDD (Resilient Distributed Datasets): The core data Trained models that meet the project objectives. 5.
structure in Spark, RDDs are immutable collections of Evaluation • Objective: Assess the models' performance
objects distributed across a cluster. Spark SQL ·Spark SQL and determine if they meet the business objectives. • Key

is a component of Spark that allows users to query Steps: o Compare model results against business success

structured data using SQL syntax and provides a criteria. o Validate models using testing data o Identify

programming interface for working with both structured any gaps . • Outcome: Recommendations for deploying

and semi-structured data. ·Support for SQL queries: You the model or revisiting previous phases for

can run SQL queries against data stored in various formats, improvements6. Deployment • Objective: Implement the
solution in the production environment for business use. •
such as Parquet, JSON, or Hive tableSparkStreaming·Spark
Key Steps: o Integrate the model into business systems. o
Streaming is an extension of Spark that enables real-time
Document the solution for stakeholders. o Monitor and
data processing. It processes data in small, micro-batches
maintain the system to ensure continuous performance. •
and integrates seamlessly with Spark's other components.
Outcome: A deployed solution delivering actionable
·Real-time processing: Spark Streaming processes
insights or automating processes. .
incoming data in real timeGraphX·GraphX is a Spark
Q.5 Differences between Data lake vs. data swamp Data
component for graph processing and analytics. It allows
Quality: Data Lake: High-quality, structured data with
users to perform operations on graphs and perform
governance. Data Swamp: Poor-quality, unstructured, and
graph-parallel computations.·Graph abstraction: It
messy data. Organization:Data Lake: Organized with
provides two key abstractions: the Graph and Pregel API for
metadata and indexing.Data Swamp: Disorganized with
graph-parallel computation. no clear structure. Governance:Data Lake: Strong
Q.2 Explain (CRISP-DM): governance, metadata management, and security. Data
The Cross-Industry Standard Process for Data Mining Swamp: Lacks governance and metadata. Data
(CRISP-DM) is one of themost widely used methodologies Accessibility:Data Lake: Easy to search, access, and
for data mining and data science projects. It providesa analyze.Data Swamp: Hard to navigate and access.
structured approach for solving business problems Usage:Data Lake: Supports analytics, machine learning,
through data mining techniquesand is flexible enough to and business intelligence.Data Swamp: Difficult to use for
be applied across different industriesand types of data. meaningful analysis. Scalability:Data Lake: Scalable and

CRISP-DM is iterative,Phases of CRISP-DM CRISP-DM: 1. optimized for large data volumes.Data Swamp: Can

Business Understanding • Objective: Define the project struggle with scalability due to poor structure.

goals and understand the business context. • Key Steps: o Performance:Data Lake: High performance with proper

Identify the problem or opportunity. o Establish project optimization.Data Swamp: Poor performance due to

objectives and success criteria. • Outcome: A clear disorganization. Metadata:Data Lake: Rich metadata
enables data discovery.Data Swamp: Lacks metadata,
understanding of how the data science project aligns with
making data discovery difficult. Maintenance Cost:Data
business goals. 2. Data Understanding • Objective: Gather
Lake: High initial cost, but efficient long-term use
and explore data to gain insights and identify data quality
issues. • Key Steps: o Collect initial data.

Dbms Unit V
No ratings yet
Dbms Unit V
27 pages
A Learning Path Recommendation Model Based On A Multidimensional
No ratings yet
A Learning Path Recommendation Model Based On A Multidimensional
28 pages
Validating RDF Data 2017
No ratings yet
Validating RDF Data 2017
308 pages
DP 900 Day 4
No ratings yet
DP 900 Day 4
40 pages
Adsu 4
No ratings yet
Adsu 4
169 pages
What Is CRISP DM - Data Science Process Alliance
No ratings yet
What Is CRISP DM - Data Science Process Alliance
20 pages
Definition of Data Science
No ratings yet
Definition of Data Science
38 pages
Neo 4 J
No ratings yet
Neo 4 J
10 pages
Pam Unit 1
No ratings yet
Pam Unit 1
37 pages
Data Analysis and Mining
No ratings yet
Data Analysis and Mining
39 pages
PM Unit 1
No ratings yet
PM Unit 1
41 pages
PAM - Unit1 PDF
No ratings yet
PAM - Unit1 PDF
217 pages
EmTec Chapter 2
No ratings yet
EmTec Chapter 2
32 pages
KMSBOT: Enhancing Educational Institutions With An AI-powered Semantic Search Engine and Graph Database
No ratings yet
KMSBOT: Enhancing Educational Institutions With An AI-powered Semantic Search Engine and Graph Database
15 pages
Neo4j WP Retail Innovation en US
No ratings yet
Neo4j WP Retail Innovation en US
13 pages
Data Science
No ratings yet
Data Science
6 pages
Big Data Notes
No ratings yet
Big Data Notes
4 pages
Data Science My Notes
No ratings yet
Data Science My Notes
61 pages
3-2 It Bda Lab Syllabus
No ratings yet
3-2 It Bda Lab Syllabus
2 pages
CH 2 - Emerging
No ratings yet
CH 2 - Emerging
24 pages
It-222 Reviewer
No ratings yet
It-222 Reviewer
3 pages
A Graph Based Approach For Module Library Development in - 2022 - Computers in
No ratings yet
A Graph Based Approach For Module Library Development in - 2022 - Computers in
13 pages
SAP HANA Cloud - Foundation - Unit 4
No ratings yet
SAP HANA Cloud - Foundation - Unit 4
19 pages
Graph RAG With Property Graphs - A Quick Foray - by Kundan Joshi - in Towards AI - Freedium
No ratings yet
Graph RAG With Property Graphs - A Quick Foray - by Kundan Joshi - in Towards AI - Freedium
12 pages
NoSQL Solutions (MCQ & Structural)
No ratings yet
NoSQL Solutions (MCQ & Structural)
12 pages
Chatbots For Amzon
No ratings yet
Chatbots For Amzon
8 pages
Notes For DMML
No ratings yet
Notes For DMML
27 pages
2935 5841 1 SM
No ratings yet
2935 5841 1 SM
8 pages
Lecture 5 - Lifecycle of A Data Science Project
No ratings yet
Lecture 5 - Lifecycle of A Data Science Project
55 pages
Shortnjn
No ratings yet
Shortnjn
12 pages
1.2.1 and 1.2.2
No ratings yet
1.2.1 and 1.2.2
54 pages
Database Concepts: Online Appendix K
No ratings yet
Database Concepts: Online Appendix K
19 pages
Da CH1 Slqa
No ratings yet
Da CH1 Slqa
6 pages
DA Assignment 20241015 091512 0000
No ratings yet
DA Assignment 20241015 091512 0000
19 pages
DWM 2
No ratings yet
DWM 2
31 pages
Data Science Process Alliance CRISP DM For Data Science
No ratings yet
Data Science Process Alliance CRISP DM For Data Science
7 pages
Chapter Two Data Science: by Abdulaziz Oumer
No ratings yet
Chapter Two Data Science: by Abdulaziz Oumer
29 pages
67031-Data Science As Service
No ratings yet
67031-Data Science As Service
8 pages
Predictive Analytics Modelling (21CSH-440) : Apex Institute of Technology
No ratings yet
Predictive Analytics Modelling (21CSH-440) : Apex Institute of Technology
42 pages
Big Data For Dummies
No ratings yet
Big Data For Dummies
8 pages
Unit 3 - Bda
No ratings yet
Unit 3 - Bda
36 pages
Big Data Notes
No ratings yet
Big Data Notes
18 pages
My Notes DWDM
No ratings yet
My Notes DWDM
18 pages
Unit-6 - Graph Analytics and Data Visualization
No ratings yet
Unit-6 - Graph Analytics and Data Visualization
40 pages
Data Analytics Mid Sem Notes
No ratings yet
Data Analytics Mid Sem Notes
9 pages
Machine Learning, Optimization, and Big Data 2016
No ratings yet
Machine Learning, Optimization, and Big Data 2016
475 pages
Introduction To Data Science
No ratings yet
Introduction To Data Science
23 pages
Data Base Security PDF
No ratings yet
Data Base Security PDF
38 pages
NoSQL Unit 1 & 2 QnA
No ratings yet
NoSQL Unit 1 & 2 QnA
18 pages
DS Unit 1
No ratings yet
DS Unit 1
37 pages
Lecture02 Frameworks Platforms-Part1
No ratings yet
Lecture02 Frameworks Platforms-Part1
40 pages
PAM - Complete
No ratings yet
PAM - Complete
322 pages
Graph Neo4j
No ratings yet
Graph Neo4j
46 pages
Unit 1 Introduction
No ratings yet
Unit 1 Introduction
31 pages
2 Data Science
No ratings yet
2 Data Science
27 pages
Presentation 20
No ratings yet
Presentation 20
31 pages
Power Bi Interview Question Asked in Tech Mahindra 1721390502
No ratings yet
Power Bi Interview Question Asked in Tech Mahindra 1721390502
15 pages
Exploratory Data Analysis With Python
No ratings yet
Exploratory Data Analysis With Python
24 pages
Crisp-Dm: Elgounidi Hajar Safsafi Aya El Malki Ikram Aqaabich Reda
No ratings yet
Crisp-Dm: Elgounidi Hajar Safsafi Aya El Malki Ikram Aqaabich Reda
87 pages
Unit 1
No ratings yet
Unit 1
36 pages
DP 900T00A ENU TrainerHandbook
100% (1)
DP 900T00A ENU TrainerHandbook
288 pages
Unit-II Notes
No ratings yet
Unit-II Notes
9 pages
Unit-1 Introduction To Data Analytics
No ratings yet
Unit-1 Introduction To Data Analytics
35 pages
T Assignment
No ratings yet
T Assignment
5 pages
Data Science
No ratings yet
Data Science
11 pages
Dbms All Units Notes
No ratings yet
Dbms All Units Notes
140 pages
Data Analytics
No ratings yet
Data Analytics
4 pages
Introduction To Data Science
No ratings yet
Introduction To Data Science
29 pages
Data Warehouse
No ratings yet
Data Warehouse
10 pages
Data Science
No ratings yet
Data Science
17 pages
Big Data
No ratings yet
Big Data
10 pages
Unit1 Introduction To Data Analytics and Data Analytics Lifecycle Notes
No ratings yet
Unit1 Introduction To Data Analytics and Data Analytics Lifecycle Notes
13 pages
Recent Trends in IT
No ratings yet
Recent Trends in IT
7 pages
Adbms Mini Sem 5-1
No ratings yet
Adbms Mini Sem 5-1
10 pages
Introduction To Data Science
No ratings yet
Introduction To Data Science
24 pages
Nosql Databases Unit-1
No ratings yet
Nosql Databases Unit-1
16 pages
Module 5 - Data Science Methodology
No ratings yet
Module 5 - Data Science Methodology
17 pages
Business Analytics Important Question Answers
No ratings yet
Business Analytics Important Question Answers
38 pages
Chapter 1
No ratings yet
Chapter 1
85 pages
Data Science
No ratings yet
Data Science
5 pages
Q1. Explain Data Science Process Along With Detailed Diagram
No ratings yet
Q1. Explain Data Science Process Along With Detailed Diagram
7 pages
DA-1,2,3 (1) Merged
No ratings yet
DA-1,2,3 (1) Merged
39 pages
Unit 2 Data Gathering
No ratings yet
Unit 2 Data Gathering
14 pages
DSC Unit 1
No ratings yet
DSC Unit 1
59 pages
Big Data Analytics - Quick Guide - Tutorialspoint
No ratings yet
Big Data Analytics - Quick Guide - Tutorialspoint
50 pages
Unit - III
No ratings yet
Unit - III
34 pages
Fda 1
No ratings yet
Fda 1
5 pages
Data Science and Analytics Reviewer
No ratings yet
Data Science and Analytics Reviewer
5 pages
Latihan Azure Microsoft-1
No ratings yet
Latihan Azure Microsoft-1
33 pages

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.

DS Unit 1

Uploaded by

DS Unit 1

Uploaded by

.

o Explore data properties o Assess data quality •

You might also like

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.