0% found this document useful (0 votes)

14 views

NoSQL - Unit 2

Nosql db notes

Uploaded by

yashwanthchandolu11

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

14 views

NoSQL - Unit 2

Nosql db notes

Uploaded by

yashwanthchandolu11

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 11

U2

Distribution Models

Definition: Techniques to optimize data distribution

across multiple servers or nodes for better performance,
availability, and scalability.

Achieved through:
Sharding: Data partitioned into smaller chunks across
multiple nodes.
Replication: Copying data across nodes for fault
tolerance and high availability.
Master-Slave
Peer-to-peer
Sharding: Horizontal partitioning of data across multiple
servers to scale and distribute the load efficiently.

How:
Split large datasets into shards, each stored on a
different node.
Sharding criteria can be based on user ID, region,
date, or other attributes.
Data locality: Helps distribute data closer to where it's
needed (e.g., geographical sharding).

Key Aspects:
Shard Key: A specific field used to divide the data
(e.g., customer ID, product ID).
Uniform Distribution: Ideally, shards should be evenly
distributed to avoid hot spots.
Global Indexing: Maintains a global index that helps to
locate data across shards.

Advantages:
Scalability
Performance: Parallel access to different data parts
improves throughput.
Fault Isolation: Failure of one shard doesn’t affect
others.

Challenges:
Data Rebalancing: Adding/removing shards requires
migrating data.
Consistency
Query Complexity across multiple shards may impact
performance.
Master-Slave Replication
One master node holds authoritative data, while slave
nodes replicate the data for read scalability and fault
tolerance.

How:
Master: Handles write operations (INSERT, UPDATE).
Slaves: Replicas that handle read queries.
Synchronous vs Asynchronous replication based on
latency and consistency needs.

Key Aspects:
Replication Lag: Asynchronous replication can
introduce a delay in data synchronization.
Failover Mechanism: In case of master failure, a slave
can be promoted to master.
Eventual Consistency: Slaves may not have the most
up-to-date data immediately after write operations.

Advantages:
Read Scalability
Fault Tolerance: Automatic failover in case of master
failure (with proper configuration).
Simple Architecture

Challenges:
Write Bottleneck: Master can become a bottleneck for
write-heavy workloads.
Replication Lag: May cause temporary data
inconsistency between master and slaves.
Single Point of Failure: If master fails and no failover
mechanism is in place, writes are blocked.
Peer-to-Peer Replication
Every node (peer) is equal, with no central master. All
nodes handle both reads and writes.

How:
Distributed Sync: Data is synchronized across all
nodes, and each peer can handle both read and write
operations.
Conflict Resolution: Conflicts (e.g., same data
modified in two nodes) are resolved using
mechanisms like versioning or last-write-wins.

Key Aspects:
Decentralized: No central master, and all peers
communicate directly.
Conflict Handling: Must ensure data consistency
through advanced techniques (e.g., vector clocks).
Eventual Consistency: Peers may not have the same
data immediately after updates.

Advantages:
Fault Tolerance: No SPOF
High Availability
Load Distribution: Equal distribution of read and write
operations across peers.

Challenges:
Data Consistency
Conflict Management: Requires efficient mechanisms
to resolve conflicts when peers have conflicting
updates.
Network Overhead
Sharding + Replication
Combining sharding (data partitioning) and replication
(data duplication) for scalable, fault-tolerant distributed
systems.

How:
Sharding: Splits data across multiple nodes based on
a shard key (e.g., customer ID).
Replication: Each shard is replicated on multiple
nodes to provide fault tolerance and high availability.
Partitioning & Replication: Partitioning data (sharding)
ensures scalability, while replication ensures data
availability and fault tolerance.

Key Aspects:
Data Redundancy
Consistency Model: Ensures consistency (often
eventual consistency) across shards and replicas.
Fault Isolation

Advantages:
Scalability
Availability
Improved Performance: Load balancing between
shards and replicas for both read and write
operations.

Challenges:
Complexity in Management: Managing both sharding
and replication requires careful planning
Data Synchronization
Rebalancing: Data may need to be redistributed
across shards as the system scales
Consistency & Relaxing Consistency

Consistency: Ensures all nodes have the same data after

an update operation.
Types:
i. Strong Consistency: Immediate synchronization;
all clients see updated data.
ii. Eventual Consistency: Updates propagate
asynchronously; all replicas converge eventually.
iii. Causal Consistency: Updates maintain a cause-
effect order.

Relaxing Consistency: Sacrificing immediate

synchronization for scalability/performance.
Techniques:
Eventual Consistency: Used in distributed systems
(e.g., DynamoDB, Cassandra).
Quorum Reads/Writes: Ensures consistency only
for a subset of nodes.
Trade-offs:
↑ Availability & performance.
↓ Consistency guarantees.
CAP Theorem

A distributed system can only achieve two out of three:

Consistency (C): All nodes see the same data
simultaneously.
Availability (A): System continues to operate despite
failures.
Partition Tolerance (P): System functions despite
network partition.

Scenarios:
CA Systems: No partition tolerance; suited for single-
node systems (e.g., RDBMS).
AP Systems: No strong consistency; common in geo-
distributed systems (e.g., DNS).
CP Systems: Sacrifice availability during partition
(e.g., MongoDB).

Applications: Helps design systems based on trade-offs.

Version Stamps

Concept: Identifiers for tracking changes/versioning in

distributed systems.

Purpose:
Detect conflicts in updates.
Enable reconciliation in peer-to-peer or eventually
consistent systems.

Types:
Logical Timestamps: Tracks order of events (Lamport
timestamps).
Vector Clocks: Tracks causal relationships between
updates.

Applications:
Conflict detection in distributed databases.
Version control systems (e.g., Git).

Challenges:
↑ Overhead in managing clocks.
Resolving conflicting timestamps.
Map-Reduce

Concept: Framework for parallel processing of large

datasets using clusters.

Steps:
Map: Input data → key-value pairs.
Shuffle: Group data by keys across nodes.
Reduce: Combine values with the same key to
produce results.

Key Features:
Parallel processing using mappers/reducers.
Fault Tolerance: Re-runs failed tasks.
Data locality minimizes network transfer.

Use Cases: Analytics, indexing, log processing (e.g.,

Hadoop, Spark).

Challenges: Not ideal for iterative algorithms or real-time

processing.
Partitioning & Combining

Partitioning: Splitting data into logical chunks for parallel

processing.
Based on key-value mapping (e.g., hash partitioning).
Enables distributed reduce operations.

Combining: Reduces data at mapper stage before

shuffling.
Minimizes data transfer across nodes.
Example: Pre-aggregating sales data per product on
mapper nodes.

Applications:
Scaling computations across clusters.
Efficient large-scale data processing.

Challenges:
Non-combinable reducers (e.g., counting unique
elements).
Balancing partitions for equal load distribution.
Composing Map-Reduce Calculations

Concept: Combining multiple Map-Reduce stages for

complex computations.
Process:
Output of one stage → Input for the next (e.g., pipes-
and-filters model).
Example:
Task: Compare monthly sales year-over-year.
Stage 1: Aggregate sales per product per month.
Stage 2: Compare results of each month for
consecutive years.
Advantages:
Reusability: Intermediate outputs useful for other
tasks.
Scalability: Breaks down complex logic into smaller,
manageable stages.
Materialized views improve efficiency.
Tools: Apache Pig (simplified Map-Reduce), Hive (SQL-like
interface)

Top 10 Oracle Database Automation Scripts For Enhanced Performance and Security
No ratings yet
Top 10 Oracle Database Automation Scripts For Enhanced Performance and Security
35 pages
Ch02 - Big Data Storage Concepts
No ratings yet
Ch02 - Big Data Storage Concepts
23 pages
Exploring Hadoop Ecosystem (Volume 2): Stream Processing
From Everand
Exploring Hadoop Ecosystem (Volume 2): Stream Processing
Wei Liu
No ratings yet
It Alarms and Events
No ratings yet
It Alarms and Events
494 pages
module 2
No ratings yet
module 2
36 pages
Lec 3 -Basic Concepts
No ratings yet
Lec 3 -Basic Concepts
32 pages
NoSQL - Unit2
No ratings yet
NoSQL - Unit2
8 pages
NoSQL Databases UNIT-2
No ratings yet
NoSQL Databases UNIT-2
29 pages
Big Data Management and Nosql Databases: Doc. Rndr. Irena Holubova, PH.D
No ratings yet
Big Data Management and Nosql Databases: Doc. Rndr. Irena Holubova, PH.D
27 pages
NOSQL_MOD2
No ratings yet
NOSQL_MOD2
25 pages
NoSQL M2
No ratings yet
NoSQL M2
47 pages
Nosql Systems: Sharding, Replication and Consistency: Riccardo Torlone Università Roma Tre
No ratings yet
Nosql Systems: Sharding, Replication and Consistency: Riccardo Torlone Università Roma Tre
28 pages
Nosql1
No ratings yet
Nosql1
40 pages
DrKP-Module-2-1
No ratings yet
DrKP-Module-2-1
77 pages
Chapter 1 Introduction
No ratings yet
Chapter 1 Introduction
48 pages
Module 2 Nosql
No ratings yet
Module 2 Nosql
10 pages
NoSQL Module 2
No ratings yet
NoSQL Module 2
76 pages
BDA CH 2 (StorageConcepts)
No ratings yet
BDA CH 2 (StorageConcepts)
33 pages
Class 7 - Scaling, Sharding, Consistent Hashing
No ratings yet
Class 7 - Scaling, Sharding, Consistent Hashing
4 pages
Dynamo: Amazon'S Highly Available Key-Value Store: Csci 8101: Advanced Operating Systems Presented By: Chaithra KN
No ratings yet
Dynamo: Amazon'S Highly Available Key-Value Store: Csci 8101: Advanced Operating Systems Presented By: Chaithra KN
23 pages
Distribution Model
100% (1)
Distribution Model
24 pages
Ebook - Cracking The System Design Interview Course
100% (1)
Ebook - Cracking The System Design Interview Course
91 pages
2 NoSQL Databases Principles
No ratings yet
2 NoSQL Databases Principles
58 pages
Nosql Module 2
100% (1)
Nosql Module 2
87 pages
Nosql Data Management
No ratings yet
Nosql Data Management
13 pages
CH-07 Replication
No ratings yet
CH-07 Replication
35 pages
Lec21Notes Merged
No ratings yet
Lec21Notes Merged
20 pages
III-sharding-strategies
No ratings yet
III-sharding-strategies
30 pages
Unit 4
No ratings yet
Unit 4
13 pages
Big Data Storage Concepts
No ratings yet
Big Data Storage Concepts
31 pages
A Thorough Introduction To Distributed Systems
No ratings yet
A Thorough Introduction To Distributed Systems
31 pages
nosql-databases
No ratings yet
nosql-databases
379 pages
Module-2-Final
No ratings yet
Module-2-Final
39 pages
System Design
No ratings yet
System Design
385 pages
irs unit-4
No ratings yet
irs unit-4
19 pages
Big Data IN A Gist
No ratings yet
Big Data IN A Gist
16 pages
Chapter_4_3d6b7fe08203468c915d52f43c8757c0_1712934164766
No ratings yet
Chapter_4_3d6b7fe08203468c915d52f43c8757c0_1712934164766
28 pages
Assignment2_CCL_24
No ratings yet
Assignment2_CCL_24
9 pages
Distributed Systems Practitioners Dimos Raptis Raspoznan
No ratings yet
Distributed Systems Practitioners Dimos Raptis Raspoznan
259 pages
UNIT I
No ratings yet
UNIT I
17 pages
6q9k5yndkd9j-SDE DF400 020 Full Deck
No ratings yet
6q9k5yndkd9j-SDE DF400 020 Full Deck
81 pages
Introduction to Distributed Systems
No ratings yet
Introduction to Distributed Systems
9 pages
ICS 408 Exam A
No ratings yet
ICS 408 Exam A
5 pages
Lecture 8
No ratings yet
Lecture 8
14 pages
Important System Design Concepts - Shumbul Arifa
No ratings yet
Important System Design Concepts - Shumbul Arifa
36 pages
Assignment Systems2023
100% (3)
Assignment Systems2023
11 pages
NOSQL M2-P1-P2 PPT
No ratings yet
NOSQL M2-P1-P2 PPT
75 pages
module 2 nosql
No ratings yet
module 2 nosql
31 pages
Module-2 NOSQL
No ratings yet
Module-2 NOSQL
5 pages
Data Engineering Unit 3
No ratings yet
Data Engineering Unit 3
4 pages
0zI2XrFJX5tR CjuECI f5HwGdQkpL8DAkTmwDPyFm3H0eCERMEvG9fH
No ratings yet
0zI2XrFJX5tR CjuECI f5HwGdQkpL8DAkTmwDPyFm3H0eCERMEvG9fH
13 pages
Designs and issues
No ratings yet
Designs and issues
3 pages
Big data Slides
No ratings yet
Big data Slides
26 pages
Consistency Models in Distributed Systems
No ratings yet
Consistency Models in Distributed Systems
1 page
no sql
No ratings yet
no sql
12 pages
Distributed Systems Coursework
100% (2)
Distributed Systems Coursework
6 pages
Four Distributed System Architectural Patterns
No ratings yet
Four Distributed System Architectural Patterns
10 pages
DC UT1 CompsA
No ratings yet
DC UT1 CompsA
23 pages
Advanced Storage Technologies
No ratings yet
Advanced Storage Technologies
2 pages
CC Sem
No ratings yet
CC Sem
64 pages
DBS REVIEWER
No ratings yet
DBS REVIEWER
4 pages
Chapter 4
No ratings yet
Chapter 4
51 pages
NoSQL - U1
No ratings yet
NoSQL - U1
8 pages
CSIT B Project Work Details
No ratings yet
CSIT B Project Work Details
2 pages
Tech Mahindra 3rd Round Student List
No ratings yet
Tech Mahindra 3rd Round Student List
3 pages
CSIT B - Project Work-First Review Presentation Schedule-Circular
No ratings yet
CSIT B - Project Work-First Review Presentation Schedule-Circular
3 pages
Undertaking _students ( Attendance) (1)
No ratings yet
Undertaking _students ( Attendance) (1)
1 page
What Is Software Testing
No ratings yet
What Is Software Testing
7 pages
Advaced DB U1
No ratings yet
Advaced DB U1
48 pages
DBMS Analysis and Comparison: A Micro Project On
No ratings yet
DBMS Analysis and Comparison: A Micro Project On
12 pages
Conceptual Database Design
No ratings yet
Conceptual Database Design
12 pages
Dns and Active Directory Integration
No ratings yet
Dns and Active Directory Integration
26 pages
Basic Linux Commands: College of Engineering
No ratings yet
Basic Linux Commands: College of Engineering
8 pages
Splunk 7.0.0 Overview Administering PDF
No ratings yet
Splunk 7.0.0 Overview Administering PDF
4 pages
ABAP CDS Views With Authorization Based On Access Control
100% (3)
ABAP CDS Views With Authorization Based On Access Control
18 pages
DBMS Syllabus
No ratings yet
DBMS Syllabus
4 pages
Introduction To: Nosql
No ratings yet
Introduction To: Nosql
27 pages
Design and Implementation of Car Rental System
100% (1)
Design and Implementation of Car Rental System
113 pages
4 Edge and Hybrid Storage
No ratings yet
4 Edge and Hybrid Storage
31 pages
The Collibra Data Governance Center consists of seven applications
No ratings yet
The Collibra Data Governance Center consists of seven applications
2 pages
What Is A Data Warehouse?
No ratings yet
What Is A Data Warehouse?
48 pages
Nosql
No ratings yet
Nosql
13 pages
BIEXpertMagazine HANA Ops Berg v7 PDF
No ratings yet
BIEXpertMagazine HANA Ops Berg v7 PDF
23 pages
SQL Cheat Sheet: By: Ika Purnamasari
No ratings yet
SQL Cheat Sheet: By: Ika Purnamasari
2 pages
CE246 DBMS Practical List - 2022-23
No ratings yet
CE246 DBMS Practical List - 2022-23
6 pages
Oracle Exam
No ratings yet
Oracle Exam
118 pages
Odi12c
No ratings yet
Odi12c
8 pages
Harsh Dbms File
No ratings yet
Harsh Dbms File
32 pages
Part 1 - Answer Sheet
No ratings yet
Part 1 - Answer Sheet
5 pages
Database (Aswan)
No ratings yet
Database (Aswan)
23 pages
Session Level Yapp Handout PDF
No ratings yet
Session Level Yapp Handout PDF
27 pages
Xcopy Command Batch Script
No ratings yet
Xcopy Command Batch Script
6 pages
Distributed Database Systems
No ratings yet
Distributed Database Systems
50 pages
Informatica and Query Banding 2
No ratings yet
Informatica and Query Banding 2
13 pages
Suid Sgid
No ratings yet
Suid Sgid
7 pages
HandleAzureSQLAuditingWithEase Passsummit
No ratings yet
HandleAzureSQLAuditingWithEase Passsummit
45 pages

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.

NoSQL - Unit 2

Uploaded by

NoSQL - Unit 2

Uploaded by

U2

Definition: Techniques to optimize data distribution

Consistency: Ensures all nodes have the same data after

Relaxing Consistency: Sacrificing immediate

A distributed system can only achieve two out of three:

Applications: Helps design systems based on trade-offs.

Concept: Identifiers for tracking changes/versioning in

Concept: Framework for parallel processing of large

Use Cases: Analytics, indexing, log processing (e.g.,

Challenges: Not ideal for iterative algorithms or real-time

Partitioning: Splitting data into logical chunks for parallel

Combining: Reduces data at mapper stage before

Concept: Combining multiple Map-Reduce stages for

You might also like

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.