0% found this document useful (0 votes)

129 views6 pages

Updated Data Engineering Syllabus 1

The document outlines a detailed syllabus for a data engineering course consisting of 12 modules. The modules cover topics such as SQL, Python, Hadoop, Spark, Kafka and cloud computing fundamentals and Azure. They include theoretical concepts, hands-on exercises for setting up infrastructure and developing data pipelines and analytics using tools like SQL, Python, Hadoop, Hive, Spark and Kafka.

Uploaded by

roopini8819

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

129 views6 pages

Updated Data Engineering Syllabus 1

Uploaded by

roopini8819

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 6

Data Engineering Detailed Syllabus

MODULE 1 : SQL AND DATABASE UNDERSTANDING

MODULE 2 : PYTHON

MODULE 3 : BIG DATA TERMINOLOGIES

MODULE 4 : DATA WAREHOUSING

MODULE 5 : HADOOP

MODULE 6 : APACHE HIVE

MODULE 7 : TOOLS BUILD ON TOP OF HADOOP - ECOSYSTEM

MODULE 8 : SCALA

MODULE 9 : SPARK

MODULE 10 : KAFKA

MODULE 11 : CLOUD ESSENTIALS & FUNDAMENTALS OF AZURE

MODULE 12 : BIGDATA IN AZURE

-1-
Module Duration
SQL and Database Understanding
1 (Minutes)
Understanding of transactional databases (MySQL,
60
PostgreSQL), ACID properties, Basic DDL, DML, DCL
ER diagrams 30
Transaction, Concurrency Control 20
Indexing 15
Types of Keys, Join Operations, Group By, Case When
60
Statements, Nested Queries
Triggers 15
Stored Procedures 20
Views and Materialized views 20
Window functions (Rank, Dense Rank, Row Number,
Lag, Over Clause, Partition By, Sum, Avg, Min, Max, 60
First Value, Last Value
Running Sum or Average Related Queries (Row
30
preceding, Unbounded)
Prepare SQL queries to practise different SQL
concepts
Module
Python
2
Basic Data Structures (List, Tuple, Dictionary),
Conditional operations, Looping, Functions, Lambda
120
Functions, List Comprehension, Command line
arguments
Regex 45
Pandas Library 60
NumPy Library (Moderate Level) 45
JSON, CSV, Datetime, Boto3, Requests Libraries 60
MySQL Connector 30
Average level coding questions in python
Read csv files stored in S3 bucket using Boto3
library and create Data frame using Panda’s
60
library, perform different operations available in
pandas over created data frames
Module
Big Data Terminologies
3
Technical understanding of Distributed Computation
15
& Storage

-2-
Structured, Unstructured, Semi Structured Data 10
File Formats: CSV, JSON, Parquet, AVRO, ORC 10
Horizontal Vs Vertical Scaling 10
File Compressions Techniques 10
Understanding of theoretical concepts mentioned
in the topics
Module
Data Warehousing
4
Facts 15
OLAPS 10
Dimensions 15
Star Schema 15
Snowflake Schema 10
Data Model Types 15
Data Integrity 15
Metadata 10
Slowly Changing Dimensions 10
Data Warehouse Design Questions (Ex - Design
Amazon's Data Warehouse) 30
Understanding of all theoretical concepts
45
Design data ware house for Ecommerce platform
Module
Hadoop
5
Complete Architecture 45
Map-Reduce Functioning 30
HDFS 45
YARN 45
Blocks, Splits, Maps, Data Spilling, Heartbeats, Data
Replication, FS Image, Checkpointing, High 45
availability
Hadoop Daemons (Namenode, Datanode, Secondry
30
Namenode, Standby Namenode)
Setup Hadoop in pseudo distributed mode in your
machine, store large text file on HDFS and write 45
Map-Reduce code to count frequency of each word
Module
Apache Hive
6
Hive Installation 15
Query Syntax 60
Bulk Data Load 20
Internal Vs External Tables 20
Static & Dynamic Partitioning 20
Map Side Join 20
Hive SerDe 20

-3-
UDF's in Hive 20
Bucketing 15
Query Optimization 15
Setup hive in local machine
Create internal and external tables using data
stored in HDFS
Perform a bulk load with dynamic partitioning 120
Use Hive SerDe to create tables in hive for Json data
Write and apply UDF in hive to flattern nested json
file
Module
Tools Build on top of Hadoop - Ecosystem
7
Apache Pig 60
Apache Sqoop 30
Hbase (NoSQL Database) 60
Apache Flume 30
Apache Airflow 60
Use scoop to transfer data incrementally from
MySQL database to HDFS, use Hbase to create table 60
on stored file in HDFS
Module
Scala
8
Basic Data Structures, Looping, If-Else, Conditional
Statements, Pattern Matching 20
Functions, Higher Order Functions 30
Scala OOPs Concepts 45
Scala Traits 15
Scala Access Modifiers 20
Exception Handeling 20
Scala Collections 45
Multithreading 30
Average level coding questions in Scala
Module
Spark
9
Complete Architecture 60
Spark Core, Spark SQL 60
Data frames 60
Datasets 15
RDDs 30
Spark Read/Write operations 20
Lineage Graph, Lazy Evaluation 20
Actions, Transformations, Optimized Joins,
60
Broadcaster, Accumulator
Understanding of Spark UI, Stages, Tasks 20

-4-
Spark Submit Command Options 20
Job optimization techniques 30
Spark Catalyst Optimizer 15
Static and Dynamic Resource allocation 30
Understanding Memory Usage in Spark
a) Cache & Persist 30
b) Java Serializer vs Kryo Serializer
Setup spark in local mode 120
Write Spark application to read CSV file and apply
transformations using Spark Core/Spark SQL
Understand different parameters in spark submit
command and different optimization techniques
Module
Kafka
10
Producer 30
Consumer 30
Kafka Cluster, Cluster Setup, Brokers 60
Topics, Partitioning, Offset, Polling, Data Replication,
Data Retention 60
Consumer Group 30
Zookeeper 20
Create Realtime data pipeline using MySQL as
source for incremental data stream, Apache Kafka
for messaging Queue and Spark Streaming for data
transformation. Store transformed Realtime data in
any NoSQL database for Analytical queries 105
Module
Cloud Essentials & Fundamentals of AZURE
11
Azure Different Services (Iaas,Paas,Saas) 45
Azure Managed Identity and active directory
30
management
Azure Network Security Group with different
30
deployment models (Public, Private, Hybrid)
Microsoft Azure Key Vault 20
Azure Monitor with cost calculator 20
Azure CLI Commands 45
Azure Virtual Machine 30
Module
BigData in AZURE
12
Azure Blob/queue/table 20
Azure SQL database 30
Azure Data Lake gen 1 /gen 2 30
Azure Synapse analytics 60
Azure Cosmos DB 60

-5-
Azure Data Factory (Data Pipeline) 60
Azure Event Hubs 30
Azure Databricks (Data Processing) 30
Azure Scaling and Monitoring 30
Create one Lambda which will copy files from
source azure blob to destination database, access
60
on blob should be IAM role based. Lambda should
be scheduled using CloudWatch rule.
Setup one virtual machine instance and write one
shell script to read text file from azure blob, use CLI 90
commands for file transfer.
Connect A databrick notebook to Azure cloud to run
PySpark codes fo processing.

Build real time data pipeline using Azure HDInsight

as source, Azure Data Factory as queue and Azure 105
CosmosDB as destination for analytical queries.

-6-

Data Factory, Data Integration
No ratings yet
Data Factory, Data Integration
2,034 pages
Unit 1 Introduction To Big Data and Hadoop
No ratings yet
Unit 1 Introduction To Big Data and Hadoop
100 pages
JNTU M.Tech-cse-r19
No ratings yet
JNTU M.Tech-cse-r19
57 pages
BDA Practical File
No ratings yet
BDA Practical File
61 pages
Ketulkumar Polara: Data Scientist Email: Phone
No ratings yet
Ketulkumar Polara: Data Scientist Email: Phone
6 pages
Full Download (Ebook PDF) Modern Database Management, Global Edition 13th Edition PDF
100% (3)
Full Download (Ebook PDF) Modern Database Management, Global Edition 13th Edition PDF
45 pages
Lakehouse: A New Generation of Open Platforms That Unify Data Warehousing and Advanced Analytics
No ratings yet
Lakehouse: A New Generation of Open Platforms That Unify Data Warehousing and Advanced Analytics
8 pages
Impala-3 0
No ratings yet
Impala-3 0
879 pages
02 Unit-II Hadoop Architecture and HDFS
No ratings yet
02 Unit-II Hadoop Architecture and HDFS
18 pages
Hadoop Online Tutorials: 250 Hadoop Interview Questions and Answers For Experienced Hadoop Developers
No ratings yet
Hadoop Online Tutorials: 250 Hadoop Interview Questions and Answers For Experienced Hadoop Developers
34 pages
Big Data & Hadoop
100% (3)
Big Data & Hadoop
189 pages
Airflow DAG - Best Practices: DAG As Configuration File
100% (1)
Airflow DAG - Best Practices: DAG As Configuration File
6 pages
Big Data and Analytics Syllabus 2021
No ratings yet
Big Data and Analytics Syllabus 2021
3 pages
Road Map 1741960074
No ratings yet
Road Map 1741960074
24 pages
Great Expectations Vs Apache Griffin v1.2
100% (1)
Great Expectations Vs Apache Griffin v1.2
2 pages
150 Data Engineering Interview Questions PDF
50% (4)
150 Data Engineering Interview Questions PDF
8 pages
Step by Step Guide For Data Engineering
No ratings yet
Step by Step Guide For Data Engineering
7 pages
GCP Data Engineer
No ratings yet
GCP Data Engineer
8 pages
Hadoop The Definitive Guide 4th Edition Tom White Ebook All Chapters PDF
No ratings yet
Hadoop The Definitive Guide 4th Edition Tom White Ebook All Chapters PDF
55 pages
Lab - Eti Mannual
No ratings yet
Lab - Eti Mannual
57 pages
02 - Introduction To Data Lakehouse Open-Source Technologies
No ratings yet
02 - Introduction To Data Lakehouse Open-Source Technologies
42 pages
Certified Data Engineer Professional Topic 3
No ratings yet
Certified Data Engineer Professional Topic 3
24 pages
Delta Lake
No ratings yet
Delta Lake
11 pages
4.7.1 Bda-Mba
No ratings yet
4.7.1 Bda-Mba
2 pages
Hive
No ratings yet
Hive
48 pages
Big Data Engineer Course
No ratings yet
Big Data Engineer Course
31 pages
Unit V Big Data Analytics
No ratings yet
Unit V Big Data Analytics
47 pages
RTNU PHD Syllabus - Computer Application
No ratings yet
RTNU PHD Syllabus - Computer Application
14 pages
Apache Hive Installation and Basic Usage Guide
No ratings yet
Apache Hive Installation and Basic Usage Guide
10 pages
Cloud Data Engineering V1.0
No ratings yet
Cloud Data Engineering V1.0
5 pages
Hive-1.2.1-Installation Guide-On-Hadoop-2.x
No ratings yet
Hive-1.2.1-Installation Guide-On-Hadoop-2.x
7 pages
Summary: 12 Years
No ratings yet
Summary: 12 Years
7 pages
Sri 3
No ratings yet
Sri 3
8 pages
Lab06 Spark Dataframes
No ratings yet
Lab06 Spark Dataframes
12 pages
536C3A
No ratings yet
536C3A
2 pages
Annexure - I - Syllabus PG-DBDA Aug 16
No ratings yet
Annexure - I - Syllabus PG-DBDA Aug 16
4 pages
Brochure MIT XPRO - Professional Certificate in Data Engineering - V44
No ratings yet
Brochure MIT XPRO - Professional Certificate in Data Engineering - V44
15 pages
Bca Bigdata Fifth - Sem Approved Syllabus
No ratings yet
Bca Bigdata Fifth - Sem Approved Syllabus
23 pages
Big Data Notes With Diagrams
No ratings yet
Big Data Notes With Diagrams
3 pages
Big Data Analytics - Sem 7 CVMU
No ratings yet
Big Data Analytics - Sem 7 CVMU
4 pages
Krishna Chaitanya 30.nov
No ratings yet
Krishna Chaitanya 30.nov
2 pages
Big Data-Spark Lab Syllabus
No ratings yet
Big Data-Spark Lab Syllabus
2 pages
Data Engineering Brochure FXSr63lN9T
No ratings yet
Data Engineering Brochure FXSr63lN9T
14 pages
Big Data For Machine Learning - Syllabus
No ratings yet
Big Data For Machine Learning - Syllabus
2 pages
IIT Kharagpur Data Science PDF
No ratings yet
IIT Kharagpur Data Science PDF
22 pages
Trend Nologies Curriculum
No ratings yet
Trend Nologies Curriculum
30 pages
Big Data Analytics Practical Through Practice
No ratings yet
Big Data Analytics Practical Through Practice
4 pages
Step by Step Guide For Data Engineering
No ratings yet
Step by Step Guide For Data Engineering
9 pages
Syed Hashir's Resume
No ratings yet
Syed Hashir's Resume
1 page
Syllabus New Wal
No ratings yet
Syllabus New Wal
5 pages
Ciencia Datos Corner
No ratings yet
Ciencia Datos Corner
6 pages
Hadoop Development Training in Bangalore
No ratings yet
Hadoop Development Training in Bangalore
5 pages
Become A Big Data Engineer 1
No ratings yet
Become A Big Data Engineer 1
7 pages
Big Data Spark Cs606pc Syllabus
No ratings yet
Big Data Spark Cs606pc Syllabus
4 pages
Big Data Analytics Syallabus
No ratings yet
Big Data Analytics Syallabus
3 pages
Bigdata Engineer Complete Syllabus: Presented by
No ratings yet
Bigdata Engineer Complete Syllabus: Presented by
21 pages
MIT Data Engineering
No ratings yet
MIT Data Engineering
20 pages
Syllabus E63 2018 Fall PDF
No ratings yet
Syllabus E63 2018 Fall PDF
3 pages
Experiment Pgno
No ratings yet
Experiment Pgno
50 pages
Venu Data Engineering Training in Hyderabad 1
No ratings yet
Venu Data Engineering Training in Hyderabad 1
8 pages
DSA Practical Index
No ratings yet
DSA Practical Index
3 pages
Data Engineering Bootcamp
No ratings yet
Data Engineering Bootcamp
5 pages
Developer Training For Apache Spark and Hadoop
No ratings yet
Developer Training For Apache Spark and Hadoop
3 pages
Bad601 Simp Q
No ratings yet
Bad601 Simp Q
4 pages
Python AWS Data Engineering Course - Master PySpark, Kafka, SQL
No ratings yet
Python AWS Data Engineering Course - Master PySpark, Kafka, SQL
3 pages
Data Engineering Nanodegree Program Syllabus PDF
No ratings yet
Data Engineering Nanodegree Program Syllabus PDF
5 pages
CSE 3002 Big Data Technologies - 7sem
No ratings yet
CSE 3002 Big Data Technologies - 7sem
19 pages
Bigdata
No ratings yet
Bigdata
3 pages
Big Data With Hadoop and Spark - 2023-25
No ratings yet
Big Data With Hadoop and Spark - 2023-25
4 pages
Course Pack BDA
No ratings yet
Course Pack BDA
6 pages
2024 25 ODD CE449 BDA Syllabus
No ratings yet
2024 25 ODD CE449 BDA Syllabus
4 pages
Data Engineer in 3 Months
No ratings yet
Data Engineer in 3 Months
2 pages
Iran
No ratings yet
Iran
7 pages
Big Data Hadoop - Course Curriculum - V1
No ratings yet
Big Data Hadoop - Course Curriculum - V1
7 pages
Data Analytics TOC
No ratings yet
Data Analytics TOC
6 pages
Syllabus E63 Spring2016-2
No ratings yet
Syllabus E63 Spring2016-2
3 pages
Big Data & Hadoop - Course Curriculum
No ratings yet
Big Data & Hadoop - Course Curriculum
6 pages
DE Python
No ratings yet
DE Python
11 pages
CC ZG522 Course Handout
No ratings yet
CC ZG522 Course Handout
6 pages
MCA 3rd Semester Big Data Analytics Syllabus
No ratings yet
MCA 3rd Semester Big Data Analytics Syllabus
15 pages
Azure SQL Trainings: Contact: +91 90 32 82 44 67
No ratings yet
Azure SQL Trainings: Contact: +91 90 32 82 44 67
6 pages
Data and Analytics Syllabus
No ratings yet
Data and Analytics Syllabus
4 pages
Roadmap
No ratings yet
Roadmap
3 pages
Gujarat Technological University: Sr. No. Content Total Hrs % Weightage 1 13
No ratings yet
Gujarat Technological University: Sr. No. Content Total Hrs % Weightage 1 13
3 pages
150 Data Engineering Interview Questions PDF
No ratings yet
150 Data Engineering Interview Questions PDF
8 pages
B.Tech. CS - CE and CSE Syllabus 3rd Year 2024-25
No ratings yet
B.Tech. CS - CE and CSE Syllabus 3rd Year 2024-25
2 pages
Certified Hadoop and Spark Course Curriculum
No ratings yet
Certified Hadoop and Spark Course Curriculum
9 pages
3-1 Bigdata (Spark)
No ratings yet
3-1 Bigdata (Spark)
3 pages
Learning Pandas 2.0: A Comprehensive Guide to Data Manipulation and Analysis for Data Scientists and Machine Learning Professionals
From Everand
Learning Pandas 2.0: A Comprehensive Guide to Data Manipulation and Analysis for Data Scientists and Machine Learning Professionals
Matthew Rosch
No ratings yet
Learn Hive in 24 Hours
From Everand
Learn Hive in 24 Hours
Alex Nordeen
No ratings yet

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.

Updated Data Engineering Syllabus 1

Uploaded by

Updated Data Engineering Syllabus 1

Uploaded by

Data Engineering Detailed Syllabus

MODULE 1 : SQL AND DATABASE UNDERSTANDING

MODULE 3 : BIG DATA TERMINOLOGIES

MODULE 4 : DATA WAREHOUSING

MODULE 6 : APACHE HIVE

MODULE 7 : TOOLS BUILD ON TOP OF HADOOP - ECOSYSTEM

MODULE 11 : CLOUD ESSENTIALS & FUNDAMENTALS OF AZURE

MODULE 12 : BIGDATA IN AZURE

Build real time data pipeline using Azure HDInsight

You might also like

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.