0% found this document useful (0 votes)

55 views2 pages

Big Data-Spark Lab Syllabus

The document outlines the syllabus for the CS606PC Big Data-Spark course at JNTU Hyderabad, focusing on processing Big Data using Spark and Hadoop. It includes course objectives, outcomes, a list of experiments, and recommended textbooks and web links. Key topics covered include MapReduce programming, Hive queries, Spark SQL, and PySpark operations.

Uploaded by

anithapodishetty1234

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

55 views2 pages

Big Data-Spark Lab Syllabus

Uploaded by

anithapodishetty1234

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 2

R22 B.Tech.

CSE Syllabus JNTU Hyderabad

CS606PC: BIG DATA-SPARK

B.Tech. III Year II Sem. L T P C

0 0 4 2
Course Objectives:
 The main objective of the course is to process Big Data with advance architecture like spark
and streaming data in Spark

Course Outcomes:
 Develop MapReduce Programs to analyze large dataset Using Hadoop and Spark
 Write Hive queries to analyze large dataset Outline the Spark Ecosystem and its components
 Perform the filter, count, distinct, map, flatMap RDD Operations in Spark.
 Build Queries using Spark SQL
 Apply Spark joins on Sample Data Sets
 Make use of sqoop to import and export data from hadoop to database and vice-versa

List of Experiments:
1. To Study of Big Data Analytics and Hadoop Architecture
(i) know the concept of big data architecture
(ii) know the concept of Hadoop architecture

2. Loading DataSet in to HDFS for Spark Analysis

Installation of Hadoop and cluster management
(i) Installing Hadoop single node cluster in ubuntu environment
(ii) Knowing the differencing between single node clusters and multi-node clusters
(iii) Accessing WEB-UI and the port number
(iv) Installing and accessing the environments such as hive and sqoop

3. File management tasks & Basic linux commands

(i) Creating a directory in HDFS
(ii) Moving forth and back to directories
(iii) Listing directory contents
(iv) Uploading and downloading a file in HDFS
(v) Checking the contents of the file
(vi) Copying and moving files
(vii) Copying and moving files between local to HDFS environment
(viii) Removing files and paths
(ix) Displaying few lines of a file
(x) Display the aggregate length of a file
(xi) Checking the permissions of a file
(xii) Zipping and unzipping the files with & without permission pasting it to a location
(xiii) Copy, Paste commands

4. Map-reducing
(i) Definition of Map-reduce
(ii) Its stages and terminologies
(iii) Word-count program to understand map-reduce (Mapper phase, Reducer phase, Driver
code)
5. Implementing Matrix-Multiplication with Hadoop Map-reduce

6. Compute Average Salary and Total Salary by Gender for an Enterprise.

Page 115 of 154

R22 B.Tech. CSE Syllabus JNTU Hyderabad

7. (i) Creating hive tables (External and internal)

(ii) Loading data to external hive tables from sql tables(or)Structured c.s.v using scoop
(iii) Performing operations like filterations and updations
(iv) Performing Join (inner, outer etc)
(v) Writing User defined function on hive tables

8. Create a sql table of employees Employee table with id,designation Salary table (salary ,dept
id) Create external table in hive with similar schema of above tables,Move data to hive using
scoop and load the contents into tables,filter a new table and write a UDF to encrypt the table
with AES-algorithm, Decrypt it with key to show contents

9. (i) Pyspark Definition(Apache Pyspark) and difference between Pyspark, Scala, pandas
(ii) Pyspark files and class methods
(iii) get(file name)
(iv) get root directory()

10. Pyspark -RDD’S

(i) what is RDD’s?
(ii) ways to Create RDD
(iii) parallelized collections
(iv) external dataset
(v) existing RDD’s
(vi) Spark RDD’s operations (Count, foreach(), Collect, join,Cache()

11. Perform pyspark transformations

(i) map and flatMap
(ii) to remove the words, which are not necessary to analyze this text.
(iii) groupBy
(iv) What if we want to calculate how many times each word is coming in corpus ?
(v) How do I perform a task (say count the words ‘spark’ and ‘apache’ in rdd3) separatly on
each partition and get the output of the task performed in these partition ?
(vi) unions of RDD
(vii) join two pairs of RDD Based upon their key

12. Pyspark sparkconf-Attributes and applications

(i) What is Pyspark spark conf ()
(ii) Using spark conf create a spark session to write a dataframe to read details in a c.s.v and
later move that c.s.v to another location

TEXT BOOKS:
1. Spark in Action, Marko Bonaci and Petar Zecevic, Manning.
2. PySpark SQL Recipes: With HiveQL, Dataframe and Graphframes, Raju Kumar Mishra and
Sundar Rajan Raman, Apress Media.

WEB LINKS:
1. https://infyspringboard.onwingspan.com/web/en/app/toc/lex_auth_013301505844518912251
8 2_shared/overview
2. https://infyspringboard.onwingspan.com/web/en/app/toc/lex_auth_01258388119638835242_s
hared/overview
3. https://infyspringboard.onwingspan.com/web/en/app/toc/lex_auth_012605268423008256169
2 _shared/overview

Page 116 of 154

20IT503 - Big Data Analytics - Unit4
No ratings yet
20IT503 - Big Data Analytics - Unit4
73 pages
Big Data Spark Cs606pc Syllabus
No ratings yet
Big Data Spark Cs606pc Syllabus
4 pages
Bigdata
No ratings yet
Bigdata
3 pages
3-1 Bigdata (Spark)
No ratings yet
3-1 Bigdata (Spark)
3 pages
JNTU Hyderabad: B.Tech. Year LL
No ratings yet
JNTU Hyderabad: B.Tech. Year LL
1 page
Big Data Analytics - Sem 7 CVMU
No ratings yet
Big Data Analytics - Sem 7 CVMU
4 pages
Int 421
No ratings yet
Int 421
2 pages
Gujarat Technological University: Sr. No. Content Total Hrs % Weightage 1 13
No ratings yet
Gujarat Technological University: Sr. No. Content Total Hrs % Weightage 1 13
3 pages
COMP9313: Big Data Management: Course Web Site: HTTP://WWW - Cse.unsw - Edu.au/ cs9313
No ratings yet
COMP9313: Big Data Management: Course Web Site: HTTP://WWW - Cse.unsw - Edu.au/ cs9313
76 pages
AIADS 7th Sem Syllabus Signed
No ratings yet
AIADS 7th Sem Syllabus Signed
19 pages
BE AIDS R 20 VII VIII Sem Syllabus - Compressed
No ratings yet
BE AIDS R 20 VII VIII Sem Syllabus - Compressed
55 pages
DE Python
No ratings yet
DE Python
11 pages
Course Pack BDA
No ratings yet
Course Pack BDA
6 pages
Bca Bigdata Fifth - Sem Approved Syllabus
No ratings yet
Bca Bigdata Fifth - Sem Approved Syllabus
23 pages
Sybca Bigdata
No ratings yet
Sybca Bigdata
97 pages
Big Data Analytics
No ratings yet
Big Data Analytics
2 pages
MCA - II Sem - Curriculum and Syllabus
No ratings yet
MCA - II Sem - Curriculum and Syllabus
15 pages
Big Data
No ratings yet
Big Data
4 pages
Big Data Analytics Lab Manual
No ratings yet
Big Data Analytics Lab Manual
38 pages
IIT Kharagpur Data Science PDF
No ratings yet
IIT Kharagpur Data Science PDF
22 pages
Big Daa R18 Manual
No ratings yet
Big Daa R18 Manual
84 pages
Big Data Analytics-Digital Notes
No ratings yet
Big Data Analytics-Digital Notes
86 pages
Skyess Spark Syllabus
No ratings yet
Skyess Spark Syllabus
12 pages
DSA Practical Index
No ratings yet
DSA Practical Index
3 pages
Big Data Analytics (R18a0529)
No ratings yet
Big Data Analytics (R18a0529)
134 pages
B.Tech. CS - CE and CSE Syllabus 3rd Year 2024-25
No ratings yet
B.Tech. CS - CE and CSE Syllabus 3rd Year 2024-25
2 pages
Experiment Pgno
No ratings yet
Experiment Pgno
50 pages
L8 Big Data Management en
No ratings yet
L8 Big Data Management en
58 pages
Big Data Analytics Comp Syllabus Sem7
No ratings yet
Big Data Analytics Comp Syllabus Sem7
4 pages
BDA Syllabus - Sem VII - Mumbai University
No ratings yet
BDA Syllabus - Sem VII - Mumbai University
3 pages
COMP9313: Big Data Management
No ratings yet
COMP9313: Big Data Management
79 pages
20IT503 - Big Data Analytics - Unit1
No ratings yet
20IT503 - Big Data Analytics - Unit1
59 pages
Bigdata Syllabus
No ratings yet
Bigdata Syllabus
3 pages
Lab Manual Big Data Analytics Lab (LC-CSE-410G) : Department of Computer Science and Engineering
No ratings yet
Lab Manual Big Data Analytics Lab (LC-CSE-410G) : Department of Computer Science and Engineering
28 pages
20ai402 Data Analytics Unit-2
No ratings yet
20ai402 Data Analytics Unit-2
72 pages
Big Data & Hadoop - Course Curriculum
No ratings yet
Big Data & Hadoop - Course Curriculum
6 pages
Bigdata Syllabus
No ratings yet
Bigdata Syllabus
2 pages
Big Data SV Publication
No ratings yet
Big Data SV Publication
142 pages
Big Data Syllabus For Theory and Lab
No ratings yet
Big Data Syllabus For Theory and Lab
4 pages
Big Data Analytics Digital Notes
No ratings yet
Big Data Analytics Digital Notes
119 pages
Big Data Training in Chennai - Big Data Course in Chennai
No ratings yet
Big Data Training in Chennai - Big Data Course in Chennai
1 page
MCA 3rd Semester Big Data Analytics Syllabus
No ratings yet
MCA 3rd Semester Big Data Analytics Syllabus
15 pages
4-2 Bda PPTS
No ratings yet
4-2 Bda PPTS
114 pages
Big Data
No ratings yet
Big Data
2 pages
Data and Analytics Syllabus
No ratings yet
Data and Analytics Syllabus
4 pages
Venu Data Engineering Training in Hyderabad 1
No ratings yet
Venu Data Engineering Training in Hyderabad 1
8 pages
Bda - Digital Notes
No ratings yet
Bda - Digital Notes
85 pages
Big Data Hadoop - Course Curriculum - V1
No ratings yet
Big Data Hadoop - Course Curriculum - V1
7 pages
Essentials of Big Data Griet
No ratings yet
Essentials of Big Data Griet
2 pages
2024 25 ODD CE449 BDA Syllabus
No ratings yet
2024 25 ODD CE449 BDA Syllabus
4 pages
Bad601 Lab Maual
No ratings yet
Bad601 Lab Maual
34 pages
Course Outline Hadoop and Spark For Big Data and Data Science
100% (1)
Course Outline Hadoop and Spark For Big Data and Data Science
4 pages
Course Outline Hadoop and Spark For Big Data and Data Science PDF
No ratings yet
Course Outline Hadoop and Spark For Big Data and Data Science PDF
4 pages
Big Data Analytics
No ratings yet
Big Data Analytics
3 pages
Cloud Data Engineering V1.0
No ratings yet
Cloud Data Engineering V1.0
5 pages
Professional Hadoop Solutions
From Everand
Professional Hadoop Solutions
Boris Lublinsky
4/5 (2)
IGNOU PGDCA MCS 202 Computer Organisation Previous Years Unsolved Papers
From Everand
IGNOU PGDCA MCS 202 Computer Organisation Previous Years Unsolved Papers
Manish Soni
No ratings yet
Learning Apache Spark 2
From Everand
Learning Apache Spark 2
Muhammad Asif Abbasi
No ratings yet
Learn Hive in 24 Hours
From Everand
Learn Hive in 24 Hours
Alex Nordeen
No ratings yet
Hadoop Engineering
From Everand
Hadoop Engineering
Jaxon Vyas
No ratings yet
GCP Data Engineer Resume Examples For 2024 Resume Worded
No ratings yet
GCP Data Engineer Resume Examples For 2024 Resume Worded
1 page
Sahithi Devi
No ratings yet
Sahithi Devi
10 pages
Apache Spark Analytics Made Simple
No ratings yet
Apache Spark Analytics Made Simple
76 pages
Hive Is A Data Warehouse Infrastructure Tool To Process Structured Data in Hadoop
No ratings yet
Hive Is A Data Warehouse Infrastructure Tool To Process Structured Data in Hadoop
30 pages
Introduction To HIVE
No ratings yet
Introduction To HIVE
8 pages
Personal Expense Tracker (PET)
No ratings yet
Personal Expense Tracker (PET)
40 pages
Lecture Notes - Hive and Querying
No ratings yet
Lecture Notes - Hive and Querying
20 pages
Big Data Framework
No ratings yet
Big Data Framework
3 pages
Accelerate Machine Learning With A Unified Analytics Architecture
No ratings yet
Accelerate Machine Learning With A Unified Analytics Architecture
56 pages
STUTI - GUPTA Hadoop Resume PDF
No ratings yet
STUTI - GUPTA Hadoop Resume PDF
2 pages
BDA Lab2
No ratings yet
BDA Lab2
8 pages
In 100 NewFeaturesGuide en
No ratings yet
In 100 NewFeaturesGuide en
61 pages
Data Analytics Complete Notes
No ratings yet
Data Analytics Complete Notes
33 pages
Hbase PDF
No ratings yet
Hbase PDF
8 pages
Advanced Data Cleaning Techniques With PySpark
No ratings yet
Advanced Data Cleaning Techniques With PySpark
25 pages
Data Science Career Guide
100% (3)
Data Science Career Guide
11 pages
Whiz Cheat Sheet DP 203 v2
No ratings yet
Whiz Cheat Sheet DP 203 v2
42 pages
Examsboost 06122024181643 Demo
No ratings yet
Examsboost 06122024181643 Demo
8 pages
Sqoop Big Data Tech
No ratings yet
Sqoop Big Data Tech
16 pages
BD Notes 5
No ratings yet
BD Notes 5
37 pages
BigData Cs-704 Practical
No ratings yet
BigData Cs-704 Practical
28 pages
Shreya BigData 3yr
No ratings yet
Shreya BigData 3yr
2 pages
Internet of Things (Design Principles For Web Connectivity) : By: Dr. Raj Kamal
No ratings yet
Internet of Things (Design Principles For Web Connectivity) : By: Dr. Raj Kamal
44 pages
Bda Syllb
No ratings yet
Bda Syllb
4 pages
CS Aiml3
No ratings yet
CS Aiml3
236 pages
Anup Kumar June Resume Updated
No ratings yet
Anup Kumar June Resume Updated
2 pages
Ibraheem - SAP LE (SD) - Hyderabad - 5.5yrs
No ratings yet
Ibraheem - SAP LE (SD) - Hyderabad - 5.5yrs
5 pages
Benjamin Reyes Cabalona JR.: Okada Manila
No ratings yet
Benjamin Reyes Cabalona JR.: Okada Manila
1 page
DS Lab - Manual - Assignment 11
No ratings yet
DS Lab - Manual - Assignment 11
3 pages

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.

Big Data-Spark Lab Syllabus

Uploaded by

Big Data-Spark Lab Syllabus

Uploaded by

R22 B.Tech.

CSE Syllabus JNTU Hyderabad

CS606PC: BIG DATA-SPARK

B.Tech. III Year II Sem. L T P C

2. Loading DataSet in to HDFS for Spark Analysis

3. File management tasks & Basic linux commands

6. Compute Average Salary and Total Salary by Gender for an Enterprise.

Page 115 of 154

7. (i) Creating hive tables (External and internal)

10. Pyspark -RDD’S

11. Perform pyspark transformations

12. Pyspark sparkconf-Attributes and applications

Page 116 of 154

You might also like

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.