0% found this document useful (0 votes)

26 views10 pages

BDA Mod 3 Piglatin

Big data analytics|module 3 6th sem

Uploaded by

bibliophileonthesamepage

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

26 views10 pages

BDA Mod 3 Piglatin

Big data analytics|module 3 6th sem

Uploaded by

bibliophileonthesamepage

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

You are on page 1/ 10

Id Name Age Branch College

1 N1 18 Cse C1
2 N2 18 Ise C1
3 N3 19 Cse C2
4 N4 20 aiml C3
5 N5 19 Aiml C2

Student.csv

id Marks age
1 45 18
2 55 18
4 65 20
5 56 19

Performance.csv
A=LOAD student.csv USING pigstorage(‘,’) AS
(id:int,name:chararray,age:int,branch:chararry,college:chararray);
DUMP A
(1, N1,18,cse,C1)
(2,N2,18,Ise,C1)
(3,N3,19,Cse,C2)
(4,N4,20,aiml,C3)
(5,N5,19,aiml,C2)

B=LOAD performance.csv USING pigstaorage(‘,’) AS (id:int,marks:int,age:int);

DUMP B
(1,45,18)
(2,55,18)
(4,65,20)
(5,56,19)
Id Name Age Branch College
1 N1 18 Cse C1
2 N2 18 Ise C1
3 N3 19 Cse C2
4 N4 20 aiml C3
5 N5 19 Aiml C2

GROUP by a key :
C=GROUP A BY age;
DUMP C;
(18,{(1,N1,18,cse,C1),(2,N2,18,ise,C1)})
(19,{(3,N3,19,Cse,C2),(5,N5,19,Aiml,C2)})
(20,{(4,N4,20,aiml,C3)})

Id Name Age Branch College

1 N1 18 Cse C1
2 N2 18 Ise C1
3 N3 19 Cse C2
4 N4 20 aiml C3
5 N5 19 Aiml C2

GROUP by multiple key fields

D= GROUP A BY (age,college);
DUMP D;
((18,C1),{(1,N1,18,cse,C1),(2,N2,18,ise,C1)})
((19,C2),{(3,N3,19,Cse,C2),(5,N5,19,Aiml,C2)})
((20,C3),{(4,N4,20,aiml,C3)})
Id Name Age Branch College
1 N1 18 Cse C1
2 N2 18 Ise C1
3 N3 19 Cse C2
4 N4 20 aiml C3
5 N5 19 Aiml C2

GROUP by all;
E=GROUP A BY all;
DUMP E;
(all,{(1,N1,18,Cse,C1),(2,N2,18,Ise,C1),(3,N3,19,Cse,C2),(4,N4,20,aiml,C3),
(5,N5,19,Aiml,C2)})
Id Name Age Branch College
1 N1 18 Cse C1
2 N2 18 Ise C1
3 N3 19 Cse C2
4 N4 20 aiml C3
5 N5 19 Aiml C2

C=GROUP A BY college;
DUMP C;
(C1,{(1,N1,18,Cse,C1),(2,N2,18,Ise,C1)})
(C2,{(3,N3,19,Cse,C2),(5,N5,19,Aiml,C2)})
(C3,{4,N4,20,aiml,C3})
FOREACH C GENERATE GROUP as college, AVG(A.age);SUM MAX,MIN
(C1,18)
(C2,19)
(C3,20)
id Marks age
1 45 18
2 55 18
4 65 20
5 56 19

Filter----required tuples with specific

D=Filter B BY marks>=50;
DUMP D;
(2,55,18)
(4,65,20)
(5,56,19)

COGROUP

Problem Statement 1: Employee Salary Analysis

Objective: Analyze employee salary data to find the average salary by department, the highest
salary in each department, and the list of employees earning more than a certain threshold.

Tasks: 1. Calculate the average salary for each department.

2. Find the highest salary in each department.

3. List employees earning more than $70,000.

Employee.csv

Id:int,name:chararry,salary:int,department:chararray,age:int

Id Name Salary Dept age

1 N1 56000 Testing 34
2 N2 50000 Analysis 30
3 N3 100000 ML 45
4 N4 75000 Ml 40

Calculate the average salary for each department.

B=GROUP A BY Dept;

DUMP B;

(Testing,{(1,N1,56000,Testing,34)})

(Analysis,{(2,N2,50000,Analysis,30)})

(ML,{(3,N3,100000,ML,45),(4,N4,75000,ML,40)})

C=FOREACH B GENERATE group as dep,AVG(A.salary);

DUMP C;

(testing,56000)

(analysis,50000)

(ml,87500)

Find the highest salary in each department.

B=GROUP A BY Dept;

DUMP B;

(Testing,{(1,N1,56000,Testing,34)})

(Analysis,{(2,N2,50000,Analysis,30)})

(ML,{(3,N3,100000,ML,45),(4,N4,75000,ML,40)})

C=FOREACH B GENERATE group as dep,MAX(A.salary);

DUMP C;

(testing,56000)

(analysis,50000)

(ml,100000)

List employees earning more than 70,000.

E=FILTER A BY SALARY>=70000;

DUMP E;

(3,N3,100000,ML,45)

(4,N4,75000,ML,40)

COGROUP-----GROUP TUPLES/RECORDS PRESENT MULTIPKLE TABLES

Id Name Age Branch College

1 N1 18 Cse C1
2 N2 18 Ise C1
3 N3 19 Cse C2
4 N4 20 aiml C3
5 N5 19 Aiml C2

id Marks age
1 45 18
2 55 18
4 65 20
5 56 19

C=COGROUP A BY age,B BY age;

(age,{},{})

DUMP C;

(18,{(1,N1,18,Cse,C1),(2,n2,18,Ise,C1)},{(1,45,18),(2,55,18)})

(19,{(3,N3,19,Cse,C2),(5,N5,19,aiml,C2)},{(5,56,19)})

(20,{(4,N4,20,aiml,C3)},{(4,65,20)})

Join-----Join records/table

Self join----table itself

Inner join----2 different

Outer join-----different

----left outer-----all rows of left

-----right outer----all rows of right table

-----full outer----all rows of left n rigt

J=JOIN A1 by id, A2 by id;//self join

(1,N1,18,Cse,C1, 1,N1,18,Cse,C1)

(2,N2,18,Ise,C1, 2,N2,18,Ise,C1)

(3,N3,19,Cse,C2, 3,N3,19,Cse,C2)

(4,N4,20,aiml,C3, 4,N4,20,aiml,C3)

(5,N5,19,aiml,C2, 5,N5,19,aiml,C2)

IJ=JOIN A BY id,B BY id;

DUMP IJ;

(1,N1,18,Cse,C1, 1,45,18)

(2,N2,18,Ise,C1,2,55,18)

(4,N4,20,aiml,C3,4,65,20)

(5,N5,19,aiml,C2,5,56,19)

LJ =JOIN A BY id LEFT OUTER,B BY id;

Dump LJ;

(1,N1,18,Cse,C1, 1,45,18)

(2,N2,18,Ise,C1,2,55,18)

(3,N3,19,Cse,C2,,,)

(4,N4,20,aiml,C3,4,65,20)

(5,N5,19,aiml,C2,5,56,19)

RJ =JOIN A BY id RIGHT OUTER,B BY id;

Dump RJ;

(1,N1,18,Cse,C1, 1,45,18)

(2,N2,18,Ise,C1,2,55,18)

(4,N4,20,aiml,C3,4,65,20)

(5,N5,19,aiml,C2,5,56,19)

FJ =JOIN A BY id FULL OUTER,B BY id;

Dump FJ;

(1,N1,18,Cse,C1, 1,45,18)

(2,N2,18,Ise,C1,2,55,18)

(3,N3,19,Cse,C2,,,)

(4,N4,20,aiml,C3,4,65,20)

(5,N5,19,aiml,C2,5,56,19)
Word Count-Pig Latin

Inut.txt

We like BNMIT

We love BNMIT

A=LOAD input.txt USING pigstorage(‘,’) as(line:chararray);

DUMP A;

We like BNMIT

We love BNMIT

B=FOREACH A GENERATE TOKENIZE(line) As word;

DUMP B;

{We,like,BNMIT}

{We,Love ,BNMIT}

C=FOREACH B GENERATE FLATTEN(word) as word;

DUMP C;

BNMIT

Love

BNMIT

D=GROUP C BY word;

DUMP D;

(We,{We,We})

(Like,{Like})

(BNMIT,{BNMIT,BNMIT})

(Love,{Love})

E=FOREACH D GENERATE GROUP as word,COUNT(C.word);

DUMP E;

(We,2)
(Like,1)

(BNMIT,2)

(Love,1)

Temperature PIG LATIN SCRIPT

Year temp

2000 25

2000 18

2000 31

2024 40

2024 26

A = LOAD temp.csv USING pigstorage(,) as (year:int, temp:int);

DUMP A;

B = GROUP A BY Year;

DUMP B;

(2000, {(2000,25),(2000,18),(2000,31)})

(2024,{(2024,40), (2024, 26)})

C = FOREACH B GENERATE GROUP AS Year, MAX(A.Temp);

DUMP C;

(2000, 31)

(2024, 40)

Management of Ventral Hernias
No ratings yet
Management of Ventral Hernias
22 pages
Product Competitiveness Towards Profitability of Selected Bakeries in Metro Silang, Cavite Jenny Amil Cherry Anne Baysa Jefferson Canadalla
No ratings yet
Product Competitiveness Towards Profitability of Selected Bakeries in Metro Silang, Cavite Jenny Amil Cherry Anne Baysa Jefferson Canadalla
27 pages
Chapter 7
100% (1)
Chapter 7
42 pages
SQL Practice Questions 2 Chapter No 9 SQL
No ratings yet
SQL Practice Questions 2 Chapter No 9 SQL
7 pages
Update Plan
100% (1)
Update Plan
79 pages
MIS 406 Final Practical Assignment 2018-2!10!017
No ratings yet
MIS 406 Final Practical Assignment 2018-2!10!017
27 pages
6005 Completo
No ratings yet
6005 Completo
196 pages
Assignment 1-4
No ratings yet
Assignment 1-4
24 pages
Dbms Queries
No ratings yet
Dbms Queries
16 pages
1) Create A Student Table With Student - Id, Name and Marks As Attributes Where Student - Id Is Primary Key SQL Create Table Student
60% (5)
1) Create A Student Table With Student - Id, Name and Marks As Attributes Where Student - Id Is Primary Key SQL Create Table Student
5 pages
Database Management System: Final Team Project Name - Student ID
No ratings yet
Database Management System: Final Team Project Name - Student ID
11 pages
Mobile-Banking Ebankit PDF
No ratings yet
Mobile-Banking Ebankit PDF
30 pages
Manual MOV-Auma
No ratings yet
Manual MOV-Auma
132 pages
R9350 enGB-US 11 07 11723-0 Leibher
100% (1)
R9350 enGB-US 11 07 11723-0 Leibher
22 pages
Dbms Assignment
No ratings yet
Dbms Assignment
4 pages
DBMS Lab Practical Assignment
No ratings yet
DBMS Lab Practical Assignment
7 pages
Problem Tree-Objectives Tree Template
No ratings yet
Problem Tree-Objectives Tree Template
7 pages
BOSS Supastor Stainless Steel Unvented Cylinders
No ratings yet
BOSS Supastor Stainless Steel Unvented Cylinders
10 pages
DBMS Mysql Assignment 1&2
No ratings yet
DBMS Mysql Assignment 1&2
5 pages
Institute Zaid
No ratings yet
Institute Zaid
2 pages
Rdbms Codes
No ratings yet
Rdbms Codes
20 pages
Diseases of Nervous System of Farm Animals by Ali Sadiek
100% (7)
Diseases of Nervous System of Farm Animals by Ali Sadiek
65 pages
Create Database Database
No ratings yet
Create Database Database
1 page
FALLSEM2021-22 CBS1007 ELA VL2021220104396 Reference Material I 06-Aug-2021 LAB1 SQL
No ratings yet
FALLSEM2021-22 CBS1007 ELA VL2021220104396 Reference Material I 06-Aug-2021 LAB1 SQL
59 pages
Relators Application For Order Requiring Citation
No ratings yet
Relators Application For Order Requiring Citation
63 pages
Mysql Commands
No ratings yet
Mysql Commands
3 pages
Functional Reach
No ratings yet
Functional Reach
16 pages
TOI Ahmadabad
No ratings yet
TOI Ahmadabad
24 pages
Dbms File
No ratings yet
Dbms File
44 pages
SQL Commands
No ratings yet
SQL Commands
3 pages
List of Experiment RDBMS Updated
No ratings yet
List of Experiment RDBMS Updated
3 pages
2DG1 AniagJohnRay Act5
No ratings yet
2DG1 AniagJohnRay Act5
3 pages
Q. Consider The Database For A College. Write The Query For The Following. Insert at Least 5 Tuples Into Each Table
No ratings yet
Q. Consider The Database For A College. Write The Query For The Following. Insert at Least 5 Tuples Into Each Table
5 pages
SQL Experiment Ans
No ratings yet
SQL Experiment Ans
16 pages
Student Database 1
No ratings yet
Student Database 1
9 pages
Doll
No ratings yet
Doll
3 pages
Dbms
No ratings yet
Dbms
44 pages
Iso 25539-4-2021
100% (1)
Iso 25539-4-2021
18 pages
2 - Part1-For
No ratings yet
2 - Part1-For
6 pages
Isolating Switching Amplifier 2-Channel IM1-22EX-R/24VDC
No ratings yet
Isolating Switching Amplifier 2-Channel IM1-22EX-R/24VDC
3 pages
Syllabus Computer Science
No ratings yet
Syllabus Computer Science
2 pages
Mysql Questions
No ratings yet
Mysql Questions
7 pages
HE186829 Le Dinh Huy Lab 4
No ratings yet
HE186829 Le Dinh Huy Lab 4
4 pages
Database SQL Query
No ratings yet
Database SQL Query
17 pages
Lab2 1q
No ratings yet
Lab2 1q
8 pages
Demo Commands
No ratings yet
Demo Commands
11 pages
Lab2 2q
No ratings yet
Lab2 2q
4 pages
1 Error Analysis For Solving IVP: Lecture 25: Numerical Solution of Differential Equations - Error Analysis
No ratings yet
1 Error Analysis For Solving IVP: Lecture 25: Numerical Solution of Differential Equations - Error Analysis
5 pages
(BCSC0802) Lab Practical Assignment #3
No ratings yet
(BCSC0802) Lab Practical Assignment #3
7 pages
Ratio and Proportion
No ratings yet
Ratio and Proportion
40 pages
College Database Lab Exercise and Example
No ratings yet
College Database Lab Exercise and Example
9 pages
Lab Assignment 4 Dbms
No ratings yet
Lab Assignment 4 Dbms
6 pages
Dbms Lab 2
No ratings yet
Dbms Lab 2
9 pages
Probability
No ratings yet
Probability
38 pages
Analisa Respon
No ratings yet
Analisa Respon
9 pages
Data Warehouse Scheme and Syllabus
No ratings yet
Data Warehouse Scheme and Syllabus
2 pages
Formal Languages and Automata Theory (06CS56)
No ratings yet
Formal Languages and Automata Theory (06CS56)
2 pages
Pyq - Atc - 5TH Sem
No ratings yet
Pyq - Atc - 5TH Sem
2 pages
Handout
No ratings yet
Handout
45 pages
Automata Theory and Computability (18CS54)
No ratings yet
Automata Theory and Computability (18CS54)
3 pages
Question Bank-BDA (Module 1&2) 2
No ratings yet
Question Bank-BDA (Module 1&2) 2
5 pages
Table Creation Assignment
No ratings yet
Table Creation Assignment
4 pages
Esguerra JM AdvancedDatabaseSystems
No ratings yet
Esguerra JM AdvancedDatabaseSystems
6 pages
Automata Theory and Computability (18CS54)
No ratings yet
Automata Theory and Computability (18CS54)
2 pages
My SQL
No ratings yet
My SQL
3 pages
DBMS Lab Experiment 4
No ratings yet
DBMS Lab Experiment 4
3 pages
4
No ratings yet
4
8 pages
ATC Question Bank
No ratings yet
ATC Question Bank
2 pages
Requirements Engineering SE Notes
No ratings yet
Requirements Engineering SE Notes
7 pages
Data Sufficiency
No ratings yet
Data Sufficiency
39 pages
Seating Arrangement
No ratings yet
Seating Arrangement
28 pages
Progression
No ratings yet
Progression
29 pages
Pipes and Cisterns
No ratings yet
Pipes and Cisterns
25 pages
Races & Games
No ratings yet
Races & Games
34 pages
Untitled Document
No ratings yet
Untitled Document
13 pages
International Student Application 2022-01-28
No ratings yet
International Student Application 2022-01-28
2 pages
Cytogenetics Lab Report
No ratings yet
Cytogenetics Lab Report
8 pages
SP4-6 Test3 Czytanie
No ratings yet
SP4-6 Test3 Czytanie
3 pages
Ip CV QB 1
No ratings yet
Ip CV QB 1
3 pages
SQL Basics: Constraints in SQL: 1) Not Null
No ratings yet
SQL Basics: Constraints in SQL: 1) Not Null
32 pages
Bda Mod2
No ratings yet
Bda Mod2
8 pages
Big Data
No ratings yet
Big Data
11 pages
BDA - MongoDB
No ratings yet
BDA - MongoDB
12 pages
Hive
No ratings yet
Hive
9 pages
Bda Ans For Ia2 (Partial
No ratings yet
Bda Ans For Ia2 (Partial
5 pages
ASHWIN
No ratings yet
ASHWIN
13 pages
Ia-2 QB
No ratings yet
Ia-2 QB
2 pages
Question Bank For Module 1 and 2
No ratings yet
Question Bank For Module 1 and 2
2 pages
Module 4
No ratings yet
Module 4
4 pages
Big Data Hadoop and Spark
No ratings yet
Big Data Hadoop and Spark
27 pages
Leet Code Problems DBMS
No ratings yet
Leet Code Problems DBMS
14 pages
Reverse Engineering Notes
No ratings yet
Reverse Engineering Notes
4 pages
Jion and Subquery
No ratings yet
Jion and Subquery
12 pages
Question Bank - BDA (Module 5) 2
No ratings yet
Question Bank - BDA (Module 5) 2
1 page
Bda Mod 1
No ratings yet
Bda Mod 1
32 pages
Ip Project
No ratings yet
Ip Project
3 pages
SQL Commands (BK)
No ratings yet
SQL Commands (BK)
2 pages
Student
No ratings yet
Student
3 pages
Housing Brochure
No ratings yet
Housing Brochure
2 pages
Lab-4 & 5
No ratings yet
Lab-4 & 5
7 pages
David Benatar - Better Never To Have Been22
No ratings yet
David Benatar - Better Never To Have Been22
8 pages
SQL Miscellaneous Assignment Solution
No ratings yet
SQL Miscellaneous Assignment Solution
3 pages
Assignment 5 DBMS Lab
No ratings yet
Assignment 5 DBMS Lab
12 pages
Notes Key Topic 1.7 Rational Functions and End Behavior AP PC
No ratings yet
Notes Key Topic 1.7 Rational Functions and End Behavior AP PC
2 pages
SQL Technical Solutions3
No ratings yet
SQL Technical Solutions3
26 pages
SQL Crud StudentDB
No ratings yet
SQL Crud StudentDB
5 pages
SQL Practical Preparation Questions
No ratings yet
SQL Practical Preparation Questions
2 pages
Exp 3
No ratings yet
Exp 3
2 pages
4-Creating A Web Application With Spring Boot
No ratings yet
4-Creating A Web Application With Spring Boot
27 pages
CEGP013091: 49.248.216.238 27/03/2024 13:55:28 Static-238
No ratings yet
CEGP013091: 49.248.216.238 27/03/2024 13:55:28 Static-238
1 page
Advanced SQL QnA With Answers
No ratings yet
Advanced SQL QnA With Answers
4 pages
Dbms
No ratings yet
Dbms
31 pages
National Emblem of India c443d287
No ratings yet
National Emblem of India c443d287
6 pages
Lec 40 Create Table
No ratings yet
Lec 40 Create Table
1 page
Example Q&A
No ratings yet
Example Q&A
5 pages
Student Management Project
No ratings yet
Student Management Project
3 pages
SQL Practical File
No ratings yet
SQL Practical File
10 pages
Amigurumi Patterns of 2 Bunnies
From Everand
Amigurumi Patterns of 2 Bunnies
Durgesh
No ratings yet

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.

BDA Mod 3 Piglatin

Uploaded by

BDA Mod 3 Piglatin

Uploaded by

Id Name Age Branch College

B=LOAD performance.csv USING pigstaorage(‘,’) AS (id:int,marks:int,age:int);

Id Name Age Branch College

GROUP by multiple key fields

Filter----required tuples with specific

Problem Statement 1: Employee Salary Analysis

Tasks: 1. Calculate the average salary for each department.

2. Find the highest salary in each department.

3. List employees earning more than $70,000.

Id Name Salary Dept age

Calculate the average salary for each department.

C=FOREACH B GENERATE group as dep,AVG(A.salary);

Find the highest salary in each department.

C=FOREACH B GENERATE group as dep,MAX(A.salary);

List employees earning more than 70,000.

COGROUP-----GROUP TUPLES/RECORDS PRESENT MULTIPKLE TABLES

Id Name Age Branch College

C=COGROUP A BY age,B BY age;

Self join----table itself

Inner join----2 different

----left outer-----all rows of left

-----right outer----all rows of right table

-----full outer----all rows of left n rigt

J=JOIN A1 by id, A2 by id;//self join

IJ=JOIN A BY id,B BY id;

LJ =JOIN A BY id LEFT OUTER,B BY id;

RJ =JOIN A BY id RIGHT OUTER,B BY id;

FJ =JOIN A BY id FULL OUTER,B BY id;

A=LOAD input.txt USING pigstorage(‘,’) as(line:chararray);

B=FOREACH A GENERATE TOKENIZE(line) As word;

C=FOREACH B GENERATE FLATTEN(word) as word;

E=FOREACH D GENERATE GROUP as word,COUNT(C.word);

Temperature PIG LATIN SCRIPT

A = LOAD temp.csv USING pigstorage(,) as (year:int, temp:int);

(2024,{(2024,40), (2024, 26)})

C = FOREACH B GENERATE GROUP AS Year, MAX(A.Temp);

You might also like

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.