0% found this document useful (0 votes)

3 views4 pages

Lab Experiment 6

This document outlines a lab experiment focused on solving the parallel reduction problem using loop unrolling in CUDA. It includes a comparison of traditional and unrolled loops for adding elements of two arrays, along with sample code demonstrating the implementation. The experiment also measures GPU computation time and verifies results against CPU addition.

Uploaded by

Ahmad Abdullah Khan

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

3 views4 pages

Lab Experiment 6

Uploaded by

Ahmad Abdullah Khan

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

You are on page 1/ 4

Lab Experiment # 6

The Parallel Reduction Problem using Loop-Unrolling

in CUDA [CLO 1, CLO 2, CLO 3]

In the last Lab, the parallel reduction problem was solved using two different ways.
Neighboured pair: Elements are paired with their immediate neighbour.
Interleaved pair: Paired elements are separated by a given stride.
In this Lab, the same problem will be solved with loop unrolling.
Unrolled Loops: Paired elements in different blocks are added without using loops.
A simple loop to add n elements of two arrays is as follows:
for (int i = 0; i < n; i++) {
a[i] = b[i] + c[i];
}
An unrolled loop to do the same computation in n/3 iterations is as follows:
for (int i = 0; i < n/3; i += 3) {
a[i] = b[i] + c[i];
a[i+1] = b[i+1] + c[i+1];
A[i+2] = b[i+2] + c[i+2];

Sample Code for Unrolled Loops

import numpy as np
import pycuda.driver as cuda
import pycuda.autoinit
from pycuda.compiler import SourceModule
import math
import time

# Function to initialize the arrays with random values

def initialize_arrays(n):
A = np.random.rand(n).astype(np.float32)
B = np.random.rand(n).astype(np.float32)
C = np.zeros_like(A)
return A, B, C
# CUDA C Kernel with an unrolled loop
kernel_code = """
__global__ void add_arrays_unrolled(float *A, float *B, float *C, int
N)
{
int i = threadIdx.x + blockIdx.x * blockDim.x;

// Check bounds
if (i >= N) return;

// Unrolled loop for adding 4 elements at a time

int stride = 4; // Number of elements to process in each iteration
if (i + 3 < N) {
C[i] = A[i] + B[i];
C[i+1] = A[i+1] + B[i+1];
C[i+2] = A[i+2] + B[i+2];
C[i+3] = A[i+3] + B[i+3];
} else {
// Handle the remaining elements
if (i < N) C[i] = A[i] + B[i];
if (i + 1 < N) C[i + 1] = A[i + 1] + B[i + 1];
if (i + 2 < N) C[i + 2] = A[i + 2] + B[i + 2];
}
}
"""

# Main function to run the program

def main():
# Set array size
N = 1024 # You can change this to any size (1 million, 2 million,
etc.)

# Initialize data
A, B, C = initialize_arrays(N)
# Allocate memory on the GPU
d_A = cuda.mem_alloc(A.nbytes)
d_B = cuda.mem_alloc(B.nbytes)
d_C = cuda.mem_alloc(C.nbytes)

# Copy data from host to device

cuda.memcpy_htod(d_A, A)
cuda.memcpy_htod(d_B, B)

# Compile the kernel code

mod = SourceModule(kernel_code)
add_arrays = mod.get_function("add_arrays_unrolled")

# Set block and grid size

block_size = 256 # 256 threads per block
grid_size = math.ceil(N / block_size)

# Launch the kernel

start_time = time.time()
add_arrays(d_A, d_B, d_C, np.int32(N), block=(block_size, 1, 1),
grid=(grid_size, 1))
cuda.Context.synchronize() # Ensure the kernel finishes
elapsed_time = time.time() - start_time
print(f"GPU Computation Time: {elapsed_time:.4f} seconds")

# Copy the result back to host

cuda.memcpy_dtoh(C, d_C)

# Verify the result by comparing with CPU addition

cpu_result = A + B
assert np.allclose(C, cpu_result), "Results don't match!"

print("Computation complete and verified.")

if __name__ == "__main__":
main()

SFSU Business Requirements Template v1.7
100% (1)
SFSU Business Requirements Template v1.7
3 pages
OS Lab Python Programs
No ratings yet
OS Lab Python Programs
43 pages
Ad3511 Deep Learning Lab Manual
No ratings yet
Ad3511 Deep Learning Lab Manual
80 pages
Casio Calculator Program Library - Wak A Rat
No ratings yet
Casio Calculator Program Library - Wak A Rat
2 pages
Veeam Licensing Short
No ratings yet
Veeam Licensing Short
10 pages
CUDA Exercises
No ratings yet
CUDA Exercises
185 pages
Implementing AI Models On FPGAs - A Comprehensive T
No ratings yet
Implementing AI Models On FPGAs - A Comprehensive T
43 pages
08 Dataparallel
No ratings yet
08 Dataparallel
51 pages
Cuda
No ratings yet
Cuda
7 pages
Ad3511-Deep Learning-Lab Manual
No ratings yet
Ad3511-Deep Learning-Lab Manual
53 pages
Web GPU
0% (1)
Web GPU
40 pages
HPC Codes
No ratings yet
HPC Codes
14 pages
2023 CSC14120 Lecture01 CUDAIntroduction
No ratings yet
2023 CSC14120 Lecture01 CUDAIntroduction
32 pages
Lab09 Assignment
No ratings yet
Lab09 Assignment
29 pages
Moving To Parallel - Addition of 2 Matrices
No ratings yet
Moving To Parallel - Addition of 2 Matrices
14 pages
Addition Cuda
No ratings yet
Addition Cuda
2 pages
Cuda Add Mult
No ratings yet
Cuda Add Mult
3 pages
CSE101 Lec#0
No ratings yet
CSE101 Lec#0
22 pages
CUDA Additionof2Vector
No ratings yet
CUDA Additionof2Vector
2 pages
Cuda
No ratings yet
Cuda
4 pages
Pdclab 5
No ratings yet
Pdclab 5
11 pages
HW 2
No ratings yet
HW 2
12 pages
IDesign C# Coding Standard 2.4
0% (1)
IDesign C# Coding Standard 2.4
27 pages
Group A Assignment 4 (A) : Two Large Vectors
No ratings yet
Group A Assignment 4 (A) : Two Large Vectors
5 pages
Software Engineering Presentation
No ratings yet
Software Engineering Presentation
3 pages
FFT Full
No ratings yet
FFT Full
6 pages
CUDA
No ratings yet
CUDA
3 pages
Assignment Report
No ratings yet
Assignment Report
15 pages
Parallel Scan in C CUda
No ratings yet
Parallel Scan in C CUda
3 pages
Lab7 GPU
No ratings yet
Lab7 GPU
10 pages
Chapter Parallel Prefix Sum
No ratings yet
Chapter Parallel Prefix Sum
21 pages
CUDA Programming Invert
No ratings yet
CUDA Programming Invert
36 pages
Rishi
No ratings yet
Rishi
30 pages
Log
No ratings yet
Log
85 pages
Csnb594csnb4423 Lab 5 01a Harveen Velan Sw0104101
No ratings yet
Csnb594csnb4423 Lab 5 01a Harveen Velan Sw0104101
19 pages
Gym Management
No ratings yet
Gym Management
12 pages
HPC File
No ratings yet
HPC File
22 pages
Matrix Mult
100% (1)
Matrix Mult
55 pages
DeviceFunc Cu
100% (1)
DeviceFunc Cu
1 page
Kernel Cu
100% (1)
Kernel Cu
1 page
Google Colab Solution Activity
No ratings yet
Google Colab Solution Activity
5 pages
TP1: Converting Vector Addition To CUDA.: Listing 1 An Example of Vector Addition Implemented in C
No ratings yet
TP1: Converting Vector Addition To CUDA.: Listing 1 An Example of Vector Addition Implemented in C
1 page
Operating Systems Full
100% (1)
Operating Systems Full
150 pages
PyCUDA AH PDF
No ratings yet
PyCUDA AH PDF
16 pages
113 ERP606 BB ConfigGuide EN CN
No ratings yet
113 ERP606 BB ConfigGuide EN CN
6 pages
Department of Computer Engineering BE Laboratory Practice-I A.Y 2021-22 SEM1
No ratings yet
Department of Computer Engineering BE Laboratory Practice-I A.Y 2021-22 SEM1
45 pages
Input: Output: 1. Sub String Program
No ratings yet
Input: Output: 1. Sub String Program
8 pages
HPC (Pra 04)
No ratings yet
HPC (Pra 04)
11 pages
20 Quiz 14
No ratings yet
20 Quiz 14
12 pages
DSA Lab Program
No ratings yet
DSA Lab Program
52 pages
My Experiments: Opencl Gpu Matrix Multiplication Program
No ratings yet
My Experiments: Opencl Gpu Matrix Multiplication Program
19 pages
Vector Addition
No ratings yet
Vector Addition
3 pages
Lab 7
No ratings yet
Lab 7
3 pages
LP 1,,1
No ratings yet
LP 1,,1
5 pages
Cuda Firstprograms PDF
No ratings yet
Cuda Firstprograms PDF
6 pages
AD3511-DEEP LEARNING LAB MANUAL Revised
No ratings yet
AD3511-DEEP LEARNING LAB MANUAL Revised
72 pages
Computer Notes Chapter 2 Class 5
No ratings yet
Computer Notes Chapter 2 Class 5
3 pages
BECOA157 Parallel Matrix Multiplication
No ratings yet
BECOA157 Parallel Matrix Multiplication
3 pages
3 Cuda
No ratings yet
3 Cuda
5 pages
Cuda Mode Lecture2
No ratings yet
Cuda Mode Lecture2
33 pages
Ejercicio 2 Práctica 3: CUDA Desempeño en Función de La Homogeneidad para Acceder A Memoria y de La Regularidad Del Código
No ratings yet
Ejercicio 2 Práctica 3: CUDA Desempeño en Función de La Homogeneidad para Acceder A Memoria y de La Regularidad Del Código
8 pages
Lab 1 Parallel
No ratings yet
Lab 1 Parallel
4 pages
Introduction To CUDA: CAP 4730 Spring 2012
No ratings yet
Introduction To CUDA: CAP 4730 Spring 2012
35 pages
Clenqueuereadbuffer (Queue, C - Buffer,, 0, N, C, 0, ,)
No ratings yet
Clenqueuereadbuffer (Queue, C - Buffer,, 0, N, C, 0, ,)
3 pages
Arbaj Momin Viit
No ratings yet
Arbaj Momin Viit
1 page
Visual C# Programming Basics
100% (7)
Visual C# Programming Basics
19 pages
Auto Expect
No ratings yet
Auto Expect
9 pages
Lab Report 6
No ratings yet
Lab Report 6
12 pages
Week 11
No ratings yet
Week 11
21 pages
Sap La TS410 en 17 SG
No ratings yet
Sap La TS410 en 17 SG
5 pages
Cuda Notes From Udacity Lecture
No ratings yet
Cuda Notes From Udacity Lecture
3 pages
OpenCL Guide
No ratings yet
OpenCL Guide
19 pages
Selenium Vs QTP: Latest Topics
No ratings yet
Selenium Vs QTP: Latest Topics
5 pages
STE Annexure-1
No ratings yet
STE Annexure-1
3 pages
Joins : (Source:)
No ratings yet
Joins : (Source:)
2 pages
Muhammad Resume
No ratings yet
Muhammad Resume
5 pages
R and R Studio Introduction
No ratings yet
R and R Studio Introduction
24 pages
PAM Serial Line
No ratings yet
PAM Serial Line
62 pages
Lecture 11 Programming On Gpus Part 1 Zxu2acms60212 40212 S15lec 11 Gpupdf
No ratings yet
Lecture 11 Programming On Gpus Part 1 Zxu2acms60212 40212 S15lec 11 Gpupdf
121 pages
BPM With PegaSystems
No ratings yet
BPM With PegaSystems
24 pages
JavaScript Deobfuscation
No ratings yet
JavaScript Deobfuscation
21 pages
Day 1 Part 2 TOGAF Content Meta Model
No ratings yet
Day 1 Part 2 TOGAF Content Meta Model
23 pages
Multipass Assembler
100% (4)
Multipass Assembler
5 pages
System Verilog Introduction
No ratings yet
System Verilog Introduction
20 pages
Java Unit 2
No ratings yet
Java Unit 2
7 pages
Implement The BADI To Download The Vendor Data in A Excel Sheet
No ratings yet
Implement The BADI To Download The Vendor Data in A Excel Sheet
8 pages
Page 2 - ExamTopics
No ratings yet
Page 2 - ExamTopics
7 pages
An Introduction To PyCUDA Using Prefix Sum Algorithm PDF
No ratings yet
An Introduction To PyCUDA Using Prefix Sum Algorithm PDF
6 pages
Gpu, Cuda and Pycuda
No ratings yet
Gpu, Cuda and Pycuda
11 pages
Advanced C Concepts and Programming: First Edition
From Everand
Advanced C Concepts and Programming: First Edition
Gayatri
3/5 (1)

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.

Lab Experiment 6

Uploaded by

Lab Experiment 6

Uploaded by

Lab Experiment # 6

The Parallel Reduction Problem using Loop-Unrolling

Sample Code for Unrolled Loops

# Function to initialize the arrays with random values

// Unrolled loop for adding 4 elements at a time

# Main function to run the program

# Copy data from host to device

# Compile the kernel code

# Set block and grid size

# Launch the kernel

# Copy the result back to host

# Verify the result by comparing with CPU addition

print("Computation complete and verified.")

You might also like

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.