Программирование графических процессоров Лабораторная 2

Состав работы

CF3B9037-B37D-486B-BCA6-B497518A419F.rar [ 16 MB ]

lab2

.vs

lab2

v16

.suo [ 42 KB ]

Browse.VC.db [ 41 MB ]

ipch

AutoPCH

361bd18ad6c7a4d8

KERNEL.ipch [ 40 MB ]

v17

.suo [ 42 KB ]

Browse.VC.db [ 392 KB ]

kernel.cu [ 5 KB ]

lab2

kernel.cu [ 5 KB ]

lab2.vcxproj [ 4 KB ]

lab2.vcxproj.user [ 168 bytes ]

x64

Debug

kernel.cu-830140883.deps [ 14 KB ]

kernel.cu.cache [ 1 KB ]

kernel.cu.obj [ 164 KB ]

lab2.exe.recipe [ 293 bytes ]

lab2.ilk [ 3 MB ]

lab2.log [ 4 KB ]

lab2.tlog

CudaCompile.read.1u.tlog [ 27 KB ]

CudaCompile.write.1u.tlog [ 224 bytes ]

lab2.lastbuildstate [ 161 bytes ]

lab2.write.1u.tlog [ 10 KB ]

link.command.1.tlog [ 2 KB ]

link.read.1.tlog [ 4 KB ]

link.write.1.tlog [ 450 bytes ]

vc142.pdb [ 1012 KB ]

lab2.exe [ 748 KB ]

lab2.sln [ 1 KB ]

x64

Debug

lab2.exe [ 748 KB ]

lab2.exp [ 764 bytes ]

lab2.lib [ 2 KB ]

lab2.pdb [ 4 MB ]

Документ Microsoft Word.docx [ 18 KB ]

Работа представляет собой rar архив с файлами (распаковать онлайн), которые открываются в программах:

Microsoft Word

Что делать, если файл не открывается

Описание

Задание
1. Прочитайте главу из теоретического материала "Разделяемая память" и ответьте на контрольные вопросы (ответы на контрольные вопросы не нужно включать в отчёт по лабораторной работе).
2. Оптимизируйте алгоритмы, реализованные в лабораторной работе №1 при помощи разделяемой памяти.
3. Постройте графики зависимости времени выполнения алгоритма от размера матрицы и вектора (Размеры матрицы 1000x500, 1000x1000, 1500x1000, 2000x1000, 2000x1500, 2500x1500, 2500x2000).
4. Проанализируйте, реализованные алгоритмы при помощи утилиты nvprof на эффективность доступа к глобальной памяти.
Методические указания по выполнению лабораторной работы
Разделяемая память – это своего рода кэш. Ускорения от использования разделяемой памяти можно достичь только если к каким-то данным происходит многократное обращение. Тогда переместив их в разделяемую память из глобальной можно сократить время затраченное на обращение в память за счёт высокой скорости разделяемой памяти.
Рассмотрим схему параллельного умножения матрицы на вектор.

Рис. 1 – схема умножения матрицы на вектор
Каждая нить берёт по одной строке матрицы и умножает попарно элементы строки на элементы вектора. Все нити используют один и тот же вектор. Скопировав вектор в разделяемую память можно получить ускорения выполнения алгоритма. Но проблема разделяемой памяти в том, что её объём очень мал по сравнению с объёмом глобальной памяти. Поэтому нужно предусмотреть ситуацию когда вектор полностью в память не помещается.
Учитывая, что разделяемой памяти может не хватить нужно модифицировать алгоритм таким образом чтобы часть вектора копировалась в разделяемую память. Нити умножали часть строки на часть вектора, расположенного в разделяемой памяти. Затем копировали следующую часть вектора в разделяемую память и умножали элементы следующей части строки и т.д. как показано на рисунке 2.

Рис. 2 – умножение нитью строки на вектор с копированием частей вектора в разделяемую память
Копирование частей вектора можно производить параллельно, каждая нить может копировать в разделяемую память один или несколько элементов. Таким образом псевдокод алгоритма будет выглядеть следующим образом:
//Выделяем разделяемую память
//Количество элементов будет равно количеству нитей в блоке.
__shared__ shared_vector[THREAD_PER_BLOCK];

//k - номер части вектора. +1 потому что M не обязательно делится нацело
for(k = 0; k < (M / THREAD_PER_BLOCK) + 1; ++k) {
//p - реальный номер элемента вектора
//который будет скопирован нитью в разделяемую память
p = threadIdx.x + THREAD_PER_BLOCK * k;
//Проверка на выход за пределы вектора
if(p < M) {
//Копирование из глобальной памяти в разделяемую
//Т.к. размер разделяемой памяти равен размеру блока
//Каждая нить может скопировать по одному элементу
shared_vector[threadIdx.x] = V[threadIdx.x + THREAD_PER_BLOCK * k];
}
//Синхронизация. Нужно дождаться пока все нити скопируют свои элементы
//Потому что каждая нить использует скопированную часть вектора полностью
__syncthread();
//i - глобальный номер нити, N - количество строк в матрице
//Проверка не выходим ли за границы матрицы
if (i < N) {
//Умножение части вектора на часть строки
//j - порядковый номер элемента в части вектора или строки матрицы
//чтобы получить реальный номер элемента матрицы
//нужно прибавить j количеству полностью обработанных элементов
for(j = 0; j < THREAD_PER_BLOCK; ++j) {
C[i] += A[i][j + k * THREAD_PER_BLOCK] * shared_vector[j];
}
}
//Синхронизация нужна для того чтобы убедиться
//что все нити закончили работу с частью вектора
//потому что следующая операция - перезапись разделяемой памяти
__syncthread();
}
В данном коде можно сделать ещё одну оптимизацию – перенести операции над вектором C в разделяемую память. И скопировать результат в глобальную только после того как результат будет посчитан. С учётом этого алгоритм будет выглядеть следующим образом:
//Выделяем разделяемую память
//Количество элементов будет равно количеству нитей в блоке.
__shared__ shared_vector[THREAD_PER_BLOCK];
__shared__ shared_c[THREAD_PER_BLOCK];

shared_c[threadId.x] = 0;
__syncthread();

//k - номер части вектора. +1 потому что M не обязательно делится нацело
for(k = 0; k < (M / THREAD_PER_BLOCK) + 1; ++k) {
//p - реальный номер элемента вектора
//который будет скопирован нитью в разделяемую память
p = threadIdx.x + THREAD_PER_BLOCK * k;
//Проверка на выход за пределы вектора
if(p < M) {
//Копирование из глобальной памяти в разделяемую
//Т.к. размер разделяемой памяти равен размеру блока
//Каждая нить может скопировать по одному элементу
shared_vector[threadIdx.x] = V[threadIdx.x + THREAD_PER_BLOCK * k];
}
//Синхронизация. Нужно дождаться пока все нити скопируют свои элементы
//Потому что каждая нить использует скопированную часть вектора полностью
__syncthread();
//i - глобальный номер нити, N - количество строк в матрице
//Проверка не выходим ли за границы матрицы
if (i < N) {
//Умножение части вектора на часть строки
//j - порядковый номер элемента в части вектора или строки матрицы
//чтобы получить реальный номер элемента матрицы
//нужно прибавить j количеству полностью обработанных элементов
for(j = 0; j < THREAD_PER_BLOCK; ++j) {
shared_c[threadIdx.x] += A[i][j + k * THREAD_PER_BLOCK] * shared_vector[j];
}
}
//Синхронизация нужна для того чтобы убедиться
//что все нити закончили работу с частью вектора
//потому что следующая операция - перезапись разделяемой памяти
__syncthread();
}
if ( i < N ) {
С[i] = shared_c[threadId.x];
}
__syncthread();
Модификация кода хоста в этой лабораторной работе не требуется
Для анализа эффективности доступа к разделяемой памяти используйте утилиту nvprof. События для профилирования: shared_ld_bank_conflict – количество конфликтов банков памяти при считывании данных, shared_st_bank_conflict– количество конфликтов банков памяти при записи данных. И метрики: shared_efficiency – эффективность использования пропускной способности шины данных разделяемой памяти, shared_load_transactions_per_request – количество транзакций при каждом запросе к разделяемой памяти.
По аналогии оптимизируйте алгоритм

Дополнительная информация

зачет

Программирование графических процессоров. Лабораторная работа №2

Тема: Работа с разделяемой памятью Задание 1. Прочитайте главу из теоретического материала "Разделяемая память" и ответьте на контрольные вопросы (ответы на контрольные вопросы не нужно включать в отчёт по лабораторной работе). 2. Оптимизируйте алгоритмы, реализованные в лабораторной работе №1 при помощи разделяемой памяти. 3. Постройте графики зависимости времени выполнения алгоритма от размера матрицы и вектора (Размеры матрицы 1000x500, 1000x1000, 1500x1000, 2000x1000, 2000x1500, 2500x1500, 2

Программирование графических процессоров ДО СИБГУТИ Работа Лабораторная

pleze : 20 марта 2022

300 руб.

Лабораторная работа 2 Программирование графических процессоров Все варианты 2023 год

2023 год СибГУТИ Сибирский государственный университет телекоммуникаций и информатики Милешко Антон Владимирович Тема: Лабораторная работа 1 2 3 Программирование графических процессоров Все варианты 2023 год Задания Лабораторная работа №2 по курсу «Программирование графических процессоров» на тему «Работа с разделяемой памятью» Выполнение лабораторной работы поможет получить навыки требующиеся для выполнения второго и третьего заданий контрольной работы. Задание 1. Прочитайте главу из теоретич

Программирование графических процессоров ДО СИБГУТИ Работа Лабораторная

SibSUTTI : 1 сентября 2023

198 руб.

Лабораторная работа 1 2 3 Программирование графических процессоров Все варианты 2023 год

Выполнение лабораторной работы поможет получить навыки, требующиеся для выполнения первого и третьего заданий контрольной работы. Задание 1. Прочитайте главы теоретического материала под названиями "Отличия GPU от CPU", "Первая программа на CUDA C", "Алгоритм сложения двух векторов на GPU", "События, обработка ошибок и получение информации об устройстве", "Глобальная, локальная и константная память". Ответьте на контрольные вопросы и выполните контрольные задания, предложенные в конце этих глав

Программирование графических процессоров СибГУТИ Работа Лабораторная

Alexey312451 : 16 марта 2024

400 руб.

Лабораторная работа 1 2 3 Программирование графических процессоров Все варианты 2023 год

2023 год СибГУТИ Сибирский государственный университет телекоммуникаций и информатики Милешко Антон Владимирович Тема: Лабораторная работа 1 2 3 Программирование графических процессоров Все варианты 2023 год Задания Лабораторная работа №1 по курсу «Программирование графических процессоров» на тему «Работа с глобальной памятью» Выполнение лабораторной работы поможет получить навыки, требующиеся для выполнения первого и третьего заданий контрольной работы. Задание 1. Прочитайте главы теоретическ

Программирование графических процессоров ДО СИБГУТИ Работа Лабораторная

SibSUTTI : 1 сентября 2023

498 руб.

Лабораторная работа №2 "Работа с разделяемой памятью" по дисциплине "Программирование графических процессоров". Вариант общий

Выполнение лабораторной работы поможет получить навыки требующиеся для выполнения второго и третьего заданий контрольной работы. Задание 1. Прочитайте главу из теоретического материала "Разделяемая память" и ответьте на контрольные вопросы (ответы на контрольные вопросы не нужно включать в отчёт по лабораторной работе). 2. Оптимизируйте алгоритмы, реализованные в лабораторной работе №1 при помощи разделяемой памяти. 3. Постройте графики зависимости времени выполнения алгоритма от размера матрицы

Программирование графических процессоров ДО СИБГУТИ Работа Лабораторная

vpozyaikin : 1 марта 2021

500 руб.

Лабораторная работа 2 (Вариант 3) По дисциплине: Программирование графических процессоров. Тема: «Работа с разделяемой памятью».

Программирование графических процессоров ДО СИБГУТИ Работа Лабораторная

alexadubinina : 21 ноября 2024

300 руб.

Теплотехника РГАУ-МСХА 2018 Задача 4 Вариант 18

По трубе внутренним диаметром d, мм и длиной L, м протекает вода со скоростью ω, м/с (рис. 2.3). Средняя температура воды – t, °С , а внутренней стенки трубы – tс, °С. Определите коэффициент теплоотдачи от воды к стенке трубы и передаваемый тепловой поток. Ответить на вопросы: 1. Дайте определение конвективному теплообмену, вынужденной конвекции. 2. Что изучает теория подобия, каково ее назначение? 3. Какие наблюдаются режимы течения жидкости (газа) в трубах? При каких условиях они воз

Задачи Теплотехника

Z24 : 26 января 2026

200 руб.

Лабораторная работа 2 Программирование графических процессоров Все варианты 2023 год

Программирование графических процессоров ДО СИБГУТИ Работа Лабораторная

SibSUTTI : 1 сентября 2023

198 руб.

Теплотехника ЮУрГАУ 2017 Задача 4 Влажный воздух Вариант 9

Обработка воздуха в приточной камере осуществляется с частичной рециркуляцией. в камере процесс смешения воздуха может осуществляться 2-мя способами. 1-ый способ: наружный воздух смешивается с внутренним воздухом, забираемым из помещения подогревается в калорифере и подается в помещение с температурой tпр, ºС. 2-ой способ: если точка смеси лежит в области ниже φ=100%, тогда наружный воздух предварительно подогревается в калорифере 1-ой ступени до температуры tпр, ºС, смешивается с внутренни

Задачи Теплотехника

Z24 : 5 декабря 2025

250 руб.

Проектирование и расчет рулевого управления автомобиля ИЖ 2126

Курсовой проект. Проектирование и расчет рулевого управления автомобиля ИЖ 2126 1 Исходные данные для проектирования - Предполагаемая марка автомобиля ИЖ 2126 - Разрешенная максимальная масса автомобиля, кг =1380 - Размерность шин 175/70 R13 - Допустимый суммарный люфт рулевого колеса, 0 10 - Доп

Автомобильный транспорт Работа Курсовая

DiKey : 5 октября 2021

350 руб.

Программирование графических процессоров Лабораторная 2

Состав работы

Описание

Дополнительная информация

Похожие материалы

Другие работы

Вход