Лабораторная работа №1. Работа с глобальной памятью" по дисциплине "Программирование графических процессоров". Вариант общий

Состав работы

E3F73E6E-9077-4EA8-A571-DA321E186A28.rar [ 1 MB ]

Лабораторная работа 1.pdf [ 1 MB ]

Работа представляет собой rar архив с файлами (распаковать онлайн), которые открываются в программах:

Adobe Acrobat Reader

Что делать, если файл не открывается

Описание

Выполнение лабораторной работы поможет получить навыки, требующиеся для выполнения первого и третьего заданий контрольной работы.
Задание
1. Прочитайте главы теоретического материала под названиями "Отличия GPU от CPU", "Первая программа на CUDA C", "Алгоритм сложения двух векторов на GPU", "События, обработка ошибок и получение информации об устройстве", "Глобальная, локальная и константная память". Ответьте на контрольные вопросы и выполните контрольные задания, предложенные в конце этих глав (ответы на контрольные вопросы не нужно включать в отчёт по лабораторной работе).
2. Реализуйте параллельный алгоритм умножения AxV, где A – матрица, V – вектор.
3. Реализуйте параллельный алгоритм умножения VxA, где A – матрица, V – вектор.
4. Постройте графики зависимости времени выполнения алгоритма от размера матрицы и вектора (Размеры матрицы 1000x500, 1000x1000, 1500x1000, 2000x1000, 2000x1500, 2500x1500, 2500x2000).
5. Прочитайте главу "Профилирование программ", ответьте на контрольные вопросы в конце главы (ответы на контрольные вопросы не нужно включать в отчёт по лабораторной работе).
6. Проанализируйте, реализованные алгоритмы при помощи утилиты nvprof на эффективность доступа к глобальной памяти.
Методические указания по выполнению лабораторной работы
Для того чтобы распараллелить алгоритм AxV взглянем на код последовательного алгоритма. Пусть есть матрица A размером [NxM], где N – количество строк, M – количество столбцов. И вектор V размером M (для умножения нужно чтобы размер вектора совпадал с количеством столбцов в матрице). Результатом такого умножения будет вектор C размера N. Ниже представлен код алгоритма:
for(int i = 0; i < N; ++i) {
for(int j = 0; j < M) {
C[i] += A[i][j] * V[j];
}
}
Для того чтобы получить i-ый элемент результирующего вектора нужно взять i-ую строку матрицы A, все её элементы попарно умножить на элементы вектора и результат умножений сложить.
Теперь нужно выделить части не зависящие друг от друга. Если проанализировать работу алгоритма, то можно увидеть, что вычисление C[i] не зависит от вычислений, проводимых для расчёта других элементов результирующего вектора C. Тогда можно запустить код
for(int j = 0; j < M) {
C[i] += A[i][j] * V[j];
}
на разных вычислителях, а за индекс i взять порядковый номер вычислителя. На GPU таким вычислителем будет нить, а код нужно оформить в функцию-ядро. Важно помнить, что нити не существуют сами по себе, они группируются в блоки, а блоки вмещают не более 1024 нити. Но блоков можно запустить очень большое количество, поэтому будем считать, что их количество не ограничено и их нужно запустить достаточно, чтобы у каждой строки матрицы была своя нить. Количество блоков, которое понадобится можно вычислить по формуле N/THREAD_PER_BLOCK + 1, где N размер данных (в нашем случае это количество строк в матрице), а THREADS_PER_BLOCK – размер блока (если не знаете какой размер выбрать, возьмите 128. Важно чтобы размер был кратен 32). Единица прибавляется в конце т.к. если N не кратно размеру блока, то количество блоков будет на 1 меньше чем нужно, потому что при использовании целочисленного деления результат округлится до ближайшего меньшего целого значения. Из-за этого останется "хвост", который не распределён по нитям, но нам точно известно, что он меньше размера блока, поэтому добавляем ещё один блок для вычислений над этими данными. На рисунке 1 изображена схема распределения вычислений по нитям и блокам.

Рис. 1 – умножение матрицы на вектор
На рисунке видно, что каждая нить работает только с одной строкой и вектором, а результатом её работы является один элемент. После того как все нити отработают результирующий вектор будет полностью вычислен.
Ещё одна проблема – нити имеют свой номер только внутри блока. Чтобы вычислить глобальный номер нити, который будет браться вместо индекса i нужно размер блока умножить на номер блока и прибавить к нему номер нити в блоке (если забыли, где хранятся все эти величины просмотрите ещё раз теоретический материал).
Теперь опишите функцию-ядро – функцию которая будет исполняться каждой нитью GPU. Она должна принимать на вход адрес матрицы A, адрес вектора V, адрес результирующего вектора C, вычислять глобальный номер нити и в цикле вычислять элемент результирующего вектора по алгоритму, описанному выше, номер которого соответствует глобальному номеру нити.
В функции main выделите на хосте память под матрицу, вектор V и результирующий вектор и проинициализируйте их целыми числами (результирующий проинициализируйте нулями). Затем выделите память под матрицу, вектор и результирующий вектор на устройстве. Матрицу на GPU расположите в линейной памяти и используйте для её выделения функцию cudaMallocPitch. В выделенную на устройстве память скопируйте данные с хоста при помощи функции cudaMemcpy2D. Для выделения памяти на устройстве под векторы и копирования данных на устройство используйте cudaMalloc и cudaMemcpy соответственно.
После этого запустите функцию-ядро для вычислений и передайте в качестве параметра запуска размер блока и количество блоков, а в качестве параметров функции передайте адреса выделенной памяти на устройстве. После этого на хосте вызовите функцию cudaDeviceSynchronize, которая будет ожидать завершения работы всех исполняющихся нитей. Затем скопируйте при помощи функции cudaMemcpy результирующий вектор из памяти устройства в память хоста. Проверьте правильно ли сделаны расчёты.
Добавьте к коду программы замеры времени по аналогии из главы "События, обработка ошибок и получение информации об устройстве" и проведите эксперименты с указанными в задании размерами матрицы и вектора.
Главный показатель эффективности доступа к памяти – высокая пропускная способность и высокий процент попаданий в кэш (если используется кэширующий доступ к памяти). Чтобы проанализировать программу на эффективность обращения к глобальной памяти воспользуйтесь консольной утилитой nvprof и следующими метриками:
dram_utilization – уровень пропускной способности dram относительно пиковой пропускной способности (от 0 до 10).
dram_read_throughput – пропускная способность считывания из dram.
dram_write_throughput – пропускная способность записи в dram.
global_hit_rate – процент попаданий в L1/texture кэш.
gld_throughput – пропускная способность считывания из глобальной памяти
gld_reqested_throughput – эффективная пропускная способность считываний из глобальной памяти.
gld_efficiency – эффективность считываний из глобальной памяти – отношение эффективной пропускной способности считываний из глобальной памяти к общей пропускной способности считываний из глобальной памяти.
gst_throughput – пропускная способность записи в глобальную память.
gst_requested_throughput – эффективная пропускная способность записи в глобальную память.
gst_efficiency – эффективность записи в глобальную – отношение gst_requested_throughput к gst_throughput.
Проанализируйте и объясните полученные результаты.
По аналогии с реализацией параллельного алгоритма умножения матрицы на вектор реализуйте параллельный алгоритм умножения вектора на матрицу. Схема доступа нитей и блоков к данным показана на рисунке 2.

Рис. 2 – умножение вектора на матрицу
Теперь каждая нить обращается к столбцу матрицы, а не к строке.

Дополнительная информация

Уважаемый студент дистанционного обучения,
Оценена Ваша работа по предмету: Программирование графических процессоров
Вид работы: Лабораторная работа 1
Оценка:Зачет
Дата оценки: 27.02.2021
Рецензия:Уважаемый
Ваша работа зачтена.
Милешко Антон Владимирович

Телевидение. Лабораторная работа №1. Вариант общий

«Сигналы простых изображений» Цель работы Целью работы является изучение формы и состава различных видеосигналов, измерение их временных параметров. Задание на лабораторную работу 1. Исследовать форму и измерить временные параметры импульсов, участ-вующих в формировании ПТС, для чего соблюдая временные и амплитудные соотношения, зарисовать форму и измерить период следования и длительность ССИ, КСИ, СГИ, КГИ. Для каждого вида импульсов рассчитать скважность и частоту повторения. 2. Получить на

Основы радиосвязи и телевидения Работа Лабораторная

Damovoy : 4 февраля 2021

300 руб.

Лабораторная работа №1 по дисциплине: Информатика. Вариант общий

Лабораторная работа №1 «Технология работы с формулами на примере подсчета количества разных оценок в группе в экзаменационной ведомости» Этап 1. Сформируйте структуру таблицы (рис. 1) и заполните ее постоянными значениями (подпись экзаменатора ставить не надо). В созданной рабочей книге с экзаменационной ведомостью рассчитайте: - количество оценок (отлично, хорошо, удовлетворительно, неудовлетворительно, неявок), полученных в данной группе; - общее количество полученных оценок. Этап 2. Под

ДО СИБГУТИ Информатика Работа Лабораторная

Roma967 : 21 ноября 2023

350 руб.

Теория связи. Лабораторная работа №1. Вариант общий

Тема: ИССЛЕДОВАНИЕ СПЕКТРОВ СИГНАЛОВ Лабораторное задание 1. Изучить связь между формой видеосигнала и его спектром. 2. Изучить форму ДАМ сигнала и его спектр. 3. Изучить форму ДФМ сигнала и его спектр. 4. Объяснить различия в спектре ДАМ, ДФМ и видеосигнала. 3. Порядок выполнения работы 1. Выбрать режим видеосигнала. Изучить влияние значений уровня сигнала А1 и А0 на спектр сигнала в комплексной и вещественной форме. А1, А0 – (0 – 2.0)В. 2. Изучить влияние Т и τ на спектр сигнала в комплексно

Работа Лабораторная Теория связи

Damovoy : 4 февраля 2021

290 руб.

Лабораторная работа 1 (Вариант 3) По дисциплине: Программирование графических процессоров. Тема: Работа с глобальной памятью.

Задание 1. Прочитайте главы теоретического материала под названиями "Отличия GPU от CPU", "Первая программа на CUDA C", "Алгоритм сложения двух векторов на GPU", "События, обработка ошибок и получение информации об устройстве", "Глобальная, локальная и константная память". Ответьте на контрольные вопросы и выполните контрольные задания, предложенные в конце этих глав (ответы на контрольные вопросы не нужно включать в отчёт по лабораторной работе). 2. Реализуйте параллельный алгоритм умножения A

Программирование графических процессоров ДО СИБГУТИ Работа Лабораторная

alexadubinina : 21 ноября 2024

300 руб.

Лабораторные работы №1-3 по дисциплине: Психология. Вариант общий

Практическое занятие 1 Тема: Понятие о психике. Происхождение и развитие сознания человека Цели занятия: 1) Изучить основные положения, связанные с природой и механизмами проявления психики; 2) Изучить сознание как высший уровень психического отражения и высший уровень саморегуляции, познакомиться с физиологическими основами психики человека. Исследуемые понятия: • Понятие о психике • Понятие о сознании • Культурно-историческая концепция развития психики человека • Развитие психики че

Психология СибГУТИ Работа Лабораторная

Учеба "Под ключ" : 9 марта 2026

1300 руб.

Лабораторная работа №1.Линейная антенная решетка. Вариант общий.

Цель работы: исследование электрических характеристик антенной решетки. Основные теоретические сведения. Как известно, одиночный симметричный вибратор обладает слабо выраженными направленными свойствами. Поэтому для формирования узких диаграмм направленности из одиночных вибраторов формируют системы, называемые антенными решетками. Линейной решеткой называют систему излучателей, расположенных в линию (или ряд).

ДО СИБГУТИ Антенны и распространение радиоволн Работа Лабораторная

dolgotanya : 15 января 2025

110 руб.

Лабораторная работа №1 по дисциплине: Теория связи. Вариант общий

Лабораторная работа №1 «Исследование спектров сигналов» 1. Цель работы Исследование связи между временными и частотными характеристиками сигналов. 2. Описание лабораторной установки 3. Лабораторное задание 1) Изучить связь между формой видеосигнала и его спектром. 2) Изучить форму ДАМ сигнала и его спектр. 3) Изучить форму ДФМ сигнала и его спектр. 4) Объяснить различия в спектре ДАМ, ДФМ и видеосигнала. 4. Выполнение работы 4.1 Изучение связи между формой видеосигнала и его спектром 4.1.1 И

ДО СИБГУТИ Работа Лабораторная Теория связи

xtrail : 25 июля 2024

300 руб.

Лабораторная работа №1 по дисциплине: Теория информации. Вариант общий

Формулировка задания Цель работы: Экспериментальное изучение свойств энтропии Шеннона. Среда программирования: любая с С-подобным языком программирования. Результат: программа, тестовые примеры, отчет. Задание: 1. Для выполнения этой практической работы необходимо иметь три файла. Объем каждого файла больше 10 Кб, формат txt. В первом файле должна содержаться последовательность символов (количество различных символов больше 3) с равномерным распределением, т.е. символы в файле встречают

ДО СИБГУТИ Теория информации Работа Лабораторная

Roma967 : 26 марта 2023

300 руб.

Гидромеханика: Сборник задач и контрольных заданий УГГУ Задача 1.8 Вариант а

Дифференциальный манометр, заполненный ртутью, предназначен для измерения разности давлений на уровне осей трубопроводов А (рА) и В (рВ), транспортирующих воду и бензин. Оси трубопроводов находятся на одном горизонте (рис. 1.8). Определить разность давлений в кПа по оси трубопроводов при значениях h1 и h2. Принять плотности жидкостей: воды ρ=103 кг/м³; ртути ρрт=13,6·103 кг/м³; бензина ρбенз=720 кг/м³.

Задачи Гидравлика

Z24 : 3 октября 2025

150 руб.

Контрольная работа и лабораторные работы 1-5 по дисциплине «Базы данных». Вариант в задании.

Варианты заданий Индивидуальное задание: (структурировал) Для предметной области «Расписание»: Преподаватели: ФИО, должность, ученая степень, факультет, кафедра; Кафедра: наименование, зав кафедры, преподаватели, телефон кафедры; Предмет: наименование, вид занятий, аудитория; Курс: наименование курса, день недели, номер пары, предмет. 1. Задание для контрольной работы по дисциплине «Базы данных»…..3 2. Описание типов сущностей (имя, описание, особенности использования) 5 3. Описание типов с

Банки и базы данных ДО СИБГУТИ Работа Контрольная

teacher-sib : 28 сентября 2017

500 руб.

Безопасность жизнедеятельности. Билет №19. 4 курс, 7-й семестр. Год сдачи 2021

Экзамен по предмету Безопасность жизнедеятельности. БИЛЕТ №19. Билет № 19 Дистанционное обучение Дисциплина БЖ 1. Вредные факторы при работе с персональными компьютерами. 2. Ионизирующее излучение. Источники, действие на организм человека. 3. Задача. Определить кратность воздухообмена по избыткам тепла (тепловыделениям). Способы нормализации микроклимата в помещении. Исходные данные для задачи см. в скриншоте.

ДО СИБГУТИ Билеты экзаменационные

Alexandr1305 : 24 декабря 2021

300 руб.

Конус с призматическим отверстием. Чертеж. Вариант 11

Задание ИКГ 14. Конус с призматическим отверстием. Два уровня сложности Вариант 11 Задание подходит для всех универов использующих методичку Вольхина. Чертеж конуса с призматическим отверстием и модель сделаны в компас 21 и сохранен дополнительно формат джпг. Файлы компаса можно просматривать и сохранять в нужный формат бесплатной программой КОМПАС-3D Viewer. Если есть какие-то вопросы или нужно другой вариант, пишите.

Начертательная геометрия и инженерная графика Чертежи НГАСУ

Laguz : 25 февраля 2025

160 руб.

Лабораторная работа №1. Работа с глобальной памятью" по дисциплине "Программирование графических процессоров". Вариант общий

Состав работы

Описание

Дополнительная информация

Похожие материалы

Другие работы

Вход