Лабораторная работа №3 "Работа с потоками CUDA" по дисциплине "Программирование графических процессоров". Вариант общий
Состав работы
|
|
|
|
Работа представляет собой rar архив с файлами (распаковать онлайн), которые открываются в программах:
- Adobe Acrobat Reader
Описание
Выполнение лабораторной работы поможет получить навыки требующиеся для выполнения третьего задания контрольной работы.
Задание
1. Прочитайте главы теоретического материала под названиями "Pinned memory" и "Потоки (streams) в CUDA". Ответьте на контрольные вопросы в конце глав (ответы на контрольные вопросы не нужно включать в отчёт по лабораторной работе).
2. Примените потоки для алгоритмов реализованные в лабораторной работе №1.
3. Определите оптимальное количество потоков для матрицы размером 2500x2500 элементов и вектора размером 2500 элементов.
Методические указания
Для выполнения лабораторной работы требуется модифицировать код, выполняемый на хосте таким образом, чтобы данные передавались на устройство частями асинхронно, после этого выполнялось функция-ядро над переданной частью, после завершения вычислений часть ответа асинхронно должна копироваться на хост.
На хосте создайте и проинициализируйте матрицу и вектор, которые будут умножаться. Затем выделите память на хосте под результирующий вектор и проинициализируйте его нулями. Выделите память под матрицу и вектора на устройстве, создайте нужное количество потоков (начните с двух потоков).
Теперь нужно определиться какие части данных передавать в каждый поток. Разделение нужно произвести таким образом, чтобы результатом работы функции-ядра была часть конечного результата, не требующая дальнейшей обработки. В таком случае имеет смысл в каждом потоке передавать на устройство часть строк матрицы, а вектор передать сразу полностью, потому что для вычислений, каждой нитью используется одна строка из матрицы и вектор. Результатом работы нити будет один элемент результирующего вектора.
Для того чтобы определить размер порции данных нужно количество строк матрицы поделить на количество потоков, и результат умножить на длину строки. После этого полностью скопируйте значения вектора на устройство. И для каждого потока асинхронно скопируйте часть данных на устройство, используя функцию cudaMemcpyAsync, запустите вычисления над порцией данных, асинхронно скопируйте результат на хост. В конце синхронизируйте все потоки вызовом функции cudaDeviceSynchronize() – эта функция будет ожидать завершения всех запущенных потоков.
Проведите исследование зависимости времени работы алгоритма от количества потоков. Начните с двух потоков и увеличивайте их количество до тех пор, пока время, затраченное на вычисления, не перестанет уменьшаться. Замеры времени следует проводить, включая асинхронные пересылки данных.
Псевдокод алгоритма выглядит следующим образом:
//Создание объектов потоков
//NUM_STREAM - количество потоков
for(i = 0; i < NUM_STREAM; ++i) {
CreateStream(stream[i]);
}
//N - количество строк в матрице
//M - размер строки в матрице
//Строки матрицы делятся на части по количеству созданных потоков
//Размер каждой порции равен количеству строк в порции умноженное на размер строки
SIZE_CHUNK = (N / NUM_STREAM) * M;
//Вектор копируется на устройство полностью, его разбивать на части не имеет смысла
Memcpy(devPtrVector, hostPtrVector, M, HostToDevice);
//Для каждого потока асинхронно копируется несколько строк матрицы на устройство
//Затем выполняется функция-ядро
//после этого результат асинхронно копируется на хост
//SIZE_CHUNK - размер части данных с которым работает функция-ядро
//devPtr - адрес памяти, выделенной на устройстве под матрицу, куда копируются данные с хоста
//hostPtr - адрес памяти на хосте под матрицу откуда копируются данные
//---в этой точке нужно измерить время
for(i = 0; i < NUM_STREAM; ++i) {
MemcpyAsync(devPtr + i * SIZE_CHUNK, hostPtr + i * SIZE_CHUNK, SIZE_CHUNK, HostToDevice, stream[i]);
//Количество блоков теперь зависит не от общего размера данных
//а от размера порции данных
//devPtrResultVector - адрес результирующего вектора на устройстве
MulMatrixVector<<<SIZE_CHUNK / THREADS_PER_BLOCK + 1, THREADS_PER_BLOCK, stream[i]>>>(devPtr + i * SIZE_CHUNK, devPtrVector + i * SIZE_CHUNK, devPtrResultVector + i * SIZE_CHUNK);
MemcpyAsync(hostPtrResultVector + i * SIZE_CHUNK, devPtrResultVector + i * SIZE_CHUNK, SIZE_CHUNK, DeviceToHost, stream[i]);
}
DeviceSynchronize();
//---в этой точке нужно повторно измерить время
//разность между временем второй и первой точки измерения времени будет временем работы вычислений
Задание
1. Прочитайте главы теоретического материала под названиями "Pinned memory" и "Потоки (streams) в CUDA". Ответьте на контрольные вопросы в конце глав (ответы на контрольные вопросы не нужно включать в отчёт по лабораторной работе).
2. Примените потоки для алгоритмов реализованные в лабораторной работе №1.
3. Определите оптимальное количество потоков для матрицы размером 2500x2500 элементов и вектора размером 2500 элементов.
Методические указания
Для выполнения лабораторной работы требуется модифицировать код, выполняемый на хосте таким образом, чтобы данные передавались на устройство частями асинхронно, после этого выполнялось функция-ядро над переданной частью, после завершения вычислений часть ответа асинхронно должна копироваться на хост.
На хосте создайте и проинициализируйте матрицу и вектор, которые будут умножаться. Затем выделите память на хосте под результирующий вектор и проинициализируйте его нулями. Выделите память под матрицу и вектора на устройстве, создайте нужное количество потоков (начните с двух потоков).
Теперь нужно определиться какие части данных передавать в каждый поток. Разделение нужно произвести таким образом, чтобы результатом работы функции-ядра была часть конечного результата, не требующая дальнейшей обработки. В таком случае имеет смысл в каждом потоке передавать на устройство часть строк матрицы, а вектор передать сразу полностью, потому что для вычислений, каждой нитью используется одна строка из матрицы и вектор. Результатом работы нити будет один элемент результирующего вектора.
Для того чтобы определить размер порции данных нужно количество строк матрицы поделить на количество потоков, и результат умножить на длину строки. После этого полностью скопируйте значения вектора на устройство. И для каждого потока асинхронно скопируйте часть данных на устройство, используя функцию cudaMemcpyAsync, запустите вычисления над порцией данных, асинхронно скопируйте результат на хост. В конце синхронизируйте все потоки вызовом функции cudaDeviceSynchronize() – эта функция будет ожидать завершения всех запущенных потоков.
Проведите исследование зависимости времени работы алгоритма от количества потоков. Начните с двух потоков и увеличивайте их количество до тех пор, пока время, затраченное на вычисления, не перестанет уменьшаться. Замеры времени следует проводить, включая асинхронные пересылки данных.
Псевдокод алгоритма выглядит следующим образом:
//Создание объектов потоков
//NUM_STREAM - количество потоков
for(i = 0; i < NUM_STREAM; ++i) {
CreateStream(stream[i]);
}
//N - количество строк в матрице
//M - размер строки в матрице
//Строки матрицы делятся на части по количеству созданных потоков
//Размер каждой порции равен количеству строк в порции умноженное на размер строки
SIZE_CHUNK = (N / NUM_STREAM) * M;
//Вектор копируется на устройство полностью, его разбивать на части не имеет смысла
Memcpy(devPtrVector, hostPtrVector, M, HostToDevice);
//Для каждого потока асинхронно копируется несколько строк матрицы на устройство
//Затем выполняется функция-ядро
//после этого результат асинхронно копируется на хост
//SIZE_CHUNK - размер части данных с которым работает функция-ядро
//devPtr - адрес памяти, выделенной на устройстве под матрицу, куда копируются данные с хоста
//hostPtr - адрес памяти на хосте под матрицу откуда копируются данные
//---в этой точке нужно измерить время
for(i = 0; i < NUM_STREAM; ++i) {
MemcpyAsync(devPtr + i * SIZE_CHUNK, hostPtr + i * SIZE_CHUNK, SIZE_CHUNK, HostToDevice, stream[i]);
//Количество блоков теперь зависит не от общего размера данных
//а от размера порции данных
//devPtrResultVector - адрес результирующего вектора на устройстве
MulMatrixVector<<<SIZE_CHUNK / THREADS_PER_BLOCK + 1, THREADS_PER_BLOCK, stream[i]>>>(devPtr + i * SIZE_CHUNK, devPtrVector + i * SIZE_CHUNK, devPtrResultVector + i * SIZE_CHUNK);
MemcpyAsync(hostPtrResultVector + i * SIZE_CHUNK, devPtrResultVector + i * SIZE_CHUNK, SIZE_CHUNK, DeviceToHost, stream[i]);
}
DeviceSynchronize();
//---в этой точке нужно повторно измерить время
//разность между временем второй и первой точки измерения времени будет временем работы вычислений
Дополнительная информация
Уважаемый студент дистанционного обучения,
Оценена Ваша работа по предмету: Программирование графических процессоров
Вид работы: Лабораторная работа 3
Оценка:Зачет
Дата оценки: 27.02.2021
Рецензия:Уважаемый
Ваша работа зачтена.
Милешко Антон Владимирович
Оценена Ваша работа по предмету: Программирование графических процессоров
Вид работы: Лабораторная работа 3
Оценка:Зачет
Дата оценки: 27.02.2021
Рецензия:Уважаемый
Ваша работа зачтена.
Милешко Антон Владимирович
Похожие материалы
Лабораторная работа 3 (Вариант 3) По дисциплине: Программирование графических процессоров. Тема: «Работа с потоками CUDA».
alexadubinina
: 21 ноября 2024
Задание
1. Прочитайте главы теоретического материала под названиями "Pinned memory" и "Потоки (streams) в CUDA". Ответьте на контрольные вопросы в конце глав (ответы на контрольные вопросы не нужно включать в отчёт по лабораторной работе).
2. Примените потоки для алгоритмов реализованные в лабораторной работе №1.
3. Определите оптимальное количество потоков для матрицы размером 2500x2500 элементов и вектора размером 2500 элементов.
300 руб.
Языки программирования. Вариант общий
SibGOODy
: 12 мая 2020
Контрольная работа
«Разработка динамических страниц на ЯП Python»
Цель работы: создание динамических страниц на языке высокого уровня Python при помощи CGI-скриптов.
CGI-скрипты – это исполняемые файлы, которые выполняются веб-сервером, когда в URL запрашивается соответствующий скрипт.
Методика выполнения работы включает следующие этапы:
1. Настройка локального сервера.
2. Написание и отладка CGI-скриптов.
3. Написание и отладка CGI-скриптов: получение данных.
600 руб.
Персональный менеджмент. Вариант общий
rmn77
: 19 марта 2020
Контрольная работа. Персональный менеджмент. Вариант общий
Задание 1
Цель работы – отразить результаты работы по самоанализу своей деятельности, целеполаганию и формированию плана профессиональной карьеры.
Примерная структура работы включает:
1. Мои профессиональные цели.
2. Ситуация на рынке труда. Обзор требований работодателей к соискателям. Самоанализ.
Задание 2 (УК-6.2)
ЗАДАНИЕ (тип эссе)
Руководствуясь личностным подходом к персональному менеджменту, выполните SWOT-анализ личных и пр
120 руб.
Онлайн ТЕСТ Философия Вариант общий
sibguti-help
: 5 ноября 2024
Вопрос №1
Тип культуры не подразумевает этнического единства, развиваясь как комплекс отдельных народов и государств. Экспансивные устремления способствовали подвижности её географических границ:
культура восточная
культура западная
культура национальная
Вопрос №2
Перечислите античные философские школы в порядке их возникновения?
Пифагореизм
Платоновская Академия
Ликей Аристотеля
Неоплатонизм
Вопрос №3
Компетенция человека, действующего в сфере свободного предпринимательства, основанная на з
450 руб.
Онлайн ТЕСТ Философия Вариант общий
sibguti-help
: 28 октября 2024
Вопрос №1
Интенсивное сближение цивилизаций, выражающееся во взаимопроникновении, конвергенции передовых технологий, массовой культуры, религий, идей, связанных с отношением к личности:
диалог культур
новации
традиции
Вопрос №2
Ф.Аквинский, решая вопрос об отношении веры и разума, исходил из того, что
Религия возвышается над философией
Религия и философия одним и тем же способом приходят к истине
Религия не может быть совершенно автономной по отношению к философии
Философия возвышается над ре
450 руб.
Отчет по ознакомительной практике (вариант общий)
Учеба "Под ключ"
: 9 сентября 2022
Задание на ознакомительную практику состоит из четырех мини-рефератов:
Схему из файла читать сверху-вниз. Каждому блоку схемы соответствует список тем.
мини-реферат 1: Из базовой секции выбрать одну тему
мини-реферат 2 и 3: Из секции специализации выбрать две темы (из разных разделов), которые по схеме исходят из блока 1
мини-реферат 4. Из секции углублённой специализации выбрать одну тему, которая по схеме следует из блоков 2 или 3 секции специализации
Важно: Каждый последующий блок тем до
800 руб.
"Социология и право". Вариант общий. ДО СИБГУТИ
Ivannsk97
: 14 июня 2021
Тема: "Нищенство как социальная проблема"
Темы рефератов по модулю «Социология»
1. Социологическое воображение в представлениях Ч.Миллса
2. З.Бауман: «мыслить социологически» - что это значит?
3. Социальное действие в концепциях М.Вебера и Т.Парсонса: сравнительный анализ
4. Социальное взаимодействие как обмен
5. Социальная природа юмора
6. Драматургический анализ: «самопрезентация» (И.Гофман)
7.Социальныйконтроль над девиантностью в современной России
8.Проблемабюрократии в современных
100 руб.
Общая теория связи, Лабораторная работа, Вариант общий
artinjeti
: 13 ноября 2018
Лабораторная работа №1
«Исследование помехоустойчивости дискретных видов модуляции»
Цель работы: изучение и экспериментальное исследование влияния вида модуляции (AM, ЧМ, ФМ) на помехоустойчивость системы передачи дискретных сообщений, изучение методики экспериментального измерения вероятности ошибки.
Лабораторная работа №2
«Исследование помехоустойчивости методов передачи и приема дискретных сигналов на автоматизированном рабочем месте СПИ»
Цель работы: изучение методов обработки дискретных с
20 руб.
Другие работы
Контрольная работа По дисциплине: Цифровая обработка сигналов. Вариант №64.
teacher-sib
: 30 августа 2023
КОНТРОЛЬНОЕ ЗАДАНИЕ
Задача 1. Прохождение дискретного непериодического сигнала через нерекурсивную дискретную цепь.
На вход дискретной цепи подается непериодический сигнал .
1.1 Построить график дискретного сигнала.
1.2 Рассчитать спектр ДС с шагом . Построить амплитудный спектр.
1.3 Построить дискретную цепь. Записать ее передаточную функцию, определить импульсную характеристику цепи.
1.4 Определить сигнал на выходе цепи по формуле линейной свертки
Построить график выходного сигнала.
1
1000 руб.
Лабораторная работа №3. Теория электрической связи. Исследование согласованного фильтра дискретных сигналов известной формы
rukand
: 31 октября 2013
1. Задание к лабораторной работе
1) Ознакомиться с особенностями экспериментального исследования на ЭВМ приёма дискретных сигналов согласованным фильтром (СФ).
2) Исследовать связь между импульсной характеристикой СФ и видом сигнала, с которым он должен быть согласован.
3) Исследовать форму сигнала на выходе согласованного фильтра при подаче на его вход различных сигналов (согласованного и несогласованного с фильтром, в том числе и инвертированного).
4) Исследовать влияние искажения элементов в
50 руб.
Гидравлика Москва 1990 Задача 14 Вариант 7
Z24
: 27 декабря 2025
Определить длину трубы l, при которой расход жидкости из бака будет в два раза меньше, чем через отверстие того же диаметра d. Напор над отверстием равен H. Коэффициент гидравлического трения в трубе принять λ=0,025 (рис.12).
150 руб.
Балобан в Волго-Уральском регионе и на прилегающих территориях
alfFRED
: 3 сентября 2013
По состоянию на конец 1980-х гг. численность балобана в европейской части России оценивалась в 120 - 150 пар, 80% из которых обитало между Волгой и Уралом (Галушин, 2001).
В этой статье мы будем говорить о регионе, который занимает восток Русской равнины (все Среднее Поволжье), Уральские горы и прилегающую часть Западно-Сибирской низменности в пределах России (от Мордовской республики до Курганской области включительно), а также часть территории Западного Казахстана (Западно-Казахстанская, Актю
10 руб.