Узнать подробности

Лабораторная работа №3 "Работа с потоками CUDA" по дисциплине "Программирование графических процессоров". Вариант общий

Состав работы

16082C2D-F8B0-48B3-B984-61E7668D160E.rar [ 664 KB ]

Лабораторная работа 3.pdf [ 818 KB ]

Работа представляет собой rar архив с файлами (распаковать онлайн), которые открываются в программах:

Adobe Acrobat Reader

Что делать, если файл не открывается

Описание

Выполнение лабораторной работы поможет получить навыки требующиеся для выполнения третьего задания контрольной работы.
Задание
1. Прочитайте главы теоретического материала под названиями "Pinned memory" и "Потоки (streams) в CUDA". Ответьте на контрольные вопросы в конце глав (ответы на контрольные вопросы не нужно включать в отчёт по лабораторной работе).
2. Примените потоки для алгоритмов реализованные в лабораторной работе №1.
3. Определите оптимальное количество потоков для матрицы размером 2500x2500 элементов и вектора размером 2500 элементов.
Методические указания
Для выполнения лабораторной работы требуется модифицировать код, выполняемый на хосте таким образом, чтобы данные передавались на устройство частями асинхронно, после этого выполнялось функция-ядро над переданной частью, после завершения вычислений часть ответа асинхронно должна копироваться на хост.
На хосте создайте и проинициализируйте матрицу и вектор, которые будут умножаться. Затем выделите память на хосте под результирующий вектор и проинициализируйте его нулями. Выделите память под матрицу и вектора на устройстве, создайте нужное количество потоков (начните с двух потоков).
Теперь нужно определиться какие части данных передавать в каждый поток. Разделение нужно произвести таким образом, чтобы результатом работы функции-ядра была часть конечного результата, не требующая дальнейшей обработки. В таком случае имеет смысл в каждом потоке передавать на устройство часть строк матрицы, а вектор передать сразу полностью, потому что для вычислений, каждой нитью используется одна строка из матрицы и вектор. Результатом работы нити будет один элемент результирующего вектора.
Для того чтобы определить размер порции данных нужно количество строк матрицы поделить на количество потоков, и результат умножить на длину строки. После этого полностью скопируйте значения вектора на устройство. И для каждого потока асинхронно скопируйте часть данных на устройство, используя функцию cudaMemcpyAsync, запустите вычисления над порцией данных, асинхронно скопируйте результат на хост. В конце синхронизируйте все потоки вызовом функции cudaDeviceSynchronize() – эта функция будет ожидать завершения всех запущенных потоков.
Проведите исследование зависимости времени работы алгоритма от количества потоков. Начните с двух потоков и увеличивайте их количество до тех пор, пока время, затраченное на вычисления, не перестанет уменьшаться. Замеры времени следует проводить, включая асинхронные пересылки данных.
Псевдокод алгоритма выглядит следующим образом:
//Создание объектов потоков
//NUM_STREAM - количество потоков
for(i = 0; i < NUM_STREAM; ++i) {
CreateStream(stream[i]);
}

//N - количество строк в матрице
//M - размер строки в матрице
//Строки матрицы делятся на части по количеству созданных потоков
//Размер каждой порции равен количеству строк в порции умноженное на размер строки
SIZE_CHUNK = (N / NUM_STREAM) * M;
//Вектор копируется на устройство полностью, его разбивать на части не имеет смысла
Memcpy(devPtrVector, hostPtrVector, M, HostToDevice);
//Для каждого потока асинхронно копируется несколько строк матрицы на устройство
//Затем выполняется функция-ядро
//после этого результат асинхронно копируется на хост
//SIZE_CHUNK - размер части данных с которым работает функция-ядро
//devPtr - адрес памяти, выделенной на устройстве под матрицу, куда копируются данные с хоста
//hostPtr - адрес памяти на хосте под матрицу откуда копируются данные
//---в этой точке нужно измерить время
for(i = 0; i < NUM_STREAM; ++i) {
MemcpyAsync(devPtr + i * SIZE_CHUNK, hostPtr + i * SIZE_CHUNK, SIZE_CHUNK, HostToDevice, stream[i]);
//Количество блоков теперь зависит не от общего размера данных
//а от размера порции данных
//devPtrResultVector - адрес результирующего вектора на устройстве
MulMatrixVector<<<SIZE_CHUNK / THREADS_PER_BLOCK + 1, THREADS_PER_BLOCK, stream[i]>>>(devPtr + i * SIZE_CHUNK, devPtrVector + i * SIZE_CHUNK, devPtrResultVector + i * SIZE_CHUNK);
MemcpyAsync(hostPtrResultVector + i * SIZE_CHUNK, devPtrResultVector + i * SIZE_CHUNK, SIZE_CHUNK, DeviceToHost, stream[i]);
}
DeviceSynchronize();
//---в этой точке нужно повторно измерить время
//разность между временем второй и первой точки измерения времени будет временем работы вычислений

Дополнительная информация

Уважаемый студент дистанционного обучения,
Оценена Ваша работа по предмету: Программирование графических процессоров
Вид работы: Лабораторная работа 3
Оценка:Зачет
Дата оценки: 27.02.2021
Рецензия:Уважаемый
Ваша работа зачтена.
Милешко Антон Владимирович

Лабораторная работа 3 (Вариант 3) По дисциплине: Программирование графических процессоров. Тема: «Работа с потоками CUDA».

Задание 1. Прочитайте главы теоретического материала под названиями "Pinned memory" и "Потоки (streams) в CUDA". Ответьте на контрольные вопросы в конце глав (ответы на контрольные вопросы не нужно включать в отчёт по лабораторной работе). 2. Примените потоки для алгоритмов реализованные в лабораторной работе №1. 3. Определите оптимальное количество потоков для матрицы размером 2500x2500 элементов и вектора размером 2500 элементов.

Программирование графических процессоров ДО СИБГУТИ Работа Лабораторная

alexadubinina : 21 ноября 2024

300 руб.

Языки программирования. Вариант общий

Контрольная работа «Разработка динамических страниц на ЯП Python» Цель работы: создание динамических страниц на языке высокого уровня Python при помощи CGI-скриптов. CGI-скрипты – это исполняемые файлы, которые выполняются веб-сервером, когда в URL запрашивается соответствующий скрипт. Методика выполнения работы включает следующие этапы: 1. Настройка локального сервера. 2. Написание и отладка CGI-скриптов. 3. Написание и отладка CGI-скриптов: получение данных.

ДО СИБГУТИ Языки программирования Работа Контрольная

SibGOODy : 12 мая 2020

600 руб.

Персональный менеджмент. Вариант общий

Контрольная работа. Персональный менеджмент. Вариант общий Задание 1 Цель работы – отразить результаты работы по самоанализу своей деятельности, целеполаганию и формированию плана профессиональной карьеры. Примерная структура работы включает: 1. Мои профессиональные цели. 2. Ситуация на рынке труда. Обзор требований работодателей к соискателям. Самоанализ. Задание 2 (УК-6.2) ЗАДАНИЕ (тип эссе) Руководствуясь личностным подходом к персональному менеджменту, выполните SWOT-анализ личных и пр

ДО СИБГУТИ Персональный менеджмент Работа Контрольная

rmn77 : 19 марта 2020

120 руб.

Онлайн ТЕСТ Философия Вариант общий

Вопрос №1 Тип культуры не подразумевает этнического единства, развиваясь как комплекс отдельных народов и государств. Экспансивные устремления способствовали подвижности её географических границ: культура восточная культура западная культура национальная Вопрос №2 Перечислите античные философские школы в порядке их возникновения? Пифагореизм Платоновская Академия Ликей Аристотеля Неоплатонизм Вопрос №3 Компетенция человека, действующего в сфере свободного предпринимательства, основанная на з

ДО СИБГУТИ Философия Тесты

sibguti-help : 5 ноября 2024

450 руб.

Онлайн ТЕСТ Философия Вариант общий

Вопрос №1 Интенсивное сближение цивилизаций, выражающееся во взаимопроникновении, конвергенции передовых технологий, массовой культуры, религий, идей, связанных с отношением к личности: диалог культур новации традиции Вопрос №2 Ф.Аквинский, решая вопрос об отношении веры и разума, исходил из того, что Религия возвышается над философией Религия и философия одним и тем же способом приходят к истине Религия не может быть совершенно автономной по отношению к философии Философия возвышается над ре

ДО СИБГУТИ Философия Тесты

sibguti-help : 28 октября 2024

450 руб.

Отчет по ознакомительной практике (вариант общий)

Задание на ознакомительную практику состоит из четырех мини-рефератов: Схему из файла читать сверху-вниз. Каждому блоку схемы соответствует список тем. мини-реферат 1: Из базовой секции выбрать одну тему мини-реферат 2 и 3: Из секции специализации выбрать две темы (из разных разделов), которые по схеме исходят из блока 1 мини-реферат 4. Из секции углублённой специализации выбрать одну тему, которая по схеме следует из блоков 2 или 3 секции специализации Важно: Каждый последующий блок тем до

ДО СИБГУТИ Ознакомительная практика Практические занятия и отчеты

Учеба "Под ключ" : 9 сентября 2022

800 руб.

"Социология и право". Вариант общий. ДО СИБГУТИ

Тема: "Нищенство как социальная проблема" Темы рефератов по модулю «Социология» 1. Социологическое воображение в представлениях Ч.Миллса 2. З.Бауман: «мыслить социологически» - что это значит? 3. Социальное действие в концепциях М.Вебера и Т.Парсонса: сравнительный анализ 4. Социальное взаимодействие как обмен 5. Социальная природа юмора 6. Драматургический анализ: «самопрезентация» (И.Гофман) 7.Социальныйконтроль над девиантностью в современной России 8.Проблемабюрократии в современных

ДО СИБГУТИ Социология и право Работа Контрольная

Ivannsk97 : 14 июня 2021

100 руб.

Общая теория связи, Лабораторная работа, Вариант общий

Лабораторная работа №1 «Исследование помехоустойчивости дискретных видов модуляции» Цель работы: изучение и экспериментальное исследование влияния вида модуляции (AM, ЧМ, ФМ) на помехоустойчивость системы передачи дискретных сообщений, изучение методики экспериментального измерения вероятности ошибки. Лабораторная работа №2 «Исследование помехоустойчивости методов передачи и приема дискретных сигналов на автоматизированном рабочем месте СПИ» Цель работы: изучение методов обработки дискретных с

ДО СИБГУТИ Работа Лабораторная Общая теория связи

artinjeti : 13 ноября 2018

20 руб.

Валковая дробилка

Введение 3 1. Технические характеристики 4 2. Описание и обоснование выбранной конструкции 5 3. Расчёты 6 3.1 Определение начальных параметров 6 3.2 Определение угла захвата α 6 3.3 Определение мощности привода 7 3.4 Расчет производительности 7 3.5 Определение частоты вращения 8 3.6 Определение дробящего усилия 8 3.7 Расчет на прочность пре

Строительные машины и оборудование Работа Курсовая СибАДИ

194595 : 9 января 2011

Ваза. Вариант 3 ЧЕРТЕЖ

Ваза. Вариант 3 ЧЕРТЕЖ ПРАКТИЧЕСКОЕ ЗАНЯТИЕ 7 Построение модели и чертежа детали с использованием операции вращения. Цель практического занятия: Изучение команды «Операция вращения». Исходные данные. Анализ проекций детали с целью выявления наружной и внутренней формы элементов детали и установления: - из каких геометрических тел состоит деталь; - наличия плоскостей симметрии детали; - какие разрезы следует сделать для выявления внутреннего устройства детали; - возможности соедине

Чертежи Инженерная и компьютерная графика

coolns : 28 ноября 2025

160 руб.

Зміст та структура документознавства як науки

Зміст ВСТУП 1. Трактування документознавства як наукової дисципліни: історіографічний аспект 2. Традиційне документознавство: структура 3. Структура сучасного документознавства (Н. Кушнаренко, М. Слободяник, С. Кулешов, Г. Швецова-Водка) ВИСНОВКИ СПИСОК ВИКОРИСТАНИХ ДЖЕРЕЛ Вступ Питання щодо визначення документознавства та його місця у системі наук належать до числа найбільш дискусійних та актуальних для сучасної бібліотечної освіти. За останні роки минув шлях від включення документоз

Рефераты Документоведение и делопроизводство

Elfa254 : 4 сентября 2013

Вооружение древних. Лук и стрелы

Алексей Васильев Лук и стрелы на территории Восточной Европы были важнейшим оружием дальнего боя и охоты на протяжении многих тысячелетий, от эпохи мезолита до появления огнестрельного оружия в Х1У в. Даже после появления ручного огнестрельного оружия лук и стрелы продолжали широко употребляться в течение нескольких веков, вплоть до начала Х1Х в. Лук и стрелы чрезвычайно широко употреблялись в Древней Руси. Они были основным и важнейшим оружием дальнего боя и промысло- вой охоты. Почти все более

История Работа

OstVER : 16 ноября 2012

5 руб.

Лабораторная работа №3 "Работа с потоками CUDA" по дисциплине "Программирование графических процессоров". Вариант общий

Состав работы

Описание

Дополнительная информация

Похожие материалы

Другие работы

Вход