Введение в разработку с использованием CUDA

Титаренко К. К.

Примечания

Материал, предоставляемый в ходе презентации, служит, прежде всего, для обеспечения необходимой базы для рассмотрения приведенных ниже практических примеров.

Таким образом, к примеру, разделы «Квалификаторы типа функции» или «Функции мультипроцессора» излагаются в объеме, необходимом для приведенных выше целей, но не являются исчерпывающим описанием, которое, при необходимости, может быть найдено в фирменной документации.

Подготовка к разработке

Инструменты разработчика, установка, настройка, сборка примеров из SDK, создание проекта

Ссылки

— CUDA Driver, CUDA Toolkit, CUDA SDK http://www.nvidia.com/object/cuda_get.html

— Visual Studio (как вариант при разработке в ОС Windows) http://www.microsoft.com/exPress/

— CUDA VS Wizard (опционально) http://sourceforge.net/projects/cudavswizard/

Модель программирования

Ядро, иерархия потоков, иерархия памяти, стек программного обеспечения CUDA, вычислительная способность

Ядро (kernel)

— C-функция, исполняемая N раз параллельно N-ю разными CUDA-потоками

— Определяется с помощью спецификатора global

— Вызывается с применением <<<…>>>-синтаксиса

Иллюстрации

Идентификатор потока

— Каждый поток, исполняющий ядро, наделяется уникальным идентификатором thread ID

— Этот идентификатор доступен из ядра через встроенную переменную threadIdx

Иллюстрация

Иерархия потоков

— Потоки группируются в 1-, 2- или 3-мерные блоки, идентификация с помощью threadIdx.{x|y|z}

— Размер блока доступен из ядра через встроенную переменную blockDim.{x|y|z}

— Блоки группируются в 1- или 2-мерную сеть, идентификация с помощью blockIdx.{x|y}

— Размер сети доступен из ядра через встроенную переменную gridDim.{x|y}

Иллюстрация

Некоторые особенности

— Блоки, составляющие сеть, исполняются в любом порядке, параллельно или последовательно (это зависит от конфигурации ядра и возможностей оборудования)

— Параметры конфигурации ядра (размеры сети и блоков) обычно диктуются не количеством процессоров в системе, а размерностью решаемой задачи

Иерархия памяти

— Каждый поток обладает собственной локальной памятью (private local memory)

— Потоки, принадлежащие одному блоку, имеют доступ к разделяемой памяти (shared memory), время существования которой совпадает с временем существования блока

— Любому потоку доступна глобальная память (global memory)

Иллюстрации

Неизменяемая (read-only) память

— Константная память (constant memory) – кэшируется

— Текстурная память (texture memory) – кэшируется, поддерживает разные режимы адресации, фильтрацию данных

Стек ПО CUDA

Вычислительная способность

— Вычислительная способность (compute capability – CC) определяется старшим и младшим номерами ревизии

— Старший номер определяет версию архитектуры

— Младший – указывает на инкрементальные улучшения

— Технические спецификации CC могут быть найдены в документации к SDK

Аппаратная реализация

Архитектура Tesla, структура мультипроцессора, функции мультипроцессора, система с несколькими GPU

Архитектура Tesla

— Представлена компанией NVIDIA в ноябре 2006

— Предназначена как для графических, так и неграфических вычислений общего назначения

— Построена на масштабируемом массиве мультипроцессоров

— Занимает широкий сегмент рынка – от высокопроизводительных GeForce 2xx и профессиональных Tesla и Quadro до недорогих широко распространенных GeForce 8xxx/9xxx.

Структура мультипроцессора

— 8 скалярных ядер

— 2 специальных блока для вычисления трансцендентных функций

— Встроенная в кристалл разделяемая память (on-chip shared memory)

— Блок выдачи инструкций

— Текстурный и константный кэш

Функции мультипроцессора

— Создание, управление, выполнение параллельных потоков с нулевыми накладными затратами на планирование

— Работа с потоками осуществляется группами, называемыми warps (в данных условиях 32 потока)

— Реализация интринзик-функции барьерной синхронизации __syncthreads() одной инструкцией

Иллюстрация

Система с несколькими GPU

— Использование нескольких GPU в качестве CUDA-устройств в системе с множеством GPU возможно в случае, если это устройства одного типа

— SLI режим должен быть отключен

Интерфейс программирования

Набор расширений к языку C, квалификаторы типа функции, квалификаторы типа переменной, конфигурация ядра, элементы Runtime API

Набор расширений к языку C

— Квалификаторы типа функции

— Квалификаторы типа переменной

— Синтаксис конфигурации ядра (<<<…>>>)

— 4 встроенных переменных (gridDim, blockDim, blockIdx, threadIdx)

Квалификаторы типа функции

— device – встраиваемая (inline) функция, выполняемая на устройстве; рекурсия запрещена, статические переменные запрещены

— global – ядро, выполняемое устройством; рекурсия запрещена, статические переменные запрещены; возвращаемый тип – только void, при вызове требует указания конфигурации

Квалификаторы типа переменной

— shared – переменная находится в разделяемой памяти блока потоков, время существования совпадает с временем существования блока, видима потокам только данного блока

— constant – переменная находится в константной памяти, время существования совпадает с временем существования приложения, видима всем потокам

Конфигурация ядра

— <<<grid, block, shmem>>>

— grid – задает размеры сети в блоках

— block – задает размеры блока в потоках

— shmem – задает размер динамической разделяемой памяти в байтах (опционально, по умолчанию 0)

Иллюстрация

Элементы Runtime API

— Управление линейной памятью: cudaMalloc, cudaMemcpy, cudaFree

— Управление массивами: cudaMallocArray, cudaMemcpyToArray, cudaFreeArray

— Управление текстурами: cudaBindTextureToArray, cudaUnbindTexture

Практическая часть

Иллюстрация нескольких подходов к разработке и оптимизации на примере задачи решения СЛАУ с использованием нейронной сети

Подробно прокомментированный исходный код всех примеров может быть получен из репозитория:
http://svn6.assembla.com/svn/cnnslaes/trunk

Постановка задачи

— Дана СЛАУ Ax = b размерностью n, где A – квадратная матрица коэффициентов, x – вектор неизвестных, b – вектор свободных членов

— Реализовать приложение, решающее данную СЛАУ, используя следующий итерационный метод:

x[0] = {0, 0…, 0}
y[k] = f(Ax[k] - b)
x[k+1] = x[k] - 2hATy[k], где

k – номер итерации;
x[k] – вектор неизвестных на k-й итерации;
f(x) – вектор-функция, компонент результата которой вычисляется по правилу: f[i](x) = x[i], если |x[i]| > Epsilon, f[i](x) = 0, иначе;
h – параметр итерационного процесса;
AT – транспонированная матрица A

Выделение функциональных блоков

• Вычисление вектора Y на k-й итерации (функция нейронной сети)

• Вычисление очередного приближения вектора неизвестных X (блок настройки)

Распределение задачи по потокам

— Блок А: один поток – одна компонента вектора Y

— Блок Б: один поток – одна компонента очередного приближения вектора неизвестных X

Реализация функции активации

Реализация функции нейронной сети

Реализация блока настройки

Конфигурация и запуск ядер

Анализ производительности

Coalesced access (CC 1.0-1.1)

Uncoalesced access (CC 1.0-1.1)

Uncoalesced access (CC 1.0-1.1)

Оптимизация доступа к памяти

Ø Высокий приоритет: оптимизировать доступ к глобальной памяти ядром nn_function_kernel, задействовав разделяемую память

Ø Средний приоритет: оптимизировать доступ к глобальной памяти ядром nn_adjustment_kernel, задействовав разделяемую память

Оптимизация доступа к глобальной памяти (на примере ФНС)

Анализ производительности

Сравнение с предыдущей версией

Доступ к разделяемой памяти без конфликтов банков

Доступ к разделяемой памяти с конфликтами банков

32-bit word broadcasting

Иной вариант оптимизации доступа к глобальной памяти

— Использовать текстуры вместо линейных участков глобальной памяти, не подлежащих изменению, а также обращение к которым является uncoalesced.

— Исключить обращения к разделяемой памяти, влекущие за собой конфликты банков

Внесение изменений (на примере ФНС)

Анализ производительности

Сравнение с предыдущими версиями

Сравнение с предыдущими версиями

— Отсутствуют uncoalesced обращения к глобальной памяти

— Отсутсвует сериализация warps

— Загрузка устройства (occupancy) 66,7%

Подведение итогов

Общие направления оптимизации (в порядке убывания приоритета), производительность зависит от…, использованные и рекомендующиеся материалы

Общие направления оптимизации (в порядке убывания приоритета)

— Максимизация числа исполняющихся параллельно блоков кода

— Оптимизация доступа к памяти для достижения максимальной пропускной способности

— Оптимизация использования инструкций для достижения максимального показателя инструкций/сек

Производительность зависит от…

— Алгоритма решения задачи

— Оптимальности доступа к памяти

— Количества перемещений данных хост-устройство

— Минимизации количества расходящихся ветвлений (divergent branches)

— Степени загрузки устройства вычислениями

— Организации иерархии потоков

— ... т. д.

Использованные и рекомендующиеся материалы

— NVIDIA CUDA Programming Guide

— NVIDIA CUDA Best Practices Guide

— NVIDIA CUDA Reference Manual

Спасибо за внимание!

Имеются ли вопросы?