Шпаргалка: Тестирование скорости перемножения матриц OpenCL vs CPU. Полезность кеширования данных.

В предыдущем посте мы настроили OpenCL, а теперь мы попробуем провести тест производительности. За основу возьмем пример cached_matrix_multiplication, где перемножаются две матрицы и результат записывается в третью. Kernel-функция там имеет такой вид:

/**
* This kernel function efficiently multiplies two matrices a[M,K] and b[K,N]
* by caching submatrices from those input matrices in the device local memory.
*/
__kernel void multiplyMatricesWithCache(__global int* a,
__global int* b,
__global int* c,
const int M,
const int N,
const int K){
/**
* Declare the size of each submatrix (it must be
* the same work-group size declared in the host code).
*/
const int SUB_SIZE = 16;
/**
* Get work-item identifiers.
*/
int colIndex = get_local_id(0);
int rowIndex = get_local_id(1);
int globalColIndex = get_global_id(0);
int globalRowIndex = get_global_id(1);
int index = (globalRowIndex * N) + globalColIndex;
/**
* Create submatrices that will cache the matrices A and B in local memory.
*/
__local int aSub[SUB_SIZE][SUB_SIZE];
__local int bSub[SUB_SIZE][SUB_SIZE];
/**
* Initialize accumulator register.
*/
int sum = 0;
/**
* Loop over all submatrices.
*/
const int nSub = K / SUB_SIZE;
for(int s = 0; s < nSub; s++){
/**
* Load submatrices into local memory.
*/
const int sCol = SUB_SIZE * s + colIndex;
const int sRow = SUB_SIZE * s + rowIndex;
aSub[rowIndex][colIndex] = a[globalRowIndex * K + sCol];
bSub[rowIndex][colIndex] = b[sRow * N + globalColIndex];
/**
* Synchronize all work-items in this work-group.
*/
barrier(CLK_LOCAL_MEM_FENCE);
/**
* Perform the computation for a single submatrix.
*/
for(int k = 0; k < SUB_SIZE; k++){
sum += aSub[rowIndex][k] * bSub[k][colIndex];
}
/**
* Synchronize all work-items in this work-group.
*/
barrier(CLK_LOCAL_MEM_FENCE);
}
/**
* Store the final result in the matrix C.
*/
c[index] = sum;
}

Попробуем разобраться, что же тут происходит. Функция вычисляет один элемент результирующей матрицы. В более наивной реализации используется значение непосредственно из входных матриц, но такой подход очень медлительный, поскольку каждый раз приходится обращаться в глобальную память видеокарты, а она гораздо медленнее, чем локальная память группы. Мы формируем из отдельных тредов на GPU группы по 16 на 16 тредов и они последовательно в цикле обрабатывают блоки матрицы такого же размера (16 на 16), затем все эти полученные матрицы складываются и получается результирующая матрица (более подробно разобрано тут). Но перед тем, как вычислять сумму перемноженных строк и столбцов, сначала надо их закешировать и именно это и делается в строках 54-63. Делается это следующим образом: сначала мы из глобальной памяти (переменные помечены словом __global) устройства заполняем массив в локальной памяти (переменные помечены __local), причем чтобы получить элемент из глобального массива, мы используем глобальный идентификатор (global id) треда, а чтобы поместить в локальную память группы используем локальный идентификатор внутри группы (local id). Каждый тред внутри группы копирует в локальную память только свой один элемент из матрицы a и один элемент из матрицы b, но для вычисления результата ему нужна целиком строка и целиком столбец, поэтому, чтобы убедиться что локальный массив заполнен (т.е. каждый тред из группы параллельно работающих тредов заполнил свой элемент), мы синхронизируем работу тредов специальной функцией barrier(CLK_LOCAL_MEM_FENCE).

Количество тредов внутри группы определяется вот тут:

cl::CommandQueue queue(context, device);
queue.enqueueNDRangeKernel(kernel, cl::NullRange, cl::NDRange(N, M), cl::NDRange(WG_SIZE[0], WG_SIZE[1]));
queue.enqueueReadBuffer(cBuf, CL_TRUE, 0, M * N * sizeof(int), c);

Функция enqueueNDRangeKernel() принимает вторым параметром смещение (в данном случае ноль, то есть вычисления с начала массива), третьим параметром размерность обрабатываемых данных (данном случае это двумерный массив), а четвертый параметр это размерность группы. В нашем случае это массив 16 на 16, то есть 256 тредов в каждой группе. Более подробно можно почитать здесь.

На стороне CPU произведение матриц выполнено предельно просто:

void seqMultiplyMatrices(int* a, int* b, int* c,
const int M,
const int N,
const int K) {
for (int i = 0; i < M; i++) {
for (int j = 0; j < N; j++) {
int sum = 0;
for (int k = 0; k < K; k++) {
sum += a[i*K + k] * b[j + k * N];
}
c[i*N + j] = sum;
}
}
}

То есть просто последовательно перемножаем строки и столбцы. Я с делал улучшеный вариант перемножения матриц на CPU и он выглядит так:

void parMultiplyMatrices_CPU(int* a, int* b, int* c,
const int M,
const int N,
const int K)
{
const auto thrCnt = std::thread::hardware_concurrency();
std::vector<std::thread> workers;
const int rod = N % thrCnt;
const unsigned int bColCntPerThread = (N - rod) / thrCnt;
for (int thrId = 0; thrId < thrCnt; ++thrId)
{
workers.push_back(std::thread([thrId, thrCnt, bColCntPerThread, a, b, c, M, N, K]()
{
std::vector<int> bColBuf(K);
auto bColbegIdx = thrId * bColCntPerThread;
bool isLastThread = (thrId == thrCnt - 1);
auto bColEndIdx = isLastThread ? N : bColbegIdx + bColCntPerThread;
//each thread iterate some amount of columns in B matrix
for (auto bColIdx = bColbegIdx; bColIdx < bColEndIdx; ++bColIdx)
{
//fill column buffer for B matr
for (int i = 0; i < K; ++i)
{
bColBuf[i] = b[i * N + bColIdx];
}
//multiply all rows of A to current column of B
for (int aRowIdx = 0; aRowIdx < M; ++aRowIdx)
{
int tmp = 0;
for (int aColIdx = 0; aColIdx < K; ++aColIdx)
{
tmp += a[aRowIdx * M + aColIdx] * bColBuf[aColIdx];
}
c[aRowIdx * M + bColIdx] = tmp;
}
}
}));
}
for (std::thread& t : workers)
{
t.join();
}
workers.clear();
}

Кроме многопоточности, я добавил еще одно важное улучшение: кеширование столбца одной из перемножаемых матриц. Почему именно столбца? - потому что строки вычитываются из памяти очень просто - они последовательно расположены в RAM друг за другом, а вот если идти по столбцам, то для считывания одного элемента надо перескакивать всю строку из сотен или тысяч байт, а это очень невыгодный режим работы памяти. Поэтому я в строках 22-25 сначала считываю весь столбец матрицы в буфер целиком, а потом многократно использую его для вычисления результата в строке 32. Результаты вот такие:

Самый медленный способ это ожидаемо наивная реализация перемножения матриц на процессоре (3 сек), на втором месте кешированное и распараллеленное перемножение на процессоре (0.163 сек), а на первом месте по скорости ожидаемо перемножение матриц на видеокарте (0.019 сек). Но все же, честно говоря, ожидал большей производительности от RTX 3060, которая оказалась быстрее процессора всего в 8.6 раз, а вот "кешированный параллельный" способ оказался в 18.7 раз быстрее, чем "наивная" реализация. Интересно, а что будет, если оставить только кеширование на CPU и полностью убрать многопоточность? (Что я сделал thrCnt = 1 в строке 6). А вот что:

И тут у нас вместо 0.163 сек получается 0.367 сек, то есть распараллеливание давало прирост всего лишь в 2.3 раза! А основной "ускоритель" вычисления - это именно использования кеша для столбцов. Что еще раз говорит нам об важности алгоритмов и понимания работы подсистемы памяти. Сам по себе мощный многоядерный процессор ничего не ускорит.

Тестовая платформа: Ryzen 7 3700X, 16GB RAM, RTX 3060

Код этого пример можно найти здесь.

Шпаргалка

суббота, 18 ноября 2023 г.

Тестирование скорости перемножения матриц OpenCL vs CPU. Полезность кеширования данных.

Комментариев нет:

Отправить комментарий

суббота, 18 ноября 2023 г.

Тестирование скорости перемножения матриц OpenCL vs CPU. Полезность кеширования данных.

Комментариев нет:

Отправить комментарий

суббота, 18 ноября 2023 г.