共享數(shù)據(jù)及課件gpu程序設(shè)計(jì)初步_第1頁
共享數(shù)據(jù)及課件gpu程序設(shè)計(jì)初步_第2頁
共享數(shù)據(jù)及課件gpu程序設(shè)計(jì)初步_第3頁
共享數(shù)據(jù)及課件gpu程序設(shè)計(jì)初步_第4頁
共享數(shù)據(jù)及課件gpu程序設(shè)計(jì)初步_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

GPU CUDA程序設(shè)計(jì)初步第2講

CUDA程序優(yōu)化

1計(jì)算流體力學(xué)與湍流培訓(xùn)系列教程李新亮中國科學(xué)院力學(xué)研究所

2021-07參考書目:CUDA官方網(wǎng)站資料:攀哲勇,《CUDA編程基礎(chǔ)與實(shí)踐》,清華大學(xué)出版社,2020ShaneCook著,蘇統(tǒng)華等譯《CUDA并行程序設(shè)計(jì)GPU編程指南》,機(jī)械工業(yè)出版社,2020示例: 計(jì)算兩個(gè)矩陣的乘積??

=

???

???????

=

????????????已知矩陣A和B均為N*N矩陣,

N=1024, 利用GPU計(jì)算矩陣C=A*B, 并分析結(jié)果的正確性及計(jì)算效率分析:啟動(dòng)N*N個(gè)線程,每個(gè)線程計(jì)算一個(gè)Cij

點(diǎn);在計(jì)算Cij

過程中,Bkj

涉及非連續(xù)數(shù)據(jù)的訪問,影響效率引入矩陣BT, 使得數(shù)據(jù)連續(xù)訪問?????

=

??????????????????

=

????????????#include<stdio.h>#include<stdlib.h>#include<time.h>void

matrix_mul_cpu(

int

n,

float

*a,

float*b,

float*c){for

(int

i

=

0;

i

<

n;

++i)for

(int

j=

0;

j

<

n;

++j){float

s

=

0.0;for

(int

k

=0;

k

<

n;

++k)s

+=

a[i*n

+

k]

*

b[k*n

+

j];

//A(i,k)*B(k,j)c[i*n

+

j]

=

s;}}

global

void

matrix_mul_gpu(int

n,

float

*a,

float*b,

float*c){const

int

bid=

blockIdx.x;const

int

tid

=threadIdx.x;float

s

=0.0;for

(int

k

=

0;

k

<

n;

++k)s

+=

a[bid*n

+

k]

*

b[k*n

+

tid];

//A(i,k)*B(k,j)c[bid*n+tid]

=

s;}CPU計(jì)算Cij(計(jì)算N*N個(gè),全部元素)GPU計(jì)算Cij(每個(gè)線程只計(jì)算1個(gè)元素)B[]數(shù)組非連續(xù)訪問

global

voidtranspose(intn,float*b,float*bt){bt[blockIdx.x*n

+

threadIdx.x]

=

b[threadIdx.x*n

+

blockIdx.x];}

global

void

matrix_mul_gpu2(int

n,

float

*a,

float*b,

float*c){const

int

bid

=

blockIdx.x;constint

tid

=

threadIdx.x;float

s

=0.0;for

(int

k

=

0;

k

<

n;++k)//A*BT連續(xù)訪問s+=

a[bid*n

+

k]

*

b[tid*n

+k];c[bid*n

+

tid]

=

s;}GPU計(jì)算CijA,B矩陣均連續(xù)訪問(需要首先將B矩形轉(zhuǎn)置)矩陣轉(zhuǎn)置void

check_data(int

n,

float

*c,

float

*c1){float

s

=0.0;for

(int

i

=

0;

i

<

n*n;

++i)s

+=

fabs(c[i]

-

c1[i]);printf("Total

error

is

%f

\n",

s);}測試計(jì)算是否正確intmain(){const

int

n

=

1024,

M

=

n*n*

sizeof(float);float

*a

=

(float*)malloc(M);float

*b

=

(float*)malloc(M);float

*c

=

(float*)

malloc(M);float

*c1

=(float*)malloc(M);float

*d_a,

*d_b,

*d_c,

*d_bT;for

(int

i

=0;

i

<n*n;++i){a[i]

=

(float)

(rand()%100);b[i]

=

(float)

(rand()%100);}clock_t

time1,

time2,time3,time4;time1

=clock();matrix_mul_cpu(n,

a,

b,

c);time2

=clock();printf("Time

for

CPUrun

is:

%f

seconds

\n",

(double)(time2

-

time1)

/

CLOCKS_PER_SEC);cudaMalloc(&d_a,

M);cudaMalloc(&d_b,

M);cudaMalloc(&d_c,

M);cudaMemcpy(d_a,

a,

M,

cudaMemcpyHostToDevice);cudaMemcpy(d_b,

b,

M,

cudaMemcpyHostToDevice);Time3=clock();賦初值CPU計(jì)算C=A*BGPU計(jì)算

C=A*B開辟數(shù)組A,B,C;matrix_mul_gpu<<<n,n>>>(n,d_a,d_b,d_c);//計(jì)算C=A*B,每個(gè)線程上計(jì)傳算一至個(gè)點(diǎn)GPU端cudaDeviceSynchronize();cudaMemcpy(c1,d_c,

M,

cudaMemcpyDeviceToHost);time4

=clock();printf("Time

for

GPU

run

is:

%f

seconds

\n",

(double)(time4

-

time3)

/

CLOCKS_PER_SEC);check_data(n,c,

c1);cudaFree(d_a);cudaFree(d_b);cudaFree(d_c);cudaFree(d_bT);//

by

using

transposetime1

=

clock();cudaMalloc(&d_a,M);cudaMalloc(&d_b,M);cudaMalloc(&d_c,

M);cudaMalloc(&d_bT,

M);cudaMemcpy(d_a,

a,

M,

cudaMemcpyHostToDevice);cudaMemcpy(d_b,

b,

M,

cudaMemcpyHostToDevice);transpose

<<<n,

n

>>>

(n,

d_b,

d_bT);cudaDeviceSynchronize();matrix_mul_gpu2

<<<n,

n

>>>

(n,

d_a,

d_bT,

d_c);cudaMemcpy(c1,

d_c,

M,

cudaMemcpyDeviceToHost);time2

=

clock();printf("Time

for

GPU

run

is:

%f

seconds

\n",

(double)(time2-

time1)

/CLOCKS_PER_SEC);check_data(n,

c,

c1);free(a)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論