版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
GPU CUDA程序設(shè)計(jì)初步第2講
CUDA程序優(yōu)化
1計(jì)算流體力學(xué)與湍流培訓(xùn)系列教程李新亮中國科學(xué)院力學(xué)研究所
2021-07參考書目:CUDA官方網(wǎng)站資料:攀哲勇,《CUDA編程基礎(chǔ)與實(shí)踐》,清華大學(xué)出版社,2020ShaneCook著,蘇統(tǒng)華等譯《CUDA并行程序設(shè)計(jì)GPU編程指南》,機(jī)械工業(yè)出版社,2020示例: 計(jì)算兩個(gè)矩陣的乘積??
=
???
???????
=
????????????已知矩陣A和B均為N*N矩陣,
N=1024, 利用GPU計(jì)算矩陣C=A*B, 并分析結(jié)果的正確性及計(jì)算效率分析:啟動(dòng)N*N個(gè)線程,每個(gè)線程計(jì)算一個(gè)Cij
點(diǎn);在計(jì)算Cij
過程中,Bkj
涉及非連續(xù)數(shù)據(jù)的訪問,影響效率引入矩陣BT, 使得數(shù)據(jù)連續(xù)訪問?????
=
??????????????????
=
????????????#include<stdio.h>#include<stdlib.h>#include<time.h>void
matrix_mul_cpu(
int
n,
float
*a,
float*b,
float*c){for
(int
i
=
0;
i
<
n;
++i)for
(int
j=
0;
j
<
n;
++j){float
s
=
0.0;for
(int
k
=0;
k
<
n;
++k)s
+=
a[i*n
+
k]
*
b[k*n
+
j];
//A(i,k)*B(k,j)c[i*n
+
j]
=
s;}}
global
void
matrix_mul_gpu(int
n,
float
*a,
float*b,
float*c){const
int
bid=
blockIdx.x;const
int
tid
=threadIdx.x;float
s
=0.0;for
(int
k
=
0;
k
<
n;
++k)s
+=
a[bid*n
+
k]
*
b[k*n
+
tid];
//A(i,k)*B(k,j)c[bid*n+tid]
=
s;}CPU計(jì)算Cij(計(jì)算N*N個(gè),全部元素)GPU計(jì)算Cij(每個(gè)線程只計(jì)算1個(gè)元素)B[]數(shù)組非連續(xù)訪問
global
voidtranspose(intn,float*b,float*bt){bt[blockIdx.x*n
+
threadIdx.x]
=
b[threadIdx.x*n
+
blockIdx.x];}
global
void
matrix_mul_gpu2(int
n,
float
*a,
float*b,
float*c){const
int
bid
=
blockIdx.x;constint
tid
=
threadIdx.x;float
s
=0.0;for
(int
k
=
0;
k
<
n;++k)//A*BT連續(xù)訪問s+=
a[bid*n
+
k]
*
b[tid*n
+k];c[bid*n
+
tid]
=
s;}GPU計(jì)算CijA,B矩陣均連續(xù)訪問(需要首先將B矩形轉(zhuǎn)置)矩陣轉(zhuǎn)置void
check_data(int
n,
float
*c,
float
*c1){float
s
=0.0;for
(int
i
=
0;
i
<
n*n;
++i)s
+=
fabs(c[i]
-
c1[i]);printf("Total
error
is
%f
\n",
s);}測試計(jì)算是否正確intmain(){const
int
n
=
1024,
M
=
n*n*
sizeof(float);float
*a
=
(float*)malloc(M);float
*b
=
(float*)malloc(M);float
*c
=
(float*)
malloc(M);float
*c1
=(float*)malloc(M);float
*d_a,
*d_b,
*d_c,
*d_bT;for
(int
i
=0;
i
<n*n;++i){a[i]
=
(float)
(rand()%100);b[i]
=
(float)
(rand()%100);}clock_t
time1,
time2,time3,time4;time1
=clock();matrix_mul_cpu(n,
a,
b,
c);time2
=clock();printf("Time
for
CPUrun
is:
%f
seconds
\n",
(double)(time2
-
time1)
/
CLOCKS_PER_SEC);cudaMalloc(&d_a,
M);cudaMalloc(&d_b,
M);cudaMalloc(&d_c,
M);cudaMemcpy(d_a,
a,
M,
cudaMemcpyHostToDevice);cudaMemcpy(d_b,
b,
M,
cudaMemcpyHostToDevice);Time3=clock();賦初值CPU計(jì)算C=A*BGPU計(jì)算
C=A*B開辟數(shù)組A,B,C;matrix_mul_gpu<<<n,n>>>(n,d_a,d_b,d_c);//計(jì)算C=A*B,每個(gè)線程上計(jì)傳算一至個(gè)點(diǎn)GPU端cudaDeviceSynchronize();cudaMemcpy(c1,d_c,
M,
cudaMemcpyDeviceToHost);time4
=clock();printf("Time
for
GPU
run
is:
%f
seconds
\n",
(double)(time4
-
time3)
/
CLOCKS_PER_SEC);check_data(n,c,
c1);cudaFree(d_a);cudaFree(d_b);cudaFree(d_c);cudaFree(d_bT);//
by
using
transposetime1
=
clock();cudaMalloc(&d_a,M);cudaMalloc(&d_b,M);cudaMalloc(&d_c,
M);cudaMalloc(&d_bT,
M);cudaMemcpy(d_a,
a,
M,
cudaMemcpyHostToDevice);cudaMemcpy(d_b,
b,
M,
cudaMemcpyHostToDevice);transpose
<<<n,
n
>>>
(n,
d_b,
d_bT);cudaDeviceSynchronize();matrix_mul_gpu2
<<<n,
n
>>>
(n,
d_a,
d_bT,
d_c);cudaMemcpy(c1,
d_c,
M,
cudaMemcpyDeviceToHost);time2
=
clock();printf("Time
for
GPU
run
is:
%f
seconds
\n",
(double)(time2-
time1)
/CLOCKS_PER_SEC);check_data(n,
c,
c1);free(a)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度醫(yī)院物業(yè)委托管理與維護(hù)合同4篇
- 2025年度個(gè)人向公司借款用于投資合作合同范本2篇
- 2025年度影視作品制作及版權(quán)運(yùn)營合同3篇
- 2024版院長聘用合同
- 2024裝修樣板間保密協(xié)議
- 2025年度智能家居產(chǎn)品承包加工合同4篇
- 2025年度智慧社區(qū)車位出售及智能停車解決方案合同4篇
- 2025年度咖啡館股權(quán)置換及品牌輸出合同3篇
- 2025年復(fù)雜斷塊油田項(xiàng)目可行性研究報(bào)告
- 2025年度體育場館運(yùn)營管理承包服務(wù)合同范本4篇
- 人教版(2025新版)七年級下冊英語:寒假課內(nèi)預(yù)習(xí)重點(diǎn)知識默寫練習(xí)
- 藝術(shù)品捐贈(zèng)協(xié)議
- 【公開課】同一直線上二力的合成+課件+2024-2025學(xué)年+人教版(2024)初中物理八年級下冊+
- 高職組全國職業(yè)院校技能大賽(嬰幼兒照護(hù)賽項(xiàng))備賽試題庫(含答案)
- 2024年公安部直屬事業(yè)單位招聘筆試參考題庫附帶答案詳解
- NB-T 47013.15-2021 承壓設(shè)備無損檢測 第15部分:相控陣超聲檢測
- 10KV供配電工程施工組織設(shè)計(jì)
- 終端攔截攻略
- 藥物外滲處理及預(yù)防【病房護(hù)士安全警示教育培訓(xùn)課件】--ppt課件
- 紙箱檢驗(yàn)標(biāo)準(zhǔn)新
評論
0/150
提交評論