深度學(xué)習(xí)技術(shù)基礎(chǔ)與實踐 課件 第1-3章 深度學(xué)習(xí)概述、深度學(xué)習(xí)原理、深度學(xué)習(xí)框架介紹_第1頁
深度學(xué)習(xí)技術(shù)基礎(chǔ)與實踐 課件 第1-3章 深度學(xué)習(xí)概述、深度學(xué)習(xí)原理、深度學(xué)習(xí)框架介紹_第2頁
深度學(xué)習(xí)技術(shù)基礎(chǔ)與實踐 課件 第1-3章 深度學(xué)習(xí)概述、深度學(xué)習(xí)原理、深度學(xué)習(xí)框架介紹_第3頁
深度學(xué)習(xí)技術(shù)基礎(chǔ)與實踐 課件 第1-3章 深度學(xué)習(xí)概述、深度學(xué)習(xí)原理、深度學(xué)習(xí)框架介紹_第4頁
深度學(xué)習(xí)技術(shù)基礎(chǔ)與實踐 課件 第1-3章 深度學(xué)習(xí)概述、深度學(xué)習(xí)原理、深度學(xué)習(xí)框架介紹_第5頁
已閱讀5頁,還剩190頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第1章深

學(xué)

習(xí)

述授課教師:時

間:第一章

深度學(xué)習(xí)概述主要內(nèi)容1.11.21.3深度學(xué)習(xí)發(fā)展歷史深度學(xué)習(xí)的應(yīng)用深度學(xué)習(xí)基本概念深度學(xué)習(xí)與機器學(xué)習(xí)、深度學(xué)習(xí)分類機器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)及深度學(xué)習(xí)發(fā)展史深度學(xué)習(xí)在圖像、文本及音視頻中的應(yīng)用1.1

深度學(xué)習(xí)基本概念1.1.1深度學(xué)習(xí)與機器學(xué)習(xí)深度學(xué)習(xí)是機器學(xué)習(xí)中的一類最成功和有效的方法。一種使用多個“層”從輸入中逐步提取數(shù)據(jù)表達(dá)的學(xué)習(xí)算法在沒有明確編程的情況下,通過經(jīng)驗自動改進(jìn)的計算機算法。深度學(xué)習(xí)機器學(xué)習(xí)

機器學(xué)習(xí)深度學(xué)習(xí)1.1.1深度學(xué)習(xí)與機器學(xué)習(xí)在沒有明確編程的情況下,通過經(jīng)驗自動改進(jìn)的計算機算法。機器學(xué)習(xí)(a)經(jīng)典編程(b)機器學(xué)習(xí)1.1.1深度學(xué)習(xí)與機器學(xué)習(xí)一種使用多個“層”從輸入中逐步提取數(shù)據(jù)表達(dá)的學(xué)習(xí)算法深度學(xué)習(xí)第1層第2層第3層第n層輸入數(shù)據(jù)0123456789輸出結(jié)果1.1.1深度學(xué)習(xí)與機器學(xué)習(xí)從信息處理角度對人腦神經(jīng)元網(wǎng)絡(luò)進(jìn)行抽象,建立某種簡單模型,按不同的連接方式組成不同的網(wǎng)絡(luò)。人工神經(jīng)網(wǎng)絡(luò)1.1.2深度學(xué)習(xí)分類深度學(xué)習(xí)算法傳統(tǒng)分為監(jiān)督、無監(jiān)督和強化學(xué)習(xí);隨著深度學(xué)習(xí)發(fā)展,對抗生成網(wǎng)絡(luò)、遷移學(xué)習(xí)、元學(xué)習(xí)和聯(lián)邦學(xué)習(xí)等多種學(xué)習(xí)方式被提出和廣泛研究。深度學(xué)習(xí)算法分類監(jiān)督學(xué)習(xí)無監(jiān)督學(xué)習(xí)強化學(xué)習(xí)模型通過學(xué)習(xí)訓(xùn)練數(shù)據(jù)“輸入-輸出對”逼近輸入映射到輸出的函數(shù);期望輸出被稱為“標(biāo)簽”或“監(jiān)督信號”;

標(biāo)簽一般通過人工標(biāo)注獲得;分類算法屬于典型的監(jiān)督學(xué)習(xí)。在沒有標(biāo)簽的數(shù)據(jù)中訓(xùn)練模型;一般根據(jù)某種規(guī)則學(xué)習(xí)數(shù)據(jù),如概率密度;聚類算法屬于典型的無監(jiān)督學(xué)習(xí)。學(xué)習(xí)過程:代理(Agent)通過最大化累計獎勵,不斷更新自己的動作策略,最終獲得能根據(jù)環(huán)境做出最優(yōu)動作的策略;沒有準(zhǔn)確的監(jiān)督信號做指導(dǎo),是一個探索和利用的平衡過程;深度強化學(xué)習(xí)將深度學(xué)習(xí)應(yīng)用于強化學(xué)習(xí)過程以提高其效率。深度學(xué)習(xí)算法分類(續(xù))對抗生成網(wǎng)絡(luò)遷移學(xué)習(xí)元學(xué)習(xí)聯(lián)邦學(xué)習(xí)

同時訓(xùn)練一個生成器和一個判別器,博弈提升性能

生成器學(xué)習(xí)并生成與真實樣本類似分布的輸出結(jié)果

判別器學(xué)習(xí)鑒別輸入是真實還是生成的結(jié)果

將某些任務(wù)上設(shè)計好的模型應(yīng)用到另一個任務(wù)上

提升模型設(shè)計的效率

典型的NLP預(yù)訓(xùn)練模型就是遷移學(xué)習(xí)的代表學(xué)習(xí)具有“學(xué)會學(xué)習(xí)”的能力,在小樣本條件下利用已有的學(xué)習(xí)經(jīng)驗,快速完成新的任務(wù);

既完成訓(xùn)練時的任務(wù),也獲得跨領(lǐng)域或任務(wù)的能力一種虛擬共享模型,在不同機構(gòu)間通過加密交互中間結(jié)果和參數(shù)實現(xiàn)共享不同高質(zhì)量數(shù)據(jù)的目的;

用于解決數(shù)據(jù)孤島、隱私和安全問題。深度學(xué)習(xí)算法分類(續(xù))對抗生成網(wǎng)絡(luò)

同時訓(xùn)練一個生成器和一個判別器,博弈提升性能

生成器學(xué)習(xí)并生成與真實樣本類似分布的輸出結(jié)果

判別器學(xué)習(xí)鑒別輸入是真實還是生成的結(jié)果聯(lián)邦學(xué)習(xí)一種虛擬共享模型,在不同機構(gòu)間通過加密交互中間結(jié)果和參數(shù)實現(xiàn)共享不同高質(zhì)量數(shù)據(jù)的目的;

用于解決數(shù)據(jù)孤島、隱私和安全問題。1.2

深度學(xué)習(xí)發(fā)展歷史1.2深度學(xué)習(xí)發(fā)展歷史01機器學(xué)習(xí)發(fā)展歷程始于上世紀(jì)50年代經(jīng)歷約5個階段0203神經(jīng)網(wǎng)絡(luò)發(fā)展歷程始于上世紀(jì)50年代經(jīng)歷約3個階段,兩次低谷深度學(xué)習(xí)發(fā)展歷程始于2006年經(jīng)歷發(fā)展期和爆發(fā)期兩個階段1.2深度學(xué)習(xí)發(fā)展歷史(續(xù))01機器學(xué)習(xí)發(fā)展歷程始于上世紀(jì)50年代經(jīng)歷約5個階段1.2深度學(xué)習(xí)發(fā)展歷史(續(xù))01機器學(xué)習(xí)發(fā)展歷程始于上世紀(jì)50年代經(jīng)歷約5個階段1952年,IBM公司Samuel研發(fā)出西洋跳棋程序,提出“機器學(xué)習(xí)”概念1997年,IBM公司深藍(lán)國際象棋程序戰(zhàn)勝世界排名第一的國際象棋大師卡斯特羅夫1.2深度學(xué)習(xí)發(fā)展歷史(續(xù))02神經(jīng)網(wǎng)絡(luò)發(fā)展歷史始于上世紀(jì)50年代經(jīng)歷兩次低谷,三次崛起1.2深度學(xué)習(xí)發(fā)展歷史(續(xù))02神經(jīng)網(wǎng)絡(luò)發(fā)展歷史始于上世紀(jì)50年代經(jīng)歷兩次低谷,三次崛起第一階段第二階段第三階段1943,M-P模型1949,Hebb規(guī)則1957,感知機模型1958,Adaline模型1969,明斯基結(jié)論

(低潮期)1970,SeppoBP算法雛形1974,WerbosBP算法1981-1986,BP+MLP1989,LeCun提出LeNet1991,梯度消失(低潮期)2006,Hinton在《Science》發(fā)表DBN論文通過無監(jiān)督初始化和有監(jiān)督BP解決梯度消失問題1.2深度學(xué)習(xí)發(fā)展歷史(續(xù))03深度學(xué)習(xí)發(fā)展歷史2006年,Hinton在《Science》發(fā)表深度信念網(wǎng)絡(luò)DBN推動深度學(xué)習(xí)在學(xué)術(shù)界持續(xù)升溫。2011年,微軟和谷歌將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用于語音識別,錯誤率降低20%-30%,獲顯著突破。2012年,Hinton課題組將CNN應(yīng)用于ImageNet圖像識別比賽獲得奪冠。同年,吳恩達(dá)和JeffDean利用深度學(xué)習(xí)將圖像錯誤率從26%降低到15%。2014年深度學(xué)習(xí)的人臉識別率達(dá)97%,首超人類。1.2深度學(xué)習(xí)發(fā)展歷史(續(xù))03深度學(xué)習(xí)發(fā)展歷史2016年,AlphaGo運用深度學(xué)習(xí)、強化學(xué)習(xí)技術(shù)戰(zhàn)勝人類九段職業(yè)選手,推動DL發(fā)展高潮。2017年,升級版AlphaGo加強強化學(xué)習(xí)和更深層次深度學(xué)習(xí)算法,戰(zhàn)勝世界排名第一柯潔1.3

深度學(xué)習(xí)的應(yīng)用1.3深度學(xué)習(xí)的應(yīng)用語音領(lǐng)域文本領(lǐng)域圖像領(lǐng)域多模態(tài)領(lǐng)域1.3深度學(xué)習(xí)的應(yīng)用圖像0101Options02Options03Options04Options安防報警無人駕駛目標(biāo)追蹤游戲娛樂安防支付門禁人臉識別AI藝術(shù)智能監(jiān)控智慧醫(yī)療藝術(shù)畫創(chuàng)作電影制作智能診斷遠(yuǎn)程手術(shù)醫(yī)療質(zhì)控1.3深度學(xué)習(xí)的應(yīng)用圖像01圖像識別在智慧醫(yī)療中的應(yīng)用AI藝術(shù)畫作生成1.3深度學(xué)習(xí)的應(yīng)用文本0201Options02Options03Options04Options輿情分析服務(wù)評價分析翻譯軟件語音助手機器翻譯智能問答情感分析文本生成智能新聞生成小說/劇本創(chuàng)作聊天機器人智能客服智能咨詢1.3深度學(xué)習(xí)的應(yīng)用語音0301Options02Options03Options04Options違章鳴笛抓拍目標(biāo)鎖定人機交互語音助手人機交互安防應(yīng)用語音識別音頻合成聲源定位語音增強智能客服虛擬播報音樂創(chuàng)作話音通信質(zhì)量保障復(fù)雜場景提升語音質(zhì)量1.3深度學(xué)習(xí)的應(yīng)用語音03可與人流暢語音交流的機器人索菲亞1.3深度學(xué)習(xí)的應(yīng)用多模態(tài)0401Options02Options03Options04Options視頻描述視覺問答多模態(tài)對話代碼生成基于多模態(tài)深度語義理解:汽車智能座艙(語音+視覺)智能家居(語音+視覺)人機交互跨模態(tài)檢索多模態(tài)生成其它應(yīng)用商品檢索智能客服商品推薦短視頻分類視頻推薦視覺推理語言視覺推理小結(jié)概述概念歷史應(yīng)用機器學(xué)習(xí)與深度學(xué)習(xí)的關(guān)系、算法分類第2章深

學(xué)

習(xí)

理授課教師:時

間:主要內(nèi)容2.1生物學(xué)啟示2.2深度學(xué)習(xí)的網(wǎng)絡(luò)模型2.3學(xué)習(xí)目標(biāo)2.4學(xué)習(xí)算法2.5XOR問題2.6序列數(shù)據(jù)分類問題2.11生物學(xué)啟示生物學(xué)啟示2.1大腦細(xì)胞主要由神經(jīng)元(Neurons)和神經(jīng)膠質(zhì)(Glia)組成大腦生物學(xué)啟示2.1神經(jīng)元由細(xì)胞體、樹突和軸突組成神經(jīng)元樹突

胞體

軸突輸入

處理

輸出生物學(xué)啟示2.1神經(jīng)元蛋白質(zhì)合成的主要場所胞體生物學(xué)啟示2.1神經(jīng)元的輸入通道,接收其他神經(jīng)元傳遞的電信號至胞體樹突生物學(xué)啟示2.1傳遞胞本體電位至突觸軸突生物學(xué)啟示2.1神經(jīng)元間通信的特異性接頭突觸生物學(xué)啟示2.1神經(jīng)元+連接(學(xué)習(xí))生物神經(jīng)網(wǎng)絡(luò)神經(jīng)元間建立新的連接或修改已有連接為生物神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)過程2.21深度學(xué)習(xí)的網(wǎng)絡(luò)模型深度學(xué)習(xí)的網(wǎng)絡(luò)模型2.2.1神經(jīng)元?樹突接收多個輸入?胞體對輸入信息進(jìn)行處理?處理后的信息通過軸突輸出(單輸出)如何抽象為數(shù)學(xué)模型?深度學(xué)習(xí)的網(wǎng)絡(luò)模型2.2.1胞體抽象表示∑f疊加/求和處理/激活胞體對輸入信息進(jìn)行處理深度學(xué)習(xí)的網(wǎng)絡(luò)模型2.2.1樹突抽象表示

∑f其他神經(jīng)元輸出

突觸調(diào)節(jié)

深度學(xué)習(xí)的網(wǎng)絡(luò)模型2.2.1輸出(軸突)抽象表示∑f

y深度學(xué)習(xí)的網(wǎng)絡(luò)模型2.2.1

常見激活函數(shù)深度學(xué)習(xí)的網(wǎng)絡(luò)模型2.2.1

神經(jīng)元抽象表示向量化

深度學(xué)習(xí)的網(wǎng)絡(luò)模型2.2.1一個神經(jīng)元分類實例深度學(xué)習(xí)的網(wǎng)絡(luò)模型2.2.1一個神經(jīng)元的分類實例問題描述分類蘋果和橘子紅色光滑黃色粗糙描述(特征)::顏色,粗糙度深度學(xué)習(xí)的網(wǎng)絡(luò)模型2.2.1一個神經(jīng)元的分類實例紅色光滑黃色粗糙

確定輸入維度

深度學(xué)習(xí)的網(wǎng)絡(luò)模型2.2.1一個神經(jīng)元的分類實例確定輸出

深度學(xué)習(xí)的網(wǎng)絡(luò)模型2.2.1一個神經(jīng)元的分類實例確定權(quán)重

∑f深度學(xué)習(xí)的網(wǎng)絡(luò)模型2.2.1一個神經(jīng)元的分類實例確定激活函數(shù)

∑f

深度學(xué)習(xí)的網(wǎng)絡(luò)模型2.2.1一個神經(jīng)元的分類實例測試

∑f深度學(xué)習(xí)的網(wǎng)絡(luò)模型2.2.1一個神經(jīng)元的分類實例測試

∑f

深度學(xué)習(xí)的網(wǎng)絡(luò)模型2.2.1前饋神經(jīng)網(wǎng)絡(luò)輸入層隱藏層輸出層網(wǎng)絡(luò)結(jié)構(gòu)深度學(xué)習(xí)的網(wǎng)絡(luò)模型2.2.1前向傳播(計算)

深度學(xué)習(xí)的網(wǎng)絡(luò)模型2.2.1前向傳播深度學(xué)習(xí)的網(wǎng)絡(luò)模型2.2.1前向傳播

深度學(xué)習(xí)的網(wǎng)絡(luò)模型2.2.1前向傳播

深度學(xué)習(xí)的網(wǎng)絡(luò)模型2.2.1前向傳播

向量化

深度學(xué)習(xí)的網(wǎng)絡(luò)模型2.2.1前向傳播

深度學(xué)習(xí)的網(wǎng)絡(luò)模型2.2.1常見前饋神經(jīng)網(wǎng)絡(luò)模型LeNetResNetU-Net深度學(xué)習(xí)的網(wǎng)絡(luò)模型2.2.1神經(jīng)網(wǎng)絡(luò)的參數(shù)學(xué)習(xí)

參數(shù)更新規(guī)則:優(yōu)化目標(biāo):梯度下降法深度學(xué)習(xí)的網(wǎng)絡(luò)模型2.2.1一個神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的例子擬合綠色散點數(shù)據(jù)問題描述

深度學(xué)習(xí)的網(wǎng)絡(luò)模型2.2.1一個神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的例子訓(xùn)練過程損失值變化

損失函數(shù):MSE

設(shè)計神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)1(Input)-10(Hidden)-ReLU(Activation)-10(Hidden)-1(Output)選擇優(yōu)化器:SGD(隨機梯度下降法)

深度學(xué)習(xí)的網(wǎng)絡(luò)模型2.2.1一個神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的例子(參考代碼)#-*-coding:utf-8-*-"""CreatedonWedMay1010:54:572023@author:ZhanaoHuang"""importmathimportmatplotlib.pyplotaspltimportnumpyasnpimporttorchfromtorchimportnn

importosimportimageiofromPILimportImageos.environ["KMP_DUPLICATE_LIB_OK"]="TRUE"

deffig2img(fig):"""ConvertaMatplotlibfiguretoaPILImageandreturnit"""importiobuf=io.BytesIO()fig.savefig(buf)buf.seek(0)img=Image.open(buf)returnimgdefgenerate_data():y=[]x=[]foriinnp.arange(0,5,0.1):x.append(i)y.append(math.cos(i)+np.random.uniform(-0.1,0.1))plt.scatter(x,y)plt.show()returnnp.array(x),np.array(y)

classNet(nn.Module):def__init__(self):super(Net,self).__init__()

self.fc=nn.Sequential(nn.Linear(1,10),nn.ReLU(),nn.Linear(10,1),)defforward(self,x):out=self.fc(x)returnout深度學(xué)習(xí)的網(wǎng)絡(luò)模型2.2.1一個神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的例子(參考代碼)deftrain(net,x,y):optimizer=torch.optim.SGD(net.parameters(),lr=0.05)loss_func=nn.MSELoss()x=torch.from_numpy(x).float()y=torch.from_numpy(y).float()loss_all=[]img_loss_all,img_result_all=[],[]foreinrange(3000):outputs=net(x.view(-1,1,1))loss=loss_func(outputs.view(-1),y.view(-1).float())optimizer.zero_grad()loss.backward()optimizer.step()loss_all.append(loss.detach().numpy())

if(e)%10==0:print('epoch=',e,',loss=',loss)plt.plot(np.arange(len(loss_all)),loss_all,'green')plt.ylabel('loss')plt.xlabel('iteration')plt.xlim(0,3000)plt.ylim(0,1.5)fig_loss=plt.gcf()img_loss=fig2img(fig_loss)img_loss_all.append(img_loss)plt.clf()predict=net(x.view(-1,1,1))y_pre=predict.view(-1).detach().numpy()plt.scatter(x,y,color='g')plt.plot(x,y_pre,color='r')fig_result=plt.gcf()img_result=fig2img(fig_result)img_result_all.append(img_result)plt.clf()

imageio.mimsave('regression_loss.gif',img_loss_all,'GIF',duration=0.1)imageio.mimsave('regression_result.gif',img_result_all,'GIF',duration=0.1)if__name__=='__main__':x,y=generate_data()

net=Net()train(net,x,y)2.22循環(huán)神經(jīng)網(wǎng)絡(luò)循環(huán)神經(jīng)網(wǎng)絡(luò)2.2.2

輸入層隱藏層輸出層

前饋神經(jīng)網(wǎng)絡(luò)循環(huán)神經(jīng)網(wǎng)絡(luò)

Uo

輸入數(shù)據(jù)之間存在關(guān)聯(lián),如語句,視頻,音頻等數(shù)據(jù)。輸入數(shù)據(jù)之間存無關(guān)聯(lián)。W輸入層隱藏層輸出層循環(huán)神經(jīng)網(wǎng)絡(luò)2.2.2

Uo

W按時間步展開

U

W

W

U

W

U

W

循環(huán)神經(jīng)網(wǎng)絡(luò)2.2.2信息傳播(計算)過程

U

W

W

U

W

U

W

循環(huán)神經(jīng)網(wǎng)絡(luò)2.2.2無輸出的循環(huán)神經(jīng)網(wǎng)絡(luò)U

W

WUWUW

循環(huán)神經(jīng)網(wǎng)絡(luò)2.2.2最后時刻輸出的循環(huán)神經(jīng)網(wǎng)絡(luò)U

W

WUWU

U

循環(huán)神經(jīng)網(wǎng)絡(luò)2.2.2一個循環(huán)神經(jīng)網(wǎng)絡(luò)示例建模CHINA

UC輸入標(biāo)簽H

輸出隱藏層時間步1循環(huán)神經(jīng)網(wǎng)絡(luò)2.2.2一個循環(huán)神經(jīng)網(wǎng)絡(luò)示例

UC

U

輸入標(biāo)簽H

輸出隱藏層時間步12循環(huán)神經(jīng)網(wǎng)絡(luò)2.2.2一個循環(huán)神經(jīng)網(wǎng)絡(luò)示例

UC

U

U

輸入標(biāo)簽H

輸出隱藏層時間步123循環(huán)神經(jīng)網(wǎng)絡(luò)2.2.2一個循環(huán)神經(jīng)網(wǎng)絡(luò)示例

UC

U

U

U

輸入標(biāo)簽H

輸出隱藏層時間步1234循環(huán)神經(jīng)網(wǎng)絡(luò)2.2.2RNNs記憶長度問題RNNs可利用短期記憶信息,無法有效使用長期記憶信息。LongShortTermMemorynetworks(LSTM)引入門控機制控制信息流動,可有效處理長期記憶依賴問題。循環(huán)神經(jīng)網(wǎng)絡(luò)2.2.2LSTM單元狀態(tài)(cellstate):控制信息流動循環(huán)神經(jīng)網(wǎng)絡(luò)2.2.2LSTM遺忘門:丟棄信息循環(huán)神經(jīng)網(wǎng)絡(luò)2.2.2LSTM輸入門:保存新信息循環(huán)神經(jīng)網(wǎng)絡(luò)2.2.2LSTM輸入門:保存新信息循環(huán)神經(jīng)網(wǎng)絡(luò)2.2.2LSTM輸出門:輸出信息循環(huán)神經(jīng)網(wǎng)絡(luò)2.2.2LSTM變種Peepholeconnections.Gers&Schmidhuber(2000)耦合遺忘門和輸入門GRU2.23神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計2.2.3人工設(shè)計神經(jīng)網(wǎng)絡(luò)搜索專家參與效率低

自動搜索效率高神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計2.2.3神經(jīng)網(wǎng)絡(luò)搜索的主要組成神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計2.2.3定義一組操作以及如何連接操作以形成有效的網(wǎng)絡(luò)體系結(jié)構(gòu)搜索空間卷積池化連接操作神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計2.2.3對候選網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行采樣搜索策略強化學(xué)習(xí)進(jìn)化算法基于梯度的方法神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計2.2.3測量或預(yù)測搜索出來的模型的性能,獲得相應(yīng)反饋以供搜索算法學(xué)習(xí)性能評估策略層次化表示表現(xiàn)預(yù)測權(quán)重共享假設(shè)整體網(wǎng)絡(luò)是由cell重復(fù)構(gòu)建的,搜索空間縮小到對兩類cell(normalcell和reductioncell)結(jié)構(gòu)的搜索上,大大減小了搜索空間讓搜索中所有的子模型重用權(quán)重,將NAS的過程看作是在一張大圖中找子圖。將網(wǎng)絡(luò)進(jìn)行變形,同時保持其功能不變。變形后重用之前訓(xùn)練好的權(quán)重。使用一個代理模型輸出預(yù)測的驗證精度評估加速神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計2.3.2視覺自然語言處理語音醫(yī)療圖像分割目標(biāo)檢測姿態(tài)估計語音識別關(guān)鍵字識別機器翻譯語言建模命名實體識別神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索應(yīng)用2.31代價函數(shù)代價函數(shù)2.3.1定義在整個訓(xùn)練集上定義在單個訓(xùn)練樣本上代價函數(shù)損失函數(shù)取平均值代價函數(shù)與損失函數(shù)代價函數(shù)2.3.1

最優(yōu)的模型總能得到與真實值一致的預(yù)測值代價函數(shù)的定義代價函數(shù)2.3.1

代價函數(shù)的定義代價函數(shù)2.3.1在回歸任務(wù)中,常用均方誤差(Mean

Squared

Error,MSE)作為代價函數(shù)

均方誤差代價函數(shù)2.3.1交叉熵時神經(jīng)網(wǎng)絡(luò)最常用的代價函數(shù)。信息熵描述的是隨機變量或整個系統(tǒng)的不確定性,熵越大,隨機變量或系統(tǒng)的不確定性就越大。交叉熵衡量的是在知道真實值時的不確定程度。交叉熵代價函數(shù)2.3.1

交叉熵2.32輸出表示輸出表示2.3.2代價函數(shù)的選擇與輸出表示形式的選擇緊密相關(guān)輸出表示的形式二值型N值型SigmoidSoftmax輸出表示的定義輸出表示2.3.2預(yù)測二值型變量

Bernoulli分布最大似然方法Sigmoid表示輸出表示2.3.2然而,神經(jīng)網(wǎng)絡(luò)的輸出單元一般不存在偏置和激活函數(shù)。為了滿足上述約束條件,引入sigmoid函數(shù)

Sigmoid表示輸出表示2.3.2

需要表示一個具有n個可能取值的離散型隨機變量的分布可以使用Softmax函數(shù)Softmax表示輸出表示2.3.2引入Softmax函數(shù)對輸出進(jìn)行歸一化

Softmax表示2.41Hebb學(xué)習(xí)規(guī)則Hebb學(xué)習(xí)規(guī)則2.4.1每次喂食前響鈴,狗將食物和響鈴聯(lián)系起來。一段時間后,盡管沒有食物,聽到響鈴也會分泌唾液。DonaldHebb認(rèn)為:在同一時間被激發(fā)的神經(jīng)元之間的聯(lián)系會被強化。巴甫洛夫的條件反射實驗Hebb學(xué)習(xí)規(guī)則2.4.1Hebb學(xué)習(xí)規(guī)則由DonaldHebb于1949年提出,為神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)算法發(fā)展奠定了基礎(chǔ)。

如果兩個神經(jīng)元被同時激活,那么它們的突觸即連接強度將會增加。

學(xué)習(xí)率Hebb學(xué)習(xí)規(guī)則2.4.1線性聯(lián)想器通過表征正負(fù)關(guān)系學(xué)習(xí),無標(biāo)簽輸入,屬于無監(jiān)督學(xué)習(xí)。然而現(xiàn)實場景中存在大量成對數(shù)據(jù)的情景,如分類任務(wù)。

有監(jiān)督的學(xué)習(xí)規(guī)則2.42反向傳播算法反向傳播算法2.4.2Cat?Dog?每個神經(jīng)元上的參數(shù)設(shè)置為多少可以準(zhǔn)確分類?參數(shù)更新算法確定網(wǎng)絡(luò)最優(yōu)參數(shù)值反向傳播算法2.4.2反向傳播(BackPropagation)通過網(wǎng)絡(luò)輸出和期望輸出之間的誤差迭代調(diào)整權(quán)值,直到神經(jīng)網(wǎng)絡(luò)對輸入的響應(yīng)達(dá)到預(yù)期。前向傳播損失函數(shù)梯度下降反向傳播鏈?zhǔn)椒▌t反向傳播算法2.4.2

……

前向傳播反向傳播算法2.4.2

以一個簡單的誤差計算為例:

方便后期求導(dǎo)計算,不影響效果。損失函數(shù)反向傳播算法2.4.2計算參數(shù)的梯度,以損失函數(shù)的負(fù)梯度方向,調(diào)整網(wǎng)絡(luò)參數(shù)。

第n層網(wǎng)絡(luò)

學(xué)習(xí)率每一輪梯度更新后,針對該輸入的模型輸出會更加接近期望輸出。

gradient

反向傳播+梯度下降反向傳播算法2.4.2以損失函數(shù)的負(fù)梯度方向,調(diào)整網(wǎng)絡(luò)參數(shù)。

第n層網(wǎng)絡(luò)

學(xué)習(xí)率每一輪梯度更新后,針對該輸入的模型輸出會更加接近期望輸出。

gradient

梯度下降反向傳播算法2.4.2

計算y關(guān)于x的導(dǎo)數(shù),有:

鏈?zhǔn)椒▌t回顧反向傳播算法2.4.2網(wǎng)絡(luò)通常是多層的,可以通過鏈?zhǔn)椒▌t逐層計算梯度。以三層網(wǎng)絡(luò)為例:

鏈?zhǔn)椒▌t-1

對于輸出層,有:

鏈?zhǔn)椒▌t-2反向傳播算法2.4.2反向傳播算法2.4.2

對于輸出層,有:

鏈?zhǔn)椒▌t-3反向傳播算法2.4.2

對于前一層,有:

鏈?zhǔn)椒▌t-4反向傳播算法2.4.21:構(gòu)造簡單的神經(jīng)網(wǎng)絡(luò)并初始化本示例來自:/p/464268270反向傳播示例2:正向傳播,計算隱藏層神經(jīng)元的輸出反向傳播算法2.4.2反向傳播示例3:正向傳播,計算隱藏層神經(jīng)元的輸出反向傳播算法2.4.2反向傳播示例4:正向傳播,計算輸出層神經(jīng)元的輸出反向傳播算法2.4.2反向傳播示例5:計算誤差反向傳播算法2.4.2反向傳播示例

反向傳播算法2.4.2反向傳播示例

反向傳播算法2.4.2反向傳播示例

反向傳播算法2.4.2反向傳播示例

反向傳播算法2.4.2思考與嘗試2.43時間步上的反向傳播時間步上的反向傳播2.4.3循環(huán)神經(jīng)網(wǎng)絡(luò)包含特殊的循環(huán)連接,將神經(jīng)元的輸出重新輸入神經(jīng)元。循環(huán)神經(jīng)網(wǎng)絡(luò)

通過時間反向傳播時間步上的反向傳播2.4.3

有:設(shè):

有:

已知:

誤差計算與梯度計算-1時間步上的反向傳播2.4.3

誤差計算與梯度計算-2時間步上的反向傳播2.4.3

誤差計算與梯度計算-3時間步上的反向傳播2.4.3可以統(tǒng)一表達(dá)為:

誤差計算與梯度計算-4時間步上的反向傳播2.4.3計算兩個時間步的循環(huán)神經(jīng)網(wǎng)絡(luò)的前向傳播和反向傳播;用編程語言實現(xiàn)簡單的循環(huán)神經(jīng)網(wǎng)絡(luò),并實現(xiàn)前向傳播與后向傳播過程。思考與嘗試時間步上的反向傳播2.4.32.44深度學(xué)習(xí)的泛化能力深度學(xué)習(xí)的泛化能力2.4.4泛化能力(GeneralizationAbility)衡量了模型對未知數(shù)據(jù)的預(yù)測能力,是一種舉一反三和學(xué)以致用的能力。CatDog訓(xùn)練預(yù)測泛化能力泛化能力不好的表現(xiàn)深度學(xué)習(xí)的泛化能力2.4.4訓(xùn)練模型復(fù)雜度高于實際問題,過度訓(xùn)練,模型死記硬背,導(dǎo)致過擬合問題。模型復(fù)雜度低于實際問題,訓(xùn)練不足,模型無法捕捉數(shù)據(jù)的特征,導(dǎo)致欠擬合問題。預(yù)測過擬合:邊緣沒有鋸齒,不是樹葉欠擬合:綠色的,是樹葉過擬合和欠擬合深度學(xué)習(xí)的泛化能力2.4.4結(jié)構(gòu)復(fù)雜度和樣本復(fù)雜度;樣本質(zhì)量;初始權(quán)值;學(xué)習(xí)時間;…泛化能力弱的原因深度學(xué)習(xí)的泛化能力2.4.42.51XOR問題的定義XOR問題的定義2.5.1異或是數(shù)學(xué)中的一種邏輯運算符,記為⊕運算規(guī)則0⊕0

=

11⊕0

=

00⊕1

=

01⊕1

=

1當(dāng)兩個數(shù)的數(shù)值相同時為真,不相同時為假XOR問題的定義2.5.1在此特征空間下,用線性分類器無法解決XOR問題2.52解決XOR的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)解決XOR的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)2.5.2引入一個包含三層的前饋神經(jīng)網(wǎng)絡(luò)解決XOR的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)2.5.2引入一個包含三層的前饋神經(jīng)網(wǎng)絡(luò)

解決XOR的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)2.5.2引入一個包含三層的前饋神經(jīng)網(wǎng)絡(luò)

2.53得到XOR的解得到XOR的解2.5.3對于已經(jīng)收斂的前饋神經(jīng)網(wǎng)絡(luò),先令

矩陣可以表示為

得到XOR的解2.5.3將輸入矩陣與第一層權(quán)重矩陣進(jìn)行相乘,并加上偏置矩陣

得到XOR的解2.5.3加入ReLU激活函數(shù)

得到XOR的解2.5.3得到模型最終的輸出值

2.61序列數(shù)據(jù)分類問題的定義序列數(shù)據(jù)分類問題的定義2.6.1文本數(shù)據(jù)作為一種天生的序列數(shù)據(jù)在深度學(xué)習(xí)領(lǐng)域被廣泛研究文本分類任務(wù):給定一句評論,通過將該評論輸入一個神經(jīng)網(wǎng)絡(luò)模型。判斷它是“好評”還是“差評”2.62序列數(shù)據(jù)分類問題求解序列數(shù)據(jù)分類問題求解2.6.2序列數(shù)據(jù)分類問題求解2.6.2分詞這電影真不錯!這#電影#真#不錯#!構(gòu)建辭典[這:88,電影:156,真:14,不錯:23,?。?…]序列數(shù)據(jù)分類問題求解2.6.2獨熱編碼[88,156,14,23,5]模型學(xué)習(xí)將中的每個元素按照順序依次輸入循環(huán)神經(jīng)網(wǎng)絡(luò)。取最后一個時間步的隱藏層狀態(tài)的值并送入一個全連接網(wǎng)絡(luò)進(jìn)行維度轉(zhuǎn)換輸出值利用Softmax函數(shù)轉(zhuǎn)換到0-1之間的概率值,計算損失并梯度反傳更新整個網(wǎng)絡(luò)參數(shù)第3章深度學(xué)習(xí)框架介紹授課教師:時

間:

目錄3.13.23.3MindSpore介紹TensorFlow介紹概述深度學(xué)習(xí)框架總覽框架簡介、環(huán)境安裝和配置框架簡介、環(huán)境安裝和配置

目錄3.43.5PyTorch介紹如何選擇好的框架框架簡介、環(huán)境安裝和配置3.11概述深度學(xué)習(xí)框架總覽目前,應(yīng)用最廣泛的深度學(xué)習(xí)框架有TensorFlow、PyTorch、PaddlePaddle、Caffe、MXNet等,也有如MindSpore這類的新起之秀。表3.1展示了至2021年9月Github上相關(guān)深度學(xué)習(xí)框架的具體信息。表3.1:深度學(xué)習(xí)框架總覽MindSpore的驅(qū)動前提為了減小從學(xué)術(shù)研究到工業(yè)生產(chǎn)之間存在的巨大鴻溝,提出了驅(qū)動人工智能(AI)框架演進(jìn)的五大因素:“ABCDE”。Application+BigData:AI模型和數(shù)據(jù)大模型+大數(shù)據(jù)(GPT-3參數(shù)達(dá)1750億);從單一的NN向通用AI和科學(xué)計算演進(jìn)。Chip:AI芯片和算力芯片/集群性能持續(xù)提升(E級人工智能算力集群);CPU/GPU/NPU多樣化異構(gòu)算力。Developer:算法開發(fā)工程師關(guān)注算法創(chuàng)新,系統(tǒng)性能優(yōu)化動力不足;算法迭代快,需要邊界的調(diào)試調(diào)優(yōu)能力。Enterprise:AI部署+AI責(zé)任企業(yè)部署注重安全、隱私保護;AI產(chǎn)品的廣泛應(yīng)用面臨公平性、可解釋挑戰(zhàn)。3.22MindSpore介紹3.2.1框架簡介2018年華為公司全聯(lián)接大會上提出了人工智能面臨的十大挑戰(zhàn):1.模型訓(xùn)練方面:深度學(xué)習(xí)模型訓(xùn)練時間少則數(shù)日,多則數(shù)月;2.算力方面:目前GPU算力稀缺且昂貴,算力仍然是制約現(xiàn)階段深度學(xué)習(xí)發(fā)展的瓶頸之一;3.人工智能部署方面:主要在云,少量在邊緣;4.

算法方面:目前的訓(xùn)練算法主要誕生于上世紀(jì)80年代,數(shù)據(jù)需求量大,計算能效較高,算法的可解釋較差;5.人工智能自動化方面:仍然面臨沒有人工就沒有智能的現(xiàn)狀;6.面向?qū)嶋H應(yīng)用方面:模型的實際應(yīng)用相對較少,工業(yè)應(yīng)用不足;7.模型更新方面:模型參數(shù)非實時更新;8.多技術(shù)協(xié)同方面:現(xiàn)有的模型與其他技術(shù)集成不充分;9.平臺支持方面:現(xiàn)有的模型訓(xùn)練是一項需要高級技能,難度較高的工作;10.相關(guān)人才獲得方面:目前的數(shù)據(jù)科學(xué)家稀缺,人才儲備不足。3.2.1框架簡介2020年3月28日,華為發(fā)布了新一代人工智能框架MindSpore,發(fā)布MindSporev0.1.0-alpha版本。2020年4月-8月,華為發(fā)布了V0.2.0-V0.7.0版本。2020年9月,華為發(fā)布了V1.0.0正式版本。在該版本中,MindSpore提供了所見即所得的模型開發(fā)和調(diào)優(yōu)套件,同時也提供了40多個典型的高性能模型,覆蓋了計算機視覺、自然語言處理、推薦系統(tǒng)等多個領(lǐng)域。2021年9月,MindSpore已迭代更新至V1.3.0版本,支持增量推理模型部署,圖計算融合加速網(wǎng)絡(luò)訓(xùn)練等新的特性。3.2.2環(huán)境安裝與配置下載Miniconda圖3.1:在官網(wǎng)上下載對應(yīng)的安裝版本3.2.2環(huán)境安裝與配置下載Miniconda圖3.2:Miniconda安裝成功界面3.2.2環(huán)境安裝與配置MindSpore的正常運行依賴Python3.7.5運行環(huán)境,利用Miniconda創(chuàng)建一個符合該版本要求的Python虛擬環(huán)境。在AnacondaPrompt(Miniconda)中,鍵入以下命令創(chuàng)建Python虛擬環(huán)境:圖3.3:虛擬環(huán)境創(chuàng)建成功界面若虛擬環(huán)境安裝成功,則Prompt界面如圖3.3所示,可以利用condaactivatemindspore

和condadeactivatemindspore激活或退出MindSpore虛擬環(huán)境。3.2.2環(huán)境安裝與配置在Promt中鍵入condaactivatemindspore激活創(chuàng)建成功的虛擬環(huán)境,若環(huán)境成功激活,則命令符前括號中的字母應(yīng)變更為“minspore”,激活成功界面如圖3.4所示。圖3.4:虛擬環(huán)境激活成功界面3.2.2環(huán)境安裝與配置圖3.5:MindSpore官網(wǎng)版本下載界面MindSpore的安裝十分簡單。MindSpore官網(wǎng)下載頁面如圖3.5所示,用戶只需根據(jù)適合的環(huán)境條件下載相應(yīng)的安裝包或使用云平臺即可創(chuàng)建和部署該框架。3.2.2環(huán)境安裝與配置圖3.6:MindSpore

安裝成功界面以MindSpore1.3.0CPU版本為例,通過Python自帶的軟件包安裝工具pip,即可實現(xiàn)MindSpore的快速安裝。程序安裝完成界面如圖3.6所示。3.2.3MindSpore實現(xiàn)簡單神經(jīng)網(wǎng)絡(luò)代碼1:引入MindSporeAPI使用MindSpore框架訓(xùn)練模型前需要引入MindSporeAPI來輔助實現(xiàn)對應(yīng)的功能,例如nn庫中提供了用于構(gòu)建神經(jīng)網(wǎng)絡(luò)的預(yù)定義構(gòu)建模塊和計算單元;Model庫用于模型訓(xùn)練和測試;callback庫用于保存模型的信息等,實踐案例如代碼1所示。3.2.3MindSpore實現(xiàn)簡單神經(jīng)網(wǎng)絡(luò)代碼2:定義神經(jīng)網(wǎng)絡(luò)模型使用MindSpore框架定義神經(jīng)網(wǎng)絡(luò)模型時,需要繼承MindSpore的Cell類,它是構(gòu)建所有網(wǎng)絡(luò)的基類,也是網(wǎng)絡(luò)的基本單元。同時,還需要根據(jù)模型的設(shè)計來重寫__init__方法和construct方法。3.2.3MindSpore實現(xiàn)簡單神經(jīng)網(wǎng)絡(luò)代碼2:定義神經(jīng)網(wǎng)絡(luò)模型代碼2中,__init__中提到的Conv2d代表卷積函數(shù),用于提取特征;ReLU代表非線性激活函數(shù),用于學(xué)習(xí)各種復(fù)雜的特征;MaxPool2d代表最大池化函數(shù),用于降采樣;Flatten將多維數(shù)組轉(zhuǎn)化為1維數(shù)組;Dense用于矩陣的線性變換。construct中則是用定義好的運算實現(xiàn)網(wǎng)絡(luò)的前向傳播過程。3.2.3MindSpore實現(xiàn)簡單神經(jīng)網(wǎng)絡(luò)代碼3:加載數(shù)據(jù)和定義模型參數(shù)定義了神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)之后,就需要加載訓(xùn)練需要用到的數(shù)據(jù)集和定義模型的超參數(shù)。train_epoch表示所有數(shù)據(jù)在網(wǎng)絡(luò)模型中完成了前向計算和反向傳播的次數(shù);lr代表學(xué)習(xí)率,決定了神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)問題的快慢;momentum是動量算法(與隨機梯度下降算法類似)中的一個參數(shù);net_loss定義了模型的損失函數(shù),反映了模型的預(yù)測值和真實值的差距,此處選用的是交叉熵?fù)p失函數(shù);net_opt定義了模型的優(yōu)化算法,用于更新模型中的參數(shù)。3.2.3MindSpore實現(xiàn)簡單神經(jīng)網(wǎng)絡(luò)代碼4:訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型最后一步是初始化神經(jīng)網(wǎng)絡(luò),再將模型超參數(shù)、神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)、損失函數(shù)、模型優(yōu)化器和評價指標(biāo)等一同傳給網(wǎng)絡(luò)模型,通過調(diào)用模型的train函數(shù)正式開始模型的訓(xùn)練。3.33TensorFlow介紹3.3.1框架簡介隨著2016年3月AlphaGo戰(zhàn)勝李世石,深度學(xué)習(xí)和人工智能等概念迅速進(jìn)入大眾的視野。而TensorFlow是AlphaGo擁有如此強大能力的基礎(chǔ),它是Google公司在2015年11月開源的機器

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論