《深度學(xué)習(xí) 》課件全套 李侃 第1-11章-緒論 -無監(jiān)督深度學(xué)習(xí)_第1頁
《深度學(xué)習(xí) 》課件全套 李侃 第1-11章-緒論 -無監(jiān)督深度學(xué)習(xí)_第2頁
《深度學(xué)習(xí) 》課件全套 李侃 第1-11章-緒論 -無監(jiān)督深度學(xué)習(xí)_第3頁
《深度學(xué)習(xí) 》課件全套 李侃 第1-11章-緒論 -無監(jiān)督深度學(xué)習(xí)_第4頁
《深度學(xué)習(xí) 》課件全套 李侃 第1-11章-緒論 -無監(jiān)督深度學(xué)習(xí)_第5頁
已閱讀5頁,還剩452頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

單擊此處添加文本單擊此處添加文本第一章

緒論1目錄

|

CONTENTS深度學(xué)習(xí)簡介1深度學(xué)習(xí)發(fā)展歷史2深度學(xué)習(xí)分類3度量指標(biāo)42深度學(xué)習(xí)簡介13深度學(xué)習(xí)定義深度學(xué)習(xí)是機器學(xué)習(xí)的重要分支,通過模擬神經(jīng)元和復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)實現(xiàn)信息處理和學(xué)習(xí)。深度學(xué)習(xí)目標(biāo)讓機器像人類一樣具備分析和學(xué)習(xí)能力,更接近人工智能的最初目標(biāo)。1.1深度學(xué)習(xí)簡介深度學(xué)習(xí)概覽4經(jīng)典深度學(xué)習(xí)架構(gòu)包括AlexNet、RNN、LSTM、GAN和Transformer,它們各自在圖像、序列數(shù)據(jù)和生成模型等領(lǐng)域做出了重要貢獻(xiàn)近二十年,深度學(xué)習(xí)因大數(shù)據(jù)、優(yōu)化策略(如隨機梯度下降、dropout)及GPU并行計算的突破,實現(xiàn)了快速發(fā)展深度學(xué)習(xí)的突破與進(jìn)展20世紀(jì)50年代至80年代,深度學(xué)習(xí)逐步發(fā)展,從感知機到反向傳播算法,為解決非線性分類鋪平道路,但受限于計算能力深度學(xué)習(xí)早期探索51.1深度學(xué)習(xí)簡介經(jīng)典深度學(xué)習(xí)架構(gòu)的誕生發(fā)展歷程與突破深度學(xué)習(xí)技術(shù)廣泛應(yīng)用于計算機視覺、自然語言處理和語音識別等領(lǐng)域,實現(xiàn)圖像識別、機器翻譯和聲紋識別等功能深度學(xué)習(xí)的廣泛應(yīng)用深度學(xué)習(xí)迅猛發(fā)展,廣泛應(yīng)用于生物醫(yī)學(xué)、無人駕駛等領(lǐng)域,未來將更成熟,賦能更多場景深度學(xué)習(xí)的跨領(lǐng)域應(yīng)用1.1深度學(xué)習(xí)簡介6深度學(xué)習(xí)的應(yīng)用1.1深度學(xué)習(xí)簡介應(yīng)用領(lǐng)域與價值7自然語言處理機器翻譯、文本分類、命名實體識別、語義分析、文本生成語音識別聲紋識別、語音轉(zhuǎn)文本、語音合成其他領(lǐng)域生物醫(yī)學(xué)、無人駕駛、工業(yè)自動化、智能家居計算機視覺圖像分類、對象檢測、語義分割、姿態(tài)估計、3D重建深度學(xué)習(xí)正在改變我們的生活方式深度學(xué)習(xí)發(fā)展歷史28深度學(xué)習(xí)技術(shù)歷程涵蓋關(guān)鍵階段,如神經(jīng)網(wǎng)絡(luò)早期發(fā)展、反向傳播算法的提出、大數(shù)據(jù)時代的到來對深度學(xué)習(xí)的推動產(chǎn)業(yè)化應(yīng)用進(jìn)程從學(xué)術(shù)到產(chǎn)業(yè),包括深度學(xué)習(xí)在圖像識別、自然語言處理等領(lǐng)域的應(yīng)用,以及在人工智能產(chǎn)品中的商業(yè)化進(jìn)程1.2深度學(xué)習(xí)發(fā)展歷史91943年,麥卡洛克和皮茲提出人工神經(jīng)元模型,1958年Rosenblatt推出感知機算法,開啟計算機模擬人腦的先河深度學(xué)習(xí)起源011982年,GeoffreyHinton提出反向傳播算法,解決了非線性數(shù)據(jù)分類,引發(fā)第二次神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)狂潮反向傳播算法021982-1986年,RNN出現(xiàn),但受限于記憶力短和梯度不穩(wěn)定問題,未引起廣泛關(guān)注循環(huán)神經(jīng)網(wǎng)絡(luò)031998年LSTM解決RNN的長序列問題,2014年GRU提出,參數(shù)更少,計算效率更高LSTM與GRU042006年,Hinton等人提出深度學(xué)習(xí)新方案,解決梯度消失,再次引發(fā)深度學(xué)習(xí)熱潮深度學(xué)習(xí)復(fù)興052012年AlexNet開啟深度卷積網(wǎng)絡(luò)新時代,后續(xù)各種CNN架構(gòu)不斷優(yōu)化,2014年GAN創(chuàng)新生成式模型深度學(xué)習(xí)突破061.2.1深度學(xué)習(xí)技術(shù)的發(fā)展歷史102017年,Transformer的出現(xiàn)徹底改變了NLP。Transformer是一類純粹基于注意力機制的神經(jīng)網(wǎng)絡(luò)算法,其不使用循環(huán)網(wǎng)絡(luò)或卷積。它由多頭自注意力、殘差連接、層歸一化、全連接層和位置編碼組成。在NLP各個下游任務(wù)上表現(xiàn)出非常優(yōu)越的性能。目前,它也在改變著計算機視覺領(lǐng)域,并被用在機器翻譯、文本摘要、語音識別、文本補全、文檔搜索等多個下游任務(wù)上。1.2.1深度學(xué)習(xí)技術(shù)的發(fā)展歷史111.2.1深度學(xué)習(xí)技術(shù)的發(fā)展歷史12谷歌研究者將Transformer應(yīng)用于圖像識別,提出VisionTransformer(ViT),在計算機視覺基準(zhǔn)測試中表現(xiàn)出色。VisionTransformers概述01大規(guī)模語言模型如GPT系列由OpenAI和DeepMind等開發(fā),參數(shù)量龐大,性能持續(xù)提升,目前GPT-4在創(chuàng)造力和協(xié)作性上更進(jìn)一步。大規(guī)模語言模型(LLM)03OpenAI的DALL·E2模型能根據(jù)文本生成高分辨率、逼真圖像,引領(lǐng)視覺語言模型發(fā)展。視覺和語言模型02代碼生成模型如OpenAICodex、DeepMindAlphaCode和MetaCodeLlama,是人工智能在編程領(lǐng)域的應(yīng)用,能理解和生成代碼,助力建設(shè)智能系統(tǒng)。代碼生成模型04重要技術(shù)突破01Transformer在圖像領(lǐng)域應(yīng)用谷歌研究者在2020年提出VisionTransformer,對圖像塊序列運行Transformer,實現(xiàn)在圖像分類任務(wù)上的顯著成果,展現(xiàn)出強大的并行性和縮放行為02VisionTransformer架構(gòu)特點使用圖像patch作為輸入,結(jié)合Transformer的超強并行性和縮放能力,使VisionTransformer在多個計算機視覺基準(zhǔn)測試中表現(xiàn)優(yōu)異,成為Cifar-10上最先進(jìn)的分類模型1.2.1深度學(xué)習(xí)技術(shù)的發(fā)展歷史13(1)VisionTransformers1.2.1深度學(xué)習(xí)技術(shù)的發(fā)展歷史多模態(tài)模型發(fā)展視覺與語言模型結(jié)合,如文本轉(zhuǎn)圖像、圖像字幕及視覺問答,Transformer推動統(tǒng)一網(wǎng)絡(luò),實現(xiàn)多任務(wù)處理DALL·E2模型OpenAI發(fā)布,顯著提升圖像生成質(zhì)量,分辨率、匹配度與真實感優(yōu)秀,代表文本轉(zhuǎn)圖像模型新高度圖1-1

DALL·E2生成的圖像14(2)視覺和語言模型01語言模型用途預(yù)測文本、文檔摘要、翻譯、語音識別與合成,多功能應(yīng)用02GPT系列發(fā)展從GPT到GPT-3,參數(shù)量與訓(xùn)練數(shù)據(jù)激增,GPT-3參數(shù)達(dá)1750億,需366年及460萬美元訓(xùn)練03模型規(guī)模擴張NVIDIAMegatron-LM、DeepMindGopher、GooglePaLM等模型參數(shù)量超越GPT-3,規(guī)模持續(xù)擴大1.2.1深度學(xué)習(xí)技術(shù)的發(fā)展歷史15(3)大規(guī)模語言模型(LLM)始于2021年,OpenAI發(fā)布Codex,微調(diào)自GPT-3,能編寫、解釋代碼;DeepMind隨后發(fā)布AlphaCode,解決編程競賽問題,排名前54%;2023年,Meta開源CodeLlama,免費商用,自然語言生成代碼AI系統(tǒng)如Codex、AlphaCode和CodeLlama,能根據(jù)自然語言或文本生成代碼,補全代碼,適用于多種編程任務(wù),展現(xiàn)批判性思維與自然語言理解能力深度學(xué)習(xí)技術(shù)歷史代碼生成技術(shù)1.2.1深度學(xué)習(xí)技術(shù)的發(fā)展歷史16(4)代碼生成模型第二次發(fā)展浪潮第一次發(fā)展浪潮1956至1980年,聚焦邏輯推理,成果實用性有限,未解決實際問題1980至2006年,專家系統(tǒng)興起,解決特定領(lǐng)域問題,如醫(yī)學(xué)專家系統(tǒng)MYCIN,準(zhǔn)確率媲美初級醫(yī)師,但仍有限制,高昂維護(hù)成本致AI發(fā)展再次低谷第三次發(fā)展浪潮1980至2006年,第三次AI浪潮,深度學(xué)習(xí)由Hinton提出,實現(xiàn)技術(shù)突破,跨越理論到應(yīng)用的鴻溝1.2.2深度學(xué)習(xí)產(chǎn)業(yè)應(yīng)用的變遷史17人工智能三次發(fā)展浪潮1.2.2深度學(xué)習(xí)產(chǎn)業(yè)應(yīng)用的變遷史2006年:Hinton提出深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),標(biāo)志著第三次發(fā)展浪潮的開啟。2012年:AlexNet在圖像識別領(lǐng)域的突破,推動深度學(xué)習(xí)技術(shù)的普及。2024年:大模型技術(shù)的崛起,推動AI在多領(lǐng)域的深度應(yīng)用。18深度學(xué)習(xí)技術(shù)的突破智慧交通通過大數(shù)據(jù)和AI技術(shù)優(yōu)化資源配置,自動駕駛、智能交通管理成為主流AI在輔助診斷、藥物研發(fā)、醫(yī)療影像等領(lǐng)域取得突破;聯(lián)影醫(yī)療的uAI影智大模型AI+安防引領(lǐng)安全監(jiān)控新紀(jì)元,實現(xiàn)高效預(yù)警和精準(zhǔn)識別。華泰證券的智能投顧、中信證券的做市系統(tǒng)交通領(lǐng)域醫(yī)療領(lǐng)域安防領(lǐng)域金融領(lǐng)域AI賦能工業(yè)軟件,推動制造業(yè)智能化轉(zhuǎn)型;大模型技術(shù)加速工業(yè)場景需求探索工業(yè)領(lǐng)域1.2.2深度學(xué)習(xí)產(chǎn)業(yè)應(yīng)用的變遷史19產(chǎn)業(yè)應(yīng)用的變遷01市場規(guī)模2021年全球AI市場達(dá)850億美元,中國占9.6%,僅次于美歐,預(yù)計2022年中國市場規(guī)模2729億元02發(fā)展趨勢計算機視覺與自然語言處理商業(yè)化快,2020年計算機視覺市場規(guī)模近千億,自然語言處理產(chǎn)品規(guī)模219億,年增20%1.2.2深度學(xué)習(xí)產(chǎn)業(yè)應(yīng)用的變遷史20市場規(guī)模與發(fā)展趨勢深度學(xué)習(xí)分類321有監(jiān)督學(xué)習(xí)(SupervisedLearning)使用帶標(biāo)簽的訓(xùn)練數(shù)據(jù),模型學(xué)習(xí)輸入與輸出間的關(guān)系,適用于分類和回歸問題無監(jiān)督學(xué)習(xí)(UnsupervisedLearning)在無標(biāo)簽數(shù)據(jù)上學(xué)習(xí),發(fā)現(xiàn)數(shù)據(jù)的內(nèi)在結(jié)構(gòu)或模式,常用于聚類和降維半監(jiān)督學(xué)習(xí)(Semi-supervisedLearning)利用少量標(biāo)記數(shù)據(jù)和大量未標(biāo)記數(shù)據(jù)進(jìn)行學(xué)習(xí),適用于標(biāo)記數(shù)據(jù)稀缺的場景自監(jiān)督學(xué)習(xí)(Self-supervisedLearning)通過自我生成的標(biāo)簽進(jìn)行學(xué)習(xí),利用輸入數(shù)據(jù)的結(jié)構(gòu)信息,常用于預(yù)訓(xùn)練弱監(jiān)督學(xué)習(xí)(Weakly-supervisedLearning)使用標(biāo)注質(zhì)量較低或部分缺失的訓(xùn)練數(shù)據(jù),模型學(xué)習(xí)弱標(biāo)簽與真實標(biāo)簽的潛在關(guān)系1.3.1任務(wù)類型22有監(jiān)督學(xué)習(xí)是指在訓(xùn)練過程中,數(shù)據(jù)集中的每個樣本都有明確的目標(biāo)輸出值,模型通過學(xué)習(xí)這些樣本的輸入和輸出關(guān)系來預(yù)測新的輸出值。應(yīng)用場景:分類和回歸的場景,如圖像分類、心臟病預(yù)測等。23

有監(jiān)督學(xué)習(xí)無監(jiān)督學(xué)習(xí)的原理無監(jiān)督學(xué)習(xí)通過學(xué)習(xí)輸入數(shù)據(jù)間的關(guān)系,來發(fā)現(xiàn)數(shù)據(jù)的內(nèi)在結(jié)構(gòu)和規(guī)律,不依賴明確的目標(biāo)輸出值。24

無監(jiān)督學(xué)習(xí)自動編碼器是常見的降維工具,通過編碼和解碼過程,將高維數(shù)據(jù)壓縮為低維表示,用于數(shù)據(jù)壓縮和異常檢測等。降維技術(shù)01生成模型如GAN和VAE學(xué)習(xí)數(shù)據(jù)分布,生成與訓(xùn)練數(shù)據(jù)相似的新樣本,應(yīng)用于圖像生成、語言建模等任務(wù)。生成模型02

無監(jiān)督學(xué)習(xí)25降維與生成模型半監(jiān)督學(xué)習(xí)的定義半監(jiān)督學(xué)習(xí)介于有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)之間,部分?jǐn)?shù)據(jù)集中的樣本有明確的目標(biāo)輸出值,而其他樣本沒有目標(biāo)輸出值。其目標(biāo)是利用未標(biāo)注的數(shù)據(jù)來提高模型在有標(biāo)注數(shù)據(jù)上的性能。26

半監(jiān)督學(xué)習(xí)01半監(jiān)督學(xué)習(xí)定義結(jié)合有監(jiān)督和無監(jiān)督學(xué)習(xí),利用未標(biāo)注數(shù)據(jù)提升模型性能03半監(jiān)督學(xué)習(xí)算法包括自訓(xùn)練、協(xié)同訓(xùn)練、半監(jiān)督字典學(xué)習(xí)、標(biāo)簽傳播算法等02半監(jiān)督學(xué)習(xí)分類分為純半監(jiān)督學(xué)習(xí)和直推學(xué)習(xí),基于不同假設(shè)處理未標(biāo)記數(shù)據(jù)04半監(jiān)督學(xué)習(xí)挑戰(zhàn)性能依賴于對數(shù)據(jù)的特定假設(shè),限制了實際應(yīng)用范圍

半監(jiān)督學(xué)習(xí)27圖1-2主動學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、直推學(xué)習(xí)

半監(jiān)督學(xué)習(xí)在許多實際應(yīng)用中,獲取無類標(biāo)簽的樣例容易,但獲取有類標(biāo)簽的樣本需要特殊設(shè)備或經(jīng)過昂貴且耗時的實驗過程。因此,半監(jiān)督學(xué)習(xí)應(yīng)運而生,旨在通過結(jié)合少量有標(biāo)簽數(shù)據(jù)和大量無標(biāo)簽數(shù)據(jù)來提升學(xué)習(xí)性能。背景半監(jiān)督學(xué)習(xí)避免了數(shù)據(jù)和資源的浪費,同時解決了監(jiān)督學(xué)習(xí)的模型泛化能力不強和無監(jiān)督學(xué)習(xí)的模型不精確等問題。優(yōu)勢28假定訓(xùn)練數(shù)據(jù)中的未標(biāo)記樣本并非待預(yù)測的數(shù)據(jù),而是基于“開放世界”假設(shè),希望學(xué)得的模型能適用于訓(xùn)練過程中未觀察到的數(shù)據(jù)。純半監(jiān)督學(xué)習(xí)假定學(xué)習(xí)過程中所考慮的未標(biāo)記樣本恰是待預(yù)測數(shù)據(jù),基于“封閉世界”假設(shè),僅試圖對學(xué)習(xí)過程中觀察到的未標(biāo)記數(shù)據(jù)進(jìn)行預(yù)測。直推學(xué)習(xí)半監(jiān)督學(xué)習(xí)類型

半監(jiān)督學(xué)習(xí)29用有標(biāo)簽數(shù)據(jù)訓(xùn)練一個分類器,然后用這個分類器對無標(biāo)簽數(shù)據(jù)進(jìn)行分類,產(chǎn)生偽標(biāo)簽(pseudolabel)或軟標(biāo)簽(softlabel)?;谝欢ǖ臏?zhǔn)則挑選認(rèn)為分類正確的無標(biāo)簽樣本,將其加入訓(xùn)練集中。簡單自訓(xùn)練(SimpleSelf-training)屬于自訓(xùn)練的一種技術(shù),假設(shè)每個數(shù)據(jù)可以從不同的角度進(jìn)行分類,不同角度可以訓(xùn)練出不同的分類器。這些分類器對無標(biāo)簽樣本進(jìn)行分類,并選出認(rèn)為可信的無標(biāo)簽樣本加入訓(xùn)練集。由于分類器從不同角度訓(xùn)練,可以形成互補,提高分類精度。協(xié)同訓(xùn)練(Co-training)(1)自訓(xùn)練算法(Self-training)

半監(jiān)督學(xué)習(xí)——主要方法30(2)基于圖的半監(jiān)督學(xué)習(xí)(Graph-basedSemi-supervisedLearning)標(biāo)簽傳播算法(LabelPropagationAlgorithm)通過構(gòu)造圖結(jié)構(gòu)(數(shù)據(jù)點為頂點,點之間的相似性為邊),尋找訓(xùn)練數(shù)據(jù)中有標(biāo)簽數(shù)據(jù)和無標(biāo)簽數(shù)

據(jù)的關(guān)系,從而將標(biāo)簽信息傳播到未標(biāo)記的樣本上。(3)半監(jiān)督支持向量機(Semi-supervisedSVM,S3VM)監(jiān)督支持向量機是利用結(jié)構(gòu)風(fēng)險最小化來分類的。半監(jiān)督支持向量機則進(jìn)一步利用了無標(biāo)簽數(shù)據(jù)的

空間分布信息,即決策超平面應(yīng)該與無標(biāo)簽數(shù)據(jù)的分布一致(經(jīng)過無標(biāo)簽數(shù)據(jù)密度低的地方)。(4)半監(jiān)督字典學(xué)習(xí)先將有標(biāo)簽數(shù)據(jù)構(gòu)建為字典,對無標(biāo)簽數(shù)據(jù)進(jìn)行分類,挑選出認(rèn)為分類正確的無標(biāo)簽樣本,加入字典中(此時的字典就變成了半監(jiān)督字典)。

半監(jiān)督學(xué)習(xí)——主要方法31半監(jiān)督學(xué)習(xí)方法大多建立在對數(shù)據(jù)的某種假設(shè)上,例如聚類假設(shè)(同一簇內(nèi)的數(shù)據(jù)屬于同一類別)和流形假設(shè)(數(shù)據(jù)在低維流形上分布)。只有滿足這些假設(shè)時,半監(jiān)督算法才能有性能保證。這也是限制半監(jiān)督學(xué)習(xí)應(yīng)用的一大障礙。假設(shè):限制:

半監(jiān)督學(xué)習(xí)32半監(jiān)督學(xué)習(xí)的假設(shè)與限制定義:自監(jiān)督學(xué)習(xí)通過利用數(shù)據(jù)本身的內(nèi)在結(jié)構(gòu)來預(yù)測數(shù)據(jù)中的特定關(guān)系或特征,從而使用有監(jiān)督的學(xué)習(xí)算法進(jìn)行訓(xùn)練。關(guān)鍵:設(shè)計合適的“偽標(biāo)簽”以捕獲數(shù)據(jù)的結(jié)構(gòu)信息。應(yīng)用領(lǐng)域:預(yù)訓(xùn)練語言模型(如Word2vec)、圖像分割等。

自監(jiān)督學(xué)習(xí)33(1)基于上下文的方法原理:利用數(shù)據(jù)本身的上下文信息構(gòu)造任務(wù)。CBOW:通過周圍詞預(yù)測中心詞。Skip-Gram:通過中心詞預(yù)測周圍詞。Word2vec:Jigsaw(拼圖)任務(wù):通過預(yù)測圖像塊的相對位置學(xué)習(xí)語義信息。圖像領(lǐng)域:

自監(jiān)督學(xué)習(xí)——主要方法34(2)基于時序的方法利用幀的相似性:相鄰幀特征相似,相隔較遠(yuǎn)的幀特征相似度低。構(gòu)建正樣本(相似)和負(fù)樣本(不相似)進(jìn)行自監(jiān)督約束。視頻領(lǐng)域:圖1-5時序幀相似性示意圖

自監(jiān)督學(xué)習(xí)——主要方法35原理:利用樣本間的時序約束關(guān)系進(jìn)行自監(jiān)督學(xué)習(xí)。(3)基于對比的方法關(guān)注正負(fù)樣例的構(gòu)建方式。探究非線性層在對比學(xué)習(xí)中的作用。提取更好的文本序列表征。SimCLR:通過對比學(xué)習(xí)提升無監(jiān)督學(xué)習(xí)性能。關(guān)注樣本數(shù)量對學(xué)習(xí)質(zhì)量的影響。正樣本:同一張圖片的兩個區(qū)域;負(fù)樣本:不同圖片的區(qū)域。MoCo:

自監(jiān)督學(xué)習(xí)——主要方法36原理:學(xué)習(xí)對兩個事物的相似或不相似進(jìn)行編碼,通過對比約束構(gòu)建表征。01弱監(jiān)督學(xué)習(xí)定義在噪聲或不準(zhǔn)確標(biāo)簽數(shù)據(jù)集進(jìn)行學(xué)習(xí),從低質(zhì)量標(biāo)簽中提取信息提升模型性能03不確切監(jiān)督僅知包級標(biāo)簽,不知包內(nèi)每個示例標(biāo)簽,進(jìn)行粗粒度學(xué)習(xí)02不完全監(jiān)督部分?jǐn)?shù)據(jù)有標(biāo)簽,部分無標(biāo)簽,利用有標(biāo)簽數(shù)據(jù)指導(dǎo)無標(biāo)簽數(shù)據(jù)學(xué)習(xí)04不精確監(jiān)督標(biāo)簽存在錯誤,模型需識別并糾正錯誤標(biāo)簽以提升準(zhǔn)確性

弱監(jiān)督學(xué)習(xí)37生成式模型生成式模型通過學(xué)習(xí)數(shù)據(jù)分布生成新樣本,如GAN、VAE、DBN和擴散模型。它們在深度學(xué)習(xí)中用于創(chuàng)造新內(nèi)容或輔助優(yōu)化。判別式模型判別式模型是學(xué)習(xí)輸入數(shù)據(jù)與輸出標(biāo)簽間條件概率分布的非概率模型,如CNN、RNN、LSTM等。根據(jù)深度學(xué)習(xí)的目標(biāo)和方式,可以將深度學(xué)習(xí)模型劃分為生成式模型和判別式模型兩類1.3.2模型類型38生成式模型定義與應(yīng)用學(xué)習(xí)輸入數(shù)據(jù)聯(lián)合概率分布P(X,Y),生成新樣本,如GAN、VAE、DBN、擴散模型391.3.2模型類型——生成式模型GAN架構(gòu)與功能基于深度學(xué)習(xí),由生成器與鑒別器組成,生成新內(nèi)容,2014年由IanGoodfellow等人提出圖1-9生成式對抗網(wǎng)絡(luò)(GAN)VAE原理與特點通過概率建模隱含變量,結(jié)合深度神經(jīng)網(wǎng)絡(luò)與貝葉斯推理,生成類似訓(xùn)練數(shù)據(jù)的新數(shù)據(jù)圖1-10變分自編碼器(VAE)1.3.2模型類型——生成式模型40DBN結(jié)構(gòu)與優(yōu)勢由RBMs堆疊而成,預(yù)訓(xùn)練生成式模型優(yōu)化權(quán)重,解決深度網(wǎng)絡(luò)局部最優(yōu)與欠擬合問題1.3.2模型類型——生成式模型41擴散模型機制通過連續(xù)添加高斯噪聲破壞訓(xùn)練數(shù)據(jù),學(xué)習(xí)逆向去噪過程恢復(fù)數(shù)據(jù),生成與訓(xùn)練數(shù)據(jù)相似樣本判別式模型,又稱非概率模型,是指通過學(xué)習(xí)數(shù)據(jù)集中的統(tǒng)計規(guī)律,對輸入數(shù)據(jù)進(jìn)行分類或回歸。判別式模型試圖學(xué)習(xí)輸入數(shù)據(jù)和輸出標(biāo)簽之間的條件概率分布P(Y|X)。判別式模型關(guān)注于“給定數(shù)據(jù)屬于哪個類別”的問題,直接對輸入數(shù)據(jù)進(jìn)行分類或回歸。常見的判別式模型有卷積神經(jīng)網(wǎng)絡(luò)(CNNS)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNNs)、長短時記憶網(wǎng)絡(luò)(LSTM)等。1.3.2模型類型——判別式模型42度量指標(biāo)443

在深度學(xué)習(xí)中,如何評估模型解決當(dāng)前問題的“可用”程度,需要根據(jù)對應(yīng)需求選擇合適的評估指標(biāo)對模型的表現(xiàn)進(jìn)行評定。深度學(xué)習(xí)的度量指標(biāo)可按任務(wù)類型大致分為三類:回歸任務(wù)指標(biāo)、分類任務(wù)指標(biāo)、生成任務(wù)指標(biāo)。1.4度量指標(biāo)44分類任務(wù)指標(biāo)回歸任務(wù)指標(biāo)使用均方誤差、R2分?jǐn)?shù),衡量模型預(yù)測值與真實值接近程度,較小誤差體現(xiàn)高可用性準(zhǔn)確率、查準(zhǔn)率、查全率、F1分?jǐn)?shù),分析模型分類正確率,高指標(biāo)表示分類效果好生成任務(wù)困惑度、人類可讀性評估等,用于判斷生成內(nèi)容的多樣性與真實性,低困惑度表示生成能力強1.4度量指標(biāo)451、偏差偏差是實際值與預(yù)測值的差,殘差之和常被用來度量偏差,低偏差可能僅意味著模型不準(zhǔn)確,因為相反符號的殘差會抵消1.4.1回歸任務(wù)指標(biāo)46特點:衡量模型解釋的方差比例,值越高擬合效果越好,但增加特征不一定會提升模型性能,可用于比較模型1)相對度量,用于模型比較。2)值越高,擬合效果越好。3)對特征數(shù)量敏感,可能隨特征增加而增加。4)用于粗略估計模型性能。2、決定系數(shù)R2其中:RSS(殘差平方和):預(yù)測誤差的平方和。TSS(總平方和):實際值與均值的平方和。1.4.1回歸任務(wù)指標(biāo)47MSE的定義MSE代表平均誤差,通過計算殘差平方和的平均值,對大誤差懲罰更重。MSE的特點MSE是尺度相關(guān)的,對異常值敏感,且誤差以目標(biāo)變量單位表示。3、均方誤差MSE1.4.1回歸任務(wù)指標(biāo)48MAE是平均絕對誤差,它衡量預(yù)測與目標(biāo)間的平均差異,對異常值不敏感5、平均絕對誤差(MAE)RMSE是MSE的平方根,它與目標(biāo)變量的尺度相同,方便解釋4、均方根誤差(RMSE)1.4.1回歸任務(wù)指標(biāo)4901度量指標(biāo)混淆矩陣評估分類模型,TP、FP、TN、FN區(qū)分預(yù)測正誤,對角線密集表示性能好02核酸檢測示例陽性為P,陰性為N,TP正確陽性,F(xiàn)P錯誤陽性,TN正確陰性,F(xiàn)N錯誤陰性,總樣本=TP+FP+TN+FN03指標(biāo)計算精確率、召回率、特異度反映分類效果,精確率不同于準(zhǔn)確率Accuracy1.4.2分類任務(wù)指標(biāo)50混淆矩陣準(zhǔn)確率是正確預(yù)測數(shù)量占總預(yù)測數(shù)量的比例,在樣本不平衡時可能無法準(zhǔn)確反映模型性能準(zhǔn)確率(Accuracy)01精確率是預(yù)測為正類的樣本中,實際為正類的比例,計算公式為:Precision=(真正正類數(shù)量)/(預(yù)測為正類的總數(shù))精確率(Precision)02召回率是實際為正的樣本被預(yù)測為正的概率,它與精確率呈反比,召回率高意味著預(yù)測正的能力強召回率(Recall)03F1-Score是精確率和召回率的調(diào)和平均值,衡量二分類模型的準(zhǔn)確性。值越大,模型越好F1-Score041.4.2分類任務(wù)指標(biāo)51評估生成任務(wù),通過比較候選譯文與參考譯文n-gram重合度,重合度高表示質(zhì)量高。BLEU概念01計算unigram到4-gram的精確率,加權(quán)平均后乘以長度懲罰因子BP,衡量譯文與參考譯文的相似度。BLEU計算方法02通常取N=1到4,關(guān)注單詞準(zhǔn)確性和句子流暢性,用于評價機器翻譯的性能。BLEU應(yīng)用03BP懲罰因子確保譯文長度不過短,1-gram精確率體現(xiàn)忠實原文,高階n-gram體現(xiàn)流暢翻譯。BLEU分?jǐn)?shù)解析041.4.3生成任務(wù)指標(biāo)52(1)BLEU03關(guān)注召回率,衡量n元詞組在參考譯句與輸出間的重合,旨在評估NMT的漏翻問題。ROUGE概念解析主要應(yīng)用于NMT系統(tǒng),評估翻譯結(jié)果是否包含足夠多的原文信息,防止過度流暢導(dǎo)致的誤譯。ROUGE應(yīng)用領(lǐng)域作為BLEU的升級,ROUGE更重視翻譯內(nèi)容的覆蓋,而非翻譯的精確匹配。ROUGE與BLEU對比011.4.3生成任務(wù)指標(biāo)5302(2)ROUGEMETEOR評估指標(biāo)METEOR計算流程METEOR考慮語序一致METEOR同義詞處理綜合準(zhǔn)確率和召回率,考慮整個語料庫表現(xiàn),包含同義詞匹配功能。利用WordNet擴展同義詞庫,對詞形變化的詞進(jìn)行部分匹配。通過chunk分析,比較候選譯文和參考譯文的語序一致程度。計算最佳匹配的準(zhǔn)確率和召回率的調(diào)和平均,評估句子流暢性。1.4.3生成任務(wù)指標(biāo)54(3)METEOR衡量文本多樣性指標(biāo),計算不重復(fù)ngram與總詞數(shù)比例,體現(xiàn)回復(fù)的獨特性。DISTINCT定義DISTINCT-n越大,生成的多樣性越高。適用于對話系統(tǒng)、廣告文案等任務(wù)。DISTINCT特點1.4.3生成任務(wù)指標(biāo)55(4)DISTINCTGreedyMatching是計算兩句話中相似度最高詞的平均余弦相似度,關(guān)注點在于找出關(guān)鍵詞。GreedyMatching算法采用向量極值法計算句向量,通過余弦相似度衡量句子間的相似度。VectorExtremaEmbeddingAverage是計算語句相似度的方法,它通過加權(quán)平均詞向量得到句向量,再用余弦相似度衡量兩者間的相似度。EmbeddingAverage1.4.3生成任務(wù)指標(biāo)56(5)詞向量評價指標(biāo)用于比較語言模型預(yù)測能力,低PPL表示模型預(yù)測效果更優(yōu)。PPL概念解釋01通過比較模型對測試集句子的概率,PPL值越低,建模能力越強。PPL計算方式02給定文本,RNN和GPT-2的PPL分?jǐn)?shù)可體現(xiàn)哪個模型對文本預(yù)測更準(zhǔn)確。PPL應(yīng)用示例03測試集上概率高的模型更好,低PPL意味著語言模型對正常句子理解更佳。理解PPL指標(biāo)041.4.3生成任務(wù)指標(biāo)57(6)困惑度PPLN-gram重疊方法無法捕捉語義和語法變化,與人工評估一致性低。傳統(tǒng)度量標(biāo)準(zhǔn)局限性在訓(xùn)練數(shù)據(jù)稀缺的環(huán)境中,BERTSCORE展示出更好的性能,更接近人工評估。新指標(biāo)優(yōu)勢基于BERT表征,利用上下文信息和特殊設(shè)計的邏輯計算句子相似度,具有更強的魯棒性。BERTSCORE介紹1.4.3生成任務(wù)指標(biāo)58(7)BERTSCORE構(gòu)建評估框架,替代人工測評,針對文本理解、生成任務(wù),體現(xiàn)更優(yōu)一致性。GPT-4模型能力評估01對比傳統(tǒng)指標(biāo),大量實驗顯示GPT-4在摘要、對話等任務(wù)中與人類判斷更接近。應(yīng)用實例分析0259(8)GPT-Eval1.4.3生成任務(wù)指標(biāo)6060本章小結(jié)本章首先從基本概念、歷史發(fā)展和應(yīng)用價值對深度學(xué)習(xí)進(jìn)行了簡要介紹,繼而討論了技術(shù)發(fā)展、產(chǎn)業(yè)變遷對深度學(xué)習(xí)的發(fā)展歷程進(jìn)行具體闡述,再分別從任務(wù)類型和模型類型的角度對深度學(xué)習(xí)進(jìn)行了分類和介紹,以便于讀者能夠快速且較為全面的對深度學(xué)習(xí)進(jìn)行了解。1-1當(dāng)前大模型的規(guī)模已經(jīng)達(dá)到千億級別,你認(rèn)為未來大模型能力的進(jìn)化需要更大的參數(shù)規(guī)模嗎?1-2將大模型的思維鏈能力蒸餾到小模型時,屬于有監(jiān)督、無監(jiān)督、半監(jiān)督、自監(jiān)督和弱監(jiān)督中的哪種訓(xùn)練范式?1-3目前大模型競賽中,歐美等國的科技公司處在前列,你認(rèn)為應(yīng)該采取什么措施拉近與歐美等國的差距?1-4隨著大模型的能力不斷增強,你認(rèn)為在不久的將來它能夠完全代替人工標(biāo)注嗎?可能會存在什么潛在的瓶頸或風(fēng)險?思考題與習(xí)題61612深度學(xué)習(xí)基礎(chǔ)目錄

|

CONTENTS線性代數(shù)1微積分2概率論3距離與相似度計算4激活函數(shù)567感知機與多重感知機反向傳播算法線性代數(shù)12.1.1標(biāo)量與向量標(biāo)量是一個單獨的數(shù),它沒有大小和方向之分。標(biāo)量通常用一個數(shù)或者小寫斜體字母表示。標(biāo)量01向量由一列數(shù)有序排列組成,是一個既有大小也有方向的量??梢园严蛄靠醋骺臻g中的點,每個元素對應(yīng)不同坐標(biāo)軸上的坐標(biāo)。向量通常由粗體小寫字母表示。向量022.1.2矩陣和張量矩陣是一個二維數(shù)組,由m行n列元素排列而成,每個元素須由兩個索引確定。矩陣也可視為由m個長度相等的行向量或n個長度相等的列向量組成。矩陣通常用粗體大寫字母來表示。矩陣01張量是一個多維數(shù)組,可以看作是向量的推廣,向量可以視為一維張量,同時矩陣也可視為二維張量。張量中每個元素須由各個維度對應(yīng)索引共同確定。張量022.1.3矩陣計算給定兩個向量,它們的點積是指二者相同位置元素乘積的和,計算公式如下:點積01

矩陣乘法022.1.4范數(shù)如果我們按常數(shù)因子縮放向量的所有元素,其范數(shù)也會按相同常數(shù)因子的絕對值縮放:01滿足三角不等式:02范數(shù)是具有“長度”概念的函數(shù),它常常被用來度量某個向量空間(或矩陣)中的向量的長度或大小。向量范數(shù)是將向量映射到標(biāo)量的函數(shù),對給定的任意向量,具有以下性質(zhì):范數(shù)是非負(fù)的:03當(dāng)且僅當(dāng)向量為零向量時范數(shù)為0,即:2.1.4范數(shù)范數(shù)有很多名字,例如我們熟悉的曼哈頓距離、最小絕對誤差等,其可以度量兩個向量間的差異,如絕對誤差和,計算方式如下:L1范數(shù)01范數(shù)一樣,范數(shù)也可以度量兩個向量間的差異,如平方差和。歐氏距離就是一種范數(shù),計算方式如下:L2范數(shù)02微積分22.2.1導(dǎo)數(shù)與微分

2.2.1導(dǎo)數(shù)與微分在實際應(yīng)用時,常常需要微分一個由一些常見函數(shù)組成的函數(shù),這時可以使用以下法則。假設(shè)函數(shù)和都是可微的,是一個常數(shù),有:2.2.2偏導(dǎo)數(shù)和梯度

偏導(dǎo)數(shù)012.2.2偏導(dǎo)數(shù)和梯度

梯度022.2.2偏導(dǎo)數(shù)和梯度偏導(dǎo)數(shù)與梯度并不是相等的概念,二者有區(qū)別也有聯(lián)系,具體而言:是一個多元函數(shù)針對其某一個變量的導(dǎo)數(shù),而保持其他變量恒定。偏導(dǎo)數(shù)01是一個向量,它指向函數(shù)在給定點處變化率最大的方向,它是一個由偏導(dǎo)數(shù)組成的向量。梯度022.2.3鏈?zhǔn)椒▌t

概率論32.3.1概率分布概率分布用于描述隨機變量每個取值或狀態(tài)的可能性大小。針對離散型隨機變量和連續(xù)型隨機變量有不同的描述方式。

離散型隨機變量01連續(xù)型隨機變量的概率分布通常用概率密度函數(shù)來表示,但其并沒有直接給出特定取值或狀態(tài)對應(yīng)的概率值,需要對概率密度函數(shù)求積分來獲得隨機變量取值落在某一范圍內(nèi)的概率。連續(xù)型隨機變量022.3.2期望與方差期望是最基本的數(shù)學(xué)特征之一,反映了隨機變量平均取值的大小。若隨機變量為離散型,其期望可表示為:若隨機變量為連續(xù)型,概率密度函數(shù)為,其期望可表示為:期望01方差是對隨機變量離散程度的度量,其描述了隨機變量與其數(shù)學(xué)期望之間的偏離程度。若隨機變量為離散型,其方差可表示為:若隨機變量為連續(xù)型,概率密度函數(shù)為,其方差可表示為:方差022.3.3條件概率和聯(lián)合概率

條件概率01

方差022.3.4全概率公式與貝葉斯定理

全概率公式01

貝葉斯定理022.3.5邊緣概率分布

距離與相似度計算42.4.1常見的距離計算假設(shè)當(dāng)前有兩個??維向量??和??,可以通過兩個向量之間的距離或者相似度來判定這兩個向量的相近程度,兩個向量之間距離越小,相似度越高;兩個向量之間距離越大,相似度越低。MinkowskiDistance是對多個距離度量公式概括性的表述,當(dāng)時,MinkowskiDistance便是曼哈頓距離;當(dāng)時,MinkowskiDistance便是歐式距離;MinkowskiDistance取極限的形式便是切比雪夫距離。閔可夫斯基距離(MinkowskiDistance)01曼哈頓距離(ManhattanDistance)02歐式距離/歐幾里得距離(Euclideandistance)032.4.1常見的距離計算切比雪夫距離(ChebyshevDistance)04海明距離(HammingDistance)05歐式距離/歐幾里得距離(Euclideandistance)06

給定隨機變量??和兩個概率分布??和??,KL散度可以用來衡量兩個分布之間的差異性,其公式如下。2.4.2常見的相似度計算余弦相似度(CosineSimilarity)01皮爾遜相關(guān)系數(shù)(PearsonCorrelationCoefficient)02給定兩個隨機變量??和??,皮爾遜相關(guān)系數(shù)可以用來衡量兩者的相關(guān)程度,公式如下:式中和分別表示向量??和??的均值,和分別表示向量??和??的標(biāo)準(zhǔn)差。2.4.2常見的相似度計算Jaccard相似系數(shù)(JaccardCoefficient)03假設(shè)有兩個集合??和??,則其計算公式為:激活函數(shù)52.5激活函數(shù)激活函數(shù)是一種添加到人工神經(jīng)網(wǎng)絡(luò)中的函數(shù),旨在幫助網(wǎng)絡(luò)學(xué)習(xí)數(shù)據(jù)中的復(fù)雜模式。在神經(jīng)元中,輸入經(jīng)過一系列加權(quán)求和后作用于另一個函數(shù),這個函數(shù)就是這里的激活函數(shù)。類似于人類大腦中基于神經(jīng)元的模型,激活函數(shù)最終決定了是否傳遞信號以及要發(fā)射給下一個神經(jīng)元的內(nèi)容。在人工神經(jīng)網(wǎng)絡(luò)中,一個節(jié)點的激活函數(shù)定義了該節(jié)點在給定的輸入或輸入集合下的輸出。標(biāo)準(zhǔn)的計算機芯片電路可以看作是根據(jù)輸入得到開(1)或關(guān)(0)輸出的數(shù)字電路激活函數(shù)。如果不用激活函數(shù),每一層輸出都是上層輸入的線性函數(shù),無論神經(jīng)網(wǎng)絡(luò)有多少層,最終的輸出都是輸入的線性組合。激活函數(shù)給神經(jīng)元引入了非線性因素,使得神經(jīng)網(wǎng)絡(luò)可以逼近任何非線性函數(shù)。2.5激活函數(shù)

sigmoid01函數(shù)定義:導(dǎo)數(shù):優(yōu)點:①

sigmoid函數(shù)的輸出映射在(0,1)之間,單調(diào)連續(xù),輸出范圍有限,優(yōu)化穩(wěn)定,可以用作輸出層;②

求導(dǎo)容易。缺點:①

由于其軟飽和性,一旦落入飽和區(qū)梯度就會接近于0,根據(jù)反向傳播的鏈?zhǔn)椒▌t,容易產(chǎn)生梯度消失,導(dǎo)致訓(xùn)練出現(xiàn)問題;②

sigmoid函數(shù)的輸出恒大于0。非零中心化的輸出會使得其后一層的神經(jīng)元的輸入發(fā)生偏置偏移,并進(jìn)一步使得梯度下降的收斂速度變慢;③

計算時,由于具有冪運算,計算復(fù)雜度較高,運算速度較慢。2.5激活函數(shù)

tanh02函數(shù)定義:導(dǎo)數(shù):優(yōu)點:①tanh比sigmoid函數(shù)收斂速度更快;②相比sigmoid函數(shù),tanh是以0為中心的。缺點:①與sigmoid函數(shù)相同,由于飽和性容易產(chǎn)生的梯度消失;②與sigmoid函數(shù)相同,由于具有冪運算,計算復(fù)雜度較高,運算速度較慢。2.5激活函數(shù)

ReLU03函數(shù)定義:導(dǎo)數(shù):優(yōu)點:①收斂速度快;②相較于sigmoid和tanh中涉及了冪運算,導(dǎo)致計算復(fù)雜度高,ReLU可以更加簡單地實現(xiàn);③當(dāng)輸入時,ReLU的導(dǎo)數(shù)為常數(shù),這樣可有效緩解梯度消失問題;④當(dāng)時,ReLU的梯度總是0,提供了神經(jīng)網(wǎng)絡(luò)的稀疏表達(dá)能力。缺點:①ReLU的輸出不是以0為中心的;②神經(jīng)元壞死現(xiàn)象,某些神經(jīng)元可能永遠(yuǎn)不會被激活,導(dǎo)致相應(yīng)參數(shù)永遠(yuǎn)不會被更新;③不能避免梯度爆炸問題。2.5激活函數(shù)

LReLU04函數(shù)定義:導(dǎo)數(shù):優(yōu)點:①避免梯度消失;②由于導(dǎo)數(shù)總是不為零,因此可減少壞死神經(jīng)元的出現(xiàn)。缺點:①LReLU表現(xiàn)并不一定比ReLU好;②不能避免梯度爆炸問題。

2.5激活函數(shù)

PReLU05函數(shù)定義:導(dǎo)數(shù):優(yōu)點:①PReLU是LReLU的改進(jìn),可以自適應(yīng)地從數(shù)據(jù)中學(xué)習(xí)參數(shù);②收斂速度快、錯誤率低;③PReLU可以用于反向傳播的訓(xùn)練,可以與其他層同時優(yōu)化。

2.5激活函數(shù)

ELU06函數(shù)定義:導(dǎo)數(shù):優(yōu)點:①導(dǎo)數(shù)收斂為零,從而提高學(xué)習(xí)效率;②能得到負(fù)值輸出,這能幫助網(wǎng)絡(luò)向正確的方向推動權(quán)重和偏置變化;③防止壞死神經(jīng)元出現(xiàn)。缺點:①計算量大,表現(xiàn)并不一定比ReLU好;②不能避免梯度爆炸問題。

2.5激活函數(shù)

SELU07函數(shù)定義:導(dǎo)數(shù):優(yōu)點:①SELU是ELU的一個變種。其中和是固定數(shù)值(分別為1.0507和1.6732);②經(jīng)過該激活函數(shù)后使得樣本分布自動歸一化到0均值和單位方差;③不會出現(xiàn)梯度消失或爆炸問題。

2.5激活函數(shù)

softsign08函數(shù)定義:導(dǎo)數(shù):優(yōu)點:①softsign是tanh激活函數(shù)的另一個替代選擇;②softsign是反對稱、去中心、可微分,并返回?1和1之間的值;③softsign更平坦的曲線與更慢的下降導(dǎo)數(shù)表明它可以更高效地學(xué)習(xí)。缺點:導(dǎo)數(shù)的計算比tanh更麻煩2.5激活函數(shù)

softplus08函數(shù)定義:導(dǎo)數(shù):優(yōu)點:①作為ReLU的一個不錯的替代選擇,softplus能夠返回任何大于0的值;②與ReLU不同,softplus導(dǎo)數(shù)是連續(xù)的、非零的,無處不在,從而防止出現(xiàn)壞死神經(jīng)元。缺點:①導(dǎo)數(shù)常常小于1,也可能出現(xiàn)梯度消失的問題;②softplus另一個不同于ReLU的地方在于其不對稱性,不以零為中心,可能會妨礙學(xué)習(xí)。2.5激活函數(shù)

softmax09

感知機與多層感知機62.6.1感知機

2.6.1感知機

2.6.1感知機

感知機學(xué)習(xí)算法算法2-12.6.2多層感知機

感知機能夠解決線性可分的情況,但真實世界中,大量分類問題是非線性可分問題。一種解決的有效方法是,在輸入層和輸出層之間引入隱含層,在每個隱含層通過激活函數(shù)來處理非線性情況,從而將感知機轉(zhuǎn)化為多層感知機來解決非線性可分問題。多層感知機是目前應(yīng)用廣泛的神經(jīng)網(wǎng)絡(luò)之一,這主要源于基于BP算法的多層感知機具有以下重要能力。①非線性映射能力。多層感知機能學(xué)習(xí)和存儲大量輸入-輸出模式映射關(guān)系,它能完成由n維輸入空間到m維輸出空間的非線性映射。②泛化能力。多層感知機訓(xùn)練后將所提取的樣本對中的非線性映射關(guān)系存儲在權(quán)值矩陣中。在測試階段,當(dāng)輸入新數(shù)據(jù)時,網(wǎng)絡(luò)也能完成由輸入空間向輸出空間的正確映射。這種能力稱為多層感知機的泛化能力,它是衡量多層感知機性能優(yōu)劣的一個重要方面。③容錯能力。多層感知機的優(yōu)勢還在于允許輸入樣本中帶有較大的誤差甚至個別錯誤。因為對權(quán)矩陣的調(diào)整過程也是從大量的樣本對中提取統(tǒng)計特性的過程,反映正確規(guī)律的知識來自全體樣本,個別樣本中的誤差不能左右對權(quán)矩陣的調(diào)整。反向傳播算法72.7反向傳播算法

2.7反向傳播算法

前向傳遞過程012.7反向傳播算法

誤差反向傳遞過程022.7反向傳播算法

誤差反向傳遞過程022.7反向傳播算法

誤差反向傳遞過程022.7反向傳播算法

誤差反向傳遞過程022.7反向傳播算法

誤差反向傳遞過程02本章小結(jié)本章主要討論了深度學(xué)習(xí)所需要的數(shù)學(xué)基礎(chǔ)知識,包括線性代數(shù)、微積分、概率論相關(guān)基礎(chǔ)概念和運算,以及深度學(xué)習(xí)中常用的距離與相似度計算方式。進(jìn)一步,介紹了人工神經(jīng)網(wǎng)絡(luò)中的幾個重要概念,包括激活函數(shù)、感知機,和多層感知機等。最后,對神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程涉及的反向傳播算法進(jìn)行了介紹。希望通過本章的介紹,能夠讓讀者對后續(xù)章節(jié)有更好的理解。思考題與習(xí)題單擊此處添加文本單擊此處添加文本3卷積神經(jīng)網(wǎng)絡(luò)目錄

|

CONTENTS簡介1基礎(chǔ)模塊2典型卷積神經(jīng)網(wǎng)絡(luò)3各種卷積4116簡介1117卷積神經(jīng)網(wǎng)絡(luò)(CNN)是一種在深度學(xué)習(xí)領(lǐng)域具有重要地位的人工神經(jīng)網(wǎng)絡(luò)。其核心特點是卷積運算,這使得CNN在圖像分類、語義分割、檢索和物體檢測等計算機視覺任務(wù)中表現(xiàn)出色。此外,CNN還被應(yīng)用于自然語言處理、軟件工程和數(shù)據(jù)挖掘等領(lǐng)域,展現(xiàn)出優(yōu)越的預(yù)測效果。3.1簡介1181193.1.1基本概念卷積神經(jīng)網(wǎng)絡(luò)是一種層次模型,輸入為原始數(shù)據(jù)(如RGB圖像、音頻等)。通過卷積、池化和非線性激活等操作,逐層抽取高層語義信息。這一過程稱為“前饋運算”。1、卷積神經(jīng)網(wǎng)絡(luò)(CNN)概述2、CNN的層次結(jié)構(gòu)1203.1.1基本概念不同類型的操作稱為“層”,例如卷積層、池化層等。每一層的輸出是一個三維張量(如圖像的H×W×C)。數(shù)據(jù)逐層傳遞,每一層可以是單一操作或操作組合。3、前饋運算與損失函數(shù)1213.1.1基本概念

反向傳播與模型訓(xùn)練利用反向傳播算法,將誤差從最后一層逐層向前反饋,更新每一層的參數(shù)。重復(fù)前饋運算和反向傳播,直到網(wǎng)絡(luò)收斂,完成模型訓(xùn)練。CNN的類比解釋CNN可以類比為搭積木的過程:卷積等操作作為“基本單元”,逐層堆疊在原始數(shù)據(jù)上。每一層的輸出作為下一層的輸入,最終計算損失函數(shù)。3.1.1基本概念122卷積神經(jīng)網(wǎng)絡(luò)起源AlexNet的突破LeNet的誕生神經(jīng)認(rèn)知模型貓的視覺神經(jīng)元研究,1962年發(fā)現(xiàn)大腦視覺中樞結(jié)構(gòu),啟發(fā)神經(jīng)網(wǎng)絡(luò)設(shè)計。福島邦彥提出"神經(jīng)認(rèn)知",模擬生物視覺系統(tǒng),S型和C型細(xì)胞對應(yīng)現(xiàn)代CNN的卷積層和池化層。1998年YannLeCun的LeNet,基于梯度學(xué)習(xí)的卷積網(wǎng)絡(luò),應(yīng)用于手寫數(shù)字識別,開啟了商業(yè)應(yīng)用。2012年GeoffreyE.Hinton等人在ImageNet競賽中使用AlexNet,卷積神經(jīng)網(wǎng)絡(luò)開始主導(dǎo)計算機視覺領(lǐng)域。3.1.2發(fā)展歷程123基礎(chǔ)模塊2124本節(jié)將在掌握深度卷積神經(jīng)網(wǎng)絡(luò)的基本框架后,重點探討卷積神經(jīng)網(wǎng)絡(luò)中的關(guān)鍵組成部分及模塊。這些組成部分的逐層堆疊,使得卷積神經(jīng)網(wǎng)絡(luò)能夠直接從原始數(shù)據(jù)中學(xué)習(xí)特征表示,并成功地完成最終任務(wù)。3.2基礎(chǔ)模塊125深度學(xué)習(xí)核心思想深度學(xué)習(xí)模型結(jié)構(gòu)端到端學(xué)習(xí)優(yōu)勢傳統(tǒng)機器學(xué)習(xí)對比端到端學(xué)習(xí),自動特征表示,無需人工特征工程,解決復(fù)雜問題時可能達(dá)到全局最優(yōu)。依賴預(yù)處理特征,人工特征質(zhì)量影響最終精度,多步驟方法可能無法實現(xiàn)全局最優(yōu)。整體優(yōu)化,不人為劃分子問題,直接從原始輸入到期望輸出,協(xié)同效果可能更優(yōu)。全連接神經(jīng)網(wǎng)絡(luò),原始輸入層上堆疊操作層,通過損失函數(shù)反向傳播優(yōu)化參數(shù)。3.2.1端到端架構(gòu)12601輸入層功能接收原始圖像數(shù)據(jù),調(diào)整大小、歸一化、處理通道,適應(yīng)網(wǎng)絡(luò)需求,為后續(xù)層提供處理后的數(shù)據(jù)流。03數(shù)據(jù)增強目的通過隨機變換增加訓(xùn)練數(shù)據(jù)多樣性,防止過擬合,提升卷積神經(jīng)網(wǎng)絡(luò)在實際任務(wù)中的泛化性能。02預(yù)處理步驟包括圖像大小調(diào)整確保輸入一致,歸一化使數(shù)值范圍可控,增強數(shù)據(jù)多樣性和泛化能力,以及按批次組織數(shù)據(jù)以優(yōu)化計算效率。04通道與批量處理處理圖像的多個通道,適應(yīng)網(wǎng)絡(luò)結(jié)構(gòu),同時將數(shù)據(jù)組織成批次進(jìn)行高效訓(xùn)練,為特征提取和學(xué)習(xí)做好準(zhǔn)備。3.2.2輸入層127卷積層是深度卷積神經(jīng)網(wǎng)絡(luò)中的基本操作,它在網(wǎng)絡(luò)中發(fā)揮著重要作用。實際上,甚至在網(wǎng)絡(luò)的最后起分類作用的全連接層在工程實現(xiàn)時也可以通過卷積操作進(jìn)行替代。這種替代方式的使用在實際應(yīng)用中相當(dāng)常見。3.2.3卷積層128卷積運算在神經(jīng)網(wǎng)絡(luò)中用于分析圖像,通過卷積核與輸入數(shù)據(jù)相乘累加,得到特征圖,用于后續(xù)層的處理。

基本思想圖

3-1二維場景下,卷積核和輸入數(shù)據(jù)的可視化。圖左展示了一個3x3的卷積核,而圖右展示了一個5x5的輸入數(shù)據(jù)。129

基本思想(a)

第一次卷積操作后的結(jié)果 (b)第三次卷積操作后的結(jié)果圖

3-2卷積中間結(jié)果示意圖在第一次卷積操作中,從圖像的像素位置(0,0)開始,卷積核的參數(shù)與對應(yīng)位置的圖像像素逐個相乘,并將它們累加起來作為卷積操作的結(jié)果。具體計算為:1x1+2x0+3x1+6x0+7x1+8x0+9x1+8x0+7x1=1+3+7+9+7=27,如圖3-2(a)所示。130卷積操作:一種局部操作,通過特定大小的卷積核對局部圖像區(qū)域進(jìn)行處理,獲取圖像的局部信息。邊緣檢測示例:使用三種邊緣卷積核(濾波器)說明卷積操作的作用:整體邊緣濾波器:檢測圖像中的整體邊緣信息。橫向邊緣濾波器:檢測圖像中的橫向邊緣信息??v向邊緣濾波器:檢測圖像中的縱向邊緣信息。邊緣檢測原理:假設(shè)像素點(x,y)可能存在物體邊緣,其周圍像素值與(x,y)有顯著差異。應(yīng)用邊緣濾波器可以保留這些顯著差異的區(qū)域,從而檢測出物體的邊緣信息。131

卷積層基本作用1、卷積操作的基本原理卷積核的參數(shù)學(xué)習(xí):在卷積神經(jīng)網(wǎng)絡(luò)中,卷積核的參數(shù)是通過網(wǎng)絡(luò)訓(xùn)練學(xué)習(xí)得到的。多樣的邊緣濾波器:網(wǎng)絡(luò)可以學(xué)習(xí)到各種邊緣濾波器,包括橫向、縱向和任意角度的邊緣濾波器。復(fù)雜的深層卷積神經(jīng)網(wǎng)絡(luò)還可以學(xué)習(xí)到檢測顏色、形狀、紋理等基本模式的濾波器。高層語義表示:隨著網(wǎng)絡(luò)的后續(xù)操作,基本模式被組合并逐漸抽象為具有高層語義的“概念”表示。網(wǎng)絡(luò)能夠?qū)⑤斎霕颖居成涞骄唧w的樣本類別,并對不同的概念進(jìn)行表示和分類。類比:類似于盲人摸象,網(wǎng)絡(luò)逐漸將各個部分的結(jié)果整合起來,最終形成對整體樣本的理解和分類。132

卷積層基本作用2、卷積核的學(xué)習(xí)與高級特征檢測在卷積神經(jīng)網(wǎng)絡(luò)中,當(dāng)涉及到池化層時,通常使用的操作有平均值池化和最大值池化。這些操作與卷積層不同,它們不包含需要學(xué)習(xí)的參數(shù)。在使用池化層時,只需要指定池化類型(如平均值或最大值)、池化操作的核大?。ǔ鼗说拇笮。┮约俺鼗僮鞯牟介L等超參數(shù)即可。這些超參數(shù)決定了在池化操作中如何對輸入數(shù)據(jù)進(jìn)行下采樣。3.2.4池化層133

池化的基本概念1341、池化操作隨機池化是一種介于平均值池化和最大值池化之間的操作。它按概率隨機選擇輸入數(shù)據(jù)中的元素,而不是僅選擇最大值或計算均值。元素值越大,被選中的概率越高,因此它結(jié)合了平均值池化(考慮所有元素)和最大值池化(選擇大響應(yīng))的特點。隨機池化的目的是通過引入隨機性來增強模型的魯棒性和抗過擬合能力,但其使用不如平均值池化和最大值池化廣泛。

池化的基本概念1352、隨機池化池化操作實質(zhì)上是一種“下采樣”(down-sampling)的技術(shù)。同時,可以將池化操作視為一種使用p-范數(shù)(p-norm)作為非線性映射的“卷積”技巧。特別地,當(dāng)p逼近無窮大時,它就等同于常見的最大值池化。

池化層意義136

引入池化層旨在模擬人類視覺系統(tǒng)對輸入對象的降維和抽象。池化層在卷積神經(jīng)網(wǎng)絡(luò)中具有以下功能:特征不變性:池化使模型關(guān)注特征的存在而非具體位置,容忍微小位移。特征降維:池化通過降采樣減少輸入大小,提取更廣泛的特征,降低計算量和參數(shù)數(shù)量。防止過擬合,優(yōu)化訓(xùn)練:池化層雖非必需,但可防止過擬合,便于優(yōu)化。有研究用特殊卷積操作替代池化層實現(xiàn)降采樣,實驗表明其性能可與傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)相當(dāng)137

池化層意義激活層(activationlayer)是卷積神經(jīng)網(wǎng)絡(luò)另外一個重要的組成部分。激活層將卷積層或者全連接層線性運算的輸出做非線性映射,為神經(jīng)網(wǎng)絡(luò)提供非線性能力。激活層通過激活函數(shù)來實現(xiàn)。激活函數(shù)模擬了生物神經(jīng)元的特性,接受一組輸入信號產(chǎn)生輸出,并通過一個閾值模擬生物神經(jīng)元的激活和興奮狀態(tài)。常見的激活函數(shù)包括:Sigmoid、Tanh、ReLU等,具體可參考第二章。3.2.5激活層138全連接層在卷積神經(jīng)網(wǎng)絡(luò)中作為“分類器”,將特征表示映射到標(biāo)簽空間。在實際應(yīng)用中,可以通過卷積操作實現(xiàn)全連接層的功能:對于前一層是全連接層的情況,可轉(zhuǎn)化為1×1卷積核;對于前一層是卷積層的情況,可轉(zhuǎn)化為全局卷積核(尺寸為h×w,其中h和w是前一層輸出的高度和寬度)。3.2.6全連接層139

以VGG網(wǎng)絡(luò)為例:輸入為224×224×3的圖像,經(jīng)過卷積和池化層后,最后一層卷積輸出為7×7×512的特征張量。若后續(xù)接4096個神經(jīng)元的全連接層,可使用7×7×512×4096的全局卷積來實現(xiàn)全連接計算。具體操作:將7×7×512的特征張量展平為長度為25088的向量,通過全局卷積運算,將每個7×7的局部特征圖與權(quán)重逐元素相乘并求和,最終得到4096維的向量,完成從特征到標(biāo)簽的映射。這種將全連接層轉(zhuǎn)化為全局卷積的方法在VGG網(wǎng)絡(luò)中是一種特殊設(shè)計,旨在減少參數(shù)量,簡化網(wǎng)絡(luò)結(jié)構(gòu),提高計算效率,并已被證明是有效的。1403.2.6全連接層

全連接層將特征映射到樣本標(biāo)記空間進(jìn)行預(yù)測,而目標(biāo)函數(shù)衡量預(yù)測值與真實標(biāo)記之間的誤差。對于分類問題,交叉熵?fù)p失函數(shù)是最常用的目標(biāo)函數(shù)之一,它基于預(yù)測類別和真實類別之間的差異來衡量分類錯誤,并在訓(xùn)練過程中促使網(wǎng)絡(luò)更好地擬合數(shù)據(jù),尤其適用于多類別分類任務(wù)。對于回歸問題,L2損失函數(shù)(均方誤差)是常用的目標(biāo)函數(shù),衡量預(yù)測值與真實值之間的平方差,對異常值較敏感,但在許多情況下仍有效。此外,針對不同任務(wù)特性,研究人員還提出了其他目標(biāo)函數(shù),如序列生成任務(wù)中的序列交叉熵?fù)p失函數(shù)和強化學(xué)習(xí)中的策略梯度目標(biāo)函數(shù)等。這些目標(biāo)函數(shù)為不同任務(wù)和數(shù)據(jù)特點提供了更大的靈活性和選擇性,使得卷積神經(jīng)網(wǎng)絡(luò)能夠更好地訓(xùn)練和優(yōu)化性能。1413.2.7目標(biāo)函數(shù)典型卷積神經(jīng)網(wǎng)絡(luò)3142LeNet-5是由YannLeCun等人于1998年提出的早期卷積神經(jīng)網(wǎng)絡(luò)模型,廣泛用于手寫數(shù)字識別任務(wù)(如MNIST數(shù)據(jù)集)。它引入了卷積層和池化層,通過卷積核提取局部特征,并利用池化層降低特征圖尺寸以增強模型魯棒性。LeNet-5使用Sigmoid激活函數(shù)引入非線性,能夠?qū)W習(xí)復(fù)雜的圖像特征。它在MNIST數(shù)據(jù)集上取得了優(yōu)異性能,為深度學(xué)習(xí)在計算機視覺領(lǐng)域的發(fā)展奠定了基礎(chǔ),并激勵了后續(xù)更復(fù)雜CNN模型的出現(xiàn)。3.3.1LeNet-5圖

3-6LeNet-5

架構(gòu)圖1432012年,GeoffHinton及其學(xué)生AlexKrizhevsky和IlyaSutskever在多倫多大學(xué)設(shè)計了AlexNet,這是一個深層卷積神經(jīng)網(wǎng)絡(luò)。它在2012年ImageNetLSVRC競賽中奪冠,top5錯誤率僅為15.3%,遠(yuǎn)低于第二名的26.2%。AlexNet的網(wǎng)絡(luò)結(jié)構(gòu)包含五個卷積層和三個全連接層,分為上下兩個相同的分支,分別在兩個GPU上并行訓(xùn)練,并在第三卷積層和全連接層交互信息。它解決了圖像分類問題,輸入為1000類圖像中的一個,輸出為1000維向量,表示輸入圖像屬于各分類的概率。AlexNet的成功奠定了CNN在圖像識別領(lǐng)域的核心地位,推動了深度學(xué)習(xí)的發(fā)展。3.3.2AlexNet144

與之前的CNN結(jié)構(gòu)相比,AlexNet的設(shè)計和訓(xùn)練具有以下特點:ReLU激活函數(shù):使用ReLU代替?zhèn)鹘y(tǒng)的sigmoid或tanh,加快訓(xùn)練速度,減少梯度彌散和爆炸。數(shù)據(jù)擴充:通過隨機裁剪、平移和翻轉(zhuǎn)擴充數(shù)據(jù)量。從256×256圖像中截取224×224區(qū)域及水平翻轉(zhuǎn)鏡像,增加數(shù)據(jù)量。Dropout:在訓(xùn)練中隨機丟棄神經(jīng)元,防止過擬合。主要應(yīng)用于最后三個全連接層。多GPU訓(xùn)練:使用多塊GPU并行計算,突破單GPU顯存限制,加快訓(xùn)練速度。局部響應(yīng)歸一化(LRN):借鑒“側(cè)抑制”思想,對ReLU輸出進(jìn)行局部歸一化,增強泛化能力。1453.3.2AlexNetVGG是由牛津大學(xué)VGG組提出的CNN網(wǎng)絡(luò),基于AlexNet加深了網(wǎng)絡(luò)層次,采用多個3×3卷積核代替AlexNet中的大卷積核(11×11、5×5),在ImageNet上Top-5準(zhǔn)確率達(dá)到92.3%,是2014年競賽中定位任務(wù)的第一名和分類任務(wù)的第二名基礎(chǔ)網(wǎng)絡(luò)。VGG使用更小的卷積核和池化核,使網(wǎng)絡(luò)更深更寬,計算量增加放緩。測試階段,VGG將全連接層替換為卷積層,可接收任意尺寸輸入。VGG的預(yù)訓(xùn)練模型廣泛應(yīng)用于特征提取、物體候選框生成、細(xì)粒度圖像定位與檢索及圖像協(xié)同定位等任務(wù)。3.3.3VGGNet圖

3-7VGG網(wǎng)絡(luò)結(jié)構(gòu)146GoogleNet和VGG是2014年ImageNet競賽中的兩個著名網(wǎng)絡(luò),都具有較深的層次。與VGG不同,GoogleNet大膽創(chuàng)新,未繼承AlexNet框架。GoogleNet通過結(jié)構(gòu)設(shè)計增加深度和寬度,同時避免了過擬合、梯度消失等問題,且模型大小遠(yuǎn)小于AlexNet和VGG。GoogleNet采用22層網(wǎng)絡(luò),通過在不同深度處增加兩個輔助損失(loss)來避免梯度消失。其創(chuàng)新點在于Inception模塊,這是一種“網(wǎng)中網(wǎng)”結(jié)構(gòu),既增加了網(wǎng)絡(luò)寬度,又提升了對不同尺度的適應(yīng)性。為了避免特征圖(featuremap)過厚,Inception模塊在3×3卷積、5×5卷積和最大池化層后分別加入1×1卷積核以降低特征圖厚度。這使得GoogleNet在擁有22層的同時,參數(shù)量少于AlexNet和VGG。3.3.4GoogLeNet圖

3-8Inception模塊結(jié)構(gòu)147在早期研究中,CNN網(wǎng)絡(luò)從AlexNet的7層發(fā)展到VGG的16或19層,再到GoogleNet的22層,深度不斷增加以提升表達(dá)能力。然而,后續(xù)研究發(fā)現(xiàn),當(dāng)網(wǎng)絡(luò)深度達(dá)到一定程度后,繼續(xù)增加層數(shù)不僅無法提升性能,反而會導(dǎo)致網(wǎng)絡(luò)收斂變慢、準(zhǔn)確率下降,例如VGG網(wǎng)絡(luò)在19層以上時性能開始下降。在此背景下,華人學(xué)者何愷明等人提出了ResNet網(wǎng)絡(luò),引入殘差學(xué)習(xí)的概念,解決了深層網(wǎng)絡(luò)中的信息丟失和梯度問題,并在ILSVRC2015競賽中奪冠,top5錯誤率僅為3.57%,且參數(shù)量少于VGG。ResNet的核心思想是增加直連通道,允許原始輸入信息直接傳遞到后面的層中,簡化了學(xué)習(xí)目標(biāo),提升了訓(xùn)練速度和準(zhǔn)確率,且具有良好的推廣性,可應(yīng)用于InceptionNet等網(wǎng)絡(luò)。3.3.5ResNet圖

3-9ResNet模塊結(jié)構(gòu)1481、R-CNN系列模型工作原理149候選區(qū)域提取:使用SelectiveSearch等傳統(tǒng)圖像分割方法生成可能包含目標(biāo)的候選區(qū)域,這些區(qū)域數(shù)量多且形狀、大小各異。特征提取:將每個候選區(qū)域調(diào)整為固定大小,通過預(yù)訓(xùn)練的CNN(如AlexNet、VGG)提取特征,這些網(wǎng)絡(luò)在大規(guī)模圖像分類任務(wù)上訓(xùn)練,能有效捕獲圖像特征。目標(biāo)分類:將提取的特征輸入SVM分類器,將候選區(qū)域分為不同目標(biāo)類別(如汽車、行人、動物等),每個類別對應(yīng)一個SVM。目標(biāo)定位:使用回歸器微調(diào)候選區(qū)域的邊界框,以更準(zhǔn)確地匹配目標(biāo)的實際位置。非極大值抑制(NMS):排除重疊的候選區(qū)域,保留最佳檢測結(jié)果,確保每個目標(biāo)只被保留一次。訓(xùn)練過程:兩階段訓(xùn)練,先預(yù)訓(xùn)練CNN,再訓(xùn)練SVM分類器和回歸器以適應(yīng)目標(biāo)檢測任務(wù)。3.3.6R-CNN系列2、FastR-CNN網(wǎng)絡(luò)的工作原理150候選區(qū)域提?。阂隦egionProposalNetworks(RPNs)生成候選區(qū)域,與特征提取共享卷積計算,提高速度。特征提取:對整張圖像進(jìn)行卷積計算,得到特征圖。使用RoIPooling層從特征圖中提取每個候選區(qū)域的固定大小特征向量,確保特征表示維度一致。目標(biāo)分類與邊界框回歸:將特征向量輸入兩個全連接層:一個用于目標(biāo)分類,通過Softmax輸出類別概率。一個用于邊界框回歸,預(yù)測目標(biāo)的精確位置。3.3.6R-CNN系列2、FastR-CNN網(wǎng)絡(luò)的工作原理151多任務(wù)損失函數(shù):同時優(yōu)化分類和邊界框回歸:分類損失使用交叉熵。邊界框回歸損失使用SmoothL1Loss。訓(xùn)練過程:端到端訓(xùn)練:微調(diào)預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)。在目標(biāo)檢測數(shù)據(jù)集上優(yōu)化網(wǎng)絡(luò)參數(shù)。測試過程:前向傳播生成候選區(qū)域并提取特征。使用分類器進(jìn)行目標(biāo)分類,應(yīng)用邊界框回歸優(yōu)化目標(biāo)位置。3.3.6R-CNN系列定義:“YOLO”代表“YouOnlyLookOnce”,是一系列用于實時目標(biāo)檢測的深度學(xué)習(xí)模型。特點:通過單次前向傳遞同時預(yù)測圖像中的多個物體邊界框和類別,兼顧速度和準(zhǔn)確性。3.3.7Yolo系列152YOLO簡介YOLOv1YOLOv10YOLOv3YOLOv2發(fā)布時間:2015年,由JosephRedmon等人提出。架構(gòu):將輸入圖像劃分為S×S網(wǎng)格,每個網(wǎng)格預(yù)測B個邊界框、置信度和類別概率。輸出:網(wǎng)絡(luò)輸出為S×S×(B×5+C)的張量,其中C為類別數(shù)量。訓(xùn)練:使用均方誤差和交叉熵?fù)p失函數(shù),結(jié)合非極大值抑制(NMS)去除重復(fù)檢測。發(fā)布時間:2016年。改進(jìn):引入Darknet-19和Darknet-53網(wǎng)絡(luò)結(jié)構(gòu)。

使用錨點框(anchorboxes)提高邊界框預(yù)測準(zhǔn)確性。

實現(xiàn)多尺度訓(xùn)練和預(yù)測,聯(lián)合訓(xùn)練目標(biāo)檢測和分類任務(wù)。發(fā)布時間:2018年。改進(jìn):使用Darknet-53網(wǎng)絡(luò)結(jié)構(gòu)。引入多尺度預(yù)測和特征融合,使用三種不同尺度的邊界框預(yù)測不同大小的目標(biāo)。使用1×1卷積層進(jìn)行類別預(yù)測,提升速度和準(zhǔn)確性。發(fā)布時間:2024年,由清華大學(xué)發(fā)布。改進(jìn):取消非最大抑制(NMS),引入一致雙重賦值策略。

優(yōu)化模型架構(gòu),降低計算成本。

在各種模型規(guī)模上表現(xiàn)出色,如YOLOv10-S在COCO數(shù)據(jù)集上實現(xiàn)快速高效的目標(biāo)檢測。1533.3.7Yolo系列MobileNet是一種輕量級CNN架構(gòu),專為移動設(shè)備和嵌入式系統(tǒng)設(shè)計,以實現(xiàn)高效的圖像識別任務(wù)。它由谷歌研究人員于2017年提出,成為深度學(xué)習(xí)領(lǐng)域中受歡迎的輕量級模型之一。MobileNet的核心是深度可分離卷積,它將傳統(tǒng)卷積分解為兩個獨立步驟:深度卷積和逐點卷積。深度卷積對每個輸入通道單獨進(jìn)行卷積操作,而逐點卷積使用1×1卷積核將深度卷積的結(jié)果映射到最終輸出通道數(shù)上,實現(xiàn)通道間的信息交互和混合。此外,MobileNet引入了寬度乘法參數(shù)(WidthMultiplier),用于控制網(wǎng)絡(luò)寬度,減少通道數(shù)和模型計算量。該參數(shù)介于0和1之間,例如0.5表示將通道數(shù)減少為原來的一半。通過深度可分離卷積和寬度乘法參數(shù)的結(jié)合,MobileNet在資源受限的設(shè)備上實現(xiàn)了高效的圖像識別任務(wù),成為移動端和嵌入式設(shè)備上廣泛使用的輕量級深度學(xué)習(xí)模型。3.3.8MobileNet圖

3-12深度卷積(左)逐點卷積(右)Conformer是一種結(jié)合卷積神經(jīng)網(wǎng)絡(luò)(CNN)和Transformer架構(gòu)的混合網(wǎng)絡(luò),融合了卷積操作和自注意力機制,以提升表示學(xué)習(xí)能力。它采用并行結(jié)構(gòu),同時保留局部特征和全局信息。實驗表明,Conformer在ImageNet上的性能比視覺Transformer高出2.3%,在MSCOCO上的目標(biāo)檢測和實例分割任務(wù)中,分別比ResNet-101高出3.7%和3.6%的mAP,展現(xiàn)出作為通用骨干網(wǎng)絡(luò)的強大潛力。3.3.9Conformer圖

3-13

Conformer效果對比各種卷積4156如圖3-14所示,單通道圖像的2D卷積通過濾波器與輸入數(shù)據(jù)逐元素相乘并累加,得到卷積值。例如,使用一個3×3的濾波器(元素為[[0,1,2],[2,2,0],[0,1,2]]),在輸入數(shù)據(jù)上滑動,每次計算對應(yīng)位置的乘法和加法,最終輸出一個3×3的矩陣。在多通道輸入(如RGB圖像)中,2D卷積廣泛應(yīng)用。例如,對于一個5×5×3的輸入矩陣和一個3×3×3的濾波器,每個3×3的濾波器核分別對輸入的三個通道進(jìn)行卷積,得到三個3×3的輸出通道。3.4.12D卷積圖

3-14

2D卷積,單通道(上)多通道(下)157在多通道情況下,2D卷積實際上是一個3D卷積過程,因為濾波器的深度與輸入層深度匹配,濾波器僅在圖像的二維空間(高度和寬度)上滑動,輸出單通道結(jié)果。而3D卷積中,濾波器深度小于輸入層深度,需要在三個維度(長、寬、高)上滑動,輸出結(jié)果為3D結(jié)構(gòu)。3D卷積的優(yōu)勢在于能更好地描述3D空間中的對象關(guān)系,適用于3D對象分割和醫(yī)學(xué)圖像重構(gòu)等場景。3.4.23D卷積圖

3-15

3D卷積示意圖1581×1卷積不僅對特征圖中的每個值進(jìn)行縮放,還通過激活層實現(xiàn)非線性映射,并能靈活改變特征圖的通道數(shù)。例如,對一個H×W×D的輸入層應(yīng)用D維的1×1卷積核,輸出通道維度變?yōu)镠×W×1。多次執(zhí)行1×1卷積并將結(jié)果合并,最終可得到H×W×N的輸出層。3.4.31×1卷積圖

3-16

1×1卷積示意圖159在可分離卷積中,卷積核操作可以分解為多個步驟。卷積過程用表達(dá)式y(tǒng)=conv(x,k)表示,其中y是輸出圖像,x是輸入圖像,k是卷積核。如果卷積核k可以表示為k=k1?k2,那么卷積操作就可以分解為兩個一維卷積,從而實現(xiàn)可分離卷積,得到與二維卷積相同的結(jié)果。例如,Sobel卷積核可以通過向量[1,0,?1]和[1,2,1]T的乘積來實現(xiàn),參數(shù)數(shù)量從9個減少到6個。3.4.4空間可分離卷積圖

3-17

空間可分離卷積運算示意圖160使用32個3×3的卷積核遍歷16個輸入通道,產(chǎn)生512個特征映射(16×32),然后將每個輸入通道的特征映射相加,形成32個輸出通道。參數(shù)總量為4608(16×32×3×3)。傳統(tǒng)卷積:深度卷積:對每個輸入通道分別應(yīng)用3×3卷積核,得到16個特征映射。逐通道卷積:對這16個特征映射分別應(yīng)用32個1×1卷積核,最終合并結(jié)果。參數(shù)總量減少為656(16×3×3+16×32×1×1)。深度可分離卷積:1613.4.5深度可分離卷積深度可分離卷積將標(biāo)準(zhǔn)卷積分解為空間卷積和逐通道卷積兩步,顯著減少參數(shù)數(shù)量。以一個3×3卷積層為例,輸入通道為16,輸出通道為32:假設(shè)輸入層大小為7×7×3,使用3×3×3的卷積核進(jìn)行2D卷積,輸出層大小為5×5×1。若使用128個卷積核,則得到128個5×5×1的輸出映射,堆疊后形成5×5×128的輸出層。標(biāo)準(zhǔn)2D卷積回顧:深度卷積:使用3個3×3×1的卷積核分別對每個輸入通道進(jìn)行卷積,得到5×5×3的中間輸出。逐通道卷積:對中間輸出應(yīng)用1×1卷積核,增加通道數(shù)至32,最終輸出5×5×32的特征圖。深度可分離卷積實現(xiàn):1623.4.5深度可分離卷積圖

3-18

深度可分離卷積示意圖分組卷積是一種在人工智能領(lǐng)域廣泛應(yīng)用的技術(shù),最早應(yīng)用于AlexNet模型。由于當(dāng)時硬件資源有限,無法將所有卷積操作集中在一塊GPU上,因此作者采用分組卷積的方法,將特征圖分成多個部分,分別在多個GPU上處理,最后合并結(jié)果。其原理如下:傳統(tǒng)2D卷積中,使用多個卷積核(如128個3×3×3的卷積核)將輸入層(如7×7×3)轉(zhuǎn)換為輸出層(如5×5×128)。在分組卷積中,將卷積核分成若干組,每組獨立執(zhí)行卷積操作,最終將各組結(jié)果合并。3.4.6分組卷積圖3-19分組卷積示意圖163擴張卷積通過增加卷積核內(nèi)值之間的間隔來擴展感受野。例如,擴張率為2的3×3卷積核具有與5×5卷積核相同的視野,但僅需9個參數(shù)。它類似于在5×5卷積核中刪除間隔行和列,從而在保持計算成本不變的情況下獲得更大的感受野。這種技術(shù)因在實時分割領(lǐng)域的應(yīng)用而受到關(guān)注,尤其適用于需要更大感受野但無法承受更高計算成本的場景。3.4.7擴張卷積圖3-20擴張卷積示意圖空洞卷積通過在卷積核的部分之間插入空間來實現(xiàn)"膨脹"的效果。參數(shù)l(空洞率)表示希望將卷積核擴展多大。圖3-20示了當(dāng)l=1,2,4時,卷積核的大小。(當(dāng)l=1時,空洞卷積就等同于標(biāo)準(zhǔn)卷積操作。)16451本章小結(jié)本章系統(tǒng)介紹了卷積神經(jīng)網(wǎng)絡(luò)的基本概念、發(fā)展歷程、基本結(jié)構(gòu)與部件以及代表性模型。卷積神經(jīng)網(wǎng)絡(luò)發(fā)源于人們對于視覺系統(tǒng)工作原理的研究,以類比的思想用卷積核對圖像的處理模擬人類感受野讀取、理解圖片的過程。卷積神經(jīng)網(wǎng)絡(luò)的出現(xiàn)大大推動了計算機視覺領(lǐng)域的進(jìn)步,特別是近些年來,以卷積神經(jīng)網(wǎng)絡(luò)為基本架構(gòu)的模型在部分任務(wù)上達(dá)到了和人類持平甚至超過人類的表現(xiàn)。3-1卷積層在CNN中起到什么作用?3-2什么是池化層,它的主要功能是什么?3-3激活函數(shù)在CNN中的作用是什么?常見的激活函數(shù)有哪些?3-4什么是全連接層,它在CNN中起到什么作用?3-5什么是端到端學(xué)習(xí),它相比傳統(tǒng)機器學(xué)習(xí)方法的優(yōu)勢是什么?3-6AlexNet在設(shè)計和訓(xùn)練上有哪些特點?3-7VGG網(wǎng)絡(luò)的主要創(chuàng)新點是什么?3-8什么是深度可分離卷積,它的主要優(yōu)勢是什么?3-9什么是感受野,為什么在卷積神經(jīng)網(wǎng)絡(luò)中重要?3-10什么是YOLO網(wǎng)絡(luò),它的主要特點是什么?思考題與習(xí)題1664循環(huán)神經(jīng)網(wǎng)絡(luò)目錄

|

CONTENTS循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)1循環(huán)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練2雙向循環(huán)神經(jīng)網(wǎng)絡(luò)與深度循環(huán)神經(jīng)網(wǎng)絡(luò)3長短期記憶網(wǎng)絡(luò)4門控循環(huán)單元567遞歸神經(jīng)網(wǎng)絡(luò)雙向長短期記憶網(wǎng)絡(luò)與雙向門控循環(huán)單元循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrentneuralnetworks,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論