人工智能 課件 第五章 機器學習_第1頁
人工智能 課件 第五章 機器學習_第2頁
人工智能 課件 第五章 機器學習_第3頁
人工智能 課件 第五章 機器學習_第4頁
人工智能 課件 第五章 機器學習_第5頁
已閱讀5頁,還剩74頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

人工智能第5章機器學習本章提綱5.1機器學習基礎5.2神經(jīng)網(wǎng)絡5.3深度神經(jīng)網(wǎng)絡5.5機器學習在電力工程中的應用5.4學習技巧本章提綱5.1機器學習基礎5.2神經(jīng)網(wǎng)絡5.3深度神經(jīng)網(wǎng)絡5.5機器學習在電力工程中的應用5.4學習技巧5.1.1機器學習的基本概念什么是學習系統(tǒng)改進其性能的過程獲取知識的過程技能的獲取事物規(guī)律的發(fā)現(xiàn)過程綜合來看,學習是一個有特定目的的知識獲取過程,具體表現(xiàn)為對知識、經(jīng)驗、規(guī)律進行學習,以達到性能優(yōu)化、環(huán)境適應和自我完善。機器學習使計算機完成上述的學習功能,通過自動或被動的知識、技能獲取,為之后的人工智能應用進行準備。5.1.2機器學習的研究歷史20世紀50年代中期研究工作:應用決策理論的方法研制可適應環(huán)境的通用學習系統(tǒng)基本思想:給系統(tǒng)一組刺激、一個反饋源和修改自身組織的自由度,系統(tǒng)就可以自適應地趨向最優(yōu)組織代表:羅森布拉特(Rosen-blatt)的感知器20世紀70年代中期研究方向:用邏輯的演繹及歸納推理代替數(shù)值的或統(tǒng)計的方法重要成果舉例:斯托夫的指導式學習、溫斯頓和卡鮑尼爾的類比學習以及米切爾等人提出的解釋學習20世紀80年代到21世紀初研究特點:符號學習和連接學習取得較大進展,開始把符號學習與連接學習結合起來進行研究重要成果舉例:里奇(E.Rich)開發(fā)的集成系統(tǒng)5.1.3機器學習的分類演繹學習以演繹推理為基礎的學習非監(jiān)督學習在不提供或不足量提供顯式反饋的情況下,完成對輸入分布的學習可分為無監(jiān)督學習、半監(jiān)督學習和自監(jiān)督學習(1)無監(jiān)督學習不依賴任何標簽值,通過挖掘數(shù)據(jù)本身的結構或特征完成任務主要包括:①聚類(K-means,譜聚類等)②降維(線性降維:PCA等;非線性降維:SOM、KernelPCA等;圖上降維:圖嵌入等)③離散點檢測(主要應用于異常檢測)5.1.3機器學習的分類非監(jiān)督學習(2)半監(jiān)督學習讓學習器不依賴外界交互,自動利用未標記樣本提升學習性能分類:①無標簽數(shù)據(jù)預訓練網(wǎng)絡后有標簽數(shù)據(jù)微調②利用從網(wǎng)絡得到的深度特征來做半監(jiān)督算法(3)自監(jiān)督學習標注源于數(shù)據(jù)本身,而非人工標注主要用于特定類型數(shù)據(jù)的生成,其生成的數(shù)據(jù)可用于預測、調試優(yōu)化模型等強化學習人工智能在強化序列(獎賞和懲罰組合的序列)中學習5.1.3機器學習的分類監(jiān)督學習

本章提綱5.1機器學習基礎5.2神經(jīng)網(wǎng)絡5.3深度神經(jīng)網(wǎng)絡5.5機器學習在電力工程中的應用5.4學習技巧5.2.1神經(jīng)網(wǎng)絡的基本特點感知器

神經(jīng)網(wǎng)絡結構構成:輸入層、隱藏層、輸出層組成單元:感知器學習過程:輸入數(shù)據(jù)的前向傳遞、損失值的反向傳播和梯度優(yōu)化。5.2.2激活函數(shù)

Sigmoid函數(shù)5.2.2激活函數(shù)

ReLU函數(shù)5.2.3神經(jīng)網(wǎng)絡的學習機理輸入數(shù)據(jù)在神經(jīng)網(wǎng)絡中的前向傳遞損失值在神經(jīng)網(wǎng)絡中的反向傳播基于反向傳播梯度的可訓練參數(shù)優(yōu)化神經(jīng)網(wǎng)絡的學習步驟

輸入數(shù)據(jù)在神經(jīng)網(wǎng)絡中的前向傳遞5.2.3神經(jīng)網(wǎng)絡的學習機理損失值在神經(jīng)網(wǎng)絡中的反向傳播反向傳播時,根據(jù)損失函數(shù)對各w和b的導數(shù),可以判斷每個參數(shù)的變化方向,再乘以學習率就可以獲得每個參數(shù)的更新方式。以一個三層神經(jīng)網(wǎng)絡為例:輸出為:損失為:以第一層為例求取損失對網(wǎng)絡參數(shù)的導數(shù):結合預設的學習率進行參數(shù)更新:5.2.3神經(jīng)網(wǎng)絡的學習機理基于反向傳播梯度的可訓練參數(shù)優(yōu)化傳統(tǒng)梯度下降法存在著兩點缺陷:訓練速度慢:每一步都要計算調整下一步的方向,下山速度變慢容易陷入局部最優(yōu)解:當落入鞍點時梯度為0,參數(shù)不再繼續(xù)更新批訓練對于含有n個訓練樣本的數(shù)據(jù)集,每次參數(shù)更新,選擇一個大小為m的樣本集作為更新參數(shù)的依據(jù)特點:既保證了訓練的速度,又能保證最后收斂的準確率隨機梯度下降法每次利用SGD法更新參數(shù)時,隨機選取一個計算梯度特點:在樣本量很大時也有較快地訓練速度;每次迭代方向具有隨機性;不能保證很好的收斂性5.2.3神經(jīng)網(wǎng)絡的學習機理自適應學習率算法

學習率學習率是對訓練影響最大的超參如果學習率太小,則梯度很大的參數(shù)會有一個很慢的收斂速度如果學習率太大,則參數(shù)可能會出現(xiàn)不穩(wěn)定的情況對于同一模型中的不同參數(shù),最合適的學習率很可能并不相同自適應學習率算法主要有:AdaGrad、RMSProp、AdaDelta、Adam算法及其變體等5.2.3神經(jīng)網(wǎng)絡的學習機理自適應學習率算法

5.2.3神經(jīng)網(wǎng)絡的學習機理自適應學習率算法

5.2.4線性分類器神經(jīng)網(wǎng)絡在有監(jiān)督的分類任務中的作用機制以簡單線性模型為例

本章提綱5.1機器學習基礎5.2神經(jīng)網(wǎng)絡5.3深度神經(jīng)網(wǎng)絡5.5機器學習在電力工程中的應用5.4學習技巧5.3.1神經(jīng)網(wǎng)絡的結構前饋神經(jīng)網(wǎng)絡每個神經(jīng)元只與前一層的神經(jīng)元相連,各層神經(jīng)元之間無連接各層間沒有反饋,數(shù)據(jù)正向流動不考慮輸出與輸入在時間上的滯后效應,只表達映射關系學習主要采用誤差修止法(如BP算法),計算過程較慢,收斂速度也較慢反饋神經(jīng)網(wǎng)絡又稱遞歸網(wǎng)絡、回歸網(wǎng)絡層間神經(jīng)元有連接數(shù)據(jù)可以在同層間流動或反饋至前層考慮輸出與輸入間在時間上的延遲,需要動態(tài)方程描述系統(tǒng)的模型主要采用Hebb學習規(guī)則,一般情況下計算的收斂速度很快更適合應用在聯(lián)想記憶和優(yōu)化計算等領域5.3.1神經(jīng)網(wǎng)絡的結構循環(huán)神經(jīng)網(wǎng)絡當前使用最廣泛的反饋神經(jīng)網(wǎng)絡模型例: Ilikeeatingapple!

TheAppleisagreatcompany!

通過對上下文的綜合考慮,正確識別apple的語義應用領域:①自然語言處理②機器翻譯③語音識別④圖像描述生成⑤文本相似度計算⑥音樂推薦、商品推薦、視頻推薦等代表性模型:門控循環(huán)神經(jīng)網(wǎng)絡、長短期記憶神經(jīng)網(wǎng)絡5.3.1神經(jīng)網(wǎng)絡的結構生成對抗網(wǎng)絡(GenerativeAdversarialNetwork,GAN)通過分別訓練生成模型G和判別模型D,實現(xiàn)更準確的生成生成模型G:生成看起來自然真實的、和原始數(shù)據(jù)相似的實例判別模型D:判斷實例是真實的還是偽造的不需要人為標注的樣本一般用于非監(jiān)督學習的樣本生成若實現(xiàn)利用標簽、文本生成圖片等較為復雜的工作,則需要人為標注來控制模型的學習方向5.3.2前饋神經(jīng)網(wǎng)絡——卷積神經(jīng)網(wǎng)絡

卷積層5.3.2前饋神經(jīng)網(wǎng)絡——卷積神經(jīng)網(wǎng)絡權值共享:在每個深度切片上的結果都使用同樣的權重和偏差擴張:讓濾波器中元素之間有間隙,可以使有效感受野迅速增長卷積層卷積層大小選擇(1)幾個小濾波器卷積層的組合比一個大濾波器卷積層好(2)輸入層應該能被2整除很多次。如32,64,96或224,384和5125.3.2前饋神經(jīng)網(wǎng)絡——卷積神經(jīng)網(wǎng)絡作用:逐漸降低數(shù)據(jù)體的空間尺寸,減少網(wǎng)絡參數(shù)的數(shù)量;使得計算資源耗費變少;有效控制過擬合池化方式:最大池化、平均池化、L-2范式池化等反向傳播:池化層5.3.2前饋神經(jīng)網(wǎng)絡——卷積神經(jīng)網(wǎng)絡作用:將卷積層、池化層學到的“分布式特征表示”映射到樣本標記空間全連接層5.3.3前饋神經(jīng)網(wǎng)絡——圖神經(jīng)網(wǎng)絡

圖的定義圖神經(jīng)網(wǎng)絡旨在將卷積推廣到圖領域。在這個方向上的進展通常分為頻譜方法(SpectralMethod)和空間方法(SpatialMethod)。圖神經(jīng)網(wǎng)絡5.3.3前饋神經(jīng)網(wǎng)絡——圖神經(jīng)網(wǎng)絡方法原理:通過計算圖拉普拉斯算子的特征分解,在傅立葉域中定義卷積運算。將原始的處于空域的圖信號變換到頻域上之后,對頻域屬性進行濾波,然后再恢復到原來的圖信號所在的空域中,從而完成了對圖信號的降噪與特征提取的功能。關鍵缺陷:需要將整個圖的信息載入內存中,這使得其在大規(guī)模的圖結構上不能有效的進行應用。頻譜方法方法原理:只在空間相鄰的鄰居上進行計算,瞄準圖中的每個子圖,而不是整張圖,在處理大規(guī)模網(wǎng)絡時更不容易陷入局部最優(yōu)或過擬合。挑戰(zhàn):針對不同節(jié)點度的節(jié)點組成的子網(wǎng),需要分別設計卷積核,當前有四種常用的網(wǎng)絡類型,分別是NeuralFPS、LGCN、MoNeT和GraphSAGE。空間方法5.3.3前饋神經(jīng)網(wǎng)絡——圖神經(jīng)網(wǎng)絡(1)NeuralFPS方法:對度不同的節(jié)點,使用不同的權重矩陣。缺點:不能應用在大規(guī)模圖結構中,因為它的節(jié)點具有很多不同的度??臻g方法(2)LGCN方法:LGCN基于可學習圖卷積層(LGCL)和子圖訓練策略。LGCL利用CNN作為聚合器。它對節(jié)點的鄰域矩陣進行最大池化,以獲取前k個要素元素,然后應用1-D卷積來計算隱藏表示。5.3.3前饋神經(jīng)網(wǎng)絡——圖神經(jīng)網(wǎng)絡(3)MoNet首先對圖中的每個節(jié)點進行特征表示。然后為每個節(jié)點計算偽坐標,這些坐標考慮了節(jié)點及其鄰居節(jié)點的特征。MoNet為節(jié)點與其鄰居之間的關系確定不同的權重,這些權重基于節(jié)點特征通過學習得到。通過加權求和鄰居節(jié)點的偽坐標,更新每個節(jié)點的特征表示,從而捕捉節(jié)點間的復雜關系。MoNet方法流暢連貫的處理方式使其能夠適應不同的圖結構和應用需求,實現(xiàn)高效的圖卷積操作??臻g方法5.3.3前饋神經(jīng)網(wǎng)絡——圖神經(jīng)網(wǎng)絡(4)GraphSAGE首先在目標節(jié)點的鄰居中進行隨機采樣,以此降低計算量并捕捉局部圖結構。隨后,這些鄰居節(jié)點的特征與目標節(jié)點自身的特征相結合,通過一個可學習的聚合函數(shù)進行特征融合。得到的聚合特征隨后被送入一個轉換層,以生成目標節(jié)點的新特征表示。最終,每個節(jié)點都被賦予一個固定大小的嵌入向量。GraphSAGE的優(yōu)勢在于其對大型圖數(shù)據(jù)集的高效處理能力以及生成的節(jié)點嵌入的高質量??臻g方法5.3.3前饋神經(jīng)網(wǎng)絡——圖神經(jīng)網(wǎng)絡在傳播過程引入注意力機制,這允許模型動態(tài)地關注不同鄰居節(jié)點的不同程度。節(jié)點-鄰居對的計算是可并行化的,運算效率很高可以處理不同程度的節(jié)點,并為其鄰居分配相應的權重可以很容易地應用于歸納學習問題。是一種局部網(wǎng)絡,無需了解整個圖結構,只需知道每個節(jié)點的鄰節(jié)點即可。圖注意力網(wǎng)絡(GraphAttentionNetworks,GAT)5.3.4反饋神經(jīng)網(wǎng)絡反饋神經(jīng)網(wǎng)絡中,神經(jīng)元可以互連,有些神經(jīng)元的輸出會被反饋至同層甚至前層的神經(jīng)元。代表性網(wǎng)絡:Hopfield神經(jīng)網(wǎng)絡、Elman神經(jīng)網(wǎng)絡、玻爾茲曼機等。Hopfield神經(jīng)網(wǎng)絡一種單層對稱全反饋網(wǎng)絡,該網(wǎng)絡為一種基于能量的的模型。能量函數(shù)保證了向局部極小的收斂,使神經(jīng)網(wǎng)絡運行穩(wěn)定性的判斷有了明確的可靠的依據(jù)。根據(jù)激活函數(shù)不同,分為兩種:離散HopfieId網(wǎng)(DHNN)和連續(xù)Hopfield網(wǎng)(CHNN)。DHNN主要用于聯(lián)想記憶,輸入部分信息即可聯(lián)想到完整的輸出,即具有容錯性;CHNN主要用于優(yōu)化計算,如旅行商TSP、調度等。5.3.4反饋神經(jīng)網(wǎng)絡Hopfield神經(jīng)網(wǎng)絡

5.3.4反饋神經(jīng)網(wǎng)絡Hopfield神經(jīng)網(wǎng)絡

離散Hopfield網(wǎng)絡可以用于聯(lián)想記憶,因此又稱聯(lián)想記憶網(wǎng)絡。Hopfield網(wǎng)絡實現(xiàn)聯(lián)想記憶需要兩個階段:(1)記憶階段:外界輸入數(shù)據(jù)使系統(tǒng)自動調整網(wǎng)絡權值,最終使系統(tǒng)具有若干個穩(wěn)定狀態(tài),即吸引子。吸引域半徑越大,說明聯(lián)想能力越強。(2)聯(lián)想階段:在聯(lián)想階段,對于給定的輸入模式,系統(tǒng)最終穩(wěn)定收斂于某個吸引子。每個神經(jīng)元的輸出都成為其他神經(jīng)元的輸入,每個神經(jīng)元的輸入都來自于其他神經(jīng)元。5.3.4反饋神經(jīng)網(wǎng)絡Elman神經(jīng)網(wǎng)絡承接層:作為一步延時算子,達到記憶的目的,從而使系統(tǒng)具有適應時變特性的能力,增強了網(wǎng)絡的全局穩(wěn)定性;關聯(lián)層:從隱含層接收反饋信號,每一個隱含層節(jié)點都有一個與之對應的關聯(lián)層節(jié)點連接。通過聯(lián)接記憶將上一個時刻的隱層狀態(tài)連同當前時刻的網(wǎng)絡輸入一起作為隱層的輸入,相當于狀態(tài)反饋。5.3.4反饋神經(jīng)網(wǎng)絡門控循環(huán)神經(jīng)網(wǎng)絡(GRU)提出目的:解決長期記憶和反向傳播中的梯度等問題

5.3.4反饋神經(jīng)網(wǎng)絡長短期記憶神經(jīng)網(wǎng)絡(LSTM)提出目的:解決門控循環(huán)神經(jīng)網(wǎng)絡訓練過程中的梯度消失和梯度爆炸問題

5.3.4反饋神經(jīng)網(wǎng)絡長短期記憶神經(jīng)網(wǎng)絡(LSTM)

本章提綱5.1機器學習基礎5.2神經(jīng)網(wǎng)絡5.3深度神經(jīng)網(wǎng)絡5.5機器學習在電力工程中的應用5.4學習技巧5.4.1自監(jiān)督學習自監(jiān)督預訓練預訓練的效果主要取決于5個方面,分別是①準備語料庫;②語料符號化;③設計預訓練任務;④選擇預訓練模型;⑤選定預訓練學習方案。(1)語料庫方面:不同類型的語料庫,其文本特征也不盡相同。官方新聞、百度百科、維基百科等語料的噪音較小,而社交媒體的文本中會有較大的噪聲。此外,許多特定的領域包含許多特定詞匯。因此必須根據(jù)目標領域選擇預訓練語料庫,以達到良好的效果。(2)語料符號化方面:語料在符號化后會生成針對預訓練模型的字典,其中,每個特定的語料都會對應一種符號(1-hot向量)。符號化可以分為四類,詞語符號化、字母序列符號化、子詞符號化以及混合符號化。5.4.1自監(jiān)督學習自監(jiān)督預訓練(3)預訓練任務方面:預訓練任務是自我監(jiān)督的,這些任務利用了偽標簽。數(shù)據(jù)屬性和預訓練任務的定義決定了偽標簽。預訓練任務的指定標準是在有足夠挑戰(zhàn)性的同時,與下游任務能較好的銜接。常用的預訓練任務包括:因果語言建模(CLM);掩蔽語言建模(MLM);替換符號檢測(RTD);混亂符號檢測(STD);隨機符號替換(RTS);翻譯語言建模(TLM);交換語言建模;下句預測(NSP);句序預測(SOP)等。5.4.1自監(jiān)督學習自監(jiān)督預訓練(4)預訓練模型方面:預訓練模型指的就是預訓練任務所用的神經(jīng)網(wǎng)絡。Transformer是一個編碼-解碼結構的神經(jīng)網(wǎng)絡,其中編碼過程用到了復數(shù)個編碼器。每次編碼都會將所有輸入數(shù)據(jù)輸入編碼器,得到一個或多個輸出,這個輸出將作為下一個編碼器的輸入。依次迭代,最終得到表征輸入數(shù)據(jù)的特征向量或矩陣。解碼部分的每個輸出都會與輸入相拼接,共同作為下一個解碼器的輸入。預訓練模型分為三種,一種只用編碼部分,一種只用解碼部分,還有一種兩個部分都用。5.4.1自監(jiān)督學習自監(jiān)督預訓練(5)學習方案方面:①從頭開始訓練:對沒有任何預處理的、參數(shù)隨機初始化的預訓練模型進行預訓練;對語料庫規(guī)模和訓練成本有著極大的需求。②連續(xù)預訓練:利用不對稱的專業(yè)語料對常見語料訓練出的預訓練模型進行進一步預訓練。③同時預訓練:在專業(yè)語料過少的情況下,從頭對通用語料和專業(yè)語料并行預訓練,用通用語料輔助訓練專業(yè)語料。④知識繼承訓練:將專業(yè)語料庫和已有通用語料預訓練模型的輸入輸出對共同用于訓練一個較小的預訓練模型。5.4.1自監(jiān)督學習自監(jiān)督預訓練預訓練模型適應下游任務的方法:(1)直接將預訓練模型的輸出作為下游任務的輸入特征;(2)將模型部分神經(jīng)層進行微調后與下游任務的模型進行結合;(3)利用提示法對預訓練模型進行微調。GPT系列使用的方法就是提示法微調。具體做法為:將人為的規(guī)則給到預訓練模型,使模型可以更好地理解人的指令,以便更好地利用預訓練模型。例:輸入為"Ilovethismovie.",希望輸出的是"positive/negative"設置提示形如:"Themovieis___",然后讓模型用來表示情感狀態(tài)的答案(label),如positive/negative,甚至更細粒度一些的“fantastic”、“boring”等,將空補全作為輸出。5.4.1自監(jiān)督學習自監(jiān)督預訓練提示方法與微調方法的特點:提示更依賴預訓練模型中的任務;微調更依賴下游任務模型的再訓練。微調方法中:預訓練語言模型“遷就“各種下游任務。引入各種輔助任務損失值,將其添加到預訓練模型中,然后繼續(xù)預訓練,以便讓其更加適配下游任務。這個過程中,預訓練語言模型做出了更多的犧牲。提示方法中:利用各種下游任務使預訓練語言模型“回憶起”學習過的內容。需要對不同任務進行重構,使得它達到適配預訓練語言模型的效果,這個過程中,是下游任務做出了更多的犧牲。5.4.1自監(jiān)督學習自監(jiān)督預訓練提示方法的優(yōu)點:給定一組合適提示,以完全無監(jiān)督的方式訓練的單個語言建模就能夠用于解決大量任務。提示方法的設計:從提示的位置數(shù)量、模板的設計方法兩個方面完成。位置數(shù)量:主要取決于任務的形式和模型的類別。設計方法:手工設計一般基于人類自然語言知識,力求得到語義流暢且高效的模板;自動學習模板可以利用計算機技術自動學習并設計適配目標任務的模板,其中又可分為離散提示和連續(xù)提示。自動生成離散提示:自動生成由自然語言的詞組成的提示,因此其搜索空間是離散的。GPT系列模型使用的使離散生成提示。連續(xù)生成提示:直接用字典中的標記作為提示,將提示變成了可以簡單梯度下降求解的連續(xù)參數(shù)問題,實現(xiàn)機器對提示更直接的理解。5.4.1自監(jiān)督學習自監(jiān)督預訓練指示調整(instructiontuning)指示學習的問題更接近于選擇題,它的選項來自一個更小的集合,對于GPT-3.5而言,這個選項由GPT-3生成,通過人為標注GPT-3給出推測結果的準確性,并將這一結果凝聚成樣本,最終能用于GPT-3.5的學習。這種微調給模型來了更強大的能力,分別是:①能對人類的指令做出響應②能對未見過的指令進行反應③利用思維鏈進行推理的能力5.4.1自監(jiān)督學習自監(jiān)督降維

5.4.1自監(jiān)督學習自監(jiān)督生成

5.4.2半監(jiān)督訓練目標:嘗試將大量的無類標簽的樣例加入到有限的有類標簽的樣本中一起訓練來進行學習,期望能對學習性能起到改進的作用,作用:避免了數(shù)據(jù)和資源的浪費,同時解決了監(jiān)督學習的模型泛化能力不強和無監(jiān)督學習的模型不精確等問題。形式:①歸納式半監(jiān)督學習:假定訓練數(shù)據(jù)中的未標記樣本并非待測的數(shù)據(jù);②直推式半監(jiān)督學習:假定學習過程中所考慮的未標記樣本恰是待預測數(shù)據(jù),學習的目的就是在這些未標記樣本上獲得最優(yōu)泛化性能。5.4.2半監(jiān)督訓練(1)平滑假設:位于稠密數(shù)據(jù)區(qū)域的兩個距離很近的樣例的類標簽相似;(2)聚類假設:當兩個樣例位于同一聚類簇時,它們在很大的概率下有相同的類標簽;(3)流形假設:將高維數(shù)據(jù)嵌入到低維流形中,當兩個樣例位于低維流形中的一個小局部鄰域內時,它們具有相似的類標簽。從本質上說,這三類假設是一致的,只是相互關注的重點不同。其中流形假設更具有普遍性。預測樣例和學習目標之間的三種假設5.4.2半監(jiān)督訓練(1)自訓練算法分為簡單自訓練、協(xié)同訓練與半監(jiān)督字典訓練;簡單自訓練:用有標簽數(shù)據(jù)訓練一個分類器,然后用這個分類器對無標簽數(shù)據(jù)進行分類,這樣就會產(chǎn)生偽標簽或軟標簽。挑選你認為分類正確的無標簽樣本,把選出來的無標簽樣本用來訓練分類器。協(xié)同訓練:假設每個數(shù)據(jù)可以從不同的角度進行分類,不同角度可以訓練出不同的分類器,然后用這些從不同角度訓練出來的分類器對無標簽樣本進行分類,再選出認為可信的無標簽樣本加入訓練集中。半監(jiān)督字典學習:先用有標簽數(shù)據(jù)作為字典,對無標簽數(shù)據(jù)進行分類,挑選出你認為分類正確的無標簽樣本,加入字典中。半監(jiān)督學習算法5.4.2半監(jiān)督訓練(2)基于圖的半監(jiān)督算法最為廣泛應用的方法是標簽傳播算法。通過構造圖結構(數(shù)據(jù)點為頂點,點之間的相似性為邊)來尋找訓練數(shù)據(jù)中有標簽數(shù)據(jù)和無標簽數(shù)據(jù)的關系。是一種直推式的半監(jiān)督算法,即只對訓練集中的無標簽數(shù)據(jù)進行分類。(3)半監(jiān)督支持向量機利用結構風險最小化來分類;還用上了無標簽數(shù)據(jù)的空間分布信息,即決策超平面應該與無標簽數(shù)據(jù)的分布一致。半監(jiān)督學習算法5.4.2半監(jiān)督訓練(1)無標簽數(shù)據(jù)預訓練網(wǎng)絡后有標簽數(shù)據(jù)微調;(2)有標簽數(shù)據(jù)訓練網(wǎng)絡,利用從網(wǎng)絡中得到的深度特征來做半監(jiān)督算法。半監(jiān)督學習基本方法框架含義:運用已有的知識來學習新的知識,核心是利用已有知識和新知識之間的相似性,對新知識進行高效率的學習在機器學習領域中,遷移學習研究如何將已有模型應用到新的不同的、但是有一定關聯(lián)的領域中按學習方式可分為:基于樣本的遷移,基于特征的遷移,基于模型的遷移,基于關系的遷移。如果源域和目標域之間相似度不夠,則遷移結果并不理想,出現(xiàn)負遷移。遷移學習5.4.3特征嵌入定義:利用自監(jiān)督學習技術實現(xiàn)輸入數(shù)據(jù)降維,為下游任務提供分布更合理數(shù)據(jù)的任務。必要性:(1)圖上數(shù)據(jù)只能使用數(shù)學、統(tǒng)計和機器學習的特定子集進行分析,而向量空間有更豐富的方法工具集;(2)嵌入是壓縮的表示,完成嵌入后的數(shù)據(jù)有更強的經(jīng)濟性。分類:(1)頂點嵌入:每個頂點(節(jié)點)都用自己的向量表示進行編碼,通常用于在頂點級別執(zhí)行可視化或預測;(2)圖嵌入:用單個向量表示整個圖。此嵌入用于在圖形的級別進行預測,在該級別可以比較或可視化整個圖形。挑戰(zhàn):(1)屬性選擇:選擇嵌入應保留哪些圖形屬性;(2)可擴展性:嵌入方法應具有可擴展性,能夠處理大型圖;(3)嵌入的維數(shù):實際嵌入時很難找到表示的最佳維數(shù)。圖嵌入5.4.3特征嵌入一種將單詞轉換為嵌入向量的嵌入方法。利用語義窗口來捕捉每個句子中的語義上下文,并通過對語義窗口進行滑動,學習每一個句子序列中不同語義上下文窗口中的單詞embedding。每個詞語都關聯(lián)著兩個詞向量,分別為中心詞向量和背景詞向量Skip-gram模型通過中心詞最大化背景詞出現(xiàn)的聯(lián)合概率分布,實現(xiàn)有效的詞嵌入表示。Word2vec通過引入負采樣和層次Softmax優(yōu)化訓練,解決預測復雜度問題。負采樣在最大化背景詞出現(xiàn)概率的同時,最小化噪聲詞出現(xiàn)概率。5.4.3特征嵌入第一階段中采用截斷式隨機游走,把圖中每個節(jié)點的局部拓撲結構轉換成序列信息;第二階段中把Word2vec模型應用于階段一產(chǎn)生的序列數(shù)據(jù),學習序列中每個節(jié)點的embedding表示DeepWalk模型5.4.3特征嵌入在圖結構中,節(jié)點間的相性存在兩種形態(tài):(1)和近鄰節(jié)點之間的同質性;(2)和擔任類似結構角色的節(jié)點之間的結構性。有偏的隨機游走(BiasedRandomWalk)策略Node2vec模型p控制著返回上一跳節(jié)點的概率。當p取值小于1時,隨機游走生成的序列傾向于在同一節(jié)點附近徘徊,接近于BFS遍歷。q控制著游走到更遠節(jié)點的概率。當q取值小于1時,隨機游走生成的序列傾向于向更遠的結構進行探索,接近于DFS遍歷。5.4.3特征嵌入一階親密度和二階親密度:一階親密度代表圖中存在邊連接的節(jié)點之間的關系,二階親密度代表共享大部分鄰居的節(jié)點之間的關系。Line模型節(jié)點i和j之間的一階親密度建模(最小化節(jié)點間經(jīng)驗分布和聯(lián)合分布之間的距離):二階親密度建模:實際使用的時候,對一階近鄰和二階近鄰分別訓練,然后將兩個向量拼接起來作為節(jié)點的向量表示。5.4.3特征嵌入Graph2vec方法包括三個步驟:(1)從圖中采樣并重新標記所有子圖。子圖是在所選節(jié)點周圍出現(xiàn)的一組節(jié)點。子圖中的節(jié)點距離不超過所選邊數(shù)。(2)訓練跳躍圖模型。圖類似于文檔。由于文檔是詞的集合,所以圖就是子圖的集合。在此階段,對跳躍圖模型進行訓練。它被訓練來最大限度地預測存在于輸入圖中的子圖的概率。輸入圖是作為一個熱向量提供的。(3)通過在輸入處提供一個圖ID作為一個獨熱向量來計算嵌入。嵌入是隱藏層的結果。由于任務是預測子圖,所以具有相似子圖和相似結構的圖具有相似的嵌入。Graph2vec模型5.4.4多任務學習定義:指同時學習多個相關任務,讓這些任務在學習過程中共享知識,利用多個任務之間的相關性來改進模型在每個任務上的性能和泛化能力。主要挑戰(zhàn):如何設計多任務之間的共享機制常見共享模式:(1)硬共享模式(2)軟共享模式(3)層次共享模式(4)共享-私有模式5.4.4多任務學習多任務學習通??梢垣@得比單任務學習更好的泛化能力,主要有以下幾個原因:(1)多任務學習比單任務學習的訓練集更大。由于多個任務之間有一定的相關性,因此多任務學習相當于是一種隱式的數(shù)據(jù)增強,可以提高模型的泛化能力。(2)多任務學習中的共享模塊需要兼顧所有任務,在一定程度上避免了模型過擬合到單個任務的訓練集,可以看作是一種正則化。(3)一個好的表示通常需要適用于多個不同任務,多任務學習的機制使得它會比單任務學習獲得更好的表示。(4)在多任務學習中,每個任務都可以“選擇性”利用其他任務中學習到的隱藏特征,從而提高自身的能力。5.4.5集成學習定義:組合多個弱監(jiān)督模型以得到一個更好更全面的強監(jiān)督模型Bagging(bootstrapaggregating)Bootstrap方法:是一種有放回的抽樣方法,目的為了得到統(tǒng)計量的分布以及置信區(qū)間。具體步驟為:1)采用重抽樣方法從原始樣本中抽取一定數(shù)量的樣本;2)根據(jù)抽出的樣本計算想要得到的統(tǒng)計量;3)重復上述步驟N次得到N個統(tǒng)計量T;4)根據(jù)這個統(tǒng)計量,計算出統(tǒng)計量的置信區(qū)間。利用bootstrap方法從整體數(shù)據(jù)集中采取有放回抽樣得到N個數(shù)據(jù)集,在每個數(shù)據(jù)集上學習出一個模型,最后的預測結果利用N個模型的輸出得到。例:隨機森林(RandomForest)由很多的決策樹組成,每一棵決策樹之間是沒有關聯(lián)的。預測的時候,每一棵樹的都對輸入進行預測,最后進行投票,哪個類別多,輸入樣本就屬于哪個類別。5.4.5集成學習Boosting主要也是學習一系列弱分類器,并將其組合為一個強分類器。AdaBoost(Adaptiveboosting)算法:剛開始訓練時對每一個訓練例賦相等的權重,然后用該算法對訓練集訓練t輪,每次訓練后,對訓練失敗的訓練例賦以較大的權重,讓學習算法在每次學習以后更注意學錯的樣本,從而得到多個預測函數(shù)。Stacking指訓練一個模型用于組合其他各個模型。首先訓練多個不同的模型,然后把之前訓練的各個模型的輸出為輸入來訓練一個模型,以得到一個最終的輸出。理論上,Stacking可以表示上面提到的兩種Ensemble方法,只要采用合適的模型組合策略即可。但在實際中,通常使用logistic回歸作為組合策略。5.4.6聯(lián)邦學習聯(lián)邦學習定義了機器學習框架,在此框架下通過設計虛擬模型解決不同數(shù)據(jù)擁有方在不交換數(shù)據(jù)的情況下進行協(xié)作的問題。在聯(lián)邦機制下,各參與者的身份和地位相同,可建立共享數(shù)據(jù)策略。由于數(shù)據(jù)不發(fā)生轉移,因此不會泄露用戶隱私或影響數(shù)據(jù)規(guī)范。為了保護數(shù)據(jù)隱私、滿足合法合規(guī)的要求。聯(lián)邦學習構成要素:數(shù)據(jù)源、聯(lián)邦學習系統(tǒng)、用戶。根據(jù)參與各方數(shù)據(jù)源分布的情況不同,聯(lián)邦學習可以被分為三類:橫向聯(lián)邦學習、縱向聯(lián)邦學習、聯(lián)邦遷移學習。5.4.6聯(lián)邦學習定義:在兩個數(shù)據(jù)集的用戶特征重疊較多而用戶重疊較少的情況下,把數(shù)據(jù)集橫向切分,并取出雙方用戶特征相同而用戶不完全相同的那部分數(shù)據(jù)進行訓練。例:業(yè)務相同但是分布在不同地區(qū)的兩家企業(yè),它們的用戶群體交集很小,但是用戶特征相同。此時,就可以使用橫向聯(lián)邦學習來構建聯(lián)合模型。工作節(jié)點代表的是模型訓練的數(shù)據(jù)擁有方,對本地的數(shù)據(jù)具有完全的自治權限,可以自主決定何時加入聯(lián)邦學習進行建模。在參數(shù)服務器中,中心節(jié)點始終占據(jù)著主導地位。聯(lián)邦學習則強調模型訓練過程中對數(shù)據(jù)擁有方的數(shù)據(jù)隱私保護。橫向聯(lián)邦學習5.4.6聯(lián)邦學習定義:在兩個數(shù)據(jù)集的用戶重疊較多而用戶特征重疊較少的情況下,把數(shù)據(jù)集按照縱向切分,并取出雙方用戶相同而用戶特征不完全相同的那部分數(shù)據(jù)進行訓練。例:一家銀行,與同一個地方的電商。它們的用戶群體交集較大。用戶特征交集較小??v向聯(lián)邦學習將這些不同特征在加密的狀態(tài)下加以聚合,以增強模型能力。縱向聯(lián)邦學習定義:在用戶與用戶特征重疊都較少的情況下,不對數(shù)據(jù)進行切分,而可以利用遷移學習來克服數(shù)據(jù)或標簽不足的情況。例:一家位于中國的銀行,和一家是位于美國的電商,兩家機構的用戶群體交集很小,數(shù)據(jù)特征也只有小部分重合。引入遷移學習解決單邊數(shù)據(jù)規(guī)模小和標簽樣本少的問題,從而提升模型的效果。聯(lián)邦遷移學習5.4.7自動化機器學習自動化機器學習,即一種將自動化和機器學習相結合的方式,是一個新的研究方向,它可以使計算機獨立完成更復雜的任務,從而解放人類的雙手。相較于傳統(tǒng)的機器學習方法,自動化機器學習有如下優(yōu)勢:(1)自動化機器學習可以完全不用依賴經(jīng)驗,由完整的數(shù)學推理的方式來證明。通過數(shù)據(jù)的分布和模型的性能,自動化機器學習會不斷評估最優(yōu)解的分布區(qū)間并對這個區(qū)間再次采樣。所以可以訓練縮短時間,提升模型訓練效率。(2)自動化機器學習可以降低使用機器學習的門檻。本章提綱5.1機器學習基礎

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論