研究生課程自然語言處理課件language model_第1頁
研究生課程自然語言處理課件language model_第2頁
研究生課程自然語言處理課件language model_第3頁
研究生課程自然語言處理課件language model_第4頁
研究生課程自然語言處理課件language model_第5頁
已閱讀5頁,還剩31頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

戴新宇20172023/1/91語言模型LanguageModel計算一句話的概率2023/1/92LanguageModel機器翻譯小朋友們在公園里玩。Thekidsplayinthepark.√Thekidsparkplay.Onparkplaythekids.2023/1/93語言模型翻譯模型LanguageModel語音識別e.g.聽歌曲,識別歌詞2023/1/94語言模型聲學(xué)模型5StatisticalLanguageModel定義:語言模型是用來刻畫一個句子(詞串序列)存在可能性的概率模型P(W)=P(w1w2…wn)如何計算P(W),不同的語言模型有不同的算法例子:P(“我在打電話”)≈0.001P(“我在打蘋果”)≈0.000001P(“蘋果在我打”)≈0.000000001P(電話|我,在,打)≈0.056最簡單的統(tǒng)計語言模型-N-GramP(W)=P(w1w2…wn)=P(w1)*P(w2|w1)*P(w3|w1w2)…P(wn|w1w2…wn-1)History-basedModel:predictfollowingthingsfrompastthingsShannonGame:ImpracticaltoconditiononeverythingbeforeP(???|Turntopage134andlookatthepictureofthe)?7馬爾可夫假設(shè)(MarkovAssumption)有限視野假設(shè)(LimitedHorizon)當(dāng)前詞出現(xiàn)的概率只和它前面的k個詞相關(guān)上式我們稱之為k階馬爾可夫鏈e.g.1階馬爾可夫鏈

2階馬爾可夫鏈8N-GramN-1階馬爾可夫鏈我們稱之為N元語言模型(N-GramLanguageModel)2元模型3元模型Eachwordispredictedaccordingtoaconditionaldistributionbasedonalimitedcontext9N-Gram簡單的線性圖模型詞是隨機變量,箭頭表示詞之間的依存關(guān)系SimplemodelAmazingsuccess.10N-Gram模型參數(shù)參數(shù)數(shù)量:n越大,參數(shù)越多,假設(shè)詞匯量為200002元模型(1階Markov)參數(shù)數(shù)量:2000023元模型(2階Markov)參數(shù)數(shù)量:200003…N元模型(N-1階Markov)參數(shù)數(shù)量:20000n11N-Gram參數(shù)估計計算每一組的P(w|h)(2元為例)P(我想吃意大利空心粉)=P(我|<s>)*P(想|我)*P(吃|想)*P(意大利|吃)*P(空心粉|意大利)=0.25*0.32*0.26*0.002*0.6=0.000016參數(shù)來源(訓(xùn)練數(shù)據(jù)):大量電子文本(漢語需分詞)訓(xùn)練數(shù)據(jù):用于建立模型的給定語料參數(shù)估計:相對頻率(最大似然)估計12最大似然估計

-MaximumLikelihoodEstimationAsimplebutimportantidea:Choosethealternativethatmaximizetheprobabilityoftheobservedoutcome.(對訓(xùn)練數(shù)據(jù)的最佳估計)假設(shè):樣本空間越大,最大似然估計值越接近于真實分布統(tǒng)計學(xué)上稱之為似然函數(shù),之所以稱為最大似然估計,是因為它選擇的參數(shù)值對于訓(xùn)練數(shù)據(jù)給出了最高的概率。Pleasereferto問題:相對頻率≈最大似然估計?131415ZipfLawZipfLaw:如果以詞頻排序,詞頻和排位的乘積是一個常數(shù)。

f*r=k16Zipf’slawfortheBrowncorpus17ZipflawforChineseCorpus18ZipfLaw(續(xù))Zipf法則隱含的意義:大部分的詞都稀有語言中頻繁出現(xiàn)的事件是有限的,不可能搜集到足夠的數(shù)據(jù)來得到稀有事件的完整概率分布。詞(一元)如此,對于二元、三元模型更加嚴(yán)重Zeroprobability,零概率還會向下傳播一個2元或者3元文法的零概率,會導(dǎo)致整個句子的零概率However,統(tǒng)計方法的一個特點是:Nothingisimpossible.So,數(shù)據(jù)稀疏問題永遠存在19數(shù)據(jù)稀疏(零概率)數(shù)據(jù)稀疏問題:沒有足夠的訓(xùn)練數(shù)據(jù),對于未觀測到的數(shù)據(jù),出現(xiàn)零概率現(xiàn)象Balh等人的工作用150萬詞的訓(xùn)練語料訓(xùn)練trigram模型測試語料(同樣來源)中,23%的trigram沒有在訓(xùn)練庫中出現(xiàn)過對這23%未出現(xiàn)的trigram,利用MLE估計出的參數(shù)為0解決方案構(gòu)造等價類參數(shù)平滑20參數(shù)平滑-Smoothing平滑是指給沒觀察到的N元組合賦予一個概率值,以保證詞序列總能通過語言模型得到一個概率值。思想:稍微減少已觀察到的事件概率的大小,同時把少量概率分配到?jīng)]有看到過的事件上,折扣法,使整個事件空間的概率分布曲線更加平滑。改進模型的整體效果。高概率調(diào)低點,小概率或者零概率調(diào)高點?!敖俑粷殹奔s束:Anyway,ensure∑X∈?P(X)=1平滑算法的評估-通過語言模型評估Smoothing2122SmoothingAddcounts,簡單,效果不好Laplacesmoothing/DirichletPrior簡單線性插值平滑KatzSmoothing,Kneser-NeySmoothing……23Add-OneSmoothing24統(tǒng)計語言模型數(shù)據(jù)集分類訓(xùn)練集TrainingData用來建立模型,獲得模型參數(shù)測試集TestData從訓(xùn)練集以外獨立采樣反映系統(tǒng)面對真實世界的處理能力交叉確認集Cross-ValidationData從訓(xùn)練集和測試集以外獨立采樣主要用來幫助做設(shè)計決策和參數(shù)設(shè)定(hyperparameters)Cross-ValidationSet又稱為held-outdata、developmentdata幫助選擇參數(shù),優(yōu)化模型的泛化能力25TrainingDataTestDataTrainingDataTestDataHold-OutData26模型評價兩個語言模型S1和S2(或者是經(jīng)過兩種不同的平滑方法得到的兩個模型S1和S2),哪個更好?直接放入需要語言模型的任務(wù)中,如SMT,SR,看哪個效果更好?困惑度(Perplexity):對測試集存在的概率Perplexityistheprobabilityofthetestdata,normalizedbythenumberofwords:模型評價熵(entropy):loglikelihoodperwordintestdata。X是測試集,x是測試集中的每個句子熵與困惑度的關(guān)系2023/1/927Data>>MethodsHavingmoredataisbetter......butsoisusingabetterestimatorAnotherissue:N>3hashugecostsinspeechrecognizers2023/1/92829N-Grammodel在很多方面取得了成功(Chelba1998,Charniak2001)SpeechRecognitionOCRContext-sensitivespellingcorrection從語言具有的特性看,顯得過于簡單和幼稚LexicalNolongdistancedependenciesNostructureorsyntacticdependency其它的語言模型

(不同的計算P(W)的方法)2023/1/930LanguageModel31Theproblemtobesolved: Giveasentence,howlikelyisthesentence?Inmathematicalterms,andwecanfactorizethejointprobabilitybasedonconditionalprobability:Oneexample:FromN-gramtoNeuralLanguageModel32k-thorderMarkovassumption:Non-parametricEstimator,forexample,bigram:ParametricEstimator:Inotherwords:Advantagesanddisadvantages:1,Simpleandstrong2,Datasparsity3,Lackofgeneralizationuseafunctiontocalculatetheprobabilityofthei-thwordAdvantagesanddisadvantages:1,Highcomplexitybutisthestateofart2,AutofeatureextractionandgeneralizationpowerFirstPropose33Thisistheclassicneurallanguagemodel,proposedbyBengioetal(2003).EmbeddingLayer:generateswordem-beddings(by-product).IntermediateLayer:oneormorelayersthatproduceanintermediaterepresen-tationoftheinput(non-linearity).SoftmaxLayer:producesaprobabilitydistributionoverwordsin

vocabulary.Word2vec34Thisworkletwordembeddingbecomepopular,proposedbyMikolov(2013).Mathematicalterms(cbow&skip-gram):構(gòu)建語言模型SomeavailabletoolkitsCMUlanguagemodeltoolkitSRILanguagemodeltoolkitLemurlanguagemodeltoolkitNeuralNe

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論