統(tǒng)計(jì)語(yǔ)言模型課件_第1頁(yè)
統(tǒng)計(jì)語(yǔ)言模型課件_第2頁(yè)
統(tǒng)計(jì)語(yǔ)言模型課件_第3頁(yè)
統(tǒng)計(jì)語(yǔ)言模型課件_第4頁(yè)
統(tǒng)計(jì)語(yǔ)言模型課件_第5頁(yè)
已閱讀5頁(yè),還剩107頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

統(tǒng)計(jì)語(yǔ)言模型統(tǒng)計(jì)語(yǔ)言模型目錄概述語(yǔ)言模型數(shù)據(jù)平滑模型評(píng)價(jià)主要統(tǒng)計(jì)語(yǔ)言模型目錄概述概述概述信源-信道模型噪聲信道模型模型:出錯(cuò)的概率舉例:p(0|1)=0.3,p(1|1)=0.7,p(1|0)=0.4,p(0|0)=0.6任務(wù)是:已知帶有噪聲的輸出想知道輸入是什么(也稱為:Decoding)信源-信道模型噪聲信道模型信源-信道模型信源模型以概率生成輸入信號(hào)。信道模型信道以概率分布將輸入信號(hào)轉(zhuǎn)換成輸出信號(hào)。信源-信道模型已知輸出,求解最可能的輸入。該任務(wù)的數(shù)學(xué)描述是:信源-信道模型信源模型信源-信道模型的應(yīng)用信源-信道模型是一種常用模型,具有廣泛應(yīng)用??筛鶕?jù)實(shí)際問(wèn)題,定義信源-信道模型的I/O。例如:語(yǔ)音識(shí)別:輸入:文本輸出:語(yǔ)音。文字識(shí)別:輸入:文本輸出:圖像。機(jī)器翻譯:輸入:目標(biāo)語(yǔ)言句子輸出:源語(yǔ)言句子。音字轉(zhuǎn)換:輸入:文本輸出:拼音。例子:微軟拼音輸入法:任務(wù):將用戶輸入的拼音流轉(zhuǎn)換成文本句子。信源-信道模型的I/O定義:輸入:文本輸出:拼音。微軟拼音輸入法的音字轉(zhuǎn)換程序:語(yǔ)言模型:計(jì)算文本句子的概率。信源-信道模型的應(yīng)用信源-信道模型語(yǔ)言模型什么是語(yǔ)言模型(LanguageModel)一個(gè)概率模型,用來(lái)估計(jì)語(yǔ)言句子出現(xiàn)的概率。語(yǔ)言模型什么是語(yǔ)言模型(LanguageModel)完美的語(yǔ)言模型對(duì)于詞序列如何計(jì)算?根據(jù)鏈?zhǔn)揭?guī)則:即使對(duì)于很小的m,上面的理想公式也很難計(jì)算,因?yàn)閰?shù)太多。完美的語(yǔ)言模型對(duì)于詞序列例子例子Markov鏈有限的記憶能力不考慮太“舊”的歷史只記住前n-1個(gè)詞,稱為n-1階Markov鏈近似Markov鏈有限的記憶能力例子(Bigram,Trigram)例子(Bigram,Trigram)N-gram模型N-gram模型:相當(dāng)于n-1階Markov鏈。“n-gram”=n個(gè)詞構(gòu)成的序列,Unigram n=1;bigram n=2;trigram n=3;模型結(jié)構(gòu)模型:由一組模型參數(shù)組成。每個(gè)N-gram模型參數(shù):n-gram及其頻度信息,形式為: 或這里:模型作用:計(jì)算概率。模型訓(xùn)練:在訓(xùn)練語(yǔ)料庫(kù)中統(tǒng)計(jì)獲得n-gram的頻度信息N-gram模型N-gram模型:相當(dāng)于n-1階Markov參數(shù)訓(xùn)練系統(tǒng)

參數(shù)訓(xùn)練系統(tǒng)N的選擇:可靠性vs.辨別力“我 正在 ________”

講課?圖書(shū)館?聽(tīng)課?學(xué)習(xí)?借書(shū)?……“我 正在圖書(shū)館 ________”

學(xué)習(xí)?借書(shū)?……N的選擇:可靠性vs.辨別力“我 正在 _____可靠性vs.辨別力更大的n:對(duì)下一個(gè)詞出現(xiàn)的約束性信息更多,更大的辨別力更小的n:在訓(xùn)練語(yǔ)料庫(kù)中出現(xiàn)的次數(shù)更多,更可靠的統(tǒng)計(jì)結(jié)果,更高的可靠性

可靠性和可區(qū)別性成反比,需要折中??煽啃詖s.辨別力更大的n:對(duì)下一個(gè)詞出現(xiàn)的約束性信N的選擇

詞表中詞的個(gè)數(shù)|V|=20,000詞n所有可能的n-gram的個(gè)數(shù)2(bigrams)400,000,0003(trigrams)8,000,000,000,0004(4-grams)1.6x1017N的選擇

詞表中詞的個(gè)數(shù)|V|=20,000詞n所小結(jié)符號(hào)串:詞在句子中的上下文(context)或歷史(history)語(yǔ)言模型:描述語(yǔ)言句子的概率分布P(S)句子概率的計(jì)算上下文歷史太長(zhǎng),無(wú)法計(jì)算小結(jié)N-gram模型:有限歷史假設(shè):詞的出現(xiàn),僅與其前n-1個(gè)詞相關(guān)。句子概率計(jì)算:模型:模型參數(shù)的集合模型參數(shù):舉例n=1Unigramn=2Bigramn=3TrigramN-gram模型:有限歷史假設(shè):采用N-gram模型計(jì)算句子概率n=1Unigramn=2Bigramn=3Trigram采用N-gram模型計(jì)算句子概率N-gram模型應(yīng)用-音字轉(zhuǎn)換給定拼音串:tashiyanjiushengwude可能的漢字串踏實(shí)研究生物的他實(shí)驗(yàn)救生物的他使煙酒生物的他是研究生物的……N-gram模型應(yīng)用-音字轉(zhuǎn)換給定拼音串:tashiya音字轉(zhuǎn)換計(jì)算公式音字轉(zhuǎn)換計(jì)算公式可能的轉(zhuǎn)換結(jié)果,分詞結(jié)果踏實(shí)研究生物的:踏實(shí)/研究/生物/的他實(shí)驗(yàn)救生物的:他/實(shí)驗(yàn)/救生/物/的他使煙酒生物的:他/使/煙酒/生物/的他是研究生物的:他/是/研究/生物/的

……如果使用Bigram計(jì)算:P(踏實(shí)研究生物的)=P(踏實(shí))×P(研究|踏實(shí))×P(生物|研究)×P(的|生物)P(他實(shí)驗(yàn)救生物的)=P(他)×P(實(shí)驗(yàn)|他)×P(救生|實(shí)驗(yàn))×P(物|救生))×P(的|物)P(他是研究生物的)=P(他)×P(是|他)×P(研究|是)×P(生物|研究)×P(的|生物)選擇概率最大的句子,作為轉(zhuǎn)換結(jié)果可能的轉(zhuǎn)換結(jié)果,分詞結(jié)果N-gram模型應(yīng)用-中文分詞給定漢字串:他是研究生物的??赡艿姆衷~結(jié)果:1)他|是|研究生|物|的2)他|是|研究|生物|的N-gram模型應(yīng)用-中文分詞給定漢字串:他是研究生物的。統(tǒng)計(jì)分詞計(jì)算公式

統(tǒng)計(jì)分詞計(jì)算公式采用Bigram計(jì)算P(他/是/研究生/物/的)=P(他)×P(是|他)×P(研究生|是)×P(物|研究生)×P(的|物)×P(的)P(他/是/研究/生物/的)=P(他)×P(是|他)×P(研究|是)×P(生物|研究)×P(的|生物)×P(的)采用Bigram計(jì)算模型參數(shù)估計(jì)——模型訓(xùn)練兩個(gè)概念訓(xùn)練語(yǔ)料:用于建立模型的給定語(yǔ)料。最大似然估計(jì):用相對(duì)頻率計(jì)算概率的方法。模型參數(shù)估計(jì)——模型訓(xùn)練兩個(gè)概念模型參數(shù)估計(jì)——模型訓(xùn)練模型參數(shù)估計(jì)——模型訓(xùn)練零概率問(wèn)題大量的低頻詞,無(wú)論訓(xùn)練數(shù)據(jù)的規(guī)模如何擴(kuò)大,其出現(xiàn)頻度仍舊很低甚至根本不出現(xiàn)。如果采用MLE估算它們的概率分布,將出現(xiàn)大量的,從而導(dǎo)致的情況,這種情況大大削弱了該模型的描述能力。零概率問(wèn)題大量的低頻詞,無(wú)論訓(xùn)練數(shù)據(jù)的規(guī)模如何擴(kuò)大,其出現(xiàn)頻例子假設(shè)我們使用Trigram模型如果某個(gè)那么P(S)=0這就是數(shù)據(jù)稀疏問(wèn)題(零概率問(wèn)題)必須保證從而使

例子假設(shè)我們使用Trigram模型數(shù)據(jù)平滑算法數(shù)據(jù)平滑算法統(tǒng)計(jì)語(yǔ)言模型課件加1平滑UnigramBigram加1平滑Unigram2、Good-Turing估計(jì)2、Good-Turing估計(jì)3、線性插值平滑(LinearInterpolation)3、線性插值平滑(LinearInterpolation例子-Bigram的線性插值例子-Bigram的線性插值4、回退式數(shù)據(jù)平滑(Backing-off)4、回退式數(shù)據(jù)平滑(Backing-off)平滑的效果數(shù)據(jù)平滑的效果與訓(xùn)練語(yǔ)料庫(kù)的規(guī)模有關(guān)數(shù)據(jù)平滑技術(shù)是構(gòu)造高魯棒性語(yǔ)言模型的重要手段訓(xùn)練語(yǔ)料庫(kù)規(guī)模越小,數(shù)據(jù)平滑的效果越顯著,訓(xùn)練語(yǔ)料庫(kù)規(guī)模越大,數(shù)據(jù)平滑的效果越不顯著,甚至可以忽略不計(jì)平滑的效果數(shù)據(jù)平滑的效果與訓(xùn)練語(yǔ)料庫(kù)的規(guī)模有關(guān)現(xiàn)有的主要語(yǔ)言模型上下文的定義決定了語(yǔ)言模型的不同.如果這樣的語(yǔ)言模型稱為上下文無(wú)關(guān)模型采用MLE:又稱為一元文法統(tǒng)計(jì)模型現(xiàn)有的主要語(yǔ)言模型上下文的定義決定了語(yǔ)言模型的不同.現(xiàn)有的主要語(yǔ)言模型N元文法統(tǒng)計(jì)模型自從幾十年前在大詞表語(yǔ)言識(shí)別系統(tǒng)中首次使用Trigram以來(lái),直到現(xiàn)在,Trigram模型仍舊是在實(shí)際應(yīng)用中表現(xiàn)最佳的語(yǔ)言模型,并且成為許多其他的語(yǔ)言模型的重要組成部分.現(xiàn)有的主要語(yǔ)言模型N元文法統(tǒng)計(jì)模型現(xiàn)有的主要語(yǔ)言模型N-pos模型(基于詞性的N-Gram模型)

或者 表示詞w的詞類參數(shù)空間較小,不如n-gram語(yǔ)言模型精確現(xiàn)有的主要語(yǔ)言模型N-pos模型(基于詞性的N-Gram模型例子例子N-pos模型提出的意義降低模型參數(shù)的規(guī)模數(shù)據(jù)稀疏問(wèn)題的一種解決方式N-pos模型提出的意義降低模型參數(shù)的規(guī)模N-POS模型構(gòu)造方法采用語(yǔ)言學(xué)家構(gòu)造的詞的語(yǔ)法分類體系,按詞性(Part-of-Speech)進(jìn)行詞類劃分,借助于詞性標(biāo)注技術(shù),構(gòu)造基于詞性的N-POS模型采用詞的自動(dòng)聚類技術(shù),自動(dòng)構(gòu)造基于詞的自動(dòng)聚類的類N-gram模型N-POS模型構(gòu)造方法采用語(yǔ)言學(xué)家構(gòu)造的詞的語(yǔ)法分類體系,按N-gram與N-POS比較基于詞的N-gram模型對(duì)近鄰的語(yǔ)言約束關(guān)系的描述能力最強(qiáng),應(yīng)用程度最為廣泛。一般N<=3,難以描述長(zhǎng)距離的語(yǔ)言約束關(guān)系N-POS模型的參數(shù)空間最小,一般不存在數(shù)據(jù)稀疏問(wèn)題,可以構(gòu)造高元模型,用于描述長(zhǎng)距離的語(yǔ)言約束關(guān)系。但由于詞性數(shù)目過(guò)少,過(guò)于泛化,因此又限制了語(yǔ)言模型的描述能力自動(dòng)聚類生成的詞類數(shù)量介于詞和詞性的數(shù)量之間,由此建立的類N-gram模型,既不存在嚴(yán)重的數(shù)據(jù)稀疏問(wèn)題,又不存在過(guò)于泛化問(wèn)題N-gram與N-POS比較基于詞的N-gram模型對(duì)近鄰的動(dòng)態(tài)、自適應(yīng)、基于緩存的語(yǔ)言模型在自然語(yǔ)言中,經(jīng)常出現(xiàn)某些在文本中通常很少出現(xiàn)的詞,在某一局部文本中突然大量出現(xiàn)的情況。能夠根據(jù)詞在局部文本中出現(xiàn)情況動(dòng)態(tài)地調(diào)整語(yǔ)言模型中的概率分布數(shù)據(jù)的語(yǔ)言模型稱為動(dòng)態(tài)、自適應(yīng)或者基于緩存的語(yǔ)言模型。動(dòng)態(tài)、自適應(yīng)、基于緩存的語(yǔ)言模型在自然語(yǔ)言中,經(jīng)常出現(xiàn)某些在動(dòng)態(tài)、自適應(yīng)、基于緩存的語(yǔ)言模型方法將N個(gè)最近出現(xiàn)過(guò)的詞存于一個(gè)緩存中,作為獨(dú)立的訓(xùn)練數(shù)據(jù).通過(guò)這些數(shù)據(jù),計(jì)算動(dòng)態(tài)頻度分布數(shù)據(jù)將動(dòng)態(tài)頻度分布數(shù)據(jù)與靜態(tài)分布數(shù)據(jù)(由大規(guī)模性語(yǔ)料訓(xùn)練得到)通過(guò)線性插值的方法相結(jié)合:動(dòng)態(tài)、自適應(yīng)、基于緩存的語(yǔ)言模型方法其他語(yǔ)言模型各種變長(zhǎng)、遠(yuǎn)距離N-gram模型決策樹(shù)模型鏈文法模型最大熵模型整句模型其他語(yǔ)言模型各種變長(zhǎng)、遠(yuǎn)距離N-gram模型統(tǒng)計(jì)語(yǔ)言模型的評(píng)價(jià)方法應(yīng)用評(píng)價(jià)將其應(yīng)用于某應(yīng)用系統(tǒng),考察它對(duì)系統(tǒng)性能的影響理論評(píng)價(jià):信息論方法評(píng)價(jià)熵(Entropy)復(fù)雜度(Perplexity)統(tǒng)計(jì)語(yǔ)言模型的評(píng)價(jià)方法信息論信息論創(chuàng)始人:1948年香農(nóng)《通訊的數(shù)學(xué)原理》狹義信息論:研究信息的測(cè)度、信道容量以及信源和信道編碼。一般信息論:研究通信問(wèn)題。廣義信息論:整個(gè)信息科學(xué),覆蓋各個(gè)領(lǐng)域。信息論信息論信息定義世界的三要素:物質(zhì)、能量、信息信息定義信息是人和外界相互作用時(shí)交換的內(nèi)容——維納信息是能用來(lái)消除隨機(jī)不定性的東西——香農(nóng)信息是事物之間的差異,而不是事物本身——朗格信息(information)與消息(message)信息是消息的內(nèi)容。消息是信息的形式。信息定義世界的三要素:信息測(cè)度信息量量度信息多少的測(cè)度就是信息量。熟知的消息信息量??;未知的消息信息量大。信息的度量(信息量的計(jì)算)對(duì)一問(wèn)題毫無(wú)了解,對(duì)它的認(rèn)識(shí)是不確定的。通過(guò)各種途徑獲得信息,逐漸消除不確定性。信息量與不確定性消除程度有關(guān)。消除多少不確定性(隨機(jī)性),就獲得多少信息量。信息測(cè)度信息量自信息:事件不確定性的度量自信息(SelfInformation)事件x包含的信息量。I(x)=-log2p(x)=log21/p(x)意義當(dāng)事件x發(fā)生以前,I(x)表示事件x發(fā)生的不確定性當(dāng)事件x發(fā)生以后,I(x)表示事件x所含有的信息量特征事件概率與信息成反比。小概率事件包含更多的信息量。當(dāng)p(x)=1時(shí),I(x)=0;自信息:事件不確定性的度量自信息(SelfInformat熵:隨機(jī)變量的不確定性度量熵(Entropy)隨機(jī)變量的不確定性的量度。一個(gè)隨機(jī)變量X,其概率函數(shù)p(x)。熵的計(jì)算公式:推導(dǎo)顯然:熵是X的平均信息量,是自信息I(X)的數(shù)學(xué)期望。熵:隨機(jī)變量的不確定性度量熵(Entropy)熵與計(jì)算語(yǔ)言學(xué)熵是不確定性的量度。我們對(duì)事物了解得越多,熵就越小。一個(gè)語(yǔ)言模型越好,它越應(yīng)該能描述更多的語(yǔ)言結(jié)構(gòu),因此它的熵應(yīng)該越低。在計(jì)算語(yǔ)言學(xué)中,通常用熵度量語(yǔ)言模型的質(zhì)量。有時(shí)也可以用復(fù)雜度(熵的變形)來(lái)評(píng)價(jià)語(yǔ)言模型。復(fù)雜度(Perplexity)熵與計(jì)算語(yǔ)言學(xué)熵是不確定性的量度。語(yǔ)言的熵語(yǔ)言的熵交叉熵(CrossEntropy)

交叉熵(CrossEntropy)統(tǒng)計(jì)語(yǔ)言模型統(tǒng)計(jì)語(yǔ)言模型目錄概述語(yǔ)言模型數(shù)據(jù)平滑模型評(píng)價(jià)主要統(tǒng)計(jì)語(yǔ)言模型目錄概述概述概述信源-信道模型噪聲信道模型模型:出錯(cuò)的概率舉例:p(0|1)=0.3,p(1|1)=0.7,p(1|0)=0.4,p(0|0)=0.6任務(wù)是:已知帶有噪聲的輸出想知道輸入是什么(也稱為:Decoding)信源-信道模型噪聲信道模型信源-信道模型信源模型以概率生成輸入信號(hào)。信道模型信道以概率分布將輸入信號(hào)轉(zhuǎn)換成輸出信號(hào)。信源-信道模型已知輸出,求解最可能的輸入。該任務(wù)的數(shù)學(xué)描述是:信源-信道模型信源模型信源-信道模型的應(yīng)用信源-信道模型是一種常用模型,具有廣泛應(yīng)用??筛鶕?jù)實(shí)際問(wèn)題,定義信源-信道模型的I/O。例如:語(yǔ)音識(shí)別:輸入:文本輸出:語(yǔ)音。文字識(shí)別:輸入:文本輸出:圖像。機(jī)器翻譯:輸入:目標(biāo)語(yǔ)言句子輸出:源語(yǔ)言句子。音字轉(zhuǎn)換:輸入:文本輸出:拼音。例子:微軟拼音輸入法:任務(wù):將用戶輸入的拼音流轉(zhuǎn)換成文本句子。信源-信道模型的I/O定義:輸入:文本輸出:拼音。微軟拼音輸入法的音字轉(zhuǎn)換程序:語(yǔ)言模型:計(jì)算文本句子的概率。信源-信道模型的應(yīng)用信源-信道模型語(yǔ)言模型什么是語(yǔ)言模型(LanguageModel)一個(gè)概率模型,用來(lái)估計(jì)語(yǔ)言句子出現(xiàn)的概率。語(yǔ)言模型什么是語(yǔ)言模型(LanguageModel)完美的語(yǔ)言模型對(duì)于詞序列如何計(jì)算?根據(jù)鏈?zhǔn)揭?guī)則:即使對(duì)于很小的m,上面的理想公式也很難計(jì)算,因?yàn)閰?shù)太多。完美的語(yǔ)言模型對(duì)于詞序列例子例子Markov鏈有限的記憶能力不考慮太“舊”的歷史只記住前n-1個(gè)詞,稱為n-1階Markov鏈近似Markov鏈有限的記憶能力例子(Bigram,Trigram)例子(Bigram,Trigram)N-gram模型N-gram模型:相當(dāng)于n-1階Markov鏈?!皀-gram”=n個(gè)詞構(gòu)成的序列,Unigram n=1;bigram n=2;trigram n=3;模型結(jié)構(gòu)模型:由一組模型參數(shù)組成。每個(gè)N-gram模型參數(shù):n-gram及其頻度信息,形式為: 或這里:模型作用:計(jì)算概率。模型訓(xùn)練:在訓(xùn)練語(yǔ)料庫(kù)中統(tǒng)計(jì)獲得n-gram的頻度信息N-gram模型N-gram模型:相當(dāng)于n-1階Markov參數(shù)訓(xùn)練系統(tǒng)

參數(shù)訓(xùn)練系統(tǒng)N的選擇:可靠性vs.辨別力“我 正在 ________”

講課?圖書(shū)館?聽(tīng)課?學(xué)習(xí)?借書(shū)?……“我 正在圖書(shū)館 ________”

學(xué)習(xí)?借書(shū)?……N的選擇:可靠性vs.辨別力“我 正在 _____可靠性vs.辨別力更大的n:對(duì)下一個(gè)詞出現(xiàn)的約束性信息更多,更大的辨別力更小的n:在訓(xùn)練語(yǔ)料庫(kù)中出現(xiàn)的次數(shù)更多,更可靠的統(tǒng)計(jì)結(jié)果,更高的可靠性

可靠性和可區(qū)別性成反比,需要折中??煽啃詖s.辨別力更大的n:對(duì)下一個(gè)詞出現(xiàn)的約束性信N的選擇

詞表中詞的個(gè)數(shù)|V|=20,000詞n所有可能的n-gram的個(gè)數(shù)2(bigrams)400,000,0003(trigrams)8,000,000,000,0004(4-grams)1.6x1017N的選擇

詞表中詞的個(gè)數(shù)|V|=20,000詞n所小結(jié)符號(hào)串:詞在句子中的上下文(context)或歷史(history)語(yǔ)言模型:描述語(yǔ)言句子的概率分布P(S)句子概率的計(jì)算上下文歷史太長(zhǎng),無(wú)法計(jì)算小結(jié)N-gram模型:有限歷史假設(shè):詞的出現(xiàn),僅與其前n-1個(gè)詞相關(guān)。句子概率計(jì)算:模型:模型參數(shù)的集合模型參數(shù):舉例n=1Unigramn=2Bigramn=3TrigramN-gram模型:有限歷史假設(shè):采用N-gram模型計(jì)算句子概率n=1Unigramn=2Bigramn=3Trigram采用N-gram模型計(jì)算句子概率N-gram模型應(yīng)用-音字轉(zhuǎn)換給定拼音串:tashiyanjiushengwude可能的漢字串踏實(shí)研究生物的他實(shí)驗(yàn)救生物的他使煙酒生物的他是研究生物的……N-gram模型應(yīng)用-音字轉(zhuǎn)換給定拼音串:tashiya音字轉(zhuǎn)換計(jì)算公式音字轉(zhuǎn)換計(jì)算公式可能的轉(zhuǎn)換結(jié)果,分詞結(jié)果踏實(shí)研究生物的:踏實(shí)/研究/生物/的他實(shí)驗(yàn)救生物的:他/實(shí)驗(yàn)/救生/物/的他使煙酒生物的:他/使/煙酒/生物/的他是研究生物的:他/是/研究/生物/的

……如果使用Bigram計(jì)算:P(踏實(shí)研究生物的)=P(踏實(shí))×P(研究|踏實(shí))×P(生物|研究)×P(的|生物)P(他實(shí)驗(yàn)救生物的)=P(他)×P(實(shí)驗(yàn)|他)×P(救生|實(shí)驗(yàn))×P(物|救生))×P(的|物)P(他是研究生物的)=P(他)×P(是|他)×P(研究|是)×P(生物|研究)×P(的|生物)選擇概率最大的句子,作為轉(zhuǎn)換結(jié)果可能的轉(zhuǎn)換結(jié)果,分詞結(jié)果N-gram模型應(yīng)用-中文分詞給定漢字串:他是研究生物的??赡艿姆衷~結(jié)果:1)他|是|研究生|物|的2)他|是|研究|生物|的N-gram模型應(yīng)用-中文分詞給定漢字串:他是研究生物的。統(tǒng)計(jì)分詞計(jì)算公式

統(tǒng)計(jì)分詞計(jì)算公式采用Bigram計(jì)算P(他/是/研究生/物/的)=P(他)×P(是|他)×P(研究生|是)×P(物|研究生)×P(的|物)×P(的)P(他/是/研究/生物/的)=P(他)×P(是|他)×P(研究|是)×P(生物|研究)×P(的|生物)×P(的)采用Bigram計(jì)算模型參數(shù)估計(jì)——模型訓(xùn)練兩個(gè)概念訓(xùn)練語(yǔ)料:用于建立模型的給定語(yǔ)料。最大似然估計(jì):用相對(duì)頻率計(jì)算概率的方法。模型參數(shù)估計(jì)——模型訓(xùn)練兩個(gè)概念模型參數(shù)估計(jì)——模型訓(xùn)練模型參數(shù)估計(jì)——模型訓(xùn)練零概率問(wèn)題大量的低頻詞,無(wú)論訓(xùn)練數(shù)據(jù)的規(guī)模如何擴(kuò)大,其出現(xiàn)頻度仍舊很低甚至根本不出現(xiàn)。如果采用MLE估算它們的概率分布,將出現(xiàn)大量的,從而導(dǎo)致的情況,這種情況大大削弱了該模型的描述能力。零概率問(wèn)題大量的低頻詞,無(wú)論訓(xùn)練數(shù)據(jù)的規(guī)模如何擴(kuò)大,其出現(xiàn)頻例子假設(shè)我們使用Trigram模型如果某個(gè)那么P(S)=0這就是數(shù)據(jù)稀疏問(wèn)題(零概率問(wèn)題)必須保證從而使

例子假設(shè)我們使用Trigram模型數(shù)據(jù)平滑算法數(shù)據(jù)平滑算法統(tǒng)計(jì)語(yǔ)言模型課件加1平滑UnigramBigram加1平滑Unigram2、Good-Turing估計(jì)2、Good-Turing估計(jì)3、線性插值平滑(LinearInterpolation)3、線性插值平滑(LinearInterpolation例子-Bigram的線性插值例子-Bigram的線性插值4、回退式數(shù)據(jù)平滑(Backing-off)4、回退式數(shù)據(jù)平滑(Backing-off)平滑的效果數(shù)據(jù)平滑的效果與訓(xùn)練語(yǔ)料庫(kù)的規(guī)模有關(guān)數(shù)據(jù)平滑技術(shù)是構(gòu)造高魯棒性語(yǔ)言模型的重要手段訓(xùn)練語(yǔ)料庫(kù)規(guī)模越小,數(shù)據(jù)平滑的效果越顯著,訓(xùn)練語(yǔ)料庫(kù)規(guī)模越大,數(shù)據(jù)平滑的效果越不顯著,甚至可以忽略不計(jì)平滑的效果數(shù)據(jù)平滑的效果與訓(xùn)練語(yǔ)料庫(kù)的規(guī)模有關(guān)現(xiàn)有的主要語(yǔ)言模型上下文的定義決定了語(yǔ)言模型的不同.如果這樣的語(yǔ)言模型稱為上下文無(wú)關(guān)模型采用MLE:又稱為一元文法統(tǒng)計(jì)模型現(xiàn)有的主要語(yǔ)言模型上下文的定義決定了語(yǔ)言模型的不同.現(xiàn)有的主要語(yǔ)言模型N元文法統(tǒng)計(jì)模型自從幾十年前在大詞表語(yǔ)言識(shí)別系統(tǒng)中首次使用Trigram以來(lái),直到現(xiàn)在,Trigram模型仍舊是在實(shí)際應(yīng)用中表現(xiàn)最佳的語(yǔ)言模型,并且成為許多其他的語(yǔ)言模型的重要組成部分.現(xiàn)有的主要語(yǔ)言模型N元文法統(tǒng)計(jì)模型現(xiàn)有的主要語(yǔ)言模型N-pos模型(基于詞性的N-Gram模型)

或者 表示詞w的詞類參數(shù)空間較小,不如n-gram語(yǔ)言模型精確現(xiàn)有的主要語(yǔ)言模型N-pos模型(基于詞性的N-Gram模型例子例子N-pos模型提出的意義降低模型參數(shù)的規(guī)模數(shù)據(jù)稀疏問(wèn)題的一種解決方式N-pos模型提出的意義降低模型參數(shù)的規(guī)模N-POS模型構(gòu)造方法采用語(yǔ)言學(xué)家構(gòu)造的詞的語(yǔ)法分類體系,按詞性(Part-of-Speech)進(jìn)行詞類劃分,借助于詞性標(biāo)注技術(shù),構(gòu)造基于詞性的N-POS模型采用詞的自動(dòng)聚類技術(shù),自動(dòng)構(gòu)造基于詞的自動(dòng)聚類的類N-gram模型N-POS模型構(gòu)造方法采用語(yǔ)言學(xué)家構(gòu)造的詞的語(yǔ)法分類體系,按N-gram與N-POS比較基于詞的N-gram模型對(duì)近鄰的語(yǔ)言約束關(guān)系的描述能力最強(qiáng),應(yīng)用程度最為廣泛。一般N<=3,難以描述長(zhǎng)距離的語(yǔ)言約束關(guān)系N-POS模型的參數(shù)空間最小,一般不存在數(shù)據(jù)稀疏問(wèn)題,可以構(gòu)造高元模型,用于描述長(zhǎng)距離的語(yǔ)言約束關(guān)系。但由于詞性數(shù)目過(guò)少,過(guò)于泛化,因此又限制了語(yǔ)言模型的描述能力自動(dòng)聚類生成的詞類數(shù)量介于詞和詞性的數(shù)量之間,由此建立的類N-gram模型,既不存在嚴(yán)重的數(shù)據(jù)稀疏問(wèn)題,又不存在過(guò)于泛化問(wèn)題N-gram與N-POS比較基于詞的N-gram模型對(duì)近鄰的動(dòng)態(tài)、自適應(yīng)、基于緩存的語(yǔ)言模型在自然語(yǔ)言中,經(jīng)常出現(xiàn)某些在文本中通常很少出現(xiàn)的詞,在某一局部文本中突然大量出現(xiàn)的情況。能夠根據(jù)詞在局部文本中出現(xiàn)情況動(dòng)態(tài)地調(diào)整語(yǔ)言模型中的概率分布數(shù)據(jù)的語(yǔ)言模型稱為動(dòng)態(tài)、自適應(yīng)或者基于緩存的語(yǔ)言模型。動(dòng)態(tài)、自適應(yīng)、基于緩存的語(yǔ)言模型在自然語(yǔ)言中,經(jīng)常出現(xiàn)某些在動(dòng)態(tài)、自適應(yīng)、基于緩存的語(yǔ)言模型方法將N個(gè)最近出現(xiàn)過(guò)的詞存于一個(gè)緩存中,作為獨(dú)立的訓(xùn)練數(shù)據(jù).通過(guò)這些數(shù)據(jù),計(jì)算動(dòng)態(tài)頻度分布數(shù)據(jù)將動(dòng)態(tài)頻度分布數(shù)據(jù)與靜態(tài)分布數(shù)據(jù)(由大規(guī)模性語(yǔ)料訓(xùn)練得到)通過(guò)線性插值的方法相結(jié)合:動(dòng)態(tài)、自適應(yīng)、基于緩存的語(yǔ)言模型方法其他語(yǔ)言模型各種變長(zhǎng)、遠(yuǎn)距離N-gram模型決策樹(shù)模型鏈文法模型最大熵模型整句

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論