




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、N-Gram及其平滑技術(shù)報告人:李榮陸E-Mail:1相關(guān)資料吳立德等,大規(guī)模中文文本處理,“稀疏事件的概率估計”,pp.5362。翁富良,王野翊,計算語言學(xué)導(dǎo)論, “概率語法”, pp.116145。2統(tǒng)計語言模型假設(shè)一個句子S可以表示為一個序列S=w1w2wn,語言模型就是要求句子S的概率P(S): 這個概率的計算量太大,解決問題的方法是將所有歷史w1w2wi-1按照某個規(guī)則映射到等價類S(w1w2wi-1),等價類的數(shù)目遠遠小于不同歷史的數(shù)目,即假定:3N-Gram模型當(dāng)兩個歷史的最近的N-1個詞(或字)相同時,映射兩個歷史到同一個等價類,在此情況下的模型稱之為N-Gram模型。N-Gr
2、am模型被稱為一階馬爾科夫鏈。 N的值不能太大,否則計算仍然太大。根據(jù)最大似然估計,語言模型的參數(shù): 其中,C(w1w2wi)表示w1w2wi在訓(xùn)練數(shù)據(jù)中出現(xiàn)的次數(shù)4平滑技術(shù)的引入(1)傳統(tǒng)的估計方法對于隨機變量的N次獨立觀察的樣本容量N有如下要求:NK 其中K為隨機變量能夠取到的值的個數(shù)。實際語言模型中往往無法滿足這個要求。例如:詞性標注問題,共有140個可能的標記,考慮當(dāng)前詞前后兩個詞的影響的三階模型。K=140*140*140=2,744,000 給定一個10萬詞左右的人工標注訓(xùn)練集,即 N=100,00,可見訓(xùn)練數(shù)據(jù)顯得非常不足。5平滑技術(shù)的引入(2)假設(shè)k泛指某一事件,N(k)表示事
3、件k觀察到的頻數(shù),極大似然法使用相對頻數(shù)作為對事件k的概率估計:p(k)=N(k)/N在語言模型中,訓(xùn)練語料中大量的事件N(k)=0,這顯然沒有反映真實情況。我們把這個問題稱為數(shù)據(jù)稀疏問題。這種零值的概率估計會導(dǎo)致語言模型算法的失敗,例如:概率值作為乘數(shù)會使結(jié)果為0,而且不能做log運算。6計數(shù)等價類根據(jù)對稱性原理,事件除了出現(xiàn)次數(shù)之外不應(yīng)具有細節(jié)特征,即所有具有相同計數(shù)r=N(k)的事件k(事件出現(xiàn)的次數(shù)稱為事件的計數(shù))應(yīng)當(dāng)具有相同的概率估計值,這些計數(shù)相同的事件稱為計數(shù)等價,將它們組成的一個等價類記為計數(shù)等價類Gr。對于計數(shù)為r的計數(shù)等價類,定義nr為等價類中成員的個數(shù),pr為等價類中事件
4、的概率,R是最大可能出現(xiàn)的計數(shù)次數(shù),則7交叉檢驗(1)交叉檢驗就是把訓(xùn)練樣本分為m份,其中一份作為保留部分,其余m-1份作為訓(xùn)練部分。訓(xùn)練部分作為訓(xùn)練集估計概率pr,保留部分作為測試集進行測試。我們使用Cr表示保留部分中計數(shù)為r的計數(shù)等價類的觀察個數(shù)。對于保留部分使用最大似然法對進行概率pr進行估計,即使對數(shù)似然函數(shù)最大化:8使用拉格朗日乘子解決約束條件下的最大值問題,即:對pr求偏導(dǎo),得到交叉檢驗估計:如果測試部分也作為保留部分的話,就是典型的極大似然估計:交叉檢驗(2)9留一估計留一方法是交叉檢驗方法的擴展,基本思想是將給定N個樣本分為N-1個樣本作為訓(xùn)練部分,另外一個樣本作為保留部分。這
5、個過程持續(xù)N次,使每個樣本都被用作過保留樣本。優(yōu)點:充分利用了給定樣本,對于N中的每個觀察,留一法都模擬了一遍沒有被觀察到的情形。對于留一方法,pr的極大似然估計為:10Turing-Good公式因為nRpR與1相比一般可以忽略,留一估計公式可以近似為:留一估計可以利用計數(shù)r=1的事件來模擬未現(xiàn)事件,對于未現(xiàn)事件有如下估計: 這個公式就是著名的Turing-Good公式。11空等價類留一估計中要求么個nr均不為0,在實際問題中當(dāng)r=5時,這個要求通常都不能滿足,即計數(shù)等價類G1,GR中存在空的等價類。這時按照出現(xiàn)次數(shù)進行排序:對應(yīng)的出現(xiàn)r(l)次的事件的個數(shù)記為nr(l),在進行留一估計時,使
6、用下一個非空的等價類Gr(l+1)代替可能為空的等價類Gr(l)+1,留一估計公式變?yōu)椋?式中對空的等價類沒有估計概率,因為空等價類并沒有對應(yīng)任何有效事件。12Turing-Good估計的優(yōu)缺點和適用范圍缺點:( 1 )無法保證概率估計的“有序性”,即出現(xiàn)次數(shù)多的事件的概率大于出現(xiàn)次數(shù)少的事件的概率。(2)pr與r/N不能很好地近似,好的估計應(yīng)當(dāng)保證pr=r/N。優(yōu)點:其它平滑技術(shù)的基礎(chǔ)。適用范圍:對0r6的小計數(shù)事件進行估計。13約束留一估計單調(diào)性約束:pr-1=pr;折扣約束:p=r/N。約束留一估計:讓計數(shù)估計r*=prN處于距其最近的絕對頻數(shù)之間: 在這個約束下,單調(diào)性約束自然滿足。計算方法:計算時檢查每個pr是否滿足約束,不然就用約束的上下界進行裁剪,然后重新計算,一直迭代下去直到所有pr滿足約束。14折扣模型Katz指出Turing-Good公式實質(zhì)是對模型中觀察到的事件進行折扣,將折扣得來的概率攤到所n0個未現(xiàn)事件中。在這個思想的指導(dǎo)下,估計公式可以下成如下形式: 其中,dr是對計數(shù)為r的事件的計數(shù)的一個折扣函數(shù)。15絕對折扣模型若折扣函數(shù)定義為:dr=b,其中b為一個大于0的常數(shù)。那么未現(xiàn)事件的總概率為: 對應(yīng)絕對折扣模型的估計公式為:16刪除插值法(Deleted Interpolation)其基本思想是,由于N-Gram比N+1-Gram出現(xiàn)的可能性大的多,所
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 民辦萬博科技職業(yè)學(xué)院《水工建筑物》2023-2024學(xué)年第二學(xué)期期末試卷
- 2025海南省安全員B證考試題庫附答案
- 武漢設(shè)計工程學(xué)院《火電廠煙氣凈化Ⅰ》2023-2024學(xué)年第二學(xué)期期末試卷
- 湖北科技學(xué)院《生物技術(shù)制藥B》2023-2024學(xué)年第二學(xué)期期末試卷
- 四川科技職業(yè)學(xué)院《房屋建筑與實務(wù)》2023-2024學(xué)年第二學(xué)期期末試卷
- 荊門職業(yè)學(xué)院《雷達信號分析》2023-2024學(xué)年第二學(xué)期期末試卷
- 黑龍江三江美術(shù)職業(yè)學(xué)院《BIM技術(shù)與軟件應(yīng)用》2023-2024學(xué)年第二學(xué)期期末試卷
- 長春早期教育職業(yè)學(xué)院《紡織品實驗與設(shè)計》2023-2024學(xué)年第二學(xué)期期末試卷
- 2024-2025學(xué)年河北省部分重點中學(xué)高三上學(xué)期12月聯(lián)考歷史試卷
- 廣西民族師范學(xué)院《連鎖經(jīng)營管理》2023-2024學(xué)年第二學(xué)期期末試卷
- 實訓(xùn)美容手術(shù)操作基本技術(shù)美容外科學(xué)概論講解
- 北京市北京第一零一中學(xué)2024-2025學(xué)年高三上學(xué)期統(tǒng)考三英語試題
- 2025年上半年北京市事業(yè)單位招聘易考易錯模擬試題(共500題)試卷后附參考答案
- 2025年泰山職業(yè)技術(shù)學(xué)院高職單招數(shù)學(xué)歷年(2016-2024)頻考點試題含答案解析
- 《大學(xué)生安全教育》(統(tǒng)編版)課件 第二章 人身安全
- 近岸海上柔性光伏支架結(jié)構(gòu)研究
- InDesign實例教程(InDesign 2020)(電子活頁微課版)課件 第1章 InDesign 2020入門知識
- 駝鳥養(yǎng)殖生態(tài)旅游項目策劃書方案模版(4篇)
- 會展服務(wù)與管理課件
- 安全風(fēng)險隱患舉報獎勵制度
- 護理中級競聘報告
評論
0/150
提交評論