統(tǒng)計(jì)語(yǔ)言模型分析_第1頁(yè)
統(tǒng)計(jì)語(yǔ)言模型分析_第2頁(yè)
統(tǒng)計(jì)語(yǔ)言模型分析_第3頁(yè)
統(tǒng)計(jì)語(yǔ)言模型分析_第4頁(yè)
統(tǒng)計(jì)語(yǔ)言模型分析_第5頁(yè)
已閱讀5頁(yè),還剩1頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、統(tǒng)計(jì)語(yǔ)言模型分析摘要:語(yǔ)言模型是實(shí)現(xiàn)自然語(yǔ)言處理的關(guān)鍵所在,在分析人類語(yǔ)音理解過程的基礎(chǔ)上,介紹了統(tǒng)計(jì)語(yǔ)言模型,討論總結(jié)了統(tǒng)計(jì)語(yǔ)言模型目前所面臨的問題,為進(jìn)一步提高統(tǒng)計(jì)語(yǔ)言模型能力提供了思路。關(guān)鍵詞:自然語(yǔ)言處理;語(yǔ)言模型;統(tǒng)計(jì)語(yǔ)言模型1人理解語(yǔ)音的過程分析仔細(xì)分析人們從聽到語(yǔ)音到最終理解的過程,我們可以將其分成兩個(gè)階段。第一階段是將聽到的語(yǔ)音中的每個(gè)字的發(fā)音與我們大腦中存儲(chǔ)字相匹配,尋找發(fā)音相同的。這個(gè)可匹配的結(jié)果往往很多。在我們?nèi)四X實(shí)際處理時(shí),往往不是僅僅對(duì)單個(gè)字進(jìn)行發(fā)音匹配,而是按照詞為單位進(jìn)行匹配。匹配的過程是通過類比的手段來實(shí)現(xiàn),或者說其純粹是個(gè)非語(yǔ)義處理過程。第二個(gè)階段,為了進(jìn)一步

2、確定就是語(yǔ)音對(duì)應(yīng)是什么字或詞,必須借助于一些其它因素,如是否滿足語(yǔ)法規(guī)則,是否滿足語(yǔ)義上的邏輯關(guān)系,是否與當(dāng)前語(yǔ)境相匹配等。該階段的處理過程則與語(yǔ)義處理密不可分。此外二者間還相互影響,相互作用。下面我們用拼音串表示人聽到的語(yǔ)音,來演示該過程如圖1所示。箭頭所連接起來的表示一個(gè)第二階段的匹配結(jié)果。圖1人理解語(yǔ)音的過程圖2統(tǒng)計(jì)語(yǔ)言模型以語(yǔ)料庫(kù)為基礎(chǔ)的統(tǒng)計(jì)語(yǔ)言建模方法通過對(duì)語(yǔ)料庫(kù)進(jìn)行深層加工、統(tǒng)計(jì)和學(xué)習(xí),獲取大規(guī)模真實(shí)語(yǔ)料中的語(yǔ)言知識(shí)。Ngram模型、隱馬爾可夫模型和隨機(jī)上下文無關(guān)文法是這種模型的代表。其中N-gram模型以其有效性和易于計(jì)算性在語(yǔ)音識(shí)別、機(jī)器翻譯和信息檢索等領(lǐng)域得到廣泛的應(yīng)用,并取

3、得了較大的成功。設(shè)wi是文本中的任意一個(gè)詞,如果已知它在該文本中的前兩個(gè)詞wi-2,wi-1便町以川條打柵率P(wi|wi-2wi-1)來預(yù)測(cè)wi出現(xiàn)的概率。這就是統(tǒng)計(jì)語(yǔ)言模型的概念。一般來說,如果用變量W代表文本中一個(gè)任意的詞序列,它由順序排列的n個(gè)詞組成,即W=w1w2,wn,則統(tǒng)計(jì)語(yǔ)言模型就是該詞序列W在文本中出現(xiàn)的概率P(W)O利用概率的乘積公式,P(W)可展開為:P(W)=P(w1)P(w2|w1)P(w3|w1w2),P(wn|w1w2,n-1)為了預(yù)測(cè)詞wn的出現(xiàn)概率,必須知道它前面所有詞的出現(xiàn)概率。從計(jì)算上來看,這種方法太復(fù)雜了。假設(shè)任意一個(gè)詞wi的出現(xiàn)概率只同它前面的兩個(gè)詞有

4、關(guān),問題就可以得到極大的簡(jiǎn)化。這時(shí)的語(yǔ)言模型叫做三元模型(tri-gram):P(W)P(w1)P(w2|w1)nni=3P(wi|wi-2wi-1)般來說,N元模型就是假設(shè)當(dāng)前詞的出現(xiàn)概率只同它前面的N-1個(gè)詞有關(guān)。重要的是這些概率參數(shù)都是可以通過大規(guī)模語(yǔ)料庫(kù)來計(jì)算的。比如三元概率有P(wi|wi-2wi-1嚴(yán)count(wi-2wi-1wi)/count(wi-2wi-1)式中count(,)表示一個(gè)特定詞序列在整個(gè)語(yǔ)料庫(kù)中出現(xiàn)的累計(jì)次數(shù)。3統(tǒng)計(jì)語(yǔ)言模型分析統(tǒng)計(jì)語(yǔ)言模型的本質(zhì)思想是:出現(xiàn)過的為合法,按照上下文環(huán)境下,出現(xiàn)概率大的為正確選擇。從前面對(duì)人理解語(yǔ)音過程的分析,我們知道人類的語(yǔ)音理

5、解模型能夠根據(jù)“音”、“形”、“意”來確定當(dāng)前詞匯。在語(yǔ)音識(shí)別問題中,統(tǒng)計(jì)模型只是從“音”的角度給出了一個(gè)大致的判斷,從“意”層面上說,只是對(duì)上下文環(huán)境的一個(gè)最簡(jiǎn)單的模擬。對(duì)于OCR問題,貝S只是從“形”和“意”的角度加以處理。如何對(duì)“意”進(jìn)行比概率模型更加準(zhǔn)確的模擬,是問題的核心。統(tǒng)計(jì)模型從一定程度上反映了上下文之間存在的語(yǔ)法和語(yǔ)義上的關(guān)系。但是并不完美和直接。綜合看來,目前的統(tǒng)計(jì)語(yǔ)言建模技術(shù)尚存在以下兩方面問題:模型理論上的不足。目前的統(tǒng)計(jì)語(yǔ)言模型對(duì)訓(xùn)練語(yǔ)料的題材、體裁以及主題的變化非常敏感。用某領(lǐng)域的語(yǔ)料訓(xùn)練的語(yǔ)言模型在相同領(lǐng)域中使用時(shí)性能非常好,但是如果應(yīng)用領(lǐng)域發(fā)生變化,則模型性能急劇

6、下降。如果要對(duì)輕松的電話談話語(yǔ)言建模,實(shí)驗(yàn)結(jié)果表明,用二百萬相應(yīng)領(lǐng)域的詞進(jìn)行訓(xùn)練得到的模型的性能,遠(yuǎn)遠(yuǎn)優(yōu)于用一億傳統(tǒng)四千萬從電視廣播新聞中取出的詞進(jìn)行訓(xùn)練得到的模型的性能的自適應(yīng)方法大多是一種靜態(tài)的方法,沒有將語(yǔ)言模型使用過程中產(chǎn)生的語(yǔ)料利用起來,或者僅僅是將這部分語(yǔ)料作為簡(jiǎn)單的參考因素,因此有其固有的先天缺陷。要解決傳統(tǒng)自適應(yīng)方法帶來的問題,最根本的就是需要考慮如何將語(yǔ)言模型使用過程中得到的語(yǔ)料充分利用起來。為了使模型可以得到控制,現(xiàn)存的統(tǒng)計(jì)語(yǔ)言建模技術(shù)假設(shè)一個(gè)文檔中的不同部分具有獨(dú)立性。例如,廣泛使用的n-gram模型,假設(shè)句子中第i個(gè)詞出現(xiàn)的概率僅和與它緊緊相鄰的前面的i-1個(gè)詞相關(guān).而

7、與其它前面的詞是相互獨(dú)立的。很顯然,經(jīng)驗(yàn)告訴我們這種假設(shè)是錯(cuò)誤的。這種錯(cuò)誤的假設(shè)在統(tǒng)計(jì)方法建模中往往會(huì)導(dǎo)致出現(xiàn)概率的銳分布,即某個(gè)詞的出現(xiàn)概率可能為I,而其它詞出現(xiàn)的概率都為0,這種概率分布顯然偏離了實(shí)際情況。數(shù)據(jù)稀疏性是統(tǒng)計(jì)語(yǔ)言模型最大的問題之一。由于在語(yǔ)言模型使用過程中,很多n元組沒能在訓(xùn)練語(yǔ)料中觀測(cè)到,因此如何有效估算這些單元的概率就成了很大的問題。中文是典型的語(yǔ)義型語(yǔ)言,相對(duì)于英語(yǔ)等語(yǔ)法型語(yǔ)言來說,遣詞造句更為隨便,這種語(yǔ)言單元搭配的隨意性導(dǎo)致n-gram單元更多更復(fù)雜,并且導(dǎo)致語(yǔ)言模型應(yīng)用場(chǎng)合特點(diǎn)和訓(xùn)練語(yǔ)料性質(zhì)的差異性可能更大,也就要求性能更好的語(yǔ)言模型建模方法。模型實(shí)現(xiàn)方法上的不足

8、。模型對(duì)大規(guī)模語(yǔ)料訓(xùn)練過程中,現(xiàn)存算法效率不高。近來提出的決策樹語(yǔ)言模型和最大熵方法,從理論上講都是很理想的方法。制約它們廣泛使用的最大瓶頸就是在模型訓(xùn)練過程中的昂貴的時(shí)空消耗和運(yùn)算量。因此,如果研究出高效的訓(xùn)練算法,可以預(yù)期這兩種方法有廣泛應(yīng)用前景。模型平滑算法的研究需繼續(xù)深入。由于統(tǒng)計(jì)建模方法的研究是基于大規(guī)模真實(shí)語(yǔ)料的,在訓(xùn)練模型過程中,由于語(yǔ)料不足而產(chǎn)生數(shù)據(jù)稀疏現(xiàn)象,導(dǎo)致零概率和銳分布現(xiàn)象的產(chǎn)生,這都會(huì)影響模型的后處理能力,削弱模型的預(yù)測(cè)能力。通過采用不同的平滑技術(shù)可以在一定程度上地解決這個(gè)問題。統(tǒng)計(jì)語(yǔ)言模型的參數(shù)數(shù)目非常龐大。人們?yōu)榱双@得更好的模型性能,往往采取增加訓(xùn)練語(yǔ)料的方法來訓(xùn)

9、練模型,帶來的后果是模型規(guī)模進(jìn)一步上升,對(duì)存儲(chǔ)的需求進(jìn)一步增大。該問題限制了語(yǔ)言模型應(yīng)用的場(chǎng)合,即使在個(gè)人計(jì)算機(jī)上,幾百M(fèi)B甚至1GB規(guī)模的語(yǔ)言模型也顯得有些過大。對(duì)于目前蓬勃發(fā)展的嵌入式設(shè)備來說,該數(shù)字已超出設(shè)備存儲(chǔ)的極限。因此,解決語(yǔ)言模型規(guī)模過大的問題,不僅能使其在個(gè)人計(jì)算機(jī)上的應(yīng)用更加靈活,而且有可能將語(yǔ)言模型應(yīng)用到嵌入式設(shè)備上。由于統(tǒng)計(jì)語(yǔ)言模型規(guī)模大,運(yùn)行時(shí)對(duì)內(nèi)存、CPU速度的要求比較高。大詞表的語(yǔ)言模型應(yīng)用,如中文整句音字轉(zhuǎn)換、連續(xù)語(yǔ)音識(shí)別、OCR等應(yīng)用都由于解碼速度問題一直不能在結(jié)算能力較差的設(shè)備上應(yīng)用。如何設(shè)計(jì)有效的解碼算法,提高解碼算法的速度就成了很重要的一個(gè)問題。只有解碼速

10、度上去了,語(yǔ)言模型的應(yīng)用能力才能進(jìn)一步提高,其適用場(chǎng)合才能進(jìn)一步拓寬。4結(jié)束語(yǔ)與基于語(yǔ)言學(xué)知識(shí)的規(guī)則文法的語(yǔ)言模型相比,統(tǒng)計(jì)語(yǔ)言模型的最大優(yōu)點(diǎn)在于使得大規(guī)模真實(shí)文本的處理變?yōu)榭赡堋1疚脑诜治鋈祟愓Z(yǔ)音理解過程的基礎(chǔ)上,介紹了統(tǒng)計(jì)語(yǔ)言模型,并討論總結(jié)了統(tǒng)計(jì)語(yǔ)言模型目前所面臨的問題。從這些問題出發(fā),將更多的語(yǔ)言學(xué)知識(shí)融入到統(tǒng)計(jì)語(yǔ)言模型,使之能夠更多地模仿人類語(yǔ)音理解的第二個(gè)階段,是提升語(yǔ)言模型能力的關(guān)鍵所在。參考文獻(xiàn)::1FREDERIKJELINEK.StatisticalMethodforSpeechRecognitionM.MITPress,Cambridge,Massachusetts,1997.FENGJJ.Usingconfideneescorestoimprovehands-freespeechbasednavigationincontinuousdictationsystemsJ.ACMTransactionsonComputer-HumanInteraction,2004(4).ROSENFELDR.ErroranalysisanddisfluencymodelingintheswitchboarddomainCn:Proceedingsof

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論