統(tǒng)計(jì)語(yǔ)言模型分析

上傳人：m*** IP屬地：天津上傳時(shí)間：2022-08-05 格式：DOC 頁(yè)數(shù)：6 大?。?5KB 積分：9.6 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩1頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、統(tǒng)計(jì)語(yǔ)言模型分析摘要：語(yǔ)言模型是實(shí)現(xiàn)自然語(yǔ)言處理的關(guān)鍵所在，在分析人類語(yǔ)音理解過程的基礎(chǔ)上，介紹了統(tǒng)計(jì)語(yǔ)言模型，討論總結(jié)了統(tǒng)計(jì)語(yǔ)言模型目前所面臨的問題，為進(jìn)一步提高統(tǒng)計(jì)語(yǔ)言模型能力提供了思路。關(guān)鍵詞：自然語(yǔ)言處理；語(yǔ)言模型；統(tǒng)計(jì)語(yǔ)言模型1人理解語(yǔ)音的過程分析仔細(xì)分析人們從聽到語(yǔ)音到最終理解的過程，我們可以將其分成兩個(gè)階段。第一階段是將聽到的語(yǔ)音中的每個(gè)字的發(fā)音與我們大腦中存儲(chǔ)字相匹配，尋找發(fā)音相同的。這個(gè)可匹配的結(jié)果往往很多。在我們?nèi)四X實(shí)際處理時(shí)，往往不是僅僅對(duì)單個(gè)字進(jìn)行發(fā)音匹配，而是按照詞為單位進(jìn)行匹配。匹配的過程是通過類比的手段來實(shí)現(xiàn)，或者說其純粹是個(gè)非語(yǔ)義處理過程。第二個(gè)階段，為了進(jìn)一步

2、確定就是語(yǔ)音對(duì)應(yīng)是什么字或詞，必須借助于一些其它因素，如是否滿足語(yǔ)法規(guī)則，是否滿足語(yǔ)義上的邏輯關(guān)系，是否與當(dāng)前語(yǔ)境相匹配等。該階段的處理過程則與語(yǔ)義處理密不可分。此外二者間還相互影響，相互作用。下面我們用拼音串表示人聽到的語(yǔ)音，來演示該過程如圖1所示。箭頭所連接起來的表示一個(gè)第二階段的匹配結(jié)果。圖1人理解語(yǔ)音的過程圖2統(tǒng)計(jì)語(yǔ)言模型以語(yǔ)料庫(kù)為基礎(chǔ)的統(tǒng)計(jì)語(yǔ)言建模方法通過對(duì)語(yǔ)料庫(kù)進(jìn)行深層加工、統(tǒng)計(jì)和學(xué)習(xí)，獲取大規(guī)模真實(shí)語(yǔ)料中的語(yǔ)言知識(shí)。Ngram模型、隱馬爾可夫模型和隨機(jī)上下文無關(guān)文法是這種模型的代表。其中N-gram模型以其有效性和易于計(jì)算性在語(yǔ)音識(shí)別、機(jī)器翻譯和信息檢索等領(lǐng)域得到廣泛的應(yīng)用，并取

3、得了較大的成功。設(shè)wi是文本中的任意一個(gè)詞，如果已知它在該文本中的前兩個(gè)詞wi-2,wi-1便町以川條打柵率P(wi|wi-2wi-1)來預(yù)測(cè)wi出現(xiàn)的概率。這就是統(tǒng)計(jì)語(yǔ)言模型的概念。一般來說，如果用變量W代表文本中一個(gè)任意的詞序列，它由順序排列的n個(gè)詞組成，即W=w1w2,wn,則統(tǒng)計(jì)語(yǔ)言模型就是該詞序列W在文本中出現(xiàn)的概率P(W)O利用概率的乘積公式，P(W)可展開為：P(W)=P(w1)P(w2|w1)P(w3|w1w2),P(wn|w1w2,n-1)為了預(yù)測(cè)詞wn的出現(xiàn)概率，必須知道它前面所有詞的出現(xiàn)概率。從計(jì)算上來看，這種方法太復(fù)雜了。假設(shè)任意一個(gè)詞wi的出現(xiàn)概率只同它前面的兩個(gè)詞有

4、關(guān)，問題就可以得到極大的簡(jiǎn)化。這時(shí)的語(yǔ)言模型叫做三元模型(tri-gram):P(W)P(w1)P(w2|w1)nni=3P(wi|wi-2wi-1)般來說，N元模型就是假設(shè)當(dāng)前詞的出現(xiàn)概率只同它前面的N-1個(gè)詞有關(guān)。重要的是這些概率參數(shù)都是可以通過大規(guī)模語(yǔ)料庫(kù)來計(jì)算的。比如三元概率有P(wi|wi-2wi-1嚴(yán)count(wi-2wi-1wi)/count(wi-2wi-1)式中count(,)表示一個(gè)特定詞序列在整個(gè)語(yǔ)料庫(kù)中出現(xiàn)的累計(jì)次數(shù)。3統(tǒng)計(jì)語(yǔ)言模型分析統(tǒng)計(jì)語(yǔ)言模型的本質(zhì)思想是：出現(xiàn)過的為合法，按照上下文環(huán)境下，出現(xiàn)概率大的為正確選擇。從前面對(duì)人理解語(yǔ)音過程的分析，我們知道人類的語(yǔ)音理

5、解模型能夠根據(jù)“音”、“形”、“意”來確定當(dāng)前詞匯。在語(yǔ)音識(shí)別問題中，統(tǒng)計(jì)模型只是從“音”的角度給出了一個(gè)大致的判斷，從“意”層面上說，只是對(duì)上下文環(huán)境的一個(gè)最簡(jiǎn)單的模擬。對(duì)于OCR問題，貝S只是從“形”和“意”的角度加以處理。如何對(duì)“意”進(jìn)行比概率模型更加準(zhǔn)確的模擬，是問題的核心。統(tǒng)計(jì)模型從一定程度上反映了上下文之間存在的語(yǔ)法和語(yǔ)義上的關(guān)系。但是并不完美和直接。綜合看來，目前的統(tǒng)計(jì)語(yǔ)言建模技術(shù)尚存在以下兩方面問題：模型理論上的不足。目前的統(tǒng)計(jì)語(yǔ)言模型對(duì)訓(xùn)練語(yǔ)料的題材、體裁以及主題的變化非常敏感。用某領(lǐng)域的語(yǔ)料訓(xùn)練的語(yǔ)言模型在相同領(lǐng)域中使用時(shí)性能非常好，但是如果應(yīng)用領(lǐng)域發(fā)生變化，則模型性能急劇

6、下降。如果要對(duì)輕松的電話談話語(yǔ)言建模，實(shí)驗(yàn)結(jié)果表明，用二百萬相應(yīng)領(lǐng)域的詞進(jìn)行訓(xùn)練得到的模型的性能，遠(yuǎn)遠(yuǎn)優(yōu)于用一億傳統(tǒng)四千萬從電視廣播新聞中取出的詞進(jìn)行訓(xùn)練得到的模型的性能的自適應(yīng)方法大多是一種靜態(tài)的方法，沒有將語(yǔ)言模型使用過程中產(chǎn)生的語(yǔ)料利用起來，或者僅僅是將這部分語(yǔ)料作為簡(jiǎn)單的參考因素，因此有其固有的先天缺陷。要解決傳統(tǒng)自適應(yīng)方法帶來的問題，最根本的就是需要考慮如何將語(yǔ)言模型使用過程中得到的語(yǔ)料充分利用起來。為了使模型可以得到控制，現(xiàn)存的統(tǒng)計(jì)語(yǔ)言建模技術(shù)假設(shè)一個(gè)文檔中的不同部分具有獨(dú)立性。例如，廣泛使用的n-gram模型，假設(shè)句子中第i個(gè)詞出現(xiàn)的概率僅和與它緊緊相鄰的前面的i-1個(gè)詞相關(guān).而

7、與其它前面的詞是相互獨(dú)立的。很顯然，經(jīng)驗(yàn)告訴我們這種假設(shè)是錯(cuò)誤的。這種錯(cuò)誤的假設(shè)在統(tǒng)計(jì)方法建模中往往會(huì)導(dǎo)致出現(xiàn)概率的銳分布，即某個(gè)詞的出現(xiàn)概率可能為I，而其它詞出現(xiàn)的概率都為0,這種概率分布顯然偏離了實(shí)際情況。數(shù)據(jù)稀疏性是統(tǒng)計(jì)語(yǔ)言模型最大的問題之一。由于在語(yǔ)言模型使用過程中，很多n元組沒能在訓(xùn)練語(yǔ)料中觀測(cè)到，因此如何有效估算這些單元的概率就成了很大的問題。中文是典型的語(yǔ)義型語(yǔ)言，相對(duì)于英語(yǔ)等語(yǔ)法型語(yǔ)言來說，遣詞造句更為隨便，這種語(yǔ)言單元搭配的隨意性導(dǎo)致n-gram單元更多更復(fù)雜，并且導(dǎo)致語(yǔ)言模型應(yīng)用場(chǎng)合特點(diǎn)和訓(xùn)練語(yǔ)料性質(zhì)的差異性可能更大，也就要求性能更好的語(yǔ)言模型建模方法。模型實(shí)現(xiàn)方法上的不足

8、。模型對(duì)大規(guī)模語(yǔ)料訓(xùn)練過程中，現(xiàn)存算法效率不高。近來提出的決策樹語(yǔ)言模型和最大熵方法，從理論上講都是很理想的方法。制約它們廣泛使用的最大瓶頸就是在模型訓(xùn)練過程中的昂貴的時(shí)空消耗和運(yùn)算量。因此，如果研究出高效的訓(xùn)練算法，可以預(yù)期這兩種方法有廣泛應(yīng)用前景。模型平滑算法的研究需繼續(xù)深入。由于統(tǒng)計(jì)建模方法的研究是基于大規(guī)模真實(shí)語(yǔ)料的，在訓(xùn)練模型過程中，由于語(yǔ)料不足而產(chǎn)生數(shù)據(jù)稀疏現(xiàn)象，導(dǎo)致零概率和銳分布現(xiàn)象的產(chǎn)生，這都會(huì)影響模型的后處理能力，削弱模型的預(yù)測(cè)能力。通過采用不同的平滑技術(shù)可以在一定程度上地解決這個(gè)問題。統(tǒng)計(jì)語(yǔ)言模型的參數(shù)數(shù)目非常龐大。人們?yōu)榱双@得更好的模型性能，往往采取增加訓(xùn)練語(yǔ)料的方法來訓(xùn)

9、練模型，帶來的后果是模型規(guī)模進(jìn)一步上升，對(duì)存儲(chǔ)的需求進(jìn)一步增大。該問題限制了語(yǔ)言模型應(yīng)用的場(chǎng)合，即使在個(gè)人計(jì)算機(jī)上，幾百M(fèi)B甚至1GB規(guī)模的語(yǔ)言模型也顯得有些過大。對(duì)于目前蓬勃發(fā)展的嵌入式設(shè)備來說，該數(shù)字已超出設(shè)備存儲(chǔ)的極限。因此，解決語(yǔ)言模型規(guī)模過大的問題，不僅能使其在個(gè)人計(jì)算機(jī)上的應(yīng)用更加靈活，而且有可能將語(yǔ)言模型應(yīng)用到嵌入式設(shè)備上。由于統(tǒng)計(jì)語(yǔ)言模型規(guī)模大，運(yùn)行時(shí)對(duì)內(nèi)存、CPU速度的要求比較高。大詞表的語(yǔ)言模型應(yīng)用，如中文整句音字轉(zhuǎn)換、連續(xù)語(yǔ)音識(shí)別、OCR等應(yīng)用都由于解碼速度問題一直不能在結(jié)算能力較差的設(shè)備上應(yīng)用。如何設(shè)計(jì)有效的解碼算法，提高解碼算法的速度就成了很重要的一個(gè)問題。只有解碼速

10、度上去了，語(yǔ)言模型的應(yīng)用能力才能進(jìn)一步提高，其適用場(chǎng)合才能進(jìn)一步拓寬。4結(jié)束語(yǔ)與基于語(yǔ)言學(xué)知識(shí)的規(guī)則文法的語(yǔ)言模型相比，統(tǒng)計(jì)語(yǔ)言模型的最大優(yōu)點(diǎn)在于使得大規(guī)模真實(shí)文本的處理變?yōu)榭赡堋１疚脑诜治鋈祟愓Z(yǔ)音理解過程的基礎(chǔ)上，介紹了統(tǒng)計(jì)語(yǔ)言模型，并討論總結(jié)了統(tǒng)計(jì)語(yǔ)言模型目前所面臨的問題。從這些問題出發(fā)，將更多的語(yǔ)言學(xué)知識(shí)融入到統(tǒng)計(jì)語(yǔ)言模型，使之能夠更多地模仿人類語(yǔ)音理解的第二個(gè)階段，是提升語(yǔ)言模型能力的關(guān)鍵所在。參考文獻(xiàn)：:1FREDERIKJELINEK.StatisticalMethodforSpeechRecognitionM.MITPress,Cambridge,Massachusetts,1997.FENGJJ.Usingconfideneescorestoimprovehands-freespeechbasednavigationincontinuousdictationsystemsJ.ACMTransactionsonComputer-HumanInteraction,2004(4).ROSENFELDR.ErroranalysisanddisfluencymodelingintheswitchboarddomainCn:Proceedingsof

人人文庫(kù)> 全部分類> 行業(yè)資料 > 機(jī)電工程

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

統(tǒng)計(jì)語(yǔ)言模型分析

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

統(tǒng)計(jì)語(yǔ)言模型分析

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔