版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第二章預(yù)備知識統(tǒng)計(jì)自然語言處理CompanyLogo第二章預(yù)備知識概率論基本概念1信息論基本概念2支持向量機(jī)3CompanyLogo2.1概率論基本概念2.1.1概率2.1.2最大似然估計(jì)2.1.3條件概率2.1.4貝葉斯法則2.1.5隨機(jī)變量2.1.6二項(xiàng)式分布2.1.7聯(lián)合概率分布和條件概率分布2.1.8貝葉斯決策理論2.1.9期望和方差CompanyLogo2.1.1概率CompanyLogo2.1.2最大似然估計(jì)
2.1.2最大似然估計(jì)CompanyLogo2.1.3條件概率CompanyLogo2.1.3條件概率CompanyLogo2.1.3條件概率由上公式可得稱為概率的乘法定理或乘法規(guī)則。其一般形式表示為這一規(guī)則在自然語言處理中使用得非常普遍。CompanyLogo2.1.3條件概率條件概率的三個(gè)基本性質(zhì):(1)非負(fù)性(2)規(guī)范性(3)可列可加性如果事件兩兩互不相容,則CompanyLogo2.1.4貝葉斯法則CompanyLogo2.1.4貝葉斯法則當(dāng)n=1時(shí)CompanyLogo2.1.4貝葉斯法則注:(arg
max{X}表示使得X最大的參數(shù))CompanyLogo2.1.4貝葉斯法則CompanyLogo2.1.4貝葉斯法則2.1.5隨機(jī)變量隨機(jī)變量(randomvariable)
一個(gè)隨機(jī)試驗(yàn)可能有多種不同的的結(jié)果,到底會出現(xiàn)哪一種,存在一定的概率,即隨機(jī)會而定。簡單地說,隨機(jī)變量就是試驗(yàn)結(jié)果的函數(shù)。設(shè)X為一離散型隨機(jī)變量,其全部可能的值為。那么,稱為X的概率函數(shù)。顯然,,有時(shí)也稱為隨機(jī)變量X的概率分布,此時(shí),函數(shù),稱為X的分布函數(shù)。CompanyLogo2.1.6二項(xiàng)式分布CompanyLogo2.1.6二項(xiàng)式分布CompanyLogo2.1.6二項(xiàng)式分布2.1.7聯(lián)合概率分布和條件概率分布聯(lián)合概率分布(jointdistribution)
假設(shè)為一個(gè)二維的離散型隨機(jī)變量,全部可能的取值為;全部可能的取值為那么,的聯(lián)合概率分布為條件概率分布
一個(gè)隨機(jī)變量或向量X的條件概率分布就是在某種給定的條件之下X的概率分布??紤]在給定條件下的概率分布,實(shí)際是求條件概率根據(jù)條件概率的定義可得
2.17聯(lián)合概率分布和條件概率分布由于,故有類似地,
CompanyLogo2.1.8貝葉斯決策理論貝葉斯決策理論是統(tǒng)計(jì)方法處理模式分類問題的基本理論之一CompanyLogo2.1.8貝葉斯決策理論CompanyLogo2.1.9期望和方差CompanyLogo2.1.9期望和方差2.2信息論的基本概念2.2.1熵2.2.2聯(lián)合熵和條件熵2.2.3互信息2.2.4相對熵2.2.5交叉熵2.2.6困惑度2.2.7噪聲信道模型CompanyLogo2.2.1熵CompanyLogo2.2.1熵CompanyLogo2.2.1熵CompanyLogo2.2.1熵CompanyLogo2.2.1熵CompanyLogo2.2.1熵CompanyLogo2.2.1熵CompanyLogo2.2.1熵CompanyLogo2.2.2聯(lián)合熵和條件熵CompanyLogo2.2.2聯(lián)合熵和條件熵CompanyLogo2.2.2聯(lián)合熵和條件熵CompanyLogo2.2.2聯(lián)合熵和條件熵
2.2.2聯(lián)合熵和條件熵2.2.2聯(lián)合熵和條件熵2.2.2聯(lián)合熵和條件熵
2.2.2聯(lián)合熵和條件熵2.2.2聯(lián)合熵和條件熵
2.2.2聯(lián)合熵和條件熵2.2.2聯(lián)合熵和條件熵2.2.2聯(lián)合熵和條件熵
2.2.2聯(lián)合熵和條件熵
2.2.2聯(lián)合熵和條件熵2.2.2聯(lián)合熵和條件熵
2.2.2聯(lián)合熵和條件熵
2.2.2聯(lián)合熵和條件熵
2.2.3互信息
2.2.3互信息2.2.3互信息2.2.4相對熵
2.2.4相對熵
2.2.4相對熵互信息實(shí)際上就是衡量一個(gè)聯(lián)合分布與獨(dú)立性差距多大的測度:證明:2.2.5交叉熵
2.2.5交叉熵
2.2.5交叉熵
2.2.6困惑度在自然語言處理中,我們所說的語言模型的困惑度通常是指語言模型對于測試數(shù)據(jù)的困惑度。一般情況下將所有的數(shù)據(jù)分成兩部分,一部分作為訓(xùn)練數(shù)據(jù),用于估計(jì)模型的參數(shù);另一部分作為測試數(shù)據(jù),用于評估語言模型的質(zhì)量。
2.2.7噪聲信道模型
2.2.7噪聲信道模型
2.2.7噪聲信道模型
2.2.7噪聲信道模型
2.2.7噪聲信道模型
2.2.7噪聲信道模型
2.2.7噪聲信道模型
2.3支持向量機(jī)2.3.1線性分類2.3.2線性不可分2.3.3構(gòu)造核函數(shù)
2.3支持向量機(jī)支持向量機(jī)(supportvectormachine,SVM)
支持向量機(jī)是近幾年來發(fā)展起來的新型分類方法,是在高維特征空間使用線性函數(shù)假設(shè)空間的學(xué)習(xí)系統(tǒng),在分類方面具有良好的性能。在自然語言處理中,SVM廣泛應(yīng)用于短語識別、語義消歧、文本自動分類和信息過濾等方面。
2.3.1線性分類兩類問題(正類和負(fù)類)的分類通常用一個(gè)實(shí)數(shù)函數(shù)(n為輸入維數(shù),R為實(shí)數(shù))。通常執(zhí)行如下操作:當(dāng)時(shí),將輸入賦給正類,否則,將其賦給負(fù)類。當(dāng)是線性函數(shù)時(shí),可以寫成如下形式其中,是控制函數(shù)的參數(shù),決策規(guī)則由函數(shù)給出,通常2.3.1線性分類
該分類方法的幾何解釋是,方程式定義的超平面將輸入空間分成兩半,一半為負(fù)類,一半為正類。當(dāng)b的值變化時(shí),超平面平行移動。
2.3.2線性不可分
對于非線性問題,可以把樣本映射到某個(gè)高維特征空間,在高維特征空間中使用線性學(xué)習(xí)器。因此,假設(shè)集是如下類型的函數(shù):其中,是從輸入空間到某個(gè)特征空間的映射。也就是說,建立非線性分類器需要分兩布:首先使用一個(gè)非線性映射函數(shù)將數(shù)據(jù)變換到一個(gè)特征空間F,然后在這個(gè)特征空間上使用線性分類器。
2.3.2線性不可分
線性分類器的一個(gè)重要性質(zhì)是可以表示成對偶形式,這意味著假設(shè)可以表達(dá)為訓(xùn)練點(diǎn)和線性組合,因此,決策規(guī)則(分類函數(shù))可以用測試點(diǎn)和訓(xùn)練點(diǎn)的內(nèi)積來表示:其中,是樣本數(shù)目;是個(gè)正值導(dǎo)數(shù),可通過學(xué)習(xí)獲得;為類別標(biāo)記。如果有一種方法可以在特征空間中直接計(jì)算內(nèi)積,就像在原始輸入點(diǎn)的函數(shù)中一樣,那么,就有可能將兩個(gè)步驟融合到一起建立一個(gè)非線性分類器。這樣,在高維空間內(nèi)實(shí)際上只需要進(jìn)行內(nèi)積運(yùn)算,而這種內(nèi)積運(yùn)算是可以利用原空間中的函數(shù)實(shí)現(xiàn)的,我們甚至沒有必要知道變換的形式。這種直接計(jì)算的方法稱為核函數(shù)方法。2.3.4構(gòu)造核函數(shù)
定義核是一個(gè)函數(shù),對所有滿足:這里的是從到(內(nèi)積)特征空間的映射。一旦有了核函數(shù),決策規(guī)則就可以通過對核函數(shù)的次計(jì)算得到:那么,這種方法的關(guān)鍵就是如何找到一個(gè)可以高效計(jì)算的核函數(shù)。
2.3.3構(gòu)造核函數(shù)
核函數(shù)要適合某個(gè)特征空間必須是對稱的,即并且,滿足下面的不等式:其中,是歐式模函數(shù)。但是,這些條件對于保證特征空間的存在是不充分的,還必須滿足Mercer定理的條件,對X的任意有限子集,相
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度新型保溫材料抹灰分包勞務(wù)合同
- 二零二五年度苗木種植與生態(tài)旅游合作合同范本7篇
- 2025年度個(gè)人商品住宅買賣合同標(biāo)準(zhǔn)范本4篇
- 2025年木地板原材采購合同304402025采購版3篇
- 2025年度南京個(gè)人住宅房產(chǎn)買賣合同規(guī)范文本
- 2025年雞蛋市場調(diào)研與采購合作合同模板3篇
- 2025年度數(shù)控打磨工勞動合同與職業(yè)技能鑒定考核協(xié)議4篇
- 二零二五年度出租房屋用電安全責(zé)任追究合同樣本4篇
- 2025年度房地產(chǎn)項(xiàng)目施工總承包合同范本2篇
- 2025年南山磚廠市場拓展與銷售渠道建設(shè)合同4篇
- 垃圾車駕駛員聘用合同
- 2024年大宗貿(mào)易合作共贏協(xié)議書模板
- 新聞記者證600道考試題-附標(biāo)準(zhǔn)答案
- 變壓器搬遷施工方案
- 單位轉(zhuǎn)賬個(gè)人合同模板
- 八年級語文下冊 成語故事 第十五課 諱疾忌醫(yī) 第六課時(shí) 口語交際教案 新教版(漢語)
- 中考語文二輪復(fù)習(xí):記敘文閱讀物象的作用(含練習(xí)題及答案)
- 2024年1月高考適應(yīng)性測試“九省聯(lián)考”數(shù)學(xué) 試題(學(xué)生版+解析版)
- (正式版)JBT 11270-2024 立體倉庫組合式鋼結(jié)構(gòu)貨架技術(shù)規(guī)范
- EPC項(xiàng)目采購階段質(zhì)量保證措施
- T-NAHIEM 101-2023 急診科建設(shè)與設(shè)備配置標(biāo)準(zhǔn)
評論
0/150
提交評論