文本分析模型_第1頁
文本分析模型_第2頁
文本分析模型_第3頁
文本分析模型_第4頁
文本分析模型_第5頁
已閱讀5頁,還剩28頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

大數(shù)據(jù)分析·原理與實(shí)踐7、文本分析模型目錄統(tǒng)計(jì)語言模型中文分詞TF-IDF權(quán)重PLDAWord2Vec12345目錄統(tǒng)計(jì)語言模型中文分詞TF-IDF權(quán)重PLDAWord2Vec12345統(tǒng)計(jì)語言模型基于規(guī)則的方法判斷這個句子是否合乎文法、含義是否正確。但文法規(guī)則是十分復(fù)雜的,覆蓋哪怕是20%的真實(shí)語句的文法也至少是幾萬條。而且,不斷會有新的文法規(guī)則產(chǎn)生。就算找到了所有的文法規(guī)則,用計(jì)算機(jī)解析也是非常困難的。如何衡量一個句子是否合理美聯(lián)儲主席本·伯南克昨天告訴媒體7000億美元的救助資金將借給上百家銀行、保險公司和汽車公司。主語:美聯(lián)儲主席本·伯南克動詞短語:昨天告訴媒體7000億美元的救助資金將借給上百家銀行、保險公司和汽車公司句號:。統(tǒng)計(jì)語言模型基于統(tǒng)計(jì)的方法一個句子是否合理,就看看它的可能性大小如何。至于可能性就用概率來衡量。假設(shè)S是一個有意義的句子。那么想要得到S出現(xiàn)的概率P(S),我們可以把人類有史以來出現(xiàn)的句子統(tǒng)計(jì)一下。當(dāng)然,這行不通。因此需要有個模型來估算它。如何衡量一個句子是否合理

統(tǒng)計(jì)語言模型基于統(tǒng)計(jì)的方法句子是由詞組成的。設(shè)S由一串特定順序排列的詞w1,w2,…,wn組成。那么有如何衡量一個句子是否合理利用條件概率的公式,我們可以展開得到其中P(w1)表示第一個詞w1出現(xiàn)的概率;P(w2|w1)是在已知第一個詞的前提下,第二個詞出現(xiàn)的概率;以此類推。S1:我/想/踢/籃球。S2:我/想/踢/足球。顯然S1更合理,因?yàn)椤疤呋@球”出現(xiàn)的概率小于“踢足球”的概率。統(tǒng)計(jì)語言模型計(jì)算上的困局從計(jì)算上來看,第一個詞的條件概率P(w1)很容易算,第二個詞的條件概率P(w1|w2)還不太麻煩,第三個詞的條件概率P(w3|w1w2)已經(jīng)非常難算了,而P(wn|w1w2…wn-1)根本無法估算。馬爾科夫假設(shè)

統(tǒng)計(jì)語言模型馬爾科夫假設(shè)馬爾科夫給了一個偷懶但頗為有效的方法:假設(shè)任意一個詞wi出現(xiàn)的概率只與它前面的詞wi-1有關(guān),于是,問題就變得簡單了。馬爾科夫假設(shè)

目錄統(tǒng)計(jì)語言模型中文分詞TF-IDF權(quán)重PLDAWord2Vec12345中文分詞詞是語義的最小單位我們可以利用統(tǒng)計(jì)語言模型進(jìn)行自然語言處理,而這些模型是建立在詞的基礎(chǔ)上的,因?yàn)樵~是表達(dá)語義的最小單位。中文詞之間無分界符對于西方拼音語言,詞之間有明確的分界符。而對于中、日、韓、泰等語言,詞之間沒有明確的分界符。因此,首先需要對句子進(jìn)行分詞,才能做到進(jìn)一步的自然語言處理。為什么要進(jìn)行分詞ChinesespaceofficialswereinvitedtomeetwithNASAofficials.中國航天官員應(yīng)邀與太空總署官員開會。中國/航天/官員/應(yīng)邀與/太空/總署/官員/開會。中文分詞查字典的方法從左向右掃描句子,遇到字典中有的詞就標(biāo)識出來,遇到復(fù)合詞(比如“上海大學(xué)”)就找最長的詞匹配,遇到不認(rèn)識的字串就分割成單字詞,于是簡單的分詞就完成了。最小詞數(shù)的分詞理論在這基礎(chǔ)上發(fā)展了最小詞數(shù)的分詞理論,即一句話應(yīng)該分成數(shù)量最少的詞串。查字典的方法上海大學(xué)有三個校區(qū)。上海大學(xué)/有/三個/校區(qū)。中文分詞二義性短語“發(fā)展中國家”,正確的分割應(yīng)該是“發(fā)展/中/國家”,而從左向右查字典的辦法會將它分割成“發(fā)展/中國/家”,這顯然錯了。并非最長匹配一定是正確的如“北京大學(xué)生”的正確分詞是“北京/大學(xué)生”,而不是“北京大學(xué)/生”。查字典方法的不足正確分詞:發(fā)展/中/國家錯誤分詞:發(fā)展/中國/家正確分詞:北京/大學(xué)生錯誤分詞:北京大學(xué)/生中文分詞1990年前后,郭進(jìn)博士用統(tǒng)計(jì)語言模型成功解決了分詞二義性問題,將漢語分詞的錯誤率降低了一個數(shù)量級。假設(shè)對于句子S,有三種分詞方法。那么最好的一種分詞方法應(yīng)該保證分完詞后,這個句子出現(xiàn)的概率最大。一個實(shí)現(xiàn)的技巧然而,窮舉所有可能的分詞方法并計(jì)算每種可能下句子的概率,那么計(jì)算量是相當(dāng)大的。使用了維特比算法,可以快速地找到最佳分詞方案。使用統(tǒng)計(jì)語言模型

目錄統(tǒng)計(jì)語言模型中文分詞TF-IDF權(quán)重PLDAWord2Vec12345TF-IDF問題想要提取一篇文檔的關(guān)鍵詞。那么如何衡量一個詞對一篇文檔的重要程度?詞頻(TermFrequency,TF)詞頻指的是某個給定的詞在一個文檔中出現(xiàn)的次數(shù)。使用詞頻可以一定程度上的描述詞對文檔的重要程度,但有些常見的詞在所有文檔中的出現(xiàn)頻率都很高。如何描述詞的常見程度?詞對文檔的重要程度

TF-IDF

詞對文檔的重要程度句子:搜索引擎是人們在線獲取信息和知識的重要工具。IDF:IDF(搜索引擎)>IDF(信息)TF-IDF

TF-IDF的計(jì)算

目錄統(tǒng)計(jì)語言模型中文分詞TF-IDF權(quán)重PLDAWord2Vec12345PLDA什么是PLDAPLDA是LDA的并行化版本。而LDA是一個主題模型,是LSA的貝葉斯版本。LSA則是LatentSemanticAnalysis的縮寫,意為潛在語義分析。那什么是語義,什么又是主題呢?PLDAPLDA=并行化+LDALDA=LSA+貝葉斯LSA:潛在語義分析PLDA如何判斷文檔的相似程度上一節(jié)的TFIDF系數(shù)表明了一個詞匯對一個文檔的重要程度。但僅通過詞匯判斷兩個文檔的相似程度,這是遠(yuǎn)遠(yuǎn)不夠的,因?yàn)樵~存在“同義與多義”的問題。詞的“同義和多義”現(xiàn)象同義指的是不同詞匯在一定背景下有著相同的意思;多義指的是一個詞匯在不同的背景下有這不同的意思。文檔—詞匯同義:我今天面試就是去打醬油。今天面試就是隨便參與一下。多義:我今天面試就是去打醬油。中午要吃餃子,下班先去打醬油。PLDA語義維度潛在語義分析(LSA)創(chuàng)新地引入了語義維度。語義維度是文檔集上相同、相關(guān)信息的濃縮表示。假設(shè)詞典為{A1,A2,B1,B2,C1,C2},第一個文檔的詞序?yàn)椤盇1A2A1A2”,第二個文檔的詞序?yàn)椤盋1C2B1B2”。這里假設(shè)A1和A2表示話題一,

B1和B2表示話題二,

C1和C2表示話題三。我們可以看出文檔1與話題一有緊密聯(lián)系,文檔2與話題二和話題三有緊密聯(lián)系。如何自動學(xué)習(xí)到這一知識呢?這便是LSA能做的。文檔—語義—詞匯詞典:{A1,A2,B1,B2,C1,C2}

文檔1:A1A2A1A2文檔2:C1C2B1B2PLDA

LSAA

PLDA語義維度T是一個m×r的詞匯向量矩陣,D是一個n×r的文檔向量矩陣,而S是一個r×r的對角陣。LSA做了降維的近似處理。通過這一處理,實(shí)際上只保留了S中最大的K個對角值(也就是奇異值),進(jìn)而文檔矢量矩陣D和詞匯矢量矩陣T都被縮成了K列。其中詞匯矢量矩陣D的每一列就是一個主題,而文檔向量矩陣T的每一行就是一個文檔對應(yīng)在這K個主題上的系數(shù)表示。LSATK

PLDA主題—詞匯通過這樣的表示,可以清晰地看到每個主題向量可以近似表示成詞匯向量的一個線性加權(quán)。主題向量中的元素表示該主題內(nèi)對應(yīng)該詞匯的權(quán)重,一個詞匯權(quán)重越大,表示在該主題內(nèi)部越具有代表性。LSATK

詞匯主題老師學(xué)生同學(xué)學(xué)習(xí)運(yùn)動教育0.70.60.20.40.05PLDA文檔—主題對于多個文檔,這K個主題是共享的,但是線性結(jié)合系數(shù)是文檔特定的。一個文檔對應(yīng)著多個主題的線性加權(quán)。LSADK

哈哈,終于贏了這場球賽,今晚好好休息一下??陬^語(0.1)

足球(0.7) 健康(0.15)PLDALSALSA在映射表示中,引入一個語義維度,即“文檔—語義—詞”,然后通過線性代數(shù)的方法來挖掘詞匯之間的共現(xiàn)關(guān)系,然后提取出語義維度。pLSApLSA是LSA在概率上的一種呈現(xiàn)。在LSA中,我們假設(shè)主題向量是正交的,那么在pLSA中,我們假設(shè)是不同主題變量是獨(dú)立的。pLSA

PLDApLSA的問題盡管pLSA采用了概率模型作為刻畫方法,但是它并沒有“將概率表示進(jìn)行到底”。形式化地說,它并不是一個完整的貝葉斯模型:其中的P(詞匯|主題)和P(主題|文檔)都是根據(jù)數(shù)據(jù)估計(jì)出來的,都是模型參數(shù),而且沒有進(jìn)一步對這些參數(shù)引入先驗(yàn)。2004年,DavidBlei首次提出全貝葉斯版本的pLSA,即LDA。LDA(線性代數(shù))(概率論)pLSA LDAPLDALDA生成一篇文檔選擇一個主題分布。從主題分布中選擇一個主題。根據(jù)這個主題,選擇一個單詞。這樣進(jìn)行多次,就生成了一篇文檔。狄利克雷分布Dirichlet(狄利克雷)分布是關(guān)于分布的分布。一個主題,是關(guān)于詞匯的分布。那么主題分布,就是關(guān)于主題的分布,即分布的分布。LDA主題分布:口頭語0.3足球0.1教育0.5健康0.1主題:教育老師0.3學(xué)生0.2同學(xué)0.1學(xué)習(xí)0.1學(xué)校0.3

詞匯:老師PLDALDA的求解對LDA模型有兩種模型求解方法基于Gibbs采樣的方法?;谧兎址‥M求解。具體的求解過程以及PLDA的實(shí)現(xiàn),請查看書中內(nèi)容。LDA目錄統(tǒng)計(jì)語言模型中文分詞TF-IDF權(quán)重PLDAWord2Vec12345Word2Vec如何表示一個詞在很多算法中,我們需要將詞轉(zhuǎn)化為數(shù)值。當(dāng)然,單個數(shù)字肯定不足以表示一個詞,我們常使用一個向量表示一個詞。OneHot方法假設(shè)字典中一共有4個詞。那么向量的長度為4。每個向量在僅在詞的對應(yīng)位置為1,其余為0。如象棋的向量為[1000],棋的向量為[0100]。Word2Vec字典:象棋棋大象水杯

向量象棋 1000棋 0100大象 0010水杯 0001Word2VecOneHot方法的缺點(diǎn)在實(shí)際應(yīng)用中,這種方法有諸多不足。最顯著的就是,維度災(zāi)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論