一文看懂文本挖掘_第1頁(yè)
一文看懂文本挖掘_第2頁(yè)
一文看懂文本挖掘_第3頁(yè)
一文看懂文本挖掘_第4頁(yè)
一文看懂文本挖掘_第5頁(yè)
免費(fèi)預(yù)覽已結(jié)束,剩余1頁(yè)可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、一文看懂什么是文本挖掘SAS中文論壇今天一、什么是文本挖掘文本挖掘指的是從文本數(shù)據(jù)中獲取有價(jià)值的信息和知識(shí),它是數(shù)據(jù)挖 掘中的一種方法。文本挖掘中最重要最基本的應(yīng)用是實(shí)現(xiàn)文本的分類 和聚類,前者是有監(jiān)督的挖掘算法,后者是無監(jiān)督的挖掘算法。文本挖掘是一個(gè)多學(xué)科混雜的領(lǐng)域, 涵蓋了多種技術(shù),包括數(shù)據(jù)挖掘 技術(shù)、信息抽取、信息檢索,機(jī)器學(xué)習(xí)、自然語言處理、計(jì)算語言學(xué)、 統(tǒng)計(jì)數(shù)據(jù)分析、線性幾何、概率理論甚至還有圖論。二、文本挖掘有什么用1。文本分類文本分類是一種典型的機(jī)器學(xué)習(xí)方法,一般分為訓(xùn)練和分類兩個(gè) 階段。文本分類一般采用統(tǒng)計(jì)方法或機(jī)器學(xué)習(xí)來實(shí)現(xiàn) .2 .文本聚類文本聚類是一種典型的無監(jiān)督式機(jī)器學(xué)

2、習(xí)方法, 聚類方法的選擇 取決于數(shù)據(jù)類型。首先,文檔聚類可以發(fā)現(xiàn)與某文檔相似的一批文檔,幫助知識(shí)工 作者發(fā)現(xiàn)相關(guān)知識(shí);其次,文檔聚類可以將一類文檔聚類成若干個(gè)類, 提供一種組織文檔集合的方法;再次,文檔聚類還可以生成分類器以 對(duì)文檔進(jìn)行分類.文本挖掘中的聚類可用于:提供大規(guī)模文檔內(nèi)容總括;識(shí)別隱藏 的文檔間的相似度;減輕瀏覽相關(guān)、相似信息的過程。3 .信息檢索主要是利用計(jì)算機(jī)系統(tǒng)的快速計(jì)算能力, 從海量文檔中尋找用戶 需要的相關(guān)文檔。4 .信息抽取信息抽取是把文本里包含的信息進(jìn)行結(jié)構(gòu)化處理,變成表格一樣 的組織形式。輸入信息抽取系統(tǒng)的是原始文本,輸出的是固定格式的 信息。5。自動(dòng)文摘利用計(jì)算機(jī)

3、自動(dòng)的從原始文檔中提取出文檔的主要內(nèi)容?;ヂ?lián)網(wǎng)上的文本信息、機(jī)構(gòu)內(nèi)部的文檔及數(shù)據(jù)庫(kù)的內(nèi)容都在成指數(shù)級(jí)的速度 增長(zhǎng),用戶在檢索信息的時(shí)候,可以得到成千上萬篇的返回結(jié)果,其 中許多是與其信息需求無關(guān)或關(guān)系不大的, 如果要剔除這些文檔,則 必須閱讀完全文,這要求用戶付出很多勞動(dòng),而且效果不好。自動(dòng)文摘能夠生成簡(jiǎn)短的關(guān)于文檔內(nèi)容的指示性信息, 將文檔的主要 內(nèi)容呈現(xiàn)給用戶,以決定是否要閱讀文檔的原文,這樣能夠節(jié)省大量 的瀏覽時(shí)間。簡(jiǎn)單地說自動(dòng)文摘就是利用計(jì)算機(jī)自動(dòng)地從原始文檔中 提取全面準(zhǔn)確地反映該文檔中心內(nèi)容的簡(jiǎn)單連貫的短文。自動(dòng)文摘具有以下特點(diǎn):自動(dòng)文摘應(yīng)能將原文的主題思想或中心內(nèi)容自動(dòng)提取出來。

4、(2)文摘應(yīng)具有概況性、客觀性、可理解性和可讀性。(3)可適用于任意領(lǐng)域。按照生成文摘的句子來源,自動(dòng)文摘方法可以分成兩類,一類是 完全使用原文中的句子來生成文摘,另一類是可以自動(dòng)生成句子來表 達(dá)文檔的內(nèi)容。后者的功能更強(qiáng)大,但在實(shí)現(xiàn)的時(shí)候,自動(dòng)生成句子是一個(gè)比較復(fù)雜的問題,經(jīng)常出現(xiàn)產(chǎn)生的新句子不能被理解的情況, 因此目前大多用的是抽取生成法。6。自動(dòng)問答自動(dòng)問答是指對(duì)于用戶提出的問題,計(jì)算機(jī)可以自動(dòng)的從相關(guān)資 料中求解答案并作出相應(yīng)的回答。自動(dòng)問答系統(tǒng)一般包括3個(gè)組成部分:?jiǎn)栴}分析、信息檢索和答案抽取。7。機(jī)器翻譯利用計(jì)算機(jī)將一種源語言轉(zhuǎn)變?yōu)榱硪环N源語言的過程 .8。信息過濾指計(jì)算機(jī)系統(tǒng)可以

5、自動(dòng)的進(jìn)行過濾操作,將滿足條件的信息保 留,將不滿足條件的文檔過濾掉.信息過濾技術(shù)主要用于信息安全領(lǐng) 域。9.自動(dòng)語音識(shí)別自動(dòng)語音識(shí)別就是將輸入計(jì)算機(jī)的自然語言轉(zhuǎn)換成文本表示的書面語。三、文本挖掘操作步驟1。獲取文本現(xiàn)有文本數(shù)據(jù)導(dǎo)入,或者通過如網(wǎng)絡(luò)爬蟲等技術(shù)獲取網(wǎng)絡(luò)文本,主要是獲取網(wǎng)頁(yè)HTML的形式。我們要把網(wǎng)絡(luò)中的文本獲取文本數(shù)據(jù) 庫(kù)(數(shù)據(jù)集)。編寫爬蟲程序,抓取到網(wǎng)絡(luò)中的信息。2.文本預(yù)處理指剔除噪聲文檔以改進(jìn)挖掘精度,或者在文檔數(shù)量過多時(shí)僅選取 一部分樣本以提高挖掘效率.例如網(wǎng)頁(yè)中存在很多不必要的信息,比如說一些廣告,導(dǎo)航欄,html、js代碼,注釋等等并不需要的信息,可以刪除掉.如果是

6、需要正 文提取,可以利用標(biāo)簽用途、標(biāo)簽密度判定、數(shù)據(jù)挖掘思想、視覺網(wǎng) 頁(yè)塊分析技術(shù)等等策略抽取出正文。3。文本的語言學(xué)處理(1)分詞經(jīng)過上面的步驟,我們會(huì)得到比較干凈的素材。文本中起到關(guān)鍵 作用的是一些詞,甚至主要詞就能起到?jīng)Q定文本取向。 比如說一篇文 章講的是政治還是經(jīng)濟(jì),肯定是對(duì)文章中的中心詞進(jìn)行分析得到的結(jié) 果。所以接下來的步驟就是分詞。分詞就是將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的 過程。我們知道,在英文的行文中,單詞之間是以空格作為自然分界 符的,而中文只是字、句和段能通過明顯的分界符來簡(jiǎn)單劃界,唯獨(dú) 詞沒有一個(gè)形式上的分界符,雖然英文也同樣存在短語的劃分問題,不過在詞這一層

7、上,中文比之英文要復(fù)雜得多、困難得多?,F(xiàn)在針對(duì)中文分詞,出現(xiàn)了很多分詞的算法,有最大匹配法、最 優(yōu)匹配法、機(jī)械匹配法、逆向匹配法、雙向匹配法等等 .(2)詞性標(biāo)注同時(shí)也可以使用詞性標(biāo)注。通過很多分詞工具分出來的出會(huì)出現(xiàn) 一個(gè)詞,外加該詞的詞性.比如說啊是語氣助詞。(3)去除停用詞比如說句號(hào)、是、的等詞,沒有什么實(shí)際的意義。然而這些詞在 所有的文章中都大量存在,并不能反應(yīng)出文本的意思,可以處理掉.當(dāng)然針對(duì)不同的應(yīng)用還有很多其他詞性也是可以去掉的,比如形容詞 等。4。文本的數(shù)學(xué)處理-特征提取我們希望獲取到的詞匯,既能保留文本的信息,同時(shí)又能反映它 們的相對(duì)重要性。如果對(duì)所有詞語都保留,維度會(huì)特別高

8、,矩陣將會(huì) 變得特別稀疏,嚴(yán)重影響到挖掘結(jié)果。所以這就需要特征提取 . 特征選取的方式有4種:(1)用映射或變換的方法把原始特征變換為較少的新特征;(2)從原始特征中挑選出一些最具代表性的特征;(3)根據(jù)專家的知識(shí)挑選最有影響的特征;(4)用數(shù)學(xué)的方法進(jìn)行選取,找出最具分類信息的特征,這種 方法是一種比較精確的方法,人為因素的干擾較少,尤其適合于文本 自動(dòng)分類挖掘系統(tǒng)的應(yīng)用。5 .分類聚類經(jīng)過上面的步驟之后,我們就可以把文本集轉(zhuǎn)化成一個(gè)矩陣.我們能夠利用各種算法進(jìn)行挖掘,比如說如果要對(duì)文本集進(jìn)行分類,分 類常用的方法有:簡(jiǎn)單貝葉斯分類法,矩陣變換法、K最近鄰參照分類算法以及支持向量機(jī)分類方法等。聚類方法通常有:層次聚類法、平面劃分法、簡(jiǎn)單貝葉斯聚類法、 K-最近鄰聚類法、分級(jí)聚類法等。6 .數(shù)據(jù)可視化最后一步當(dāng)然就是數(shù)據(jù)結(jié)構(gòu)的可視化展示,通過合適的可視化圖形生動(dòng)形象展示,讓讀者聽眾更容易理解你所要表達(dá)的信息.文本可視化最常用的圖形就是詞云。四、文本挖掘工具1 .python 語言 jieba、gensim、sklearn、WordCloud和 matplotl

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論