數(shù)據(jù)挖掘中的文本挖掘_第1頁
數(shù)據(jù)挖掘中的文本挖掘_第2頁
數(shù)據(jù)挖掘中的文本挖掘_第3頁
數(shù)據(jù)挖掘中的文本挖掘_第4頁
數(shù)據(jù)挖掘中的文本挖掘_第5頁
已閱讀5頁,還剩17頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、,數(shù)據(jù)挖掘中的文本挖掘,張聰,1,目錄 Contents,一,三,二,四,結(jié)語,文本挖掘過程,文本挖掘的主要研究方向,關(guān)于數(shù)據(jù)挖掘和文本挖掘,2,2020/10/20,一,數(shù)據(jù)挖掘與文本挖掘,Data Mining and Text Mining,3,2020/10/20,數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中自動搜索隱藏于其中的有著特殊關(guān)系性(屬于Association rule learning)的信息的過程。數(shù)據(jù)挖掘通常與計算機科學有關(guān),并通過統(tǒng)計、在線分析處理、情報檢索、機器學習、專家系統(tǒng)(依靠過去的經(jīng)驗法則)和模式識別等諸多方法來實現(xiàn)上述目標。,文本挖掘一般指文本處理過程中產(chǎn)生高質(zhì)量的信息,

2、其主要處理過程是對大量文檔集合的內(nèi)容進行預(yù)處理、特征提取、結(jié)構(gòu)分析、文本摘要、文本分類、文本聚類、關(guān)聯(lián)分析等操作。高質(zhì)量的信息通常通過分類和預(yù)測來產(chǎn)生,如模式識別。,4,2020/10/20,文本挖掘的分類,5,2020/10/20,二,文本挖掘的主要研究方向,Main Research Direction of Text Mining,6,2020/10/20,文本檢索,文本分類,文本聚類,網(wǎng)絡(luò)瀏覽,文檔總結(jié),7,2020/10/20,網(wǎng)絡(luò)瀏覽,文本挖掘技術(shù)可以通過分析用戶的網(wǎng)絡(luò)行為等 ,幫助用戶更好地尋找有用信息,一個典型的例子是 CMU的WebWatcher 。這是一個在線用戶向?qū)В?可

3、以根據(jù)用戶的實際點擊行為分析用戶的興趣 , 預(yù)測用戶將要選擇的鏈接 , 從而為用戶進行導航 。,8,2020/10/20,文本檢索,文本檢索主要研究對整個文檔文本信息的表示 、存諸、組織和訪問 ,即根據(jù)用戶的檢索要求, 從數(shù)據(jù)庫中檢索出相關(guān)的信息資料。,主要檢索方法有三種 :布爾模型是簡單常用的嚴格匹配模型;概率模型利用詞條間和詞條與文檔間的概率相關(guān)性進行信息檢索;向量空間模型在于將文檔信息的匹配問題轉(zhuǎn)化為向量空間中的矢量匹配問題處理。,9,2020/10/20,文本分類,文本分類是指按照預(yù)先定義的主題類別, 為文檔集合中的每個文檔確定一個類別。這樣用戶不僅可以方便地閱讀文檔, 而且可以通過限

4、制搜索范圍來使文檔查找更容易 。,近年來涌現(xiàn)出了大量的適合于不同應(yīng)用的分類算法,如:基于歸納學習的決策樹、基于向量空間模型的 K-最近鄰、基于概率模型的 Bayes 分類器 、神經(jīng)網(wǎng)絡(luò) 、基于統(tǒng)計學習理論的支持向量機方法等,10,2020/10/20,文本聚類,與文本分類相對應(yīng)的是文本自動聚類 。文本聚類是一種典型的無監(jiān)督機器學習問題 。,它與文本分類的不同之處在于, 聚類沒有預(yù)先定義好的主題類別, 它的目標是將文檔集合分成若干個簇 ,要求同一簇內(nèi)文檔內(nèi)容的相似度盡可能大, 而不同簇間的相似度盡可能小 。,11,2020/10/20,文檔總結(jié),文檔總結(jié)也是 Web 文本挖掘的一個重要內(nèi)容 。它

5、是指從文檔中抽取關(guān)鍵信息 ,用簡潔的形式 ,對文檔內(nèi)容進行摘要和解釋, 這樣用戶不需閱讀全文就可了解文檔或文檔集合的總體內(nèi)容 。,搜索引擎向用戶返回查詢結(jié)果時, 通常需要給出文檔摘要 ,這就是文檔總結(jié)的一個實例 。,12,2020/10/20,三,文本挖掘過程,Process of Text Mining,13,2020/10/20,文本挖掘過程圖示,14,2020/10/20,文本預(yù)處理,文本預(yù)處理是文本挖掘的第一個步驟, 對文本挖掘效果的影響至關(guān)重要, 文本的預(yù)處理過程可能占據(jù)整個系統(tǒng)的 80 %的工作量。,與傳統(tǒng)的數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù)相比,文檔具有有限的結(jié)構(gòu),或者根本就沒有結(jié)構(gòu)即使具有一

6、些結(jié)構(gòu),也還是著重于格式,而非文檔的內(nèi)容,且沒有統(tǒng)一的結(jié)構(gòu),因此需要對這些文本數(shù)據(jù)進行數(shù)據(jù)挖掘中相應(yīng)的標準化預(yù)處理;,此外文檔的內(nèi)容是使用自然語言描述,計算機難以直接處理其語義,所以還需要進行文本數(shù)據(jù)的信息預(yù)處理。信息預(yù)處理的主要目的是抽取代表文本特征的元數(shù)據(jù)(特征項),這些特征可以用結(jié)構(gòu)化的形式保存,作為文檔的中間表示形式。,15,2020/10/20,文本的表示,基于自然語言處理和統(tǒng)計數(shù)據(jù)分析的文本挖掘中的文本特征表示指的是對從文本中抽取出的元數(shù)據(jù)(特征項)進行量化,以結(jié)構(gòu)化形式描述文檔信息。這些特征項作為文檔的中間表示形式,在信息挖掘時用以評價未知文檔與用戶目標的吻合程度,這一步又叫做目

7、標表示。,文本表示的模型常用的有:布爾邏輯模型, 向量空間模型潛在語義索引和概率模型。其中VSM是使用最多的方法也是效率最好的方法。VSM的基本思想是使用詞袋法表示文本,這種表示法的一個關(guān)鍵假設(shè),就是文章中詞條出現(xiàn)的先后次序是無關(guān)緊要的,每個特征詞對應(yīng)特征空間的一維,將文本表示成歐氏空間的一個向量。,16,2020/10/20,特征集約減,通常,特征子集的提取是通過構(gòu)造一個特征評估函數(shù),對特征集中的每個特征進行評估,每個特征獲得一個評估分數(shù),然后對所有的特征按照評估分大小進行排序,選取預(yù)定數(shù)目的最佳特征作為特征子集。,特征集約減的目的有三個:1)為了提高程序效率,提高運行速度;2)數(shù)萬維的特征

8、對文本分類的意義是不同的,一些通用的、各個類別都普遍存在的特征對分類的貢獻小,在某個特定的類中出現(xiàn)的比重大而在其他類中出現(xiàn)比重小的特征對文本的貢獻大 。3)防止過擬合(Overfit)。對每一類,去除對分類貢獻小的特征,篩選出針對反映該類的特征集合。,一個有效的特征集直觀上說必須具備以下兩個特點: 1)完全性:確實體現(xiàn)目標文檔的內(nèi)容; 2)區(qū)分性:能將目標文檔同其他文檔區(qū)分開來。,17,2020/10/20,文本挖掘方法,常用的文本分類方法有基于概率模型的方法,如樸素Bayes方法,隱馬爾可夫模型等;基于關(guān)系學習的決策樹方法等;基于統(tǒng)計學習的支持向量機方法等;基于向量空間模型的K-近鄰分類法和

9、神經(jīng)網(wǎng)絡(luò)方法等。,常用的聚類劃分方法有K-平均算法和K-中心算法。K-平均算法是劃分方法中基于質(zhì)心技術(shù)的一種算法,以K為參數(shù),把n個對象分為K個簇,以使簇內(nèi)具有較高的相似度,而簇間的相似度較低,相似度的計算根據(jù)一個簇內(nèi)對象的平均值(質(zhì)心)來計算。K-平均算法對于孤立點敏感,為消除這種敏感性不采用簇中對象平均值作為參考點,而選用簇中位置最中心的對象為參考點,這就是K-中心算法。,18,2020/10/20,四,結(jié)語,Summary,19,2020/10/20,文本挖掘和數(shù)據(jù)挖掘在目的上是一致的,都是試圖從大量的信息中抽取知識。數(shù)據(jù)挖掘是從原始數(shù)據(jù)中抽取,而文本挖掘則是從文本材料中抽取。文本挖掘也就可以看成一種數(shù)據(jù)挖掘,但是數(shù)據(jù)挖掘傾向于非常精確和結(jié)構(gòu)化,多數(shù)研究只考慮從數(shù)據(jù)庫中抽取知識, 這正是許多數(shù)據(jù)挖掘技術(shù)并不能自如地應(yīng)用于文本挖掘領(lǐng)域的原因。,另外在對文本集進行相關(guān)分析時,往往會損失文本中的大量信息,這種信息的遺漏,會影響到挖掘的效果,因此還要探索更高效的文本挖掘新方法。文本挖掘最大的動機來自于潛藏在電子形式的文本中的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論