




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、數(shù)據(jù)挖掘中的文本挖掘張聰目錄Contents一三二四結(jié)語(yǔ)文本挖掘過(guò)程文本挖掘的主要研究方向關(guān)于數(shù)據(jù)挖掘和文本挖掘一數(shù)據(jù)挖掘與文本挖掘Data Mining and Text Mining 數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中自動(dòng)搜索隱藏于其中的有著特殊關(guān)系性(屬于Association rule learning)的信息的過(guò)程。數(shù)據(jù)挖掘通常與計(jì)算機(jī)科學(xué)有關(guān),并通過(guò)統(tǒng)計(jì)、在線分析處理、情報(bào)檢索、機(jī)器學(xué)習(xí)、專家系統(tǒng)(依靠過(guò)去的經(jīng)驗(yàn)法則)和模式識(shí)別等諸多方法來(lái)實(shí)現(xiàn)上述目標(biāo)。 文本挖掘一般指文本處理過(guò)程中產(chǎn)生高質(zhì)量的信息,其主要處理過(guò)程是對(duì)大量文檔集合的內(nèi)容進(jìn)行預(yù)處理、特征提取、結(jié)構(gòu)分析、文本摘要、文本分類
2、、文本聚類、關(guān)聯(lián)分析等操作。高質(zhì)量的信息通常通過(guò)分類和預(yù)測(cè)來(lái)產(chǎn)生,如模式識(shí)別。文本挖掘基于單文檔的文本挖掘文本摘要信息提取基于文檔集的文本挖掘文本分類文本聚類個(gè)性化文本過(guò)濾文檔作者歸屬因素分析文本挖掘的分類二文本挖掘的主要研究方向Main Research Direction of Text Mining文本挖掘12534文本檢索文本分類文本聚類網(wǎng)絡(luò)瀏覽文檔總結(jié)網(wǎng)絡(luò)瀏覽文本挖掘技術(shù)可以通過(guò)分析用戶的網(wǎng)絡(luò)行為等 ,幫助用戶更好地尋找有用信息一個(gè)典型的例子是 CMU的WebWatcher 。這是一個(gè)在線用戶向?qū)В?可以根據(jù)用戶的實(shí)際點(diǎn)擊行為分析用戶的興趣 , 預(yù)測(cè)用戶將要選擇的鏈接 , 從而為用戶
3、進(jìn)行導(dǎo)航 。文本檢索文本檢索主要研究對(duì)整個(gè)文檔文本信息的表示 、存諸、組織和訪問(wèn) ,即根據(jù)用戶的檢索要求, 從數(shù)據(jù)庫(kù)中檢索出相關(guān)的信息資料。主要檢索方法有三種 :布爾模型是簡(jiǎn)單常用的嚴(yán)格匹配模型;概率模型利用詞條間和詞條與文檔間的概率相關(guān)性進(jìn)行信息檢索;向量空間模型在于將文檔信息的匹配問(wèn)題轉(zhuǎn)化為向量空間中的矢量匹配問(wèn)題處理。文本分類文本分類是指按照預(yù)先定義的主題類別, 為文檔集合中的每個(gè)文檔確定一個(gè)類別。這樣用戶不僅可以方便地閱讀文檔, 而且可以通過(guò)限制搜索范圍來(lái)使文檔查找更容易 。近年來(lái)涌現(xiàn)出了大量的適合于不同應(yīng)用的分類算法,如:基于歸納學(xué)習(xí)的決策樹(shù)、基于向量空間模型的 K-最近鄰、基于概率
4、模型的 Bayes 分類器 、神經(jīng)網(wǎng)絡(luò) 、基于統(tǒng)計(jì)學(xué)習(xí)理論的支持向量機(jī)方法等文本聚類與文本分類相對(duì)應(yīng)的是文本自動(dòng)聚類 。文本聚類是一種典型的無(wú)監(jiān)督機(jī)器學(xué)習(xí)問(wèn)題 。它與文本分類的不同之處在于, 聚類沒(méi)有預(yù)先定義好的主題類別, 它的目標(biāo)是將文檔集合分成若干個(gè)簇 ,要求同一簇內(nèi)文檔內(nèi)容的相似度盡可能大, 而不同簇間的相似度盡可能小 。文檔總結(jié)文檔總結(jié)也是 Web 文本挖掘的一個(gè)重要內(nèi)容 。它是指從文檔中抽取關(guān)鍵信息 ,用簡(jiǎn)潔的形式 ,對(duì)文檔內(nèi)容進(jìn)行摘要和解釋, 這樣用戶不需閱讀全文就可了解文檔或文檔集合的總體內(nèi)容 。搜索引擎向用戶返回查詢結(jié)果時(shí), 通常需要給出文檔摘要 ,這就是文檔總結(jié)的一個(gè)實(shí)例 。
5、三文本挖掘過(guò)程Process of Text Mining文本挖掘過(guò)程圖示文本預(yù)處理文本預(yù)處理是文本挖掘的第一個(gè)步驟, 對(duì)文本挖掘效果的影響至關(guān)重要, 文本的預(yù)處理過(guò)程可能占據(jù)整個(gè)系統(tǒng)的 80 %的工作量。與傳統(tǒng)的數(shù)據(jù)庫(kù)中的結(jié)構(gòu)化數(shù)據(jù)相比,文檔具有有限的結(jié)構(gòu),或者根本就沒(méi)有結(jié)構(gòu)即使具有一些結(jié)構(gòu),也還是著重于格式,而非文檔的內(nèi)容,且沒(méi)有統(tǒng)一的結(jié)構(gòu),因此需要對(duì)這些文本數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘中相應(yīng)的標(biāo)準(zhǔn)化預(yù)處理;此外文檔的內(nèi)容是使用自然語(yǔ)言描述,計(jì)算機(jī)難以直接處理其語(yǔ)義,所以還需要進(jìn)行文本數(shù)據(jù)的信息預(yù)處理。信息預(yù)處理的主要目的是抽取代表文本特征的元數(shù)據(jù)(特征項(xiàng)),這些特征可以用結(jié)構(gòu)化的形式保存,作為文檔的
6、中間表示形式。文本的表示基于自然語(yǔ)言處理和統(tǒng)計(jì)數(shù)據(jù)分析的文本挖掘中的文本特征表示指的是對(duì)從文本中抽取出的元數(shù)據(jù)(特征項(xiàng))進(jìn)行量化,以結(jié)構(gòu)化形式描述文檔信息。這些特征項(xiàng)作為文檔的中間表示形式,在信息挖掘時(shí)用以評(píng)價(jià)未知文檔與用戶目標(biāo)的吻合程度,這一步又叫做目標(biāo)表示。文本表示的模型常用的有:布爾邏輯模型, 向量空間模型潛在語(yǔ)義索引和概率模型。其中VSM是使用最多的方法也是效率最好的方法。VSM的基本思想是使用詞袋法表示文本,這種表示法的一個(gè)關(guān)鍵假設(shè),就是文章中詞條出現(xiàn)的先后次序是無(wú)關(guān)緊要的,每個(gè)特征詞對(duì)應(yīng)特征空間的一維,將文本表示成歐氏空間的一個(gè)向量。特征集約減通常,特征子集的提取是通過(guò)構(gòu)造一個(gè)特征
7、評(píng)估函數(shù),對(duì)特征集中的每個(gè)特征進(jìn)行評(píng)估,每個(gè)特征獲得一個(gè)評(píng)估分?jǐn)?shù),然后對(duì)所有的特征按照評(píng)估分大小進(jìn)行排序,選取預(yù)定數(shù)目的最佳特征作為特征子集。特征集約減的目的有三個(gè):1)為了提高程序效率,提高運(yùn)行速度;2)數(shù)萬(wàn)維的特征對(duì)文本分類的意義是不同的,一些通用的、各個(gè)類別都普遍存在的特征對(duì)分類的貢獻(xiàn)小,在某個(gè)特定的類中出現(xiàn)的比重大而在其他類中出現(xiàn)比重小的特征對(duì)文本的貢獻(xiàn)大 。3)防止過(guò)擬合(Overfit)。對(duì)每一類,去除對(duì)分類貢獻(xiàn)小的特征,篩選出針對(duì)反映該類的特征集合。一個(gè)有效的特征集直觀上說(shuō)必須具備以下兩個(gè)特點(diǎn): 1)完全性:確實(shí)體現(xiàn)目標(biāo)文檔的內(nèi)容; 2)區(qū)分性:能將目標(biāo)文檔同其他文檔區(qū)分開(kāi)來(lái)。文
8、本挖掘方法常用的文本分類方法有基于概率模型的方法,如樸素Bayes方法,隱馬爾可夫模型等;基于關(guān)系學(xué)習(xí)的決策樹(shù)方法等;基于統(tǒng)計(jì)學(xué)習(xí)的支持向量機(jī)方法等;基于向量空間模型的K-近鄰分類法和神經(jīng)網(wǎng)絡(luò)方法等。 常用的聚類劃分方法有K-平均算法和K-中心算法。K-平均算法是劃分方法中基于質(zhì)心技術(shù)的一種算法,以K為參數(shù),把n個(gè)對(duì)象分為K個(gè)簇,以使簇內(nèi)具有較高的相似度,而簇間的相似度較低,相似度的計(jì)算根據(jù)一個(gè)簇內(nèi)對(duì)象的平均值(質(zhì)心)來(lái)計(jì)算。K-平均算法對(duì)于孤立點(diǎn)敏感,為消除這種敏感性不采用簇中對(duì)象平均值作為參考點(diǎn),而選用簇中位置最中心的對(duì)象為參考點(diǎn),這就是K-中心算法。 四結(jié)語(yǔ)Summary 文本挖掘和數(shù)據(jù)
9、挖掘在目的上是一致的,都是試圖從大量的信息中抽取知識(shí)。數(shù)據(jù)挖掘是從原始數(shù)據(jù)中抽取,而文本挖掘則是從文本材料中抽取。文本挖掘也就可以看成一種數(shù)據(jù)挖掘,但是數(shù)據(jù)挖掘傾向于非常精確和結(jié)構(gòu)化,多數(shù)研究只考慮從數(shù)據(jù)庫(kù)中抽取知識(shí), 這正是許多數(shù)據(jù)挖掘技術(shù)并不能自如地應(yīng)用于文本挖掘領(lǐng)域的原因。 另外在對(duì)文本集進(jìn)行相關(guān)分析時(shí),往往會(huì)損失文本中的大量信息,這種信息的遺漏,會(huì)影響到挖掘的效果,因此還要探索更高效的文本挖掘新方法。文本挖掘最大的動(dòng)機(jī)來(lái)自于潛藏在電子形式的文本中的大量數(shù)據(jù)。將來(lái)的工作如何將現(xiàn)存的數(shù)據(jù)挖掘技術(shù)應(yīng)用與文本挖掘領(lǐng)域很好地融合,那樣文本挖掘就能夠更有效地進(jìn)行; 發(fā)展全新的非結(jié)構(gòu)化文本挖掘算法; 將文本挖掘與自然語(yǔ)言處理、計(jì)算語(yǔ)言學(xué)等有效集成, 處理文檔中的語(yǔ)義關(guān)系。感謝聆聽(tīng)!張聰人有了知識(shí),就會(huì)具備各種分析能力,明辨是非
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 軟件評(píng)審報(bào)告范文
- 燃?xì)庋芯繄?bào)告范文
- 清遠(yuǎn)風(fēng)險(xiǎn)調(diào)查報(bào)告范文
- 浙江國(guó)企招聘2024金華農(nóng)產(chǎn)品批發(fā)市場(chǎng)有限公司招聘1人筆試參考題庫(kù)附帶答案詳解
- 汽車業(yè)務(wù)實(shí)訓(xùn)報(bào)告范文
- 二零二五年度新能源汽車專用車位使用權(quán)轉(zhuǎn)讓及維護(hù)協(xié)議
- 2025年度私募基金份額代持與風(fēng)險(xiǎn)隔離管理合同
- 石家莊市2025年度勞動(dòng)合同解除爭(zhēng)議處理流程
- 二零二五年度水溝蓋板行業(yè)專利申請(qǐng)與保護(hù)合同
- 二零二五年度電子產(chǎn)品跨界合作開(kāi)發(fā)合同
- 固定翼無(wú)人機(jī)飛行原理課件
- 《母嬰護(hù)理》課程標(biāo)準(zhǔn)
- 軟基處治面積四方聯(lián)測(cè)測(cè)量記錄表(清淤后)
- 考試通用答題卡word模板
- 尾礦庫(kù)安全檢查表
- 解除、終止勞動(dòng)合同通知書(shū)范本
- 勞動(dòng)定額定員標(biāo)準(zhǔn)化1(孫義敏)
- 深信服桌面云方案
- 2021年深圳實(shí)驗(yàn)學(xué)校初中部七年級(jí)入學(xué)分班考試數(shù)學(xué)試卷及答案解析
- ??怂箍等鴺?biāo)測(cè)量?jī)x的使用課件
- 高血壓臨床路徑
評(píng)論
0/150
提交評(píng)論