數(shù)據(jù)挖掘中的文本挖掘的分類算法綜述_第1頁
數(shù)據(jù)挖掘中的文本挖掘的分類算法綜述_第2頁
數(shù)據(jù)挖掘中的文本挖掘的分類算法綜述_第3頁
數(shù)據(jù)挖掘中的文本挖掘的分類算法綜述_第4頁
數(shù)據(jù)挖掘中的文本挖掘的分類算法綜述_第5頁
已閱讀5頁,還剩35頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

數(shù)據(jù)挖掘中的文本挖掘的分類算法綜述摘要 隨著Internet上文檔信息的迅猛發(fā)展,文本分類成為處理和組織大量文檔數(shù)據(jù)的關鍵技術。本文首先對數(shù)據(jù)挖掘進行了概述包括數(shù)據(jù)挖掘的常用方法、功能以及存在的主要問題;其次對數(shù)據(jù)挖掘領域較為活躍的文本挖掘的歷史演化、研究現(xiàn)狀、主要內(nèi)容、相關技術以及熱點難點問題進行了探討;在第三章先分析了文本分類的現(xiàn)狀和相關問題,隨后詳細介紹了常用的文本分類算法,包括KNN文本分類算法、特征選擇方法、支持向量機文本分類算法和樸素貝葉斯文本分類算法;;第四章對KNN文本分類算法進行深入的研究,包括基于統(tǒng)計和LSA降維的KNN文本分類算法;第五章對數(shù)據(jù)挖掘、文本挖掘和文本分類的在信息領域以及商業(yè)領域的應用做了詳細的預測分析;最后對全文工作進行了總結和展望。關鍵詞:數(shù)據(jù)挖掘,文本挖掘,文本分類算法ABSTRACT WiththedevelopmentofWeb2.0,thenumberofdocumentsontheInternetincreasesexponentially.Oneimportantresearchfocusonhowtodealwiththesegreatcapacityofonlinedocuments.Textclassificationisonecrucialpartofinformationmanagement.Inthispaperwefirstintroducethebasicinformationofdatamining,includingthemethods,contentsandthemainexistingproblemsindataminingfields;thenwediscussedthetextmining,oneactivefieldofdatamining,toprovideabasicfoundationfortextclassification.AndseveralcommonalgorithmsareanalyzedinChapter3.Inchapter4thoroughresearchofKNNtextclassificationalgorithmsareillustratedincludingthestatisticalanddimensionreductionbasedonLSAandinchapter5wemakesomepredictionsfordatamining,textminingandtextclassificationandfinallyweconcludeourwork.KEYWORDS:datamining,textmining,textclassificationalgorithms,KNN目錄摘要 1ABSTRACT 1目錄 2第一章數(shù)據(jù)挖掘概述 31.1數(shù)據(jù)挖掘介紹 31.2數(shù)據(jù)挖掘常用方法 41.3數(shù)據(jù)挖掘的功能 51.4數(shù)據(jù)挖掘的主要問題 5第二章文本挖掘概述 82.1文本挖掘介紹 82.1.1文本挖掘的歷史演化 82.1.2文本挖掘的定義 82.1.3文本挖掘的研究現(xiàn)狀 92.2文本挖掘主要內(nèi)容 92.3文本挖掘技術 102.3.1數(shù)據(jù)預處理技術 102.3.2數(shù)據(jù)挖掘分析技術 112.4文本挖掘熱點難點問題 12第三章文本分類算法 143.1文本分類概述 143.1.1文本分類的研究現(xiàn)狀 143.1.2文本分類模型 153.1.3文本分類面臨的挑戰(zhàn) 173.1.4文本分類亟需解決的問題 183.2常用文本分類算法 183.2.1文本分類中的特征選擇方法 193.3.2支持向量機文本分類算法 223.3.3樸素貝葉斯文本分類算法 23第四章KNN文本分類算法研究 274.1KNN文本分類算法介紹 274.2基于統(tǒng)計的KNN文本分類算法研究 274.3基于LSA降維的KNN文本分類算法研究 304.4其他改進的KNN文本分類算法 31第五章文本挖掘應用 345.1數(shù)據(jù)挖掘應用 345.1.1數(shù)據(jù)挖掘解決的典型商業(yè)問題 345.1.2數(shù)據(jù)挖掘在市場營銷的應用 345.1.3數(shù)據(jù)挖掘在企業(yè)危機管理中的應用 355.2文本挖掘應用 375.3文本分類應用 37第六章結論 39參考文獻 40第一章數(shù)據(jù)挖掘概述1.1數(shù)據(jù)挖掘介紹需要是發(fā)明之母。近年來,數(shù)據(jù)挖掘引起了信息產(chǎn)業(yè)界的極大關注,其主要原因是存在大量數(shù)據(jù),可以廣泛使用,并且迫切需要將這些數(shù)據(jù)轉換成有用的信息和知識。獲取的信息和知識可以廣泛用于各種應用,包括商務管理,生產(chǎn)控制,市場分析,工程設計和科學探索等REF_Ref291961586\r\h[1]。數(shù)據(jù)挖掘出現(xiàn)于20世紀80年代后期,是數(shù)據(jù)庫研究中一個很有應用價值的新領域,是一門交叉性學科,融合了人工智能、數(shù)據(jù)庫技術、模式識別、機器學習、統(tǒng)計學和數(shù)據(jù)可視化等多個領域的理論和技術.數(shù)據(jù)挖掘作為一種技術,它的生命周期正處于溝坎階段,需要時間和精力去研究、開發(fā)和逐步成熟,并最終為人們所接受。20世紀80年代中期,數(shù)據(jù)倉庫之父W.H.In-mon在《建立數(shù)據(jù)倉庫》(BuildingtheDataWarehouse)一書中定義了數(shù)據(jù)倉庫的概念,隨后又給出了更為精確的定義:數(shù)據(jù)倉庫是在企業(yè)管理和決策中面向主題的、集成的、時變的以及非易失的數(shù)據(jù)集合。與其他數(shù)據(jù)庫應用不同的是,數(shù)據(jù)倉庫更像一種過程—對分布在企業(yè)內(nèi)部各處的業(yè)務數(shù)據(jù)的整合、加工和分析的過程。傳統(tǒng)的數(shù)據(jù)庫管理系統(tǒng)(databasemanagementsystem,DBMS)的主要任務是聯(lián)機事務處理(on-linetransactionprocessing,OLTP);而數(shù)據(jù)倉庫則是在數(shù)據(jù)分析和決策方面提供服務,這種系統(tǒng)被稱為聯(lián)機分析處理(on-lineanalyticalprocessing,OLAP).OLAP的概念最早是由關系數(shù)據(jù)庫之父E.F.Codd于1993年提出的。當時,Codd認為OLTP已不能滿足終端用戶對數(shù)據(jù)庫查詢分析的需要,結構化查詢語言(structuredquerylanguage,SQL)對數(shù)據(jù)庫進行的簡單查詢也不能滿足用戶分析的需求.用戶的決策分析需要對關系數(shù)據(jù)庫進行大量計算才能得到結果,因此Codd提出了多維數(shù)據(jù)庫和多維分析的概念。數(shù)據(jù)挖掘(DataMining),就是從存放在數(shù)據(jù)庫,數(shù)據(jù)倉庫或其他信息庫中的大量的數(shù)據(jù)中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程。數(shù)據(jù)挖掘,在人工智能領域,習慣上又稱為數(shù)據(jù)庫中知識發(fā)現(xiàn)(KnowledgeDiscoveryinDatabase,KDD),也有人把數(shù)據(jù)挖掘視為數(shù)據(jù)庫中知識發(fā)現(xiàn)過程的一個基本步驟。知識發(fā)現(xiàn)過程以下三個階段組成:(1)數(shù)據(jù)準備,(2)數(shù)據(jù)挖掘,(3)結果表達和解釋。數(shù)據(jù)挖掘可以與用戶或知識庫交互。并非所有的信息發(fā)現(xiàn)任務都被視為數(shù)據(jù)挖掘。例如,使用數(shù)據(jù)庫管理系統(tǒng)查找個別的記錄,或通過因特網(wǎng)的搜索引擎查找特定的Web頁面,則是信息檢索(informationretrieval)領域的任務。雖然這些任務是重要的,可能涉及使用復雜的算法和數(shù)據(jù)結構,但是它們主要依賴傳統(tǒng)的計算機科學技術和數(shù)據(jù)的明顯特征來創(chuàng)建索引結構,從而有效地組織和檢索信息。盡管如此,數(shù)據(jù)挖掘技術也已用來增強信息檢索系統(tǒng)的能力。數(shù)據(jù)挖掘利用了來自如下一些領域的思想:(1)來自統(tǒng)計學的抽樣、估計和假設檢驗,(2)人工智能、模式識別和機器學習的搜索算法、建模技術和學習理論。數(shù)據(jù)挖掘也迅速地接納了來自其他領域的思想,這些領域包括最優(yōu)化、進化計算、信息論、信號處理、可視化和信息檢索。一些其他領域也起到重要的支撐作用。特別地,需要數(shù)據(jù)庫系統(tǒng)提供有效的存儲、索引和查詢處理支持。源于高性能(并行)計算的技術在處理海量數(shù)據(jù)集方面常常是重要的。分布式技術也能幫助處理海量數(shù)據(jù),并且當數(shù)據(jù)不能集中到一起處理時更是至關重要。因此,數(shù)據(jù)挖掘被信息產(chǎn)業(yè)界認為是數(shù)據(jù)庫系統(tǒng)最重要的前沿之一,是信息產(chǎn)業(yè)最有前途的交叉學科。1.2數(shù)據(jù)挖掘常用方法 利用數(shù)據(jù)挖掘進行數(shù)據(jù)分析常用的方法主要有分類、回歸分析、聚類、關聯(lián)規(guī)則、特征、變化和偏差分析、Web頁挖掘等,它們分別從不同的角度對數(shù)據(jù)進行挖掘。(1)分類。分類是找出數(shù)據(jù)庫中一組數(shù)據(jù)對象的共同特點并按照分類模式將其劃分為不同的類,其目的是通過分類模型,將數(shù)據(jù)庫中的數(shù)據(jù)項映射到某個給定的類別。它可以應用到客戶的分類、客戶的屬性和特征分析、客戶滿意度分析、客戶的購買趨勢預測等,如一個汽車零售商將客戶按照對汽車的喜好劃分成不同的類,這樣營銷人員就可以將新型汽車的廣告手冊直接郵寄到有這種喜好的客戶手中,從而大大增加了商業(yè)機會。(2)回歸分析?;貧w分析方法反映的是事務數(shù)據(jù)庫中屬性值在時間上的特征,產(chǎn)生一個將數(shù)據(jù)項映射到一個實值預測變量的函數(shù),發(fā)現(xiàn)變量或屬性間的依賴關系,其主要研究問題包括數(shù)據(jù)序列的趨勢特征、數(shù)據(jù)序列的預測以及數(shù)據(jù)間的相關關系等。它可以應用到市場營銷的各個方面,如客戶尋求、保持和預防客戶流失活動、產(chǎn)品生命周期分析、銷售趨勢預測及有針對性的促銷活動等。(3)聚類。聚類分析是把一組數(shù)據(jù)按照相似性和差異性分為幾個類別,其目的是使得屬于同一類別的數(shù)據(jù)間的相似性盡可能大,不同類別中的數(shù)據(jù)間的相似性盡可能小。它可以應用到客戶群體的分類、客戶背景分析、客戶購買趨勢預測、市場的細分等。(4)關聯(lián)規(guī)則。關聯(lián)規(guī)則是描述數(shù)據(jù)庫中數(shù)據(jù)項之間所存在的關系的規(guī)則,即根據(jù)一個事務中某些項的出現(xiàn)可導出另一些項在同一事務中也出現(xiàn),即隱藏在數(shù)據(jù)間的關聯(lián)或相互關系。在客戶關系管理中,通過對企業(yè)的客戶數(shù)據(jù)庫里的大量數(shù)據(jù)進行挖掘,可以從大量的記錄中發(fā)現(xiàn)有趣的關聯(lián)關系,找出影響市場營銷效果的關鍵因素,為產(chǎn)品定位、定價與定制客戶群,客戶尋求、細分與保持,市場營銷與推銷,營銷風險評估和詐騙預測等決策支持提供參考依據(jù)。(5)特征。特征分析是從數(shù)據(jù)庫中的一組數(shù)據(jù)中提取出關于這些數(shù)據(jù)的特征式,這些特征式表達了該數(shù)據(jù)集的總體特征。如營銷人員通過對客戶流失因素的特征提取,可以得到導致客戶流失的一系列原因和主要特征,利用這些特征可以有效地預防客戶的流失。(6)變化和偏差分析。偏差包括很大一類潛在有趣的知識,如分類中的反常實例,模式的例外,觀察結果對期望的偏差等,其目的是尋找觀察結果與參照量之間有意義的差別。在企業(yè)危機管理及其預警中,管理者更感興趣的是那些意外規(guī)則。意外規(guī)則的挖掘可以應用到各種異常信息的發(fā)現(xiàn)、分析、識別、評價和預警等方面。(7)Web頁挖掘。隨著Internet的迅速發(fā)展及Web的全球普及,使得Web上的信息量無比豐富,通過對Web的挖掘,可以利用Web的海量數(shù)據(jù)進行分析,收集政治、經(jīng)濟、政策、科技、金融、各種市場、競爭對手、供求信息、客戶等有關的信息,集中精力分析和處理那些對企業(yè)有重大或潛在重大影響的外部環(huán)境信息和內(nèi)部經(jīng)營信息,并根據(jù)分析結果找出企業(yè)管理過程中出現(xiàn)的各種問題和可能引起危機的先兆,對這些信息進行分析和處理,以便識別、分析、評價和管理危機。1.3數(shù)據(jù)挖掘的功能 數(shù)據(jù)挖掘通過預測未來趨勢及行為,做出前攝的、基于知識的決策。數(shù)據(jù)挖掘的目標是從數(shù)據(jù)庫中發(fā)現(xiàn)隱含的、有意義的知識,主要有以下五類功能。(1)自動預測趨勢和行為 數(shù)據(jù)挖掘自動在大型數(shù)據(jù)庫中尋找預測性信息,以往需要進行大量手工分析的問題如今可以迅速直接由數(shù)據(jù)本身得出結論。一個典型的例子是市場預測問題,數(shù)據(jù)挖掘使用過去有關促銷的數(shù)據(jù)來尋找未來投資中回報最大的用戶,其它可預測的問題包括預報破產(chǎn)以及認定對指定事件最可能作出反應的群體。(2)關聯(lián)分析數(shù)據(jù)關聯(lián)是數(shù)據(jù)庫中存在的一類重要的可被發(fā)現(xiàn)的知識。若兩個或多個變量的取值之間存在某種規(guī)律性,就稱為關聯(lián)。關聯(lián)可分為簡單關聯(lián)、時序關聯(lián)、因果關聯(lián)。關聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關聯(lián)網(wǎng)。有時并不知道數(shù)據(jù)庫中數(shù)據(jù)的關聯(lián)函數(shù),即使知道也是不確定的,因此關聯(lián)分析生成的規(guī)則帶有可信度。 (3)聚類數(shù)據(jù)庫中的記錄可被化分為一系列有意義的子集,即聚類。聚類增強了人們對客觀現(xiàn)實的認識,是概念描述和偏差分析的先決條件。聚類技術主要包括傳統(tǒng)的模式識別方法和數(shù)學分類學。80年代初,Mchalski提出了概念聚類技術牞其要點是,在劃分對象時不僅考慮對象之間的距離,還要求劃分出的類具有某種內(nèi)涵描述,從而避免了傳統(tǒng)技術的某些片面性。(4)概念描述概念描述就是對某類對象的內(nèi)涵進行描述,并概括這類對象的有關特征。概念描述分為特征性描述和區(qū)別性描述,前者描述某類對象的共同特征,后者描述不同類對象之間的區(qū)別。生成一個類的特征性描述只涉及該類對象中所有對象的共性。生成區(qū)別性描述的方法很多,如決策樹方法、遺傳算法等。(5)偏差檢測數(shù)據(jù)庫中的數(shù)據(jù)常有一些異常記錄,從數(shù)據(jù)庫中檢測這些偏差很有意義。偏差包括很多潛在的知識,如分類中的反常實例、不滿足規(guī)則的特例、觀測結果與模型預測值的偏差、量值隨時間的變化等。偏差檢測的基本方法是,尋找觀測結果與參照值之間有意義的差別。1.4數(shù)據(jù)挖掘的主要問題 數(shù)據(jù)挖掘的主要問題,涉及挖掘方法、用戶交互、性能和各種數(shù)據(jù)類型。這些問題介紹如下:1.數(shù)據(jù)挖掘技術和用戶交互問題:這反映所挖掘的知識類型、在多粒度上挖掘知識的能力、領域知識的使用、臨場即席挖掘和知識可視化。挖掘數(shù)據(jù)庫中不同類型的知識:由于不同的用戶可能對不同類型的知識感興趣,數(shù)據(jù)挖掘應當涵蓋范圍很廣的數(shù)據(jù)分析和知識發(fā)現(xiàn)任務,包括數(shù)據(jù)特征化、區(qū)分、關聯(lián)與相關分析、分類、預測、聚類、離群點分析和演變分析(包括趨勢和相似性分析)。這些任務可能以不同的方式使用相同的數(shù)據(jù)庫,并需要開發(fā)大量數(shù)據(jù)挖掘技術。多個抽象層的交互知識挖掘:由于很難準確地知道能夠在數(shù)據(jù)庫中發(fā)現(xiàn)什么,數(shù)據(jù)挖掘過程應當是交互的。對于包含海量數(shù)據(jù)的數(shù)據(jù)庫,首先應當使用適當?shù)某闃蛹夹g,進行交互式數(shù)據(jù)探查。交互式挖掘允許用戶聚焦搜索模式,根據(jù)返回的結果提出和精煉數(shù)據(jù)挖掘請求。特別,類似于OLAP對數(shù)據(jù)立方體所做的那樣,應當通過交互地在數(shù)據(jù)空間和知識空間下鉆、上卷和旋轉來挖掘知識。用這種方法,用戶可以與數(shù)據(jù)挖掘系統(tǒng)交互,以不同的粒度和從不同的角度觀察數(shù)據(jù)和發(fā)現(xiàn)模式。結合背景知識:可以使用背景知識或關于所研究領域的信息來指導發(fā)現(xiàn)過程,并使得發(fā)現(xiàn)的模式以簡潔的形式在不同的抽象層表示。關于數(shù)據(jù)庫的領域知識,如完整性約束和演繹規(guī)則,可以幫助聚焦和加快數(shù)據(jù)挖掘過程,或評估發(fā)現(xiàn)的模式的興趣度。數(shù)據(jù)挖掘查詢語言和特定的數(shù)據(jù)挖掘:關系查詢語言(如SQL)允許用戶提出特定的數(shù)據(jù)檢索查詢。類似地,需要開發(fā)高級數(shù)據(jù)挖掘查詢語言,使得用戶通過說明分析任務的相關數(shù)據(jù)集、領域知識、所挖掘的知識類型、被發(fā)現(xiàn)的模式必須滿足的條件和約束,描述特定的數(shù)據(jù)挖掘任務。這種語言應當與數(shù)據(jù)庫或數(shù)據(jù)倉庫查詢語言集成,并且對于有效的、靈活的數(shù)據(jù)挖掘是優(yōu)化的。數(shù)據(jù)挖掘結果的表示和可視化:發(fā)現(xiàn)的知識應當用高級語言、可視化表示或其他表示形式表示,使得知識易于理解,能夠直接被人們使用。如果數(shù)據(jù)挖掘系統(tǒng)是交互的,這一點尤其重要。這要求系統(tǒng)采用有表達能力的知識表示技術,如樹、表、規(guī)則、圖、圖表、交叉表、矩陣或曲線。處理噪聲和不完全數(shù)據(jù):存放在數(shù)據(jù)庫中的數(shù)據(jù)可能反映噪聲、異常情況或不完全的數(shù)據(jù)對象。在挖掘數(shù)據(jù)規(guī)律時,這些對象可能搞亂分析過程,導致所構造的知識模型過分擬合數(shù)據(jù)。其結果是,所發(fā)現(xiàn)的模式的準確性可能很差。需要處理數(shù)據(jù)噪聲的數(shù)據(jù)清理方法和數(shù)據(jù)分析方法,以及發(fā)現(xiàn)和分析異常情況的離群點挖掘方法。模式評估即興趣度問題:數(shù)據(jù)挖掘系統(tǒng)可能發(fā)現(xiàn)數(shù)以千計的模式。對于給定的用戶,所發(fā)現(xiàn)的許多模式都不是有趣的,因為它們表示常識或缺乏新穎性。關于開發(fā)模式興趣度的評估技術,特別是關于給定用戶類,基于用戶的信念或期望,評估模式價值的主觀度量仍然存在一些挑戰(zhàn)。使用興趣度度量或用戶指定的約束指導發(fā)現(xiàn)過程和壓縮搜索空間是又一個活躍的研究領域。2.性能問題:這包括數(shù)據(jù)挖掘算法的有效性、可伸縮性和并行處理。數(shù)據(jù)挖掘算法的有效性和可伸縮性:為了有效地從數(shù)據(jù)庫的海量數(shù)據(jù)中提取信息,數(shù)據(jù)挖掘算法必須是有效的和可伸縮的。換一句話說,數(shù)據(jù)挖掘算法在大型數(shù)據(jù)庫中的運行時間必須是可預計的和可接受的。從數(shù)據(jù)庫的知識發(fā)現(xiàn)角度,有效性和可伸縮性是數(shù)據(jù)挖掘系統(tǒng)實現(xiàn)的關鍵問題。上面討論的挖掘方法和用戶交互的大多數(shù)問題,也必須考慮有效性和可伸縮性。并行、分布和增量挖掘算法:許多數(shù)據(jù)庫的巨大規(guī)模、數(shù)據(jù)的廣泛分布和一些數(shù)據(jù)挖掘算法的計算復雜性是促使開發(fā)并行和分布式數(shù)據(jù)挖掘算法的因素。這種算法將數(shù)據(jù)劃分成若干部分,并行處理,然后合并每部分的結果。此外,有些數(shù)據(jù)挖掘過程的高開銷導致了對增量數(shù)據(jù)挖掘算法的需要。增量算法與數(shù)據(jù)庫更新結合在一起,而不必“從頭開始”挖掘全部數(shù)據(jù)。這種算法增量地進行知識修改、修正和加強業(yè)已發(fā)現(xiàn)的知識。3.關于數(shù)據(jù)庫類型的多樣性問題:關系的和復雜的數(shù)據(jù)類型的處理:由于關系數(shù)據(jù)庫和數(shù)據(jù)倉庫已經(jīng)廣泛使用,為這樣的數(shù)據(jù)開發(fā)有效的數(shù)據(jù)挖掘系統(tǒng)是重要的。然而,其他數(shù)據(jù)庫可能包含復雜的數(shù)據(jù)對象、超文本和多媒體數(shù)據(jù)、空間數(shù)據(jù)、時間數(shù)據(jù)或事務數(shù)據(jù)。由于數(shù)據(jù)類型的多樣性和數(shù)據(jù)挖掘的目標不同,指望一個系統(tǒng)挖掘所有類型的數(shù)據(jù)是不現(xiàn)實的。為挖掘特定類型的數(shù)據(jù)應當構造特定的數(shù)據(jù)挖掘系統(tǒng)。因此,對于不同類型的數(shù)據(jù),期望有不同的數(shù)據(jù)挖掘系統(tǒng)。從異構數(shù)據(jù)庫和全球信息系統(tǒng)挖掘信息:局域網(wǎng)和廣域網(wǎng)(如因特網(wǎng))連接了許多數(shù)據(jù)源,形成了龐大的分布和異構數(shù)據(jù)庫。從具有不同數(shù)據(jù)語義的結構化的、半結構化的和非結構化的不同數(shù)據(jù)源發(fā)現(xiàn)知識,對數(shù)據(jù)挖掘提出了巨大挑戰(zhàn)。數(shù)據(jù)挖掘可以幫助發(fā)現(xiàn)多個異構數(shù)據(jù)庫中的高層數(shù)據(jù)規(guī)律,這些規(guī)律多半難以被簡單的查詢系統(tǒng)發(fā)現(xiàn),并可以改進異構數(shù)據(jù)庫信息交換和互操作性能。Web挖掘發(fā)現(xiàn)關于Web內(nèi)容、Web結構、Web使用和Web動態(tài)情況的有趣知識,已經(jīng)成為數(shù)據(jù)挖掘的一個非常具有挑戰(zhàn)性和快速發(fā)展的領域。以上問題是數(shù)據(jù)挖掘技術未來發(fā)展的主要需求和挑戰(zhàn)。在近來的數(shù)據(jù)挖掘研究和開發(fā)中,一些挑戰(zhàn)已經(jīng)在一定程度上受到關注,并且現(xiàn)在認為是必需的,而另一些仍處于研究階段。第二章文本挖掘概述 2.1文本挖掘介紹2.1.1文本挖掘的歷史演化數(shù)據(jù)挖掘技術本身就是當前數(shù)據(jù)技術發(fā)展的新領域,文本挖掘則發(fā)展歷史更短。傳統(tǒng)的信息檢索技術對于海量數(shù)據(jù)的處理并不盡如人意,文本挖掘便日益重要起來,可見文本挖掘技術是從信息抽取以及相關技術領域中慢慢演化而成的。一篇重要的關于文本挖掘的論文講述在赫爾辛基大學進行的研究試驗。因為出現(xiàn)越來越多的非結構化文本資源,他們將數(shù)據(jù)挖掘技術應用于文本資源這個小組成功地運用數(shù)據(jù)庫中的知識發(fā)現(xiàn)技術(KDD)。他們曾經(jīng)發(fā)表了試圖將數(shù)據(jù)挖掘技術直接應用于經(jīng)過預處理的文本信息的論文。他們將預處理過程看作是一個至關重要的環(huán)節(jié),從而有效地改變了數(shù)據(jù)挖掘依賴于文本最初是如何被處理的這一法則。沿著知識發(fā)現(xiàn)這條路,Feldman考慮使用信息抽取中最簡單的形式來獲取知識:通過為一篇文本建立一個有意義的概念集合來看清概念的層次結構,從而在文本和概念之間挖掘他們的關。這種方法主要應用領域就是文本分類,系統(tǒng)DocumentExplorer是目前比較先進的文本挖掘系統(tǒng),該系統(tǒng)構建于以上所提到的KDT基礎之上。Feldman的DocumentExplorer則用文本集合來創(chuàng)建數(shù)據(jù)庫,然后基于概念圖的數(shù)據(jù)挖掘技術。這套系統(tǒng)可以使用不同的模板來創(chuàng)建數(shù)據(jù)庫以適應各種類型的文本集合,包括Web文本。從網(wǎng)上抽取信息來看,Etzioni著眼于將數(shù)據(jù)挖掘技術應用于互聯(lián)網(wǎng)上大量的超文本資源。這大概是第一篇將數(shù)據(jù)挖掘技術應用于萬維網(wǎng)上信息資源的文章,并將該技術命名Web挖掘。近期Soderlan在從互聯(lián)網(wǎng)上抽取信息的方面作了許多工作,利用自然語言處理技術從不同的html資源來解釋天氣預報。應該說萬維網(wǎng)上的數(shù)據(jù)已經(jīng)成為文本挖掘的重要研究方向REF_Ref291961617\r\h[2]。2.1.2文本挖掘的定義文本挖掘作為數(shù)據(jù)挖掘的一個新主題,引起了人們的極大興趣,同時,它也是一個富于爭議的研究方向,目前其定義尚無統(tǒng)一的結論,需要國內(nèi)外學者開展更多的研究以便進行精確的定義。一般來說,文本挖掘(TextMining,TM)和文本數(shù)據(jù)庫中的知識發(fā)現(xiàn)(KnowledgeDiscoveryinTextualDatabase,簡稱KDT)被認為是具有相同含義的兩個詞,最早由RonenFeldman等人提出:TheProcessofextractinginterestingPatternsfromverylargetextcollectionsforthepurposeofdiscoveringknowledge”。在維基百科上文本挖掘是這樣定義的,文本挖掘有時也被稱為文字探勘、文本數(shù)據(jù)挖掘等,大致相當于文字分析,一般指文本處理過程中產(chǎn)生高質量的信息。高質量的信息通常通過分類和預測來產(chǎn)生,如模式識別。文本挖掘通常涉及輸入文本的處理過程(通常進行分析,同時加上一些衍生語言特征以及消除雜音,隨后插入到數(shù)據(jù)庫中),產(chǎn)生結構化數(shù)據(jù),并最終評價和解釋輸出。'高品質'的文本挖掘通常是指某種組合的相關性,新穎性和趣味性。典型的文本挖掘方法包括文本分類,文本聚類,概念/實體挖掘,生產(chǎn)精確分類,觀點分析,文檔摘要和實體關系模型(即,學習已命名實體之間的關系)。2.1.3文本挖掘的研究現(xiàn)狀國外對于文本挖掘的研究開展較早,50年代末,H.P.Luhn在這一領域進行了開創(chuàng)性的研究,提出了詞頻統(tǒng)計思想用于自動分類。1960年,Maron發(fā)表了關于自動分類的第一篇論文,隨后,眾多學者在這一領域進行了卓有成效的研究工作。研究主要有圍繞文本的挖掘模型、文本特征抽取與文本中間表示、文本挖掘算法(如關聯(lián)規(guī)則抽取、語義關系挖掘、文本聚類與主題分析、趨勢分析)、文本挖掘工具等,其中首次將KDD中的知識發(fā)現(xiàn)模型運用于KDT。我國學術界正式引入文本挖掘的概念并開展針對中文的文本挖掘研究是從最近幾年才開始的。從公開發(fā)表的有代表性的研究成果來看,目前我國文本挖掘研究還處在消化吸收國外相關的理論和技術與小規(guī)模實驗階段,還存在如下不足和問題:1)沒有形成完整的適合中文信息處理的文本挖掘理論與技術框架。目前的中文文本挖掘研究只是在某些方面和某些狹窄的應用領域展開。在技術手段方面主要是借用國外針對英文語料的挖掘技術,沒有針對漢語本身的特點,沒有充分利用當前的中文信息處理與分析技術來構建針對中文文本的文本挖掘模型,限制了中文文本挖掘的進一步發(fā)展REF_Ref291961645\r\h[3]。2)中文文本的特征提取與表示大多數(shù)采用“詞袋”法,“詞袋”法即提取文本高頻詞構成特征向量來表達文本特征。這樣忽略了詞在文本(句子)中擔當?shù)恼Z法和語義角色,同樣也忽略了詞與詞之間的順序,致使大量有用信息丟失。而且用“詞袋”法處理真實中文文本數(shù)據(jù)時,特征向量的維數(shù)往往是高維的,這將使挖掘算法效率大大降低。3)知識挖掘的種類和深度有限,一般只是進行文本的分類、聚類或者信息抽取,而且針對開放語料的實驗結果也不是很理想。2.2文本挖掘主要內(nèi)容 存儲信息使用最多的是文本,所以文本挖掘被認為比數(shù)據(jù)挖掘具有更高的商業(yè)潛力.當數(shù)據(jù)挖掘的對象完全由文本這種數(shù)據(jù)類型組成時,這個過程就稱為文本數(shù)據(jù)挖掘.事實上,最近研究表明公司信息有80%包含在文本文檔中。(1)文本分類文本分類指按照預先定義的主題類別,為文檔集合中的每個文檔確定一個類別.這樣用戶不但能夠方便地瀏覽文檔,而且可以通過限制搜索范圍來使文檔的查找更容易、快捷.目前,用于英文文本分類的分類方法較多,用于中文文本分類的方法較少,主要有樸素貝葉斯分類(NaiveBayes),向量空間模型(VectorSpaceModel)以及線性最小二乘LLSF(LinearLeastSquareFit)。(2)文本聚類聚類與分類的不同之處在于,聚類沒有預先定義好的主體類別,它的目標是將文檔集合分成若干個簇,要求同一簇內(nèi)文檔內(nèi)容的相似度盡可能的大,而不同簇之間的相似度盡可能的小。(3)文本結構分析其目的是為了更好地理解文本的主題思想,了解文本所表達的內(nèi)容以及采用的方式.最終結果是建立文本的邏輯結構,即文本結構樹,根結點是文本主題,依次為層次和段落。(4)Web文本數(shù)據(jù)挖掘在Web迅猛發(fā)展的同時,不能忽視“信息爆炸”的問題,即信息極大豐富而知識相對匱乏.據(jù)估計,Web已經(jīng)發(fā)展成為擁有3億個頁面的分布式信息空間,而且這個數(shù)字仍以每4~6個月翻1倍的速度增加.在這些大量、異質的Web信息資源中,蘊含著具有巨大潛在價值的知識.人們迫切需要能夠從Web上快速、有效的發(fā)現(xiàn)資源和知識的工具。文本挖掘目前面臨的問題有挖掘算法的效率和可擴展性、遺漏及噪聲數(shù)據(jù)的處理、私有數(shù)據(jù)的保護與數(shù)據(jù)安全性等REF_Ref291961665\r\h[4]。2.3文本挖掘技術 文本挖掘不但要處理大量的結構化和非結構化的文檔數(shù)據(jù),而且還要處理其中復雜的語義關系,因此,現(xiàn)有的數(shù)據(jù)挖掘技術無法直接應用于其上。對于非結構化問題,一條途徑是發(fā)展全新的數(shù)據(jù)挖掘算法直接對非結構化數(shù)據(jù)進行挖掘,由于數(shù)據(jù)非常復雜,導致這種算法的復雜性很高;另一條途徑就是將非結構化問題結構化,利用現(xiàn)有的數(shù)據(jù)挖掘技術進行挖掘,目前的文本挖掘一般采用該途徑進行。對于語義關系,則需要集成計算語言學和自然語言處理等成果進行分析。我們按照文本挖掘的過程介紹其涉及的主要技術及其主要進展。2.3.1數(shù)據(jù)預處理技術 預處理技術主要包括Stemming(英文)/分詞(中文)、特征表示和特征提取。與數(shù)據(jù)庫中的結構化數(shù)據(jù)相比,文本具有有限的結構,或者根本就沒有結構。此外,文檔的內(nèi)容是人類所使用的自然語言,計算機很難處理其語義。文本信息源的這些特殊性使得數(shù)據(jù)預處理技術在文本挖掘中更加重要。(1)分詞技術在對文檔進行特征提取前,需要先進行文本信息的預處理,對英文而言需進行Stemming處理,中文的情況則不同,因為中文詞與詞之間沒有固有的間隔符(空格),需要進行分詞處理。目前主要有基于詞庫的分詞算法和無詞典的分詞技術兩種。基于詞庫的分詞算法包括正向最大匹配、正向最小匹配、逆向匹配及逐詞遍歷匹配法等。這類算法的特點是易于實現(xiàn),設計簡單;但分詞的正確性很大程度上取決于所建的詞庫。因此基于詞庫的分詞技術對于歧義和未登錄詞的切分具有很大的困難。楊斌等在分析了最大匹配法的特點后,提出了一種改進的算法。該算法在允許一定的分詞錯誤率的情況下,能顯著提高分詞效率,其速度優(yōu)于傳統(tǒng)的最大匹配法。鄒濤等采用了基于詞典的正向逐詞遍歷匹配法,取得了較好的效果?;跓o詞典的分詞技術的基本思想是:基于詞頻的統(tǒng)計,將原文中任意前后緊鄰的兩個字作為一個詞進行出現(xiàn)頻率的統(tǒng)計,出現(xiàn)的次數(shù)越高,成為一個詞的可能性也就越大,在頻率超過某個預先設定的閾值時,就將其作為一個詞進行索引。這種方法能夠有效地提取出未登錄詞。(2)特征表示文本特征指的是關于文本的元數(shù)據(jù),分為描述性特征(如文本的名稱、日期、大小、類型等)和語義性特征(如文本的作者、機構、標題、內(nèi)容等)。特征表示是指以一定特征項(如詞條或描述)來代表文檔,在文本挖掘時只需對這些特征項進行處理,從而實現(xiàn)對非結構化的文本處理。這是一個非結構化向結構化轉換的處理步驟。特征表示的構造過程就是挖掘模型的構造過程。特征表示模型有多種,常用的有布爾邏輯型、向量空間模型(VectorSpaceModel,VSM)、概率型以及混合型等。W3C近來制定的XML,RDF等規(guī)范提供了對Web文檔資源進行描述的語言和框架。(3)特征提取用向量空間模型得到的特征向量的維數(shù)往往會達到數(shù)十萬維,如此高維的特征對即將進行的分類學習未必全是重要、有益的(一般只選擇2%~5%的最佳特征作為分類依據(jù)),而且高維的特征會大大增加機器的學習時間,這便是特征提取所要完成的工作。特征提取算法一般是構造一個評價函數(shù),對每個特征進行評估,然后把特征按分值高低排隊,預定數(shù)目分數(shù)最高的特征被選取。在文本處理中,常用的評估函數(shù)有信息增益(InformationGain)、期望交叉熵(ExpectedCrossEntropy)、互信息(MutualInformation)、文本證據(jù)權(TheWeightofEvidenceforText)和詞頻。2.3.2數(shù)據(jù)挖掘分析技術 文本轉換為向量形式并經(jīng)特征提取以后,便可以進行挖掘分析了。常用的文本挖掘分析技術有:文本結構分析、文本摘要、文本分類、文本聚類、文本關聯(lián)分析、分布分析和趨勢預測等。(1)文本結構分析其目的是為了更好地理解文本的主題思想,了解文本所表達的內(nèi)容以及采用的方式。最終結果是建立文本的邏輯結構,即文本結構樹,根節(jié)點是文本主題,依次為層次和段落。(2)文本摘要 文本摘要是指從文檔中抽取關鍵信息,用簡潔的形式對文檔內(nèi)容進行解釋和概括。這樣,用戶不需要瀏覽全文就可以了解文檔或文檔集合的總體內(nèi)容。任何一篇文章總有一些主題句,大部分位于整篇文章的開頭或末尾部分,而且往往是在段首或段尾,因此文本摘要自動生成算法主要考察文本的開頭、末尾,而且在構造句子的權值函數(shù)時,相應的給標題、子標題、段首和段尾的句子較大的權值,按權值大小選擇句子組成相應的摘要。(3)文本分類 文本分類的目的是讓機器學會一個分類函數(shù)或分類模型,該模型能把文本映射到己存在的多個類別中的某一類,使檢索或查詢的速度更快,準確率更高。訓練方法和分類算法是分類系統(tǒng)的核心部分。用于文本分類的分類方法較多,主要有樸素貝葉斯分類(NativeBayes)、向量空間模型、決策樹、支持向量機、后向傳播分類、遺傳算法、基于案例的推理、K-最臨近、基于中心點的分類方法、粗糙集、模糊集以及線性最小二乘(LinearLeastSquareFit,LLSF)等。厲宇航等指出傳統(tǒng)特征提取的方法是基于詞形的,并不考察詞語的意義,忽略了同一意義下詞形的多樣性、不確定性以及詞義間的關系,尤其是上下位關系。該文的方法在向量空間模型(VSM)的基礎上,以“概念”為基礎,同時考慮詞義的上位關系,使得訓練過程中可以從詞語中提煉出更加概括性的信息,從而達到提高分類精度的目的。(4)文本聚類 文本分類是將文檔歸入到己經(jīng)存在的類中,文本聚類的目標和文本分類是一樣的,只是實現(xiàn)的方法不同。文本聚類是無教師的機器學習,聚類沒有預先定義好的主題類別,它的目標是將文檔集合分成若干個簇,要求同一簇內(nèi)文檔內(nèi)容的相似度盡可能大,而不同簇間的相似度盡可能小。Hearst等人的研究已經(jīng)證明了“聚類假設”,即與用戶查詢相關的文檔通常會聚類得比較靠近,而遠離與用戶查詢不相關的文檔。(5) 關聯(lián)分析關聯(lián)分析是指從文檔集合中找出不同詞語之間的關系。Feldman和Hirsh研究了文本數(shù)據(jù)庫中關聯(lián)規(guī)則的挖掘,提出了一種從大量文檔中發(fā)現(xiàn)一對詞語出現(xiàn)模式的算法,并用來在Web上尋找作者和書名的出現(xiàn)模式,從而發(fā)現(xiàn)了數(shù)千本在Amazon網(wǎng)站上找不到的新書籍;WangKe等以Web上的電影介紹作為測試文檔,通過使用OEM模型從這些半結構化的頁面中抽取詞語項,進而得到一些關于電影名稱、導演、演員、編劇的出現(xiàn)模式。(6)分布分析與趨勢預測 分布分析與趨勢預測是指通過對文檔的分析,得到特定數(shù)據(jù)在某個歷史時刻的情況或將來的取值趨勢。FeldmanR等使用多種分布模型對路透社的兩萬多篇新聞進行了挖掘,得到主題、國家、組織、人、股票交易之間的相對分布,揭示了一些有趣的趨勢。WuthrichB等通過分析Web上出版的權威性經(jīng)濟文章對每天的股票市場指數(shù)進行預測,取得了良好的效果。(7)可視化技術數(shù)據(jù)可視化(DataVisualization)技術指的是運用計算機圖形學和圖像處理技術,將數(shù)據(jù)轉換為圖形或圖像在屏幕上顯示出來,并進行交互處理的理論、方法和技術。它涉及到計算機圖形學、圖像處理、計算機輔助設計、計算機視覺及人機交互技術等多個領域。國內(nèi)外學者已經(jīng)對信息可視化技術進行了大量的研究,運用最小張力計算、多維標度法、語義分析、內(nèi)容圖譜分析、引文網(wǎng)絡分析及神經(jīng)網(wǎng)絡技術,進行了信息和數(shù)據(jù)的可視化表達REF_Ref291961665\r\h[4]。2.4文本挖掘熱點難點問題 顯然,目標不同,文本挖掘的過程也不盡相同。但不論何種目標,都不可忽視如下幾個方面的研究:(1).文本建模向量空間模型,也稱為“詞袋”法,是目前文本處理的標準模式。簡單講,就是提取文本高頻詞構成特征向量來表達文本特征的方法,該方法有效描述了詞一文檔間的頻率關系。面對復雜繁瑣的自然語言文本,向量空間模型是目前最為簡便有效的文本表示方法。但向量空間模型建模方法最大的問題就是忽略了詞在文本中承擔的語法和語義上的作用,同時忽略了詞與詞之間的順序關系,丟失了大量有用信息,從而減弱了高頻詞向量表達文本特征的可信度。同時,向量空間模型在處理真實文本數(shù)據(jù)時形成的特征向量的高維性也嚴重影響了后續(xù)文本挖掘的效率和結果的準確性。此外,建模前的文本預處理工作作為整個文本挖掘過程的基礎尤為重要。而不同的語言的處理又常常不同。如何解決多語言混合如中英文混合情況下的文本處理和建模工作日益重要。同時,不同的語言有不同的切詞處理方式。并且存在著大量多詞同義、一詞多義的現(xiàn)象。(2).特征降維文本模型的高維特性制約了文本挖掘的效果。不論何種語種,由于語言本身的非結構特性以及建模后的高維特性,使得后續(xù)挖掘過程中都面臨嚴重的效率問題。因此有效的降維是進行后續(xù)文本挖掘的重要一環(huán)。目前的文本降維方法主要采用基于奇異值分解的潛在語義分析技術。該技術通過分析特征詞之間的語義相關性來減少特征向量的維數(shù),通過將詞一文檔的高維表示投影在低維潛在語義空間中,降低空間的維數(shù),進而得到詞一文檔的不再稀疏的低維表示。并且,由詞袋模型在進行奇異值分解后得到的子空間不再是僅僅反映出詞匯出現(xiàn)的頻率和分布關系,而進一步揭示了詞匯或文檔之間的語義聯(lián)系。然而,基于奇異值分解的潛在語義分析技術有兩大突出的問題:一是得到的分解矩陣具有正交的特性,導致無法更好的描述文本數(shù)據(jù)空間的特點,從而使得對降維后的子空間進行進一步的文本分析時結果并不準確。這一問題在面對大規(guī)模文本數(shù)據(jù)時顯得更加突出。另一方面,由于潛在語義分析得到的分解矩陣存在負數(shù),而難以直觀地做出與實際情況一致的語義上的解釋。非負矩陣分解方法有效解決了上述問題。借鑒人類思維中“局部構成整體”的概念,非負矩陣分解將由詞袋法構造的向量空間模型分解成兩個非負、非正交的子矩陣,從而可以更有效的降維及進行進一步的聚類、分類分析。(3).挖掘算法的選擇模型創(chuàng)建成功并且進行了有效的降維處理之后,就可以進行具體的挖掘操作了。從狹義的角度理解,也可以說這部分才是真正的挖掘。而廣義上來說,整個過程才一構成文本挖掘的全部過程。文本挖掘算法并不是一個新的領域,通常就是數(shù)據(jù)挖掘方法在文本數(shù)據(jù)上的應用。因此多數(shù)挖掘方法來自機器學習、統(tǒng)計學習、自然語言處理、信息抽取、信息檢索以及知識管理等領域,最終目標就是對建模后的文本數(shù)據(jù)進行分析和處理,找到其中潛在的有用信息。根據(jù)不同的應用目標,挖掘出的知識種類不盡不同,由此可以對文本挖掘的技術和算法進行如下的分類:如根據(jù)發(fā)現(xiàn)關聯(lián)規(guī)則、聚類、趨勢、差異等知識的不同,分別對應不同領域的算法選擇。任何算法技術的研究和設計都離不開始實驗的仿真和具體實例的驗證。文本數(shù)據(jù)挖掘過程亦是如此。由于文本數(shù)據(jù)的復雜多樣性,導致文本數(shù)據(jù)的挖掘過程相對其他結構化數(shù)據(jù)要復雜繁瑣的多,對數(shù)據(jù)的敏感性更為嚴重,在很多情況下,面臨對開放語料的實驗結果不理想的問題。因此選擇更好的評價方法,克服現(xiàn)有語料手工分類不準確帶來的誤差,以更好地對算法作出評價,同樣重要。本文也將在后續(xù)仿真的具體過程中對所研究的方法進行有意義的評價。(4).模式的理解及可視化表達多數(shù)文本挖掘應用實例的目標同數(shù)據(jù)挖掘類似,通常是要輔助用戶的決策和判斷,因此從用戶的角度來看,文本挖掘所發(fā)現(xiàn)結果的可理解至關重要。而對于各種方法挖掘出的模式、規(guī)則等結果,提高其可理解性的解決方法通常有兩種:一種是以生成人類易于理解的自然語言的方式進行呈現(xiàn),如對文檔進行摘要的方法;另一種方式則是以圖形界面方式展示結果,通過提供相對少量的規(guī)則,利用計算機圖形學、圖像處理等可視化技術將結果更加直觀的呈現(xiàn)給用戶。近年來,可視化技術作為展示結果的關鍵一環(huán)逐漸成為文本挖掘過程中日益重要的一個分支。大量的研究結合語義分析、內(nèi)容圖譜分析、最小張力計算、神經(jīng)網(wǎng)絡技術、多維標度法等數(shù)據(jù)分析和處理方法進行了結果的可視化表達REF_Ref291961716\r\h[5]。第三章文本分類算法3.1文本分類概述3.1.1文本分類的研究現(xiàn)狀 文本分類的理論研究可以追溯到20世紀60年代初,其發(fā)展過程大致可以劃分為三個階段:第一階段是20世紀60年代前。在這一時期,主要是分類理論的研究,并將文本分類應用于信息檢索。在這一時期,提出了很多經(jīng)典文本分類的數(shù)學模型。如Maron和Kuhns提出概率標引(ProbabilisticIndexing)模型,并將其應用于信息檢索中;Salton提出利用向量空間模型(VectorSpaceModel,VSM)對文本進行描述等等。第二階段是20世紀80年代。這一階段主要是采用傳統(tǒng)的知識工程技術,根據(jù)專家提供的知識形成規(guī)則,手工建立分類器。這一時期,信息檢索技術逐漸成熟應用,為文本分類提供了許多技術支持,最著名的信息檢索系統(tǒng)是Salton的SMART系統(tǒng)。Rocchio在1971年也提出了在用戶查詢中不斷通過用戶的反饋來修正類權重向量,來構成簡單的線性分類器。VanRijsbergen提出了信息檢索的評估標準如準確率、查全率等。第三階段是20世紀90年代以后。在這一時期,文本分類的主要特點是采用統(tǒng)計機器學習方法,自動建立分類器,學習和分類過程來自于機器對訓練文本的自主學習,從而不需要領域專家的支持,不需要人工干預,而分類效率和準確率得以提高。如1992年,Lewis在他的博士論文中提出T標準數(shù)據(jù)集Reuters22173,并在此數(shù)據(jù)集上進行了實驗測試;YangYiming對各種特征選擇算法進行了分析比較,討論了文檔頻率(DocumentFrequency,DF)、信息增益(InformationGain,IG),互信息(Multi-information,MI)和CHI等方法,結合KNN分類器,得出IG和CHI方法分類效果相對較好的結論,對后來的研究起到了重要的參考作用。新加坡的HweeTouNG等人研究了用PerceptronLearning的方法進行文本分類,使用了一種樹狀的分類結構,其準確率達到73.3%。文本特征描述一般采用基于內(nèi)容的向量空間模型表示。它是從文本中抽取信息來表示文本內(nèi)容,并從大規(guī)模語料庫中發(fā)現(xiàn)能表示文本類別的詞匯,利用統(tǒng)計原理和文本在一些特征項集合上的分布規(guī)律,對文本進行分類。對文檔分類來說,關鍵問題之一就是降維,降維技術是利用某種評價函數(shù)來保留這些具有分類能力和描述能力的特征詞,過濾掉弱信息特征詞,并提取出最少的、最能表達文章主題的詞作為特征詞匯。文本分類是按照預先定義的主題類別,為文檔集合中的每個文檔確定一個類別。這樣用戶不但能夠方便地瀏覽文檔,而且可以通過限制搜索范圍來使文檔的查找更容易、快捷。文本分類可以在較大程度上解決目前文本以及網(wǎng)絡上信息雜亂的現(xiàn)象,方便用戶準確地定位所需的信息和分流信息。因此,文本自動分類己成為一項具有較大實用價值的關鍵技術,是組織和管理數(shù)據(jù)的有力手段,可被用于垃圾郵件過濾、郵件自動分類、網(wǎng)頁搜索、網(wǎng)頁分類、信息組織、信息推送、數(shù)字圖書館的數(shù)字化管理等領域中。目前,分類器的構造方法有多種,主要有機器學習方法、基于規(guī)則的方法等?;跈C器學習的英文自動分類己經(jīng)取得了很好的成績,如回歸模型、K近鄰、貝葉斯、決策樹、推導規(guī)則、神經(jīng)網(wǎng)絡、支撐向量機等。國外對文檔分類技術的應用研究也己經(jīng)開展了多年,其中較為成功的系統(tǒng)有麻省理工學院為白宮開發(fā)的郵件分類系統(tǒng)、卡內(nèi)基集團為路透社開發(fā)的Construe系統(tǒng),Salton的SMART系統(tǒng),Lewis采用了一個線性分類器,建立了OHSUMED,Reuters等標準的分類熟語料和統(tǒng)一的評價方法等。國內(nèi)在中文文本分類領域也進行了大量的研究,如中科院計算所的李曉黎、史忠植等人應用概念推理網(wǎng)進行文本分類,召回率達到94.296,準確率達到99.4960中國科技大學的范眾等人在KNN,Bayes和文檔相似性研究的基礎上提出了一個超文本協(xié)調(diào)分類器,正確率接近80%,它的一個特色是適當考慮了HTML文本中的結構化信息,并且將文本分類器和超文本結構信息分類器結合起來,從而達到更好的效果。但由于語料和評價方法各不相同,很難對它們做出嚴格的比較。在國內(nèi)文本分類和過濾領域里,復旦大學黃營著等人設計的文本過濾系統(tǒng)很值得一提,它主要針對英文,能夠通過特征抽取和偽反饋建立初始的過濾模板,并設置初始閑值,在過濾階段,則根據(jù)用戶的反饋信息自適應地調(diào)整模板和閉值,并且該系統(tǒng)在2000年舉行的第9次文本檢索會議(TextRetrievalConference,TREC)的評測中取得了很好的效果,自適應過濾和批過濾的平均準確率分別為26.596和31.796,在來自多個國家的15個系統(tǒng)中名列前茅,獲得自適應過濾第3名和批過濾第1名的好成績。關于文本分類算法KNN,目前,大多學者主要從三個方面進行改進,分別是減少訓練樣本的存儲量、加快K個最近鄰的搜索速度和調(diào)整K值的選擇。當訓練樣本集過大時,為了減小計算開銷,可以對訓練文本進行編輯處理,即從原始訓練樣本集中選擇最優(yōu)的參考子集進行K個最近鄰尋找,從而提高計算效率。這種途徑主要的方法是Hart的Condensing算法、Wi1Son的Editing算法和Devijver的Multi-Edit算法,另外Kuncheva使用遺傳算法在這方面也進行了一些研究。有的學者是采用加快KNN搜索速度的算法,使之在盡量短的時間內(nèi)找到K個最近鄰文本。在進行搜索時不是盲目迭代,而是采用一定的方法加快搜索速度或減小搜索范圍,例如構造交叉索引表,利用匹配成功與否的歷史來修改樣本庫的結構,使用樣本和概念來構造層次或網(wǎng)絡來組織訓練樣本。此類方法主要可分為三類:空間/數(shù)據(jù)分區(qū)方法、以掃描作為基礎的方法和線性化方法。如香港中文大學的WaiLam等人將KNN方法和線性分類器結合,取得了較好效果。K值的選擇主要有兩種方法:(1)通過大量獨立的測試數(shù)據(jù)、多個模型來驗證最佳K值的選擇;(2)K值可以事先確定,也可以動態(tài)變化,例如采用固定的距離指標,只對小于該指標的樣本進行分析。本文針對KNN算法的樣本數(shù)量不平衡的情況,提出對KNN算法進行優(yōu)化,使K值能夠自適應與文本分類規(guī)模REF_Ref291961735\r\h[6]。3.1.2文本分類模型 大多數(shù)文本分類采用詞袋(bags-of-words)表示法,即記錄每個單詞在文檔中出現(xiàn)的次數(shù),或僅記錄出現(xiàn)與否。加入語義信息或語言信息對分類器的精度都提高不大13x1。分類算法一般基于“詞袋”模型,即文檔被看成是由相互無關的單詞構成的詞的集合,不考慮單詞之間的上下文關系,單詞出現(xiàn)的順序,位置以及文章的長度等。統(tǒng)計出每個單詞在每篇文檔中出現(xiàn)的頻率是進行算法建模的基礎,統(tǒng)計所有單詞在所有文檔中出現(xiàn)的頻率得到單詞對于文檔的詞頻統(tǒng)計矩陣。詞頻統(tǒng)計矩陣是文本分類算法建立分類器模型的數(shù)據(jù)基礎,訓練集通過文法分析統(tǒng)計出詞頻矩陣,矩陣中的某一元素就是某個單詞在某篇訓練文檔中出現(xiàn)的頻率。下面介紹建立文本分類器模型的過程。 第一步,對文檔進行預處理過程。按照文本文檔數(shù)據(jù)集(一般分目錄放置文本文檔)路徑對所有訓練文檔掃描,分析出不同的單詞。對待英文,文法分析的步驟為:按空格分出一各個單詞,去掉其中禁用詞,如the,that等,如果是第一次遇到的新詞,就存入單詞列表,也稱詞庫,否則這個單詞的統(tǒng)計次數(shù)加1,其中包括詞干提取,如將played,playing變?yōu)閜lay;還包括保存文檔的文件名,類別等工作。此外,把算法運用到中文分類時,關鍵問題就是中英文的單詞在句子中的出現(xiàn)方式不一樣,對待中文要增加切詞的工作。因為中文不象英文有空格將詞與詞區(qū)分開,中文文本中詞與詞之間沒有明確的分隔標記,而是連續(xù)的漢字串。漢語中存在大量多義詞,語義模糊,歧義性大,識別詞的邊界很難。常用的中文分詞算法有:基于詞表的分詞,基于統(tǒng)計的分詞,基于規(guī)則和基于統(tǒng)計相結合的分詞。我們將采用基于詞表匹配的分詞方法,這種切分方法,需要語言資源(僅需一個詞表,不需要任何詞法、句法、語義知識)最少,程序實現(xiàn)簡單。(后面的實驗中,我們將中文的詞法分析器代替原有的英文詞法分析器,將詞法分析模塊插入到Rainbow系統(tǒng)中,得到需要的詞頻矩陣,測試不同的算法在分類中的性能。) 第二步,建立詞頻矩陣。預處理之后,將文章變?yōu)橐粋€詞集,單詞也稱為特征項或屬性。把文檔看成是一個詞向量(wordvector),它的維數(shù)是所有不同的單詞個數(shù),詞集中可以有數(shù)萬個不同的單詞。對于特定的文章,它包含的單詞數(shù)一般從幾百到幾千,一篇文檔對應一個詞向量,而一個詞也在不同的文檔中出現(xiàn),所有出現(xiàn)這個單詞的文檔構成了文檔向量,所以整個文檔與詞集形成一個稀疏矩陣,矩陣中點的值就是單詞在文檔中出現(xiàn)的頻率。在系統(tǒng)中,矩陣以二維鏈表的形式保存。 第三步,構造文本分類器。詞頻統(tǒng)計矩陣是算法建模的基礎。在詞頻統(tǒng)計矩陣的基礎上根據(jù)特定的算法構造分類器。主要任務是根據(jù)不同分類算法,計算詞向量的權值。詞向量的權值按不同的算法有不同的計算方法和意義。在第一類算法中,權值按TFIDF公式計算,權值越大,表示這個詞對文檔越重要。TF(Termfrequency)是詞在文檔中出現(xiàn)的次數(shù),如果一個詞在一篇文檔中經(jīng)常出現(xiàn),那么說明這個詞對文檔具有代表性。如“計算機”這個詞在計算機類的文檔中出現(xiàn)的頻率顯然要高于政治類的文檔。但如果一個單詞在一篇文檔中出現(xiàn),但同時它也出現(xiàn)在很多文檔中,則降低了這個單詞的重要性,如“科學”在社會科學類與自然科學類的文檔中都出現(xiàn),對區(qū)別兩類文檔的幫助就不大,這就是反比文檔頻率IDF(inversedocumentfrequency)的作用。把兩項相乘得到的權值,就代表了單詞對文檔的整體重要程度。對于另一類概率算法,如純粹貝葉斯算法,則通過詞頻統(tǒng)計矩陣計算每個詞屬于每個類的概率,權值越大,表示單詞在這個類中出現(xiàn)的概率大,得到了詞到類別的概率分布。貝葉斯算法認為新的文檔滿足建立的概率模型的單詞的類概率分布,把文檔中的單詞在每個類上的概率按類相乘,由此計算出文檔屬于每個類別的概率。最后,用分類器測試未分類文檔。構造好分類器后,當對一篇測試文檔分類時,首先利用建立的分類器模型給測試文檔的詞向量賦于相應的權值,然后由算法根據(jù)分類器和文檔向量計算此文檔的類別。上面所提的兩類算法代表了兩種基本文本分類模型。一類是由TFIDF公式定義單詞的權值,由cosine相似度距離公式計算樣本點之間的相似度。一類是概率權值,計算單詞在類別上的概率分布,然后求得文檔屬于每個類別的概率REF_Ref291961759\r\h[7]。3.1.3文本分類面臨的挑戰(zhàn) 現(xiàn)在既是文本分類最為蓬勃發(fā)展的時代,又是其面臨巨大挑戰(zhàn)的時代:1)文本分類處理內(nèi)容日趨復雜化和多元化。隨著時代的發(fā)展,文本分類和聚類技術發(fā)生了天翻地覆的變化。其“內(nèi)涵”仍然涵蓋有效地組織和管理文本信息,并快速、準確、全面地從中找到、分流、定位和形成用戶所需要的信息等核心內(nèi)容。但是其“外延”卻極大的豐富處理對象己經(jīng)由簡單的純文本對象,發(fā)展到包括web網(wǎng)頁、郵件/討論組、短信、即時通信、BBS論壇等等,不一而足。這使得從各式各樣文本形式中抽取處理內(nèi)容本身也成為了一門學問,即信息抽?。–IE:InformationExtraction),受到人們的廣泛關注。而且文本分類和聚類處理的對象也不再局限于文本領域,還逐漸和語音分類及檢索,圖像分類及檢索,機器視覺/視頻分類及檢索等技術結合在一起,如通過語一文轉換以及建立圖像艦頻的描述(profile)將語音、圖像/視頻分類及檢索問題轉換為文本分類及索問題。種種發(fā)展,均使得文本分類和聚類技術發(fā)生了質的變化,提升到前所未有的水平。同時也使得研究中遇到的一些老問題還沒有得到解決時,新的問題又不斷涌現(xiàn),層出不窮。2)海量信息處理。信息大爆炸,一方面使得人們很容易獲取巨量的信息,使文本信息以前所未有的速度傳播,發(fā)展。然而,事物總是有兩面性的,另外一方面,這也使得如何處理這些海量數(shù)據(jù)成為了擺在人們面前的難題。這里的處理包含兩個方面的含義:第一,如何進行海量數(shù)據(jù)實時處理的問題。一般來說,現(xiàn)有的算法只是在中小數(shù)據(jù)集上顯示出優(yōu)勢,大都是因為速度瓶頸無法成功應用于海量數(shù)據(jù)挖掘。而處理海量數(shù)據(jù)挖掘的算法一般來說精度都不高。如何達到速度和精度的折衷,需要進行深入的研究。第二,如何進行無標簽樣本學習的問題。信息化使得我們能夠輕松獲得大量的信息(無標注背景信息),但是這些信息只是原始語料,一般來說,只有經(jīng)過整理標注才能投入實際應用。而手工標注大量高質量的訓練樣本的工作是極端枯燥和代價巨大的。因此如何整合有標簽數(shù)據(jù)和無標簽數(shù)據(jù)的學習,成為了一個現(xiàn)實的問題。3)人性化/個性化處理。我們無論是對文本進行分類和聚類,還是進行其它深層次的處理,其最終目的始終都要面對人的需求,因此人性化/個性化處理是大勢所趨,不可避免。這里的人性化/個性化處理也包含兩個方面的含義:第一,如何開發(fā)增量式自適應更新的算法,跟蹤捕獲用戶的需求。因為算法的開發(fā)一般面對的是通用的情況,即針對最一般的情況進行處理。而實際中碰到的總是具體的問題,如何使通用框架適合每個用戶的需求,我們必須開發(fā)增量式自適應更新的算法,通過不斷學習,跟蹤捕獲用戶的需求。第二,如何從更高的層次,即從“理解”的層次處理用戶需求。具有理解并自動處理文本信息能力的機器,才算是智能文本信息處理機器,也才可以替代人類勞動者工作。這樣,傳統(tǒng)上人類勞動者依靠簡單的“控制指令”來同機器合作的局面就可以大為改觀,從而可以做到人和機器之間的合理分工和默契合作。這對于整個社會生產(chǎn)力和促進人類勞動者從自然力的束縛下獲得越來越多的解放具有偉大的意義。4)對更高處理精度的追求。對信息處理更高、更快、更強的追逐是人類永恒的追求。如何開發(fā)分類精度更高,更魯棒,速度更快的文本和聚類技術,也是我們作為文本信息處理領域研究者的永恒追求。3.1.4文本分類亟需解決的問題 現(xiàn)代文本分類和聚類領域面臨巨大的挑戰(zhàn),而且隨著研究的深入,其中的一些深層次問題也逐漸暴露出來,其中的一些己成為本學科進一步發(fā)展的阻礙。但是,從另一個方面來看,它們也揭示了文本分類和聚類領域下一步應該著重研究的內(nèi)容。本文認為,目前函需解決以下幾個問題:1)設計出易于使用的工程化文本分類方法。文本分類工作缺少統(tǒng)一的理論框架,經(jīng)驗性成分相當高。雖然針對具體問題,可以迅速給出一般處理方法,但是如果要使得系統(tǒng)獲得良好的性能,只能具體問題具體分析,通過大量費力耗時的實驗摸索,確定出適合的處理模型、算法以及參數(shù)設置,其應用效果極大依賴于使用者的經(jīng)驗。即使采用同樣的方法解決同樣的問題,由于操作者不同,其結果很可能大相徑庭。在實際應用中,操作者往往是缺乏文本處理經(jīng)驗的普通工程技術人員,如果沒有易于使用的工程化文本分類處理方法,文本分類技術的應用效果將很難得到保證。2)開發(fā)適用于海量信息處理的文本分類算法。這包含兩個方面的問題:第一,設計性能和效率兼?zhèn)涞暮A繑?shù)據(jù)的實時處理算法;第二,充分利用無標簽樣本進行學習。通過整合有標簽數(shù)據(jù)和無標簽數(shù)據(jù)的學習,提升文本分類技術的應用性能。3)提高文本分類技術的處理精度。一般來說,精度問題往往是文本分類處理技術從理論走向實際的最大障礙。因此開發(fā)分類精度更高,更魯棒,速度更快的文本分類技術成為文本信息處理領域重要的研究目標。4)將傳統(tǒng)的文本聚類提升到理解的層次。文本聚類是“文本信息處理”領域的一個重要分支。文本信息處理的根本目標是使機器能夠“一定程度上理解并自動處理”文本信息。而文本聚類的目的也不外乎是使機器能夠在“一定程度上理解并自動組織”文本信息。換言之,處理只是手段,理解并自動組織才是目的。具有理解并自動處理文本信息能力的機器,才算是智能文本信息處理機器,也才可以替代人類勞動者工作。但是,如何使得使機器能夠在“一定程度上理解并自動組織”文本信息。國內(nèi)外關于這方面的研究,長期專注于“語法”層次的研究。如何從“語法”上升至“語義,,乃至“語用”的層次,最終達到對內(nèi)容的理解,這仍然是研究者努力工作的方向REF_Ref291961778\r\h[8]。3.2常用文本分類算法 文本自動分類是指將一篇文本自動指定到一個或幾個預定義的文本類別中。文本分類在文本檢索、信息獲取、信息過濾、數(shù)據(jù)組織、信息管理及互聯(lián)網(wǎng)上的搜索都有十分廣泛的應用,有效地提高了信息服務的質量。研究表明,公司信息有80%包含在文本文檔中。所以,文本自動分類及其相關技術的研究正日益成為一項研究熱點。目前較為著名的文本分類算法包括支持向量機(SupportVectorMachine,SVM),K近鄰法(K-NearestNeighbour,KNN),樸素貝葉斯法(NaiveBayes,NB),神經(jīng)網(wǎng)絡法(NeuralNetwork,NNet),線性最小二乘法(LinearLeastSquaresFit,LLSF)等。其中,多數(shù)方法采用向量空間模型(VectorSpaceModel,VSM)表示文本,即將文本表示成向量,作為向量空間的一個點,然后通過計算向量間的距離決定文本所屬類別。VSM在表示方法上有巨大的優(yōu)勢,在文本分類中被廣泛使用。3.2.1文本分類中的特征選擇方法文本的特征表示 特征表示是指以一定特征項(如詞條或描述)來代表文檔REF_Ref291961812\r\h[10]。在文本挖掘時只需要對這些特征項進行處理,即可實現(xiàn)對非結構化的文本的處理。這是一個非結構化向結構化轉換的處理步驟。特征表示方法有很多種,常用的有布爾邏輯法、概率法、向量空間等?,F(xiàn)有的絕大部分的文本分類器都是使用向量空間模型中的“詞袋法”來表示文本。這種方法有一個關鍵的假設,就是文章中出現(xiàn)的詞條的次序是無關緊要的,不考慮詞條的位置信息以及文本結構,把文本看成是一系列無序詞的集合。文本的特征就可以采用文本中的詞條Token作為特征項。T1,T2,…Tn表示文檔內(nèi)容的特征項,可以看成是一個n維的坐標系,權值W 在所有的權值函數(shù)中,最常用的是前面兩種,它們在特征空間中一般可以獲得比較高的分類精度。這兩個公式都基于以下的指導思想:在一個文本中出現(xiàn)次數(shù)很多的單詞,在另一個同類文本中出現(xiàn)的次數(shù)也會很多,反之亦然。而且認為一個單詞出現(xiàn)的額外文本頻數(shù)越小,它區(qū)分不同類別文本的能力就越大。公式的表達式也可以看出詞條重要性正比于詞條的文檔內(nèi)頻數(shù),反比于文本集內(nèi)出現(xiàn)該詞條的文檔頻數(shù)。文檔預處理進行文本特征選擇以前可以先進行一些初始化的篩選,一般通用的做法有:(1)停用詞表(stop-list)將一些在文本中出現(xiàn)頻率高但是含義虛泛的詞放入停用詞表。這些詞在不同的語言環(huán)境有不同的表示。例如在英語中的a,an,the,this,for,at,on,中文中的“的,得,地,這,盡管,但是”等,保證出現(xiàn)在停用詞表中的詞不能選作文檔特征。(2)稀有詞處理有些詞條在整個文檔集中出現(xiàn)的頻率都很低,它們也不適合作為文本的特征項。通過對文檔集進行詞條頻率統(tǒng)計并設計一個詞頻閾值,只要是詞條頻度低于這個詞頻閾值的詞就被刪除。主要運用zip法則來刪除低頻詞。(3)單詞歸并為了提高分類效果,采取單詞歸并和同義詞歸并的策略,把表達形式不同而含義相同的或是含義相似的詞作為同一個詞條處理。如英文中的football和soccer,中文的“電腦”和“計算機”等。(4)同根詞處理在英文中,還可以進行stripheader和Stemming的操作來對文本進行初始化。例如:talker,talking,talked它們同屬于一個詞根talk。文檔特征選擇 文本數(shù)據(jù)的半結構化甚至于無結構化的特點,使得用詞袋法表示待測文檔集時,特征向量會達到幾萬維甚至于幾十萬維。即使經(jīng)過上述初始化篩選處理(使用停用詞表、稀有詞處理、單詞歸并以及同根詞處理),還會有很多高維數(shù)的特征向量留下。高維的特征對分類機器學習未必全是至關重要的,有益的。高維的特性可能會大大增加機器學習的時間而僅產(chǎn)生與小得多的特征子集相關的學習分類結果。因此,在進行文本分類中,特征選擇顯得至關重要。 特征選擇的主要方法是利用有關數(shù)學工具降低模式維數(shù),尋找最有效的特征構成較低維數(shù)的模式向量。統(tǒng)計學、模式識別和機器學習中都有許多進行特征選擇的方法,一般分有filter方法和wrapper方法兩種,兩種方法的過程如圖,實際上它們并沒有本質的差別,它們的不同僅僅在于filter方法采用一些度量指標來評價特征子集的優(yōu)劣,而wrapper方法直接用學習算法的準確率作為評判的指標。圖3.2filter方法和wrapper方法示意圖特征選擇主要用于排除確定的特征空間中那些被認為無關的或是關聯(lián)性不大的特性。于是經(jīng)常會使用特征獨立性假設以簡化特征選擇,以達到計算時間和計算質量的折衷。因此,目前在對文本的特征空間所采取的特征選擇算法一般是構造一個評價函數(shù),對特征集中的每個特征進行獨立的評估。這樣每個特征都獲得一個評估分,然后對所有的特征按照其評估分的大小進行排序,選取預定數(shù)目的最佳特征作為結果的特征子集。所以,選取多少個最佳特性以及采用什么評價函數(shù),都需要針對某一個具體的問題通過試驗來決定。在文本分類的特征選擇中的評估函數(shù)有文檔頻數(shù)(documentfrequency),信息增益(informationgain),期望交叉熵(expectedcrossentropy),互信息(mutualinformation),文本證據(jù)權(theweightofevidencefortext),幾率比(oddsratio),單詞權(termstrength),其效果和原因分析如下:(1)文檔頻數(shù)(documentfrequency)DFTxt(W)=單詞出現(xiàn)的文檔數(shù)/訓練集的文檔總數(shù)它是最簡單的評估函數(shù),其值為訓練集合中此單詞發(fā)生的文本數(shù)在總的文本數(shù)的概率。DF評估函數(shù)的理論假設是稀有單詞要么不含有用信息,要么太少而不足以對分類產(chǎn)生影響,要么是噪音,所以可以刪去。雖然它在計算量上比其它的評估函數(shù)小得多,但是在實際運用中它的效果卻是出奇地好。DFTxt也有缺點,因為稀有單詞可能在某一類文本中并不稀有,而且包含著重要的判斷信息。在實際運用中一般并不直接使用DFTxt,常把它作為評判其它評估函數(shù)的標準。(2)信息增益(informationgain)其中P(Ci|W)表示文本中出現(xiàn)單詞W時,文檔屬于Ci的概率,同樣P(Ci|W)表示文中不出現(xiàn)單詞W時文本屬于Ci的概率,P(Ci)表示類別出現(xiàn)的概率,P(W)表示W(wǎng)在整個文本訓練集中出現(xiàn)的概率。信息增益是一種在機器學習領域應用較為廣泛的特征選擇方法。它從信息論角度出發(fā),用各特征取值情況來劃分學習樣本空間,根據(jù)所獲信息增益的多寡,來選擇相應的特征。(3)期望交叉熵(expectedcrossentropy)期望交叉熵沒有考慮單詞未出現(xiàn)的情況。如果詞條和類別強相關,P(Ci|W)就大,若P(Ci)又很小的話,則說明該詞條對分類的影響大。此時相應的函數(shù)值就大,就有可能被選中作為特征值。交叉熵反映了文本類別的概率分布和出現(xiàn)了某種特定詞的條件下文本類別的概率分布之間的距離。詞條的交叉熵越大,對文本類別分布的影響也就越大。(4)互信息(mutualinformation)詞條和類別的互信息體現(xiàn)了詞條與類別的相關程度,是一種廣泛用于建立詞關聯(lián)統(tǒng)計模型的標準。在某個類別Ci中出現(xiàn)的概率高,而在其它類別中出現(xiàn)的概率低的W將獲得較高的互信息,也就有可能被選取為類別的Ci的特征。(5)文本證據(jù)權(theweightofevidencefortext)其中P(Ci|W)和P(Ci)的意義同上。文本證據(jù)權比較了P(Ci)與P(Ci|W)之間的差別。其中P(Ci)為類出現(xiàn)的概率,P(Ci|W)為給定特征下類出現(xiàn)的條件概率。如果W和類別強相關,即P(Ci|W)大,并且相應類別出現(xiàn)的概率小,說明W對分類的影響大,計算出來的函數(shù)值就大,可以選取作為特征項;反之,就不選取作為特征項。文本證據(jù)權的精度是相當高的。(6)單詞權(termstrength)它和其它的評估函數(shù)完全不同,與類別信息無關。TS方法基于W在鄰近相關文檔中出現(xiàn)的概率來測試W的強度。利用文本向量間的余弦夾角找出相似度大于某一有限值的文本對,x和y即是找出的任意不同但相關的文本對。W的權值即為上式的TS(W)。信息增益方法的不足之處在于它考慮了單詞未發(fā)生的情況特別是在類分布和特征值分布高度不平衡的情況下,絕大多數(shù)類都是負類,絕大多數(shù)特征值都是“不出現(xiàn)”的,即P(W)>P(W)此時得到信息增益大的特征,主要因為信息增益公式中后一部分(代表單詞不出現(xiàn)情況)計算結果大,而非前一部分(代表單詞出現(xiàn)情況)計算結果大,信息增益的效果就會大大降低了。恰恰相反的是期望交叉熵沒有考慮單詞未出現(xiàn)的情況,在大多數(shù)的實驗結果中,不管在哪種數(shù)據(jù)集中,期望交叉熵的特征選擇都要優(yōu)于信息增益?;バ畔?MI)與期望交叉熵本質的不同在于它沒有考慮單詞發(fā)生的頻度,這是它一個致命的弱點,會導致互信息評估函數(shù)不選擇高頻的有用單詞而有可能選擇稀有詞作為文本的最佳特征。然而在二元分類器中,幾率比對于其它評估函數(shù)來說有其獨特的優(yōu)勢。3.3.2支持向量機文本分類算法文檔特征表示文本的特征表示是指用文本的特征信息集合來代表原來的文本REF_Ref291961827\r\h[11]。文本的特征信息是關于文本的元數(shù)據(jù),可以分為外部特征和內(nèi)容特征兩種類型。其中外部特征包括文本的名稱、日期、大小、類型、文本的作者、標題、機構等信息,文本的內(nèi)容特征包括主題、分類、摘要等特征。目前,在信息處理領域,文本的表示方法主要采用向量空間模型(VSM)。在該模型中,文檔被看作是由一組正交詞條向量所組成的向量空間,每個文檔表示為其中的一個規(guī)范化特征向量:V(d)=(t1,ω1,t2,ω2,?,tn,ωn)式中:ti—特征項,ωi—ti在d中的權重。通常選擇詞作為特征項,用詞頻來表示特征項對應的向量分量。詞頻分為絕對詞頻和相對詞頻兩種:絕對詞頻是指詞在文本中出現(xiàn)的頻率;相對詞頻是規(guī)范化的詞頻,即要求所有向量分量的平方和為1。相對詞頻的計算方法常用的有布爾函數(shù)、平方根函數(shù)、對數(shù)函數(shù)、TFIDF函數(shù)等。文本的特征提取 采用一定的文本表示模型對文本進行建模后,還要根據(jù)不同的目標采用特征選取的方法來降低維度。文本的特征提取一般是構造一個評價函數(shù),對特征集中的每個特征進行獨立的評估,提取的方法有多種,可以使用不同的評價函數(shù),如:詞頻DF(documentfrequencythreshold)、信息增益IG(informationgain)、互信息MI(mutualinformation)、期望交叉熵(expectedcrossentropy)、文本證據(jù)權(theweightofevidencefortext)等,其中詞頻和互信息應用較廣。詞頻就是文檔集合中出現(xiàn)某個特征項的文本數(shù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論