文本挖掘主要技術(shù)研究_第1頁(yè)
文本挖掘主要技術(shù)研究_第2頁(yè)
文本挖掘主要技術(shù)研究_第3頁(yè)
文本挖掘主要技術(shù)研究_第4頁(yè)
文本挖掘主要技術(shù)研究_第5頁(yè)
已閱讀5頁(yè),還剩6頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、文本挖掘主要技術(shù)研究摘要:Web技術(shù)的發(fā)展日新月異,與此同時(shí),因特網(wǎng)上的文本信息愈積愈多,浩如煙海。如何從這些海量文本數(shù)據(jù)挖掘出潛在的、有價(jià)值的信息,已經(jīng)成為越來(lái)越多人的研究重點(diǎn)。本文主要介紹了文本挖掘的基本方法,包括文本特征提取、特征子集選取、文本分類、文本聚類等,并對(duì)這些方法的改進(jìn)進(jìn)行了分析。在此基礎(chǔ)上,介紹了文本挖掘在當(dāng)今一些領(lǐng)域的應(yīng)用。關(guān)鍵詞:文本挖掘特征提取特征子集選取文本分類文本聚類應(yīng)用ResearchofMajorTechnologiesinTextMining【AbstractWiththerapiddevelopmentofWebtechnology,textinformat

2、ionontheInternethasatremendousgrowth.HowtodigoutthepotentialandvaluableinformationfromthetextinformationontheInternethasbecomethefocusofmanypeople'sresearch.Thispaperdescribesthebasicmethodsoftextmining,includingtextfeatureextraction,featuresubsetselection,textcategorization,textclustering,etc.,

3、itmakessomeanalysisonhowtoimprovesomeofthesemethods.Inaddition,itintroducestheapplicationinsomefieldswithtextminingtechnology.Keywordstextmining,featureextraction,featuresubsetselection,textcategorization,textclustering,application1、文本挖掘概述文本挖掘1(TextMining,TM),又稱為文本數(shù)據(jù)才掘(TextDataMining,TDM)或文本知識(shí)發(fā)現(xiàn)(Kno

4、wledgeDiscoveryinTexts,KDT),是指為了發(fā)現(xiàn)知識(shí),從大規(guī)模文本庫(kù)中抽取隱含的、以前未知的、潛在有用的模式的過(guò)程2。它的主要用途是從原本未經(jīng)使用的文本中提取出未知的知識(shí)。但是文本挖掘也是一項(xiàng)非常困難的工作,因?yàn)樗仨毺幚砟切┍緛?lái)就模糊而且非結(jié)構(gòu)化的文本數(shù)據(jù),所以它是一個(gè)多學(xué)科混雜的領(lǐng)域,涵蓋了信息技術(shù)、文本分析、模式識(shí)別、統(tǒng)計(jì)學(xué)、數(shù)據(jù)可視化、數(shù)據(jù)庫(kù)技術(shù)、機(jī)器學(xué)習(xí)以及數(shù)據(jù)挖掘等技術(shù)3。本文主要從文本挖掘的特征提取、文本分類、聚類等方面對(duì)文本挖掘技術(shù)進(jìn)行全面的分析。2、文本特征提取與數(shù)據(jù)庫(kù)中的結(jié)構(gòu)化數(shù)據(jù)相比,Web文檔具有有限的結(jié)構(gòu),或者根本就沒(méi)有結(jié)構(gòu)。即使具有一些結(jié)構(gòu),也是

5、著重于格式,而非文檔內(nèi)容。不同類型文檔的結(jié)構(gòu)也不一致。此外,文檔的內(nèi)容是人類所使用的自然語(yǔ)言,計(jì)算機(jī)很難處理其語(yǔ)義。文本信息源的這些特殊性使得現(xiàn)有的數(shù)據(jù)挖掘技術(shù)無(wú)法直接應(yīng)用于其上。我們需要對(duì)文本進(jìn)行預(yù)處理,抽取代表其特征的元數(shù)據(jù)。這些特征可以用結(jié)構(gòu)化的形式保存,作為文檔的中間表布形式。文本特征指的是關(guān)于文本的元數(shù)據(jù),分為描述性特征,例如文本的名稱、日期、大小、類型等;以及語(yǔ)義性特征,例如文本的作者、機(jī)構(gòu)、標(biāo)題、內(nèi)容等。描述性特征易于獲得,而語(yǔ)義性特征則較難得到。W3c近來(lái)制定的XML4、RDF5等規(guī)范提供了對(duì)Web文檔資源進(jìn)行描述的語(yǔ)言和框架。在此基礎(chǔ)上,我們可以從半結(jié)構(gòu)化的WetC檔中抽取作

6、者、機(jī)構(gòu)等特征。特征表示6是指以一定的特征項(xiàng)(如詞條或描述)來(lái)代表文檔信息,特征表示模型有多種,常用的有布爾邏輯型、向量空間型、概率型等。近年來(lái)應(yīng)用較多且效果較好的特征表示法是向量空間模型(VectorSpaceModel,VSM)法7。在VSM中,將每個(gè)文本文檔d看成是一組詞條(T1,T2,Tn)構(gòu)成,對(duì)于每一詞條Ti,都根據(jù)其在文檔d中的重要程度賦予一定的權(quán)值Wi,可以將其看成一個(gè)n維坐標(biāo)系,W1,W2-Wn為對(duì)應(yīng)的坐標(biāo)值,因此每一篇文檔都可以映射為由一組詞條矢量張成的向量空間中的一點(diǎn),對(duì)于所有待挖掘的文檔都用詞條特征矢量(T1,W1(d),T2,W4d)T-n,Wn(d)表示。這種向量空

7、間模型的表示方法,可以將d中出現(xiàn)的所有單,作為T(mén)i,也可以將d中出現(xiàn)的所有短語(yǔ)作為T(mén)i,從而提高特征表示的準(zhǔn)確性。Wi(d)一般被定義為T(mén)i在d中出現(xiàn)率tfi(d)的函數(shù),常用的有布爾函數(shù),平方根函數(shù),對(duì)數(shù)函數(shù),TFIDF函數(shù)等。3、文本特征子集選取構(gòu)成文本的詞匯數(shù)量是相當(dāng)大的,因此表示文本的向量空間的維數(shù)也相當(dāng)大,可以達(dá)到幾萬(wàn)維,因此需要進(jìn)行維數(shù)壓縮的工作。目前對(duì)WWW文檔特征所采用的特征子集8選取算法一般是構(gòu)造一個(gè)評(píng)價(jià)函數(shù),對(duì)特征集中的每一個(gè)特征進(jìn)行獨(dú)立的評(píng)估,這樣每個(gè)特征都獲得一個(gè)評(píng)估分,然后對(duì)所有的特征按照其評(píng)估分的大小進(jìn)行排序,選取預(yù)定數(shù)目的最佳特征作為結(jié)果的特征子集。一般用的評(píng)估函

8、數(shù)9有幾率比(Oddsratio)、信息增益(InformationGain)、期望交叉嫡(ExpectedCrossEntropy)、互信息(MutualInformation)、詞頻(WordFrequency)等,限于篇幅,本文并不詳細(xì)介紹。4、文本分類分類10(CategorizationorClassification)就是按照某種標(biāo)準(zhǔn)給對(duì)象貼標(biāo)簽(label),再根據(jù)標(biāo)簽來(lái)區(qū)分歸類。分類是事先定義好類別,類別數(shù)不變。分類器需要由人工標(biāo)注的分類訓(xùn)練語(yǔ)料訓(xùn)練得到,屬于有指導(dǎo)學(xué)習(xí)范疇。本文介紹了常用的分類算法,其中對(duì)樸素貝葉斯和KNN算法進(jìn)行了詳細(xì)的介紹。4.1樸素貝葉斯貝葉斯分類是一種

9、統(tǒng)計(jì)學(xué)分類方法,它基于貝葉斯定理,公式如下:P(B|A)f4、如果RykIx)=maxRyi|x),Ry?Ix),.,RynIx),貝Uxwyk。做夠用累性閻轆個(gè)關(guān)加計(jì)琳哈J我所涮,嚴(yán)加】事入而作為嘀國(guó)類劇時(shí)用箭用圖1樸素貝葉斯分類流程圖它可以用來(lái)預(yù)測(cè)類成員關(guān)系的可能性,給出文本屬于某特定類別的概率,分類時(shí)根據(jù)預(yù)測(cè)結(jié)果將該樣本分到概率最高的類別中去即可。樸素貝葉斯分類模型訓(xùn)練的過(guò)程其實(shí)就是統(tǒng)計(jì)每一個(gè)特征在各類中出現(xiàn)規(guī)律的過(guò)程,從理論上,講貝葉斯分類的出錯(cuò)率最小,就試驗(yàn)結(jié)果來(lái)看,樸素貝葉斯在大型的數(shù)據(jù)集上表現(xiàn)出來(lái)難得的速度和準(zhǔn)確度。樸素貝葉斯分類的正式定義如下:1、設(shè)x=a1,a2,.,am為一

10、個(gè)待分類項(xiàng),而每個(gè)a為x的一個(gè)特征屬性。2、有類別集合C=yi,y2,.,yn。3、計(jì)算P(yiIx),P(y2|x),.,P(yn|x)。樸素貝葉斯分類器(nativeBayes假設(shè)特征對(duì)于給定類的影響?yīng)毩⒂谄渌卣鳎刺卣鳘?dú)立性假設(shè)。對(duì)文本分類來(lái)說(shuō),它假設(shè)各個(gè)單詞Wi和W之間兩兩獨(dú)立。設(shè)訓(xùn)練樣本集分為k類,記為C=C1,C2,,Ck,則每個(gè)類Ci的先驗(yàn)概率為P(Ci),i=1,2,,k,其值為Ci類的樣本數(shù)除以訓(xùn)練集總樣本數(shù)n。對(duì)于新樣本d,其屬于Ci類的條件概率是P(Ci|d)。根據(jù)貝葉斯定理,Ci類的后驗(yàn)概率為P(Ci|d);RG|d)=P(d|G)RC)P(1)P(d)對(duì)于所有類均為

11、常數(shù),可以忽略,則式簡(jiǎn)化為:RG|d)父P(d|Ci)P(G)(2)為避免P(Ci)等于o,采用拉普阿斯概率估1|Dc|RC)=1R|C|D=|式中:C為訓(xùn)練集中類的數(shù)目,DCi為訓(xùn)練集中屬于類Ci的文檔數(shù),DC為訓(xùn)練集包含的總文檔數(shù)。在特殊情況下,訓(xùn)練樣本集中各類樣本數(shù)相等,此時(shí)類的先驗(yàn)概率相等,式(2)可以簡(jiǎn)化:P(Ci|d)ocP(d|Q)(4)YWoawj'C)2|Dc|1TF(wj,C)P(w|G)=樸素貝葉斯分類器將未知樣本歸于類i的依據(jù)如下:RG|d)=argmaxP(Cj|d)P(C),j=1,2,.,k.文檔d由其包含的特征詞表示,即d=(w1,wj,wm),m是d的

12、特征詞個(gè)數(shù)d,wj是第j個(gè)特征詞,由特征獨(dú)立性假設(shè),則得mhc1d)=*於徒,.,©j1&)二門(mén)口4C)ji(6)式中:P(叫|C)表示分類器預(yù)測(cè)單詞wj在類Ci的文檔中發(fā)生的概率。因此式(2)可轉(zhuǎn)換為|d|rg|d)sR(C)nP(叼|C)j(7)為避免式中P(叫|6)等于。,可以采用拉普拉斯概率估計(jì)。有兩種方法計(jì)算P(叼|G),即文檔型計(jì)算公式和詞頻型計(jì)算公式。(1)文檔型:不考慮單詞在文檔中的出現(xiàn)頻次,僅考慮單詞在文檔中是否出現(xiàn),0表示未出現(xiàn),1表示出現(xiàn),依式(8)計(jì)算:式中:N(doa(wj)|C)為Ci類文本中出現(xiàn)特征wj的文本數(shù)。(2)詞頻型:考慮單詞在文檔中出現(xiàn)

13、的頻次,依式(9)計(jì)算:|v|V|、TF(wk,G)k1(9)式中:V表示特征詞表中總單詞數(shù),TF(wj,Ci)表示單詞wj在類Ci的所有文檔中出現(xiàn)的頻次之和。114.2K近鄰分類K-nearestneighbor圖2KNN決策過(guò)程圖KNN分類算法的主要思想是:先計(jì)算待分類樣本與已知類別的訓(xùn)練樣本之間的距離或相似度,找到距離或相似度與待分類樣本數(shù)據(jù)最近的K個(gè)鄰居;再根據(jù)這些鄰居所屬的類別來(lái)判斷待分類樣本數(shù)據(jù)的類別。如果待分類樣本數(shù)據(jù)的K個(gè)鄰居都屬于一個(gè)類別,那么待分類樣本也屬于這個(gè)類別。否則,對(duì)每一個(gè)候選類別進(jìn)行評(píng)分,按照某種規(guī)則來(lái)確定待分類樣本數(shù)據(jù)的類別12。我們采用歐氏距離來(lái)確定樣本的相似

14、性。歐氏距離的計(jì)算公式為:d(x,y)=(Xi-yi)2KNN以簡(jiǎn)單和高魯棒性而被廣泛應(yīng)用于機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘領(lǐng)域,被證實(shí)是向量空間模型(VSM)下最好的文本分類方法之一。然而KNN算法有其固有的缺點(diǎn),當(dāng)訓(xùn)練樣本集過(guò)大或特征過(guò)多時(shí),KNN算法的效率會(huì)明顯下降13。鑒于此,卜凡軍等提出了基于向量投影的PKNN算法14。4.3 KNN改進(jìn)算法PKNNKNN算法的計(jì)算量主要花費(fèi)在分類階段:每次對(duì)一個(gè)待分類樣本分類時(shí),都要計(jì)算其與所有訓(xùn)練樣本的距離,如果對(duì)大量高維數(shù)據(jù)進(jìn)行分類,那么計(jì)算開(kāi)銷將是非常大的。因此,基于iDistance15降維思想和向量投影理論的改進(jìn)KNN的PKNN算法,能夠快速準(zhǔn)確地選取

15、很小的訓(xùn)練樣本庫(kù),可以大大提高效率。PKNN算法流程(1)讀入訓(xùn)練樣本Yi(i=1,2,,n):由式求出訓(xùn)練樣本的中心M。(2)根據(jù)式(1)計(jì)算各訓(xùn)練樣本點(diǎn)與中心點(diǎn)M的歐氏距離,可得距離M的最遠(yuǎn)點(diǎn)Ymax。(3)根據(jù)文中的方法求出各訓(xùn)練樣本點(diǎn)在MYmax上的投影距離Di(i=1,2,n),(-|MYmax|<Di<|MYmax|),并對(duì)Di排序。(4)讀入一個(gè)待分類點(diǎn)x,求x在向量max上的投影距離Dx。(5)采用二分搜索的方法搜索獲得訓(xùn)練樣本中Di與Dx最近的n1個(gè)點(diǎn)。(6)通過(guò)計(jì)算這n1個(gè)點(diǎn)與x的歐氏距離獲得最近的K個(gè)點(diǎn),卞據(jù)這k個(gè)點(diǎn)的類別屬性得出x所屬的類。(7)讀入下一個(gè)待

16、分類點(diǎn),循環(huán)步驟(4)(6)。4.4 決策樹(shù)DecisionTree決策樹(shù)(DecisionTree)是用于分類和預(yù)測(cè)的主要技術(shù),它著眼于從一組無(wú)規(guī)則的事例推理出決策樹(shù)表示形式的分類規(guī)則,采用自頂向下的遞歸方式,在決策樹(shù)的內(nèi)部節(jié)點(diǎn)進(jìn)行屬性值的比較,并根據(jù)不同屬性判斷從該節(jié)點(diǎn)向下分支,在決策樹(shù)的葉節(jié)點(diǎn)得到結(jié)論。因此,從根節(jié)點(diǎn)到葉節(jié)點(diǎn)就對(duì)應(yīng)著一條合理規(guī)則,整棵樹(shù)就對(duì)應(yīng)著一組表達(dá)式規(guī)則?;跊Q策樹(shù)算法的一個(gè)最大的優(yōu)點(diǎn)是它在學(xué)習(xí)過(guò)程中不需要使用者了解很多背景知識(shí),只要訓(xùn)練事例能夠用屬性即結(jié)論的方式表達(dá)出來(lái),就能使用該算法進(jìn)行學(xué)習(xí)16。5、文本聚類5.1 聚類概述聚類是根據(jù)數(shù)據(jù)的不同特征,將其劃分為不同

17、的數(shù)據(jù)類。它的目的是使得屬于同一類別的個(gè)體之間的距離盡可能的小,而不同類別上的個(gè)體間的距離盡可能的大。聚類方法包括統(tǒng)計(jì)方法、機(jī)器學(xué)習(xí)方法、神經(jīng)網(wǎng)絡(luò)方法和面向數(shù)據(jù)庫(kù)的方法17。聚類流程如下:=電妁限;=£魁帆慘9累類方案圖3聚類流程圖185.2 文本聚類概述文本聚類主要是依據(jù)著名的聚類假設(shè)同類的文檔相似度較大,而不同類的文檔相似度較小。作為一種無(wú)監(jiān)督的機(jī)器學(xué)習(xí)方法,它在給定的某種相似性度量下把對(duì)象集合進(jìn)行分組,使彼此相近的對(duì)象分到同一個(gè)組內(nèi)。文本聚類根據(jù)文檔的某種聯(lián)系或相關(guān)性對(duì)文檔集合進(jìn)行有效的組織、摘要和導(dǎo)航,方便人們從文檔集中發(fā)現(xiàn)相關(guān)的信息。文本聚類方法通常先利用向量空間模型把文檔

18、轉(zhuǎn)換成高維空間中的向量,然后對(duì)這些向量進(jìn)行聚類。由于中文文檔沒(méi)有詞的邊界,所以一般先由分詞軟件對(duì)中文文檔進(jìn)行分詞,然后再把文檔轉(zhuǎn)換成向量,通過(guò)特征抽取后形成樣本矩陣,最后再進(jìn)行聚類,文本聚類的輸出一般為文檔集合的一個(gè)劃分。5.3 文本聚類的算法5.3.1 基于層次的方法一個(gè)層次的聚類算法19將數(shù)據(jù)對(duì)象組織成一棵聚類的樹(shù)。根據(jù)層次分解是自底向上還是自頂向下形成,層次的聚類算法可以進(jìn)一步分為凝聚的(agglomerative)和分裂的(divisive)層次聚類。凝聚的層次聚類,首先將每個(gè)文本對(duì)象作為一個(gè)簇,然后合并這些原子簇為越來(lái)越大的簇,直到所有對(duì)象都在一個(gè)簇中,或者終止條件滿足。分裂的層次聚

19、類,與凝聚的層次聚類相反,它首先將所有對(duì)象谿于一個(gè)簇中,然后逐漸細(xì)分為越來(lái)越小的簇,直到每個(gè)對(duì)象自成一簇,或者終止條件滿足。對(duì)于給定的文檔集合D=d1,?,di,?,dn,層次凝聚法的過(guò)程如下:(1)將D中的每個(gè)文本di看作是具有單個(gè)成員的類ci=di,這些類構(gòu)成了D的一個(gè)聚類C=c1,?,ci,?,cn;(2)計(jì)算C中每對(duì)類(ci,cj)之間的相似度sim(ci,cj);(3)選取具有最大相似度的類對(duì),并將ci和cj合并為一個(gè)新的類ck,從而構(gòu)成了D的一個(gè)新的聚類C=c1,?,ci,?,cn-1;(4)重復(fù)上述步驟,直到C中剩下一個(gè)類為止。5.3.2 基于劃分的方法(k-means及其改進(jìn)算

20、法)k-means(K-平均)是一種典型的基于劃分的方法。是一種基于質(zhì)心的聚類技術(shù),其基本原理是首先選擇k個(gè)文檔作為初始的聚類點(diǎn),然后根據(jù)簇中對(duì)象的平均值,將每個(gè)文檔(重新)賦給最類似的簇,并更新簇的平均值,然后重復(fù)這一過(guò)程,直到簇的劃分不再發(fā)生變化20。k-means的算法復(fù)雜度為O(kln),其中l(wèi)為迭代次數(shù),n為文檔個(gè)數(shù),k為類別個(gè)數(shù)。k-means算法描述:輸入:簇的數(shù)目k,包含n個(gè)文本的特征向量。輸出:k個(gè)簇,使平方誤差準(zhǔn)則最小。步驟:(1)任意選擇k個(gè)對(duì)象作為初始的簇中心;(2) repeat;(3)根據(jù)簇中對(duì)象的平均值,將每個(gè)對(duì)象(重新)賦給最類似的簇;(4)更新簇的平均值;(5

21、) until不再發(fā)生變化。本文通過(guò)C+實(shí)現(xiàn)了k-means算法,劃分結(jié)果示例截圖如下:圖4k-means算法聚類示例圖由上述算法可知,k-means具有高效率,并有效處理大文本集的優(yōu)點(diǎn)。k-means算法本質(zhì)上是一種貪心算法??梢员WC局部最小,但是很難保證全局最小。傳統(tǒng)的k-means算法對(duì)初始聚類中心敏感,不同的初始中心往往對(duì)應(yīng)著不同的聚類結(jié)果。袁方等21提出了一種優(yōu)化初始聚類中心的改進(jìn)k-means算法。優(yōu)化初始聚類中心改進(jìn)k-means算法描述如下:輸入:聚類個(gè)數(shù)k以及包含n個(gè)數(shù)據(jù)對(duì)象的數(shù)據(jù)集;輸出:滿足目標(biāo)函數(shù)值最小的k個(gè)聚類。(1)計(jì)算任意兩個(gè)數(shù)據(jù)對(duì)象間的距離d(Xi小);(2)計(jì)

22、算每個(gè)數(shù)據(jù)對(duì)象的密度參數(shù),把處于低密度區(qū)域的點(diǎn)刪除,得到處于高密度區(qū)域的數(shù)據(jù)對(duì)象的集合D;(3)把處于最高密度區(qū)域的數(shù)據(jù)對(duì)象作為第1個(gè)中心z1;(4)把z1距離最遠(yuǎn)的數(shù)據(jù)對(duì)象作為第2個(gè)初始中心z2,z2CD;(6) 令z3為滿足max(min(d(Xi,z1),d(x,z?)i=1,2,.,n的數(shù)的數(shù)據(jù)對(duì)象Xi,z3wD;(7) 令z4為滿足max(min(d(Xi,z1),d(Xi,zz),d(x,z3)i=1,2,.,n的數(shù)的數(shù)據(jù)對(duì)象Xi,z4WD;(8) 令zk為滿足maX(min(d(Xi,zj)i=1,2,.,n;j=1,2,.,k-1的數(shù)據(jù)對(duì)象Xi,zkWD;(8)從這k個(gè)聚類中心

23、出發(fā),應(yīng)用k-means聚類算法,得到聚類結(jié)果。經(jīng)改進(jìn)的k-means算法與原算法準(zhǔn)確率比較結(jié)果如下:口恚士能皿加姆也11>H/taaiMmuseH*中4州中&14V田營(yíng)*如汽制M9LS5I0I上明將里urnK3V5I.W%WUIKJ胃洛U5t2lnn妨金51W.25J3?4司5a533ft恥«海5ssiHIS%翼小MM55.19HUW5m陽(yáng)總卻NUM智陽(yáng)西1盤(pán)典萼鐘獻(xiàn)設(shè)例y吶MP%口口$,如51叫1W1KITIR科MLS前的1海國(guó)is3nj居NT.IM.53iim海期*闞I3U5JVI用柒史g皿1IJ事監(jiān)HIT%想崢iim血出HsHW12%陽(yáng)稟跖汕g抵麗R科BU+53

24、b.3IJ«斤痔中HAIMMg葡部聞4T.通科HJTf沌gU片心皮H我Mg沏0.8版EHUBUMion捫斗堂弧鶴哨聰5JIM,刃她也仍*1網(wǎng)胤見(jiàn)蹴川效港同75G4U*J“辦圖5k-means算法與改進(jìn)k-means算法的比較圖可見(jiàn)在多數(shù)數(shù)據(jù)集中,改進(jìn)算法要比原k-means算法的準(zhǔn)確率高。6、文本挖掘應(yīng)用文本挖掘最大的動(dòng)機(jī)是來(lái)自于潛藏于電子形式中的大量的文本數(shù)據(jù)。利用數(shù)據(jù)挖掘技術(shù)處理公司大量的文本數(shù)據(jù),將給企業(yè)帶來(lái)巨大的商業(yè)價(jià)值。另外人們對(duì)于文本挖掘的感興趣的原因還在于:人們有時(shí)候并不知道他們到底要找什么,而挖掘能夠從數(shù)據(jù)庫(kù)中抽取出許多有用的信息。目前,文本挖掘在搜索引擎、輿情分析、

25、用戶推薦等各個(gè)領(lǐng)域都有所應(yīng)用,本文簡(jiǎn)單介紹下其在輿情分析下22的應(yīng)用。6.1 網(wǎng)絡(luò)輿情分析6.1.1 對(duì)網(wǎng)絡(luò)輿情進(jìn)行描述通過(guò)對(duì)網(wǎng)絡(luò)輿情信息的文本挖掘,可以生成有關(guān)網(wǎng)上針對(duì)某一社會(huì)公共事件存在的不同的民眾情緒、態(tài)度、觀點(diǎn)即網(wǎng)絡(luò)輿情的總體概括的描述性信息。如利用文本特征提取可以了解輿情信息涉及的具體社會(huì)問(wèn)題、發(fā)現(xiàn)并追蹤社會(huì)熱點(diǎn)和焦點(diǎn)內(nèi)容、利用文本分類技術(shù)可以判斷該事件反映哪類社會(huì)問(wèn)題。6.1.2 對(duì)網(wǎng)絡(luò)輿情的關(guān)聯(lián)性進(jìn)行分析文本挖掘可以從時(shí)間與空間分析事件之間的關(guān)聯(lián)性,發(fā)現(xiàn)從時(shí)空角度關(guān)聯(lián)事件的發(fā)展規(guī)律及發(fā)展趨勢(shì)。如通過(guò)文本挖掘分析法可以明確輿情信息產(chǎn)生者與輿情信息特征之間的關(guān)聯(lián)性,這樣就能通過(guò)分析輿

26、情信息的特征來(lái)追溯輿情信息的來(lái)源。網(wǎng)絡(luò)信息的主題檢測(cè)和追蹤技術(shù)可以在海量網(wǎng)絡(luò)信息中,自動(dòng)發(fā)現(xiàn)突發(fā)事件的輿情信息流主題。文本挖掘技術(shù)可跟蹤突發(fā)事件的相關(guān)信息,實(shí)現(xiàn)網(wǎng)絡(luò)輿情熱點(diǎn)焦點(diǎn)信息的自動(dòng)發(fā)現(xiàn),可以有效的輔助發(fā)現(xiàn)并預(yù)警不良信息,起到輔助決策支持的作用。6.1.3 真實(shí)性進(jìn)行判斷分析,意圖傾向推論網(wǎng)上虛假信息和不良信息會(huì)引發(fā)錯(cuò)誤輿情導(dǎo)向,需要通過(guò)文本挖掘?qū)ζ溥M(jìn)行判定和掌控。網(wǎng)絡(luò)輿情信息在大多數(shù)情況下真實(shí)地表達(dá)出了民眾的態(tài)度和情緒,如通過(guò)網(wǎng)站所發(fā)布的對(duì)時(shí)政問(wèn)題的討論,可以推斷其觀點(diǎn)和立場(chǎng)。事件發(fā)生的全貌及產(chǎn)生的影響。網(wǎng)絡(luò)還大量存在著歪曲、偏激地反映社會(huì)現(xiàn)實(shí)、現(xiàn)代社會(huì)的價(jià)值觀念的輿情信息,甚至還有別有

27、用心的人,在網(wǎng)上散布虛假信息。在這種情況下,通過(guò)文本挖掘分析法,可以比較網(wǎng)絡(luò)輿情信息與社會(huì)現(xiàn)實(shí)狀況,對(duì)虛假信息追根溯源,及時(shí)消除其不良影響。6.1.5 預(yù)測(cè)和推論網(wǎng)絡(luò)輿情信息的產(chǎn)生和變化趨勢(shì)輿情一經(jīng)產(chǎn)生,便處在動(dòng)態(tài)變化之中,對(duì)網(wǎng)絡(luò)輿情變動(dòng)趨勢(shì)的預(yù)測(cè),對(duì)于管理決策者有著重要的意義23。7、結(jié)束語(yǔ)6.1.4對(duì)網(wǎng)絡(luò)輿情的產(chǎn)生原因進(jìn)行分析文本挖掘技術(shù)利用多維分析對(duì)輿情信息進(jìn)行跨時(shí)間、跨空間的綜合分析,描述起因本文對(duì)文本挖掘的主要技術(shù)進(jìn)行了詳細(xì)的介紹和分析,并對(duì)相關(guān)技術(shù)的改進(jìn)算法進(jìn)行了探討。目前文本挖掘尤其是中文文本挖掘,還是有很大的研究空間。現(xiàn)有的一些中文文本挖掘?qū)φZ(yǔ)義理解方面做的還不夠多,當(dāng)然,這與

28、中文的博大精深有一定的關(guān)系。筆者導(dǎo)師的研究方向是Web海量信息處理和垂直搜索。目前筆者導(dǎo)師的團(tuán)隊(duì)在做垂直搜索引擎的過(guò)程中,一直都涉及文本處理、文本挖掘、文本分析等方面,現(xiàn)有的文本挖掘技術(shù)雖然比較成熟,但是在特定項(xiàng)目中,還是存在覆蓋面不夠的情況。各類Web文本挖掘技術(shù),技術(shù)雖然成熟,但大部分成果都是基于統(tǒng)計(jì),很少有基于理論的,筆者希望在今后的研究道路上,能夠?qū)ο嚓P(guān)技術(shù)進(jìn)行進(jìn)一步的探討與改進(jìn),尤其期盼在基于理論的文本挖掘技術(shù)方面能夠有一些出彩的成果。參考文獻(xiàn)NearestNeighborSearchC,In:ACM1謨志群,張國(guó)煌.文本挖掘研究進(jìn)展J.模式識(shí)別與人工智能,2005:65-74.2謨

29、志群,張國(guó)煌.文本挖掘與中文文本挖掘模型研究J.情報(bào)科學(xué),2007,(7):1046-1051.3梅馨,邢桂芬.文本挖掘技術(shù)綜述J.江蘇大學(xué)學(xué)報(bào):自然科學(xué)版,2003,(5):72-76.4 BrayT,PaoliJ,Sperberg-McQueenCM.ExtensibleMarkupLanguage(XML)1.0specification.WorldWideWebConsortiumRecommendation.1998./TR/REC-xml/5 LassilaO,SwickRR.ResourceDescriptionFramework(RDF)ModelandSyntaxSpecification.WorldWideWebConsortiumRecommendation.1999./TR/REC-rdf-syntax/I6張衛(wèi)豐,徐寶文,周曉宇.Web搜索引擎綜述J.計(jì)算機(jī)科學(xué),2001,28(9):24-28.7SaltonG,WongA,YangCS.Avectorspacemodelforautomaticindexing.CommunicationsoftheACM,1975,18(5):613Transaction

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論