大數(shù)據(jù)與數(shù)據(jù)挖掘之文本挖掘_第1頁(yè)
大數(shù)據(jù)與數(shù)據(jù)挖掘之文本挖掘_第2頁(yè)
大數(shù)據(jù)與數(shù)據(jù)挖掘之文本挖掘_第3頁(yè)
大數(shù)據(jù)與數(shù)據(jù)挖掘之文本挖掘_第4頁(yè)
大數(shù)據(jù)與數(shù)據(jù)挖掘之文本挖掘_第5頁(yè)
已閱讀5頁(yè),還剩52頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大數(shù)據(jù)與數(shù)據(jù)挖掘-文本挖掘文本挖掘的背景數(shù)據(jù)挖掘大部分研究主要針對(duì)結(jié)構(gòu)化數(shù)據(jù),如關(guān)系的、事務(wù)的和數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)?,F(xiàn)實(shí)中大部分?jǐn)?shù)據(jù)存儲(chǔ)在文本數(shù)據(jù)庫(kù)中,如新聞文章、研究論文、書籍、WEB頁(yè)面等。存放在文本數(shù)據(jù)庫(kù)中的數(shù)據(jù)是半結(jié)構(gòu)化數(shù)據(jù),文檔中可能包含結(jié)構(gòu)化字段,如標(biāo)題、作者、出版社、出版日期等,也包含大量非結(jié)構(gòu)化數(shù)據(jù),如摘要和內(nèi)容等。1、文本挖掘概述文本挖掘概念文本挖掘旨在通過識(shí)別和檢索令人感興趣的模式,進(jìn)而從數(shù)據(jù)源中抽取有用的信息。文本挖掘的數(shù)據(jù)源是文本集合,令人感興趣的模式不是從形式化的數(shù)據(jù)庫(kù)記錄里發(fā)現(xiàn),而是從非結(jié)構(gòu)化的數(shù)據(jù)中發(fā)現(xiàn)。文本挖掘的過程預(yù)處理文檔建模相似性計(jì)算信息檢索文本分類文本聚類模型評(píng)價(jià)預(yù)處理把中文的漢字序列切分成有意義的詞,就是中文分詞,也稱為切詞?!拔沂且粋€(gè)學(xué)生”分詞的結(jié)果是:我是一個(gè)學(xué)生。和平民主和平、民主;和、平民、主提高人民生活水平提高、高人、人民、民生、生活、活水、水平大學(xué)生活象白紙大學(xué)、生活、象、白紙大學(xué)生、活象、白紙最大匹配分詞法S1="計(jì)算語(yǔ)言學(xué)課程是三個(gè)課時(shí)"設(shè)定最大詞長(zhǎng)MaxLen=5S2=""(1)S2=“”;S1不為空,從S1左邊取出候選子串W="計(jì)算語(yǔ)言學(xué)";(2)查詞表,“計(jì)算語(yǔ)言學(xué)”在詞表中,將W加入到S2中,S2=“計(jì)算語(yǔ)言學(xué)/”,并將W從S1中去掉,此時(shí)S1="課程是三個(gè)課時(shí)";(3)S1不為空,于是從S1左邊取出候選子串W="課程是三個(gè)";(4)查詞表,W不在詞表中,將W最右邊一個(gè)字去掉,得到W="課程是三";(5)查詞表,W不在詞表中,將W最右邊一個(gè)字去掉,得到W="課程是";(11)查詞表,W不在詞表中,將W最右邊一個(gè)字去掉,得到W="是三"(12)查詞表,W不在詞表中,將W最右邊一個(gè)字去掉,得到W=“是”,這時(shí)W是單字,將W加入到S2中,S2=“計(jì)算語(yǔ)言學(xué)/課程/是/”,并將W從S1中去掉,此時(shí)S1="三個(gè)課時(shí)";(21)S2=“計(jì)算語(yǔ)言學(xué)/課程/是/三/個(gè)/課時(shí)/”,此時(shí)S1=""。(22)S1為空,輸出S2作為分詞結(jié)果,分詞過程結(jié)束。停用詞指文檔中出現(xiàn)的連詞,介詞,冠詞等并無太大意義的詞。英文中常用的停用詞有the,a,it等中文中常見的有“是”,“的”,“地”等。停用詞消除可以減少term的個(gè)數(shù),降低存儲(chǔ)空間。停用詞的消除方法:(1)查表法:建立一個(gè)停用詞表,通過查表的方式去掉停用詞。(2)基于DF的方法:統(tǒng)計(jì)每個(gè)詞的DF,如果超過總文檔數(shù)目的某個(gè)百分比(如80%),則作為停用詞去掉。文檔建模特征表示是是指以一定定的特征項(xiàng)項(xiàng)如詞條或或描述來代代表文檔信信息。特征表示模模型有多種種,常用的的有布爾邏輯型型、向量空空間型等向量空間模模型中,將將每個(gè)文本本文檔看成成是一組詞詞條(T1,T2,T3,…,Tn)構(gòu)成,對(duì)對(duì)于每一詞詞條Ti,根據(jù)其在在文檔中的的重要程度度賦予一定定的權(quán)值,,可以將其其看成一個(gè)個(gè)n維坐標(biāo)系,,W1,W2,…,Wn為對(duì)應(yīng)的坐坐標(biāo)值,因因此每一篇篇文檔都可可以映射為為由一組詞詞條矢量構(gòu)構(gòu)成的向量量空間中的的一點(diǎn),對(duì)對(duì)于所有待待挖掘的文文檔都用詞詞條特征矢矢量(T1,W1;T2,W2;T3,W3;…;Tn,Wn)表示。向量空間模模型將文檔檔表達(dá)為一一個(gè)矢量,,看作向量量空間中的的一個(gè)點(diǎn)。。文檔的向量量空間模型型W權(quán)值計(jì)算方方法TF-IDF目前廣泛采采用TF-IDF權(quán)值計(jì)算方方法來計(jì)算算權(quán)重,TF-IDF的主要思想想是,如果果某個(gè)詞或或短語(yǔ)在一一篇文章中中出現(xiàn)的頻頻率TF高,并且在在其他文章章中很少出出現(xiàn),則認(rèn)認(rèn)為此詞或或者短語(yǔ)具具有很好的的類別區(qū)分分能力,適適合用來分分類。TF詞頻(TermFrequency)指的是某一一個(gè)給定的的詞語(yǔ)在該該文件中出出現(xiàn)的次數(shù)數(shù)。IDF逆文檔頻率率(InverseDocumentFrequency)是全體文檔檔數(shù)與包含含詞條文檔檔數(shù)的比值值。如果包包含詞條的的文檔越少少,IDF越大,則說說明詞條具具有很好的的類別區(qū)分分能力。在完整的向向量空間模模型中,將將TF和IDF組合合在一起,,形成TF-IDF度量:TF-IDF(d,t)=TF(d,t)*IDF(t)TF度量在一份給定定的文件里里,詞頻((termfrequency,TF)指的是某某一個(gè)給定定的詞語(yǔ)在在該文件中中出現(xiàn)的頻頻率。這個(gè)個(gè)數(shù)字是對(duì)對(duì)詞數(shù)(termcount)的歸一化,,以防止它它偏向長(zhǎng)的的文件。((同一個(gè)詞詞語(yǔ)在長(zhǎng)文文件里可能能會(huì)比短文文件有更高高的詞數(shù),,而不管該該詞語(yǔ)重要要與否。))對(duì)于在某某一特定文文件里的詞詞語(yǔ)來來說,它的的重要性可可表示為::以上式子中中

是該該詞在文件件中的出現(xiàn)現(xiàn)次數(shù),而而分母則是是在文件中中所有字詞詞的出現(xiàn)次次數(shù)之和。。IDF度量逆向文件頻頻率(inversedocumentfrequency,IDF)是一個(gè)詞詞語(yǔ)普遍重重要性的度度量。某一一特定詞語(yǔ)語(yǔ)的IDF,可以由總總文件數(shù)目目除以包含含該詞語(yǔ)之之文件的數(shù)數(shù)目,再將將得到的商商取對(duì)數(shù)得得到:?|D|:語(yǔ)料庫(kù)中的的文件總數(shù)數(shù)?:包包含詞詞語(yǔ)的文件件數(shù)目(即即的文件數(shù)數(shù)目)如果果該詞語(yǔ)不不在語(yǔ)料庫(kù)庫(kù)中,就會(huì)會(huì)導(dǎo)致被除除數(shù)為零,,因此一般般情況下使使用關(guān)鍵詞與與網(wǎng)頁(yè)的的相關(guān)性性計(jì)算在某個(gè)一一共有一一千詞的的網(wǎng)頁(yè)中中“大數(shù)數(shù)據(jù)”、、“的””和“應(yīng)應(yīng)用”分分別出現(xiàn)現(xiàn)了2次、35次和5次,那么么它們的的詞頻就就分別是是0.002、0.035和0.005。三個(gè)數(shù)數(shù)相加,,其和0.042就是相應(yīng)應(yīng)網(wǎng)頁(yè)和和查詢““大數(shù)據(jù)據(jù)的應(yīng)用用”相相關(guān)性的的一個(gè)簡(jiǎn)簡(jiǎn)單的度度量。概括地講講,如果果一個(gè)查查詢包含含關(guān)鍵詞詞w1,w2,...,wN,它們?cè)谝灰黄囟ǘňW(wǎng)頁(yè)中中的詞頻頻分別是是:TF1,TF2,...,TFN。(TF:termfrequency)。那么么,這個(gè)個(gè)查詢和和該網(wǎng)頁(yè)頁(yè)的相關(guān)關(guān)性就是是:TF1+TF2+...+TFN。詞“的””站了總總詞頻的的80%以上,它它對(duì)確定定網(wǎng)頁(yè)的的主題幾幾乎沒有有用。在在度量相相關(guān)性時(shí)時(shí)不應(yīng)考考慮它們們的頻率率。刪除除后,上上述網(wǎng)頁(yè)頁(yè)的相似似度就變變成了0.007,其中““大數(shù)據(jù)據(jù)”貢獻(xiàn)獻(xiàn)了0.002,“應(yīng)用用”貢獻(xiàn)獻(xiàn)了0.005?!皯?yīng)應(yīng)用”是是個(gè)很通通用的詞詞,而““大數(shù)據(jù)據(jù)”是個(gè)個(gè)很專業(yè)業(yè)的詞,,后者在在相關(guān)性性排名中中比前者者重要。。因此我我們需要要給漢語(yǔ)語(yǔ)中的每每一個(gè)詞詞給一個(gè)個(gè)權(quán)重,,這個(gè)權(quán)權(quán)重的設(shè)設(shè)定必須須滿足下下面兩個(gè)個(gè)條件::一個(gè)詞預(yù)預(yù)測(cè)主題題能力越越強(qiáng),權(quán)權(quán)重就越越大,反反之,權(quán)權(quán)重就越越小。我我們?cè)诰W(wǎng)網(wǎng)頁(yè)中看看到“大大數(shù)據(jù)””這個(gè)詞詞,或多多或少地地能了解解網(wǎng)頁(yè)的的主題。。我們看看到“應(yīng)應(yīng)用”一一次,對(duì)對(duì)主題基基本上還還是一無無所知。。因此,,“原子子能“的的權(quán)重就就應(yīng)該比比應(yīng)用大大。應(yīng)刪除詞詞的權(quán)重重應(yīng)該是是零。如果一個(gè)個(gè)關(guān)鍵詞詞只在很很少的網(wǎng)網(wǎng)頁(yè)中出出現(xiàn),我我們通過過它就容容易鎖定定搜索目目標(biāo),它它的權(quán)重重也就應(yīng)應(yīng)該大。。反之如如果一個(gè)個(gè)詞在大大量網(wǎng)頁(yè)頁(yè)中出現(xiàn)現(xiàn),我們們看到它它仍然不不很清楚楚要找什什么內(nèi)容容,因此此它應(yīng)該該小。概括地講講,假定定一個(gè)關(guān)關(guān)鍵詞ww在在Dww個(gè)網(wǎng)網(wǎng)頁(yè)中出出現(xiàn)過,,那么DDw越越大,,w的權(quán)權(quán)重越小小,反之之亦然。。在信息息檢索中中,使用用最多的的權(quán)重是是“逆文文本頻率率指數(shù)””(Inversedocumentfrequency縮寫為IIDF)),它的的公式為為logg(D//Dw))其中DD是全部部網(wǎng)頁(yè)數(shù)數(shù)。假定中文文網(wǎng)頁(yè)數(shù)數(shù)是D==10億億,應(yīng)刪刪除詞““的”在在所有的的網(wǎng)頁(yè)中中都出現(xiàn)現(xiàn),即DDw=110億,,那么它它的IDDF=log(10億/10億)=log(1)=0。假如如專用詞詞“大數(shù)數(shù)據(jù)”在在兩百萬萬個(gè)網(wǎng)頁(yè)頁(yè)中出現(xiàn)現(xiàn),即DDw=2200萬萬,則它它的權(quán)重重IDFF=log(500)=6.2。又假定通通用詞““應(yīng)用””,出現(xiàn)現(xiàn)在五億億個(gè)網(wǎng)頁(yè)頁(yè)中,它它的權(quán)重重IDFF=log(2)則只有0.7。也就只只說,在在網(wǎng)頁(yè)中中找到一一個(gè)“大大數(shù)據(jù)””的比配配相當(dāng)于于找到九九個(gè)“應(yīng)應(yīng)用”的的匹配。。利用IDF,上述相相關(guān)性計(jì)計(jì)算個(gè)公公式就由由詞頻的的簡(jiǎn)單求求和變成成了加權(quán)權(quán)求和,,即TF1*IDF1+TF2*IDF2+...+TFN*IDFN。在上面面的例子子中,該該網(wǎng)頁(yè)和和“原子子能的應(yīng)應(yīng)用”的的相關(guān)性性為0.0159,其中““大數(shù)據(jù)據(jù)”貢獻(xiàn)獻(xiàn)了0.0124,而“應(yīng)應(yīng)用”只只貢獻(xiàn)了了0.0035。這個(gè)比比例和我我們的直直覺比較較一致算例1詞頻(TF)是一詞語(yǔ)語(yǔ)出現(xiàn)的的次數(shù)除除以該文文件的總總詞語(yǔ)數(shù)數(shù)。假如如一篇文文件的總總詞語(yǔ)數(shù)數(shù)是100個(gè),而詞詞語(yǔ)“大大數(shù)據(jù)””出現(xiàn)了了3次,那么么“大數(shù)數(shù)據(jù)”一一詞在該該文件中中的詞頻頻就是3/100=0.03。一個(gè)計(jì)算算逆文件件頻率(IDF)的方法是是測(cè)定有有多少份份文件出出現(xiàn)過““大數(shù)據(jù)據(jù)”一詞詞,然后后除以文文件集里里包含的的文件總總數(shù)。所所以,如如果“大大數(shù)據(jù)””一詞在在1,000份文件出出現(xiàn)過,,而文件件總數(shù)是是10,000,000份的話,,其逆向向文件頻頻率就是是log(10,000,000/1,000)=4。最后的TF-IDF的分?jǐn)?shù)為為0.03*4=0.12。算例2關(guān)鍵字k1,k2,k3與文檔的的相關(guān)性性可用TF1*IDF1+TF2*IDF2+TF3*IDF3來表示。。比如文檔檔1所包含詞詞匯總量量為1000,k1,k2,k3在文檔1中出現(xiàn)的的次數(shù)是是100,200,50。包含了了k1,k2,k3的文檔總總量分別別是1000,10000,5000。文檔的的總量為為10000。TF1=100/1000=0.1;TF2=200/1000=0.2;TF3=50/1000=0.05;IDF1=log(10000/1000)=log(10)=2.3;IDF2=log(10000/100000)=log(1)=0;IDF3=log(10000/5000)=log(2)=0.69這樣關(guān)鍵鍵字k1,k2,k3與文檔1的相關(guān)性性=0.1*2.3+0.2*0+0.05*0.69=0.2645,其中k1比k3的比重在在文檔1要大,k2的比重是是0.文檔相似似性計(jì)算算根據(jù)一個(gè)個(gè)文檔集集合d和和一個(gè)項(xiàng)項(xiàng)集合t,可以以將每個(gè)個(gè)文檔表表示為在在t維空空間R中中的一個(gè)個(gè)文檔特特征向量量v。向量v中中第j個(gè)個(gè)數(shù)值就就是相應(yīng)應(yīng)文檔中中第j個(gè)個(gè)項(xiàng)的量量度。計(jì)算兩個(gè)個(gè)文檔相相似性可可以使用用上面的的公式余弦計(jì)算算法(cosinemeasure)計(jì)算步驟驟(1)使用TF-IDF算法,找找出兩篇篇文章的的關(guān)鍵詞詞;(2)每篇文文章各取取出若干干個(gè)關(guān)鍵鍵詞,合合并成一一個(gè)集合合,計(jì)算算每篇文文章對(duì)于于這個(gè)集集合中的的詞的詞詞頻;(3)生成兩兩篇文章章各自的的詞頻向向量;(4)計(jì)算兩兩個(gè)向量量的余弦弦相似度度,值越越大就表表示越相相似。文檔相似似性計(jì)算算示例句子A:我喜歡歡看電視視,不喜喜歡看電電影。句子B:我不喜喜歡看電電視,也也不喜歡歡看電影影。第一步,,分詞句子A:我/喜歡/看/電視,不不/喜歡/看/電影。句子B:我/不/喜歡/看/電視,也也/不/喜歡/看/電影。第二步,,列出所所有的詞詞我,喜歡歡,看,,電視,,電影,,不,也也。第三步,,計(jì)算詞詞頻句子A:我1,喜歡2,看2,電視1,電影1,不1,也0。句子B:我1,喜歡2,看2,電視1,電影1,不2,也1。第四步,,寫出詞詞頻向量量句子A:[1,2,2,1,1,1,0]句子B:[1,2,2,1,1,2,1]信息檢索索信息檢索索研究的的是大量量基于文文本的文文檔信息息的組織織和檢索索,如聯(lián)聯(lián)機(jī)圖書書館系統(tǒng)統(tǒng)、聯(lián)機(jī)機(jī)文檔管管理系統(tǒng)統(tǒng)和WEB搜索引擎擎。數(shù)據(jù)據(jù)庫(kù)系統(tǒng)統(tǒng)關(guān)注結(jié)結(jié)構(gòu)化數(shù)數(shù)據(jù)段查查詢和事事務(wù)處理理。信息檢索索研究的的典型問問題是根根據(jù)用戶戶查詢((描述所所需信息息的關(guān)鍵鍵詞),,在文檔檔中定位位相關(guān)文文檔。文本檢索索的基本本度量查準(zhǔn)率((Precision)是檢索索到的文文檔中的的相關(guān)文文檔占全全部檢索索到的文文檔的百百分比,,它所衡衡量的是是檢索系系統(tǒng)的準(zhǔn)準(zhǔn)確性查全率((Recall)是被檢檢索出的的文檔中中的相關(guān)關(guān)文檔占占全部相相關(guān)文檔檔的百分分比,它它所衡量量的是檢檢索系統(tǒng)統(tǒng)的全面面性信息檢索索的度量量方式{relevant}:與某某查詢相相關(guān)的文文檔的集集合。{retrieved}:系系統(tǒng)檢索索到的文文檔的集集合。{relevant}∩{retrieved}:既既相關(guān)又又被檢索索到的實(shí)實(shí)際文檔檔的集合合。查準(zhǔn)率(precision):既既相關(guān)又又被檢索索到的實(shí)實(shí)際文檔檔與檢索索到的文文檔的百百分比。。查全率(recall):既既相關(guān)又又被檢索索到的實(shí)實(shí)際文檔檔與查詢?cè)兿嚓P(guān)的的文檔的的百分比比。模型質(zhì)量量的評(píng)價(jià)價(jià)實(shí)例{relevant}={A,B,C,D,E,F,G,H,I,J}=10{retrieved}={B,D,F,W,Y}=5{relevant}∩{retrieved}={B,D,F}=3查準(zhǔn)率::precision=3/5=60%查全率::recall=3/10=30%B,D,F相關(guān)并被檢索到的文檔所有文檔A,C,E,G,H,I,J相關(guān)的文檔

W,Y被檢索到到的文檔檔文本挖掘掘舉例文檔向量量化查詢:相相關(guān)度文檔間相相似度((余弦定定理)3.文本本的維度度規(guī)約對(duì)于任何何一個(gè)非非平凡的的文檔數(shù)數(shù)據(jù)庫(kù),,詞的數(shù)數(shù)目T和和文檔數(shù)數(shù)目D通通常都很很大,如如此高的的維度將將導(dǎo)致低低效的計(jì)計(jì)算,因因?yàn)榻Y(jié)果果頻度表表大小為為T*D。高維還會(huì)會(huì)導(dǎo)致非非常稀疏疏的向量量,增加加監(jiān)測(cè)和和探查詞詞之間聯(lián)聯(lián)系的難難度。維度歸約約使用數(shù)數(shù)據(jù)編碼碼或變換換,以便便得到原原數(shù)據(jù)的的歸約或或“壓縮縮”表示示。如果果原數(shù)據(jù)據(jù)可以由由壓縮數(shù)數(shù)據(jù)重新新構(gòu)造而而不丟失失任何信信息,則則該數(shù)據(jù)據(jù)歸約是是無損的的。如果果我們只只能重新新構(gòu)造原原數(shù)據(jù)的的近似表表示,則則該數(shù)據(jù)據(jù)歸約是是有損的的。文本挖掘掘方法文本挖掘掘功能層層次關(guān)鍵詞相似檢索詞語(yǔ)關(guān)聯(lián)分析自然語(yǔ)言處理文本聚類文本分類文本挖掘掘功能層層次(1)關(guān)關(guān)鍵詞檢檢索關(guān)鍵詞建建立倒排排文件索索引,與與傳統(tǒng)的的信息檢檢索使用用的技術(shù)術(shù)類似。。(2)相相似檢索索找到相似似內(nèi)容的的文本。。(3)詞詞語(yǔ)關(guān)聯(lián)聯(lián)分析聚焦在詞詞語(yǔ)(包包括關(guān)鍵鍵詞)之之間的關(guān)關(guān)聯(lián)信息息分析上上。(4)文文本聚類類和文本本分類實(shí)現(xiàn)文本本的聚類類和分類類。(5)自自然語(yǔ)言言處理揭示自然然語(yǔ)言處處理技術(shù)術(shù)的語(yǔ)義義,進(jìn)行行文本語(yǔ)語(yǔ)義挖掘掘。關(guān)聯(lián)分析析挖掘在文本數(shù)數(shù)據(jù)庫(kù)中中,每一一文本被被視為一一個(gè)事務(wù)務(wù),文本本中的關(guān)關(guān)鍵詞組組可視為為事務(wù)中中的一組組事務(wù)項(xiàng)項(xiàng)。即文文本數(shù)據(jù)據(jù)庫(kù)可表表示為::{文本編編號(hào),關(guān)關(guān)鍵詞詞集}文本數(shù)據(jù)據(jù)庫(kù)中關(guān)關(guān)鍵詞關(guān)關(guān)聯(lián)挖掘掘的問題題就變成成事務(wù)數(shù)數(shù)據(jù)庫(kù)中中事務(wù)項(xiàng)項(xiàng)的關(guān)聯(lián)聯(lián)挖掘。。關(guān)聯(lián)分析析挖掘可可以用于于找出詞詞或關(guān)鍵鍵詞間的的關(guān)聯(lián)。。關(guān)聯(lián)分析析挖掘輸入語(yǔ)義信息,如事件、事實(shí)或信息提取發(fā)現(xiàn)的實(shí)體輸入是標(biāo)記的集合輸入是文檔中關(guān)鍵詞或詞的集合基于關(guān)鍵詞的方法標(biāo)記方法信息提取方法關(guān)聯(lián)分析析挖掘關(guān)聯(lián)分析過程:對(duì)文本數(shù)據(jù)進(jìn)行分析、詞根處理、去除停詞等預(yù)處理,再調(diào)用關(guān)聯(lián)挖掘算法基于關(guān)鍵詞的關(guān)聯(lián)技術(shù):收集頻繁出現(xiàn)的關(guān)鍵詞或詞匯,找出其關(guān)聯(lián)或相互關(guān)系關(guān)聯(lián)挖掘關(guān)聯(lián)挖掘掘有助于于找出符符合關(guān)聯(lián)聯(lián),即領(lǐng)領(lǐng)域相關(guān)關(guān)的術(shù)語(yǔ)語(yǔ)或短語(yǔ)語(yǔ)關(guān)聯(lián)分析析挖掘基于關(guān)鍵鍵字的關(guān)關(guān)聯(lián)分析析基于關(guān)鍵鍵字關(guān)聯(lián)聯(lián)分析就就是首先先收集頻頻繁一起起出現(xiàn)的的項(xiàng)或者者關(guān)鍵字字的集合合,然后后發(fā)現(xiàn)其其中所存存在的關(guān)關(guān)聯(lián)性關(guān)聯(lián)分析析對(duì)文本本數(shù)據(jù)庫(kù)庫(kù)進(jìn)行預(yù)預(yù)處理,,生成關(guān)關(guān)鍵字向向量,根根據(jù)關(guān)鍵鍵字查詢?cè)兿蛄颗c與文檔向向量之間間的相關(guān)關(guān)度比較較結(jié)果輸輸出文本本結(jié)果,,然后調(diào)調(diào)用關(guān)聯(lián)聯(lián)挖掘算算法文檔分類類分析文檔分類類分析自動(dòng)文檔檔分類是是指利用用計(jì)算機(jī)機(jī)將一篇篇文章自自動(dòng)地分分派到一一個(gè)或多多個(gè)預(yù)定定義的類類別中文檔分類類的關(guān)鍵鍵問題是是獲得一一個(gè)分類類模式,,利用此此分類模模式也可可以用于于其他文文檔的分分類有了一個(gè)個(gè)模式之之后,需需要進(jìn)行行人工標(biāo)標(biāo)記和訓(xùn)訓(xùn)練,以以確定這這個(gè)模式式的參數(shù)數(shù),然后后才能進(jìn)進(jìn)行自動(dòng)動(dòng)的文檔檔分類文檔分類類分析應(yīng)用領(lǐng)域域門戶網(wǎng)站站(網(wǎng)頁(yè)頁(yè))圖書館((電子資資料)…自動(dòng)分類類優(yōu)點(diǎn)::減小人工工分類的的繁雜工工作提高信息息處理的的效率減小人工工分類的的主觀性性文檔分類類分析步驟定義分類體系系將預(yù)先分分類過的的文檔作作為訓(xùn)練集從訓(xùn)練集集中得出出分類模型型(需要測(cè)測(cè)試過程程,不斷斷細(xì)化))用訓(xùn)練獲獲得出的的分類模模型對(duì)其其它文檔檔加以分分類文檔分類類分析文本分類類基本步步驟文檔分類類分析文本分類類過程文檔分類類分析特征選擇

方法貝葉斯分類最近鄰分類相似文檔具有相似文檔向量,將每個(gè)文檔關(guān)聯(lián)到相應(yīng)的類標(biāo)號(hào)將文檔分類看做計(jì)算文檔在特定類中的統(tǒng)計(jì)分布文檔分類支持向量機(jī)使用數(shù)表示類,構(gòu)建從詞空間到類變量的直接映射函數(shù)(在高維空間中運(yùn)行良好,最小二乘線性回歸方法區(qū)分能力較強(qiáng))基于關(guān)聯(lián)的、頻繁出現(xiàn)的文本模式集對(duì)文檔分類基于關(guān)聯(lián)的

分類刪除文檔檔中與與與類標(biāo)號(hào)號(hào)統(tǒng)計(jì)不不相關(guān)的的非特征征詞文檔聚類類分析文本聚類類是根據(jù)據(jù)文本數(shù)數(shù)據(jù)的不不同特征征,將其其劃分為為不同數(shù)數(shù)據(jù)類的的過程其目的是是要使同同一類別別的文本本間的距距離盡可可能小,,而不同同類別的的文本間間的距離離盡可能能的大文檔聚類類分析文檔自動(dòng)動(dòng)聚類的的步驟(1)獲取結(jié)結(jié)構(gòu)化的的文本集集(2)執(zhí)行聚聚類算法法,獲得得聚類譜譜系圖。。聚類算算法的目目的是獲獲取能夠夠反映特特征空間間樣本點(diǎn)點(diǎn)之間的的“抱團(tuán)團(tuán)”性質(zhì)質(zhì)(3)選取合合適的聚聚類IA值。在得得到聚類類譜系圖圖后,領(lǐng)領(lǐng)域?qū)<壹覒{借經(jīng)經(jīng)驗(yàn),并并結(jié)合具具體的應(yīng)應(yīng)用場(chǎng)合合確定閾閾值(4)執(zhí)行聚聚類算法法,獲得得聚類結(jié)結(jié)果文檔聚類類分析混合模型聚類使用潛在語(yǔ)義標(biāo)引聚類(LSI)光譜聚類對(duì)原始數(shù)據(jù)進(jìn)行維度歸約,運(yùn)用傳統(tǒng)的聚類方法(如k均值,缺點(diǎn)是計(jì)算昂貴)對(duì)文本數(shù)據(jù)和先驗(yàn)知識(shí)估計(jì)模型參數(shù),基于參數(shù)推斷聚類最小化全局重構(gòu)誤差下,找到原文檔空間的最佳子空間近似文檔聚類

分析使用保持局部性標(biāo)引聚類(LPI)發(fā)現(xiàn)局部幾何結(jié)構(gòu),具有更強(qiáng)的區(qū)分能力文檔聚類類分析文檔自動(dòng)動(dòng)聚類的的類型平面劃分分法:對(duì)對(duì)包含n個(gè)樣本的的樣本集集構(gòu)造樣樣本集的的k個(gè)劃分,,每個(gè)劃劃分表示示一個(gè)聚聚簇層次聚類類法:層層次聚類類法對(duì)給給定的樣樣本集進(jìn)進(jìn)行層次次分解。。根據(jù)層層次分解解方向的的不同可可分為凝凝聚層次次聚類和和分裂層

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論