一種基于詞嵌入與密度峰值策略的大數(shù)據(jù)文本聚類算法

上傳人：扣*** IP屬地：寧夏上傳時(shí)間：2021-12-08 格式：DOCX 頁數(shù)：4 大小：26.94KB 積分：6 舉報(bào) 版權(quán)申訴

全文預(yù)覽已結(jié)束

 下載本文檔

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、一種基于詞嵌入與密度峰值策略的大數(shù)據(jù)文本聚類算法田曉艷摘要：提出一種基于詞嵌入與密度峰值策略的文本聚類算法，并將其應(yīng)用于大數(shù)據(jù)網(wǎng)絡(luò)文本數(shù)據(jù)中。通過對文本數(shù)據(jù)進(jìn)行預(yù)處理轉(zhuǎn)化為詞嵌入表示的實(shí)數(shù)向量，并進(jìn)一步采用密度峰值聚類算法實(shí)現(xiàn)文本聚類。實(shí)驗(yàn)表明該方法在準(zhǔn)確率、召回率以及f值等指標(biāo)上均優(yōu)于傳統(tǒng)文本聚類算法。關(guān)鍵詞：詞嵌入；密度峰值；大數(shù)據(jù)文本；聚類算法1 密度峰值聚類算法密度峰值聚類算法的主要思想是認(rèn)為聚類中心是密度大的數(shù)據(jù)點(diǎn)，它周圍圍繞著比自身密度小的數(shù)據(jù)點(diǎn)。同時(shí)，聚類中心與其它的高密度數(shù)據(jù)點(diǎn)之間的距離較大。假設(shè)i為目標(biāo)空間中的任意數(shù)據(jù)

2、點(diǎn)，算法為其初始化兩個(gè)參數(shù)。一個(gè)參數(shù)為數(shù)據(jù)點(diǎn)密度i，另一個(gè)參數(shù)是該數(shù)據(jù)點(diǎn)到其它高密度數(shù)據(jù)點(diǎn)的距離i，則聚類中心就是i與i都大的數(shù)據(jù)點(diǎn)i，對于其它的數(shù)據(jù)點(diǎn)則根據(jù)相同的規(guī)則分配到其它的距離最近的類簇中。1.1 數(shù)據(jù)點(diǎn)密度與距離的計(jì)算方法任意數(shù)據(jù)點(diǎn)i的密度計(jì)算公式如公式（1）所示，它表示數(shù)據(jù)點(diǎn)i周圍某截?cái)嗑嚯x內(nèi)的點(diǎn)的個(gè)數(shù)。1.2 聚類中心的選擇策略對于數(shù)據(jù)點(diǎn)集s中的任意數(shù)據(jù)點(diǎn)都可以通過公式（1）與公式（2）計(jì)算數(shù)據(jù)點(diǎn)的密度與距離，以密度為橫坐標(biāo)，距離為縱坐標(biāo)可以得到聚類選擇的決策圖，從決策圖上可以直觀的選擇出密度與距離都大的點(diǎn)作為聚類中心。2 基于詞嵌入的文本聚類算法為了更好的將該算法應(yīng)用到文本聚

3、類中，采用詞嵌入表示文作為文本的初始化方法。詞嵌入（word embedding）是一種表示自然語言的特征學(xué)習(xí)方法。文本語料中的單詞或者短語甚至是語句都可以映射為低維實(shí)數(shù)向量。詞嵌入有效的改善了one-hot representation的詞匯鴻溝現(xiàn)象（詞匯之間是孤立的，沒有語義關(guān)聯(lián)）。利用神經(jīng)網(wǎng)絡(luò)訓(xùn)練詞嵌入表示的典型工作是由bengio等人1提出的。collobert等人2系統(tǒng)的提出了詞嵌入的訓(xùn)練方法，并利用其模型同時(shí)解決了詞性標(biāo)注、命名實(shí)體識別以及語義識別等自然語言處理任務(wù)。word2vec是2013年google提供的開源詞嵌入工具，通過該工具獲得的詞嵌入可以直接用于聚類分析。因此本文實(shí)

4、現(xiàn)的文本聚類算法采用word2vec工具進(jìn)行詞嵌入的預(yù)訓(xùn)練。在文本聚類算法實(shí)現(xiàn)過程中，首先將目標(biāo)語料利用word2vec工具訓(xùn)練為實(shí)數(shù)向量來表示每一個(gè)數(shù)據(jù)點(diǎn)，通過計(jì)算詞嵌入之間的相似性來表示數(shù)據(jù)點(diǎn)的密度與距離，實(shí)現(xiàn)文本聚類?；谠~嵌入與密度峰值策略的文本聚類算法基本流程如下。首先，利用word2vec工具對語料進(jìn)行預(yù)處理，將文本數(shù)據(jù)轉(zhuǎn)變?yōu)閷?shí)數(shù)向量；利用余弦相似度計(jì)算數(shù)據(jù)點(diǎn)之間的相似度；根據(jù)數(shù)據(jù)點(diǎn)之間的相似度計(jì)算數(shù)據(jù)點(diǎn)的密度以及距離；根據(jù)決策圖選擇聚類中心。3 實(shí)驗(yàn)結(jié)果及分析本文實(shí)驗(yàn)包括對基于詞嵌入的密度峰值聚類算法性能與dbscan聚類算法對比測試，以及對文本聚類效果的比較分析。實(shí)驗(yàn)語料采用搜

5、狗試驗(yàn)室的標(biāo)注文檔（http：/3.1 實(shí)驗(yàn)設(shè)置本文選擇準(zhǔn)確率（precision）、召回率（recall）以及f值（f-measure）作為算法評價(jià)指標(biāo)。準(zhǔn)確率可以反映出算法對語料內(nèi)容分類的能力；召回率能夠判斷算法分類與人工分類的相似程度高低；f值是準(zhǔn)確率與召回率的綜合指標(biāo)，取值在01之間，值越高說明算法性能越好。dbscan算法通過多次實(shí)驗(yàn)來確定參數(shù)，將eps值設(shè)置為0.68；minpts值設(shè)為14.32。3.2 實(shí)驗(yàn)結(jié)果與分析實(shí)驗(yàn)結(jié)果如表1所示，本文算法的準(zhǔn)確率、召回率與f值等指標(biāo)均優(yōu)于dbsan算法。這是因?yàn)楸疚乃惴ㄍㄟ^密度與距離共同判斷聚類中心，并非只依靠密度這個(gè)單一特征來判斷，因此

6、與dbscan相比能夠更加準(zhǔn)確的區(qū)分出不同的類簇。并且，本文算法需要考察的是數(shù)據(jù)點(diǎn)之間的距離（文本相似性），與數(shù)據(jù)的輸入順序無關(guān)，因此可以更快速的劃分類簇。4 結(jié)束語本文在研究了詞嵌入技術(shù)與密度峰值聚類算法的基礎(chǔ)上提出了一種基于詞嵌入的密度峰值大數(shù)據(jù)文本聚類算法。該算法結(jié)合了詞嵌入能夠表示語義特征與密度峰值聚類算法能夠快速準(zhǔn)確劃分類簇的優(yōu)點(diǎn)，對當(dāng)前大數(shù)據(jù)環(huán)境中的海量文本數(shù)據(jù)進(jìn)行高效挖掘。通過實(shí)驗(yàn)表明，本文算法對于較大數(shù)據(jù)量的文本依然能夠快速準(zhǔn)確的進(jìn)行聚類，與傳統(tǒng)方法相比魯棒性更強(qiáng)。在下一步研究中，將深度學(xué)習(xí)技術(shù)與本文聚類算法相結(jié)合，以獲取更加有效的語義分類方法。參考文獻(xiàn)1bengio y， ducharme r， jean， et al. a neural probabilistic language modelj. journal of machine learning research，2006，3（6）：1137-1155.2collobert r， weston j， bottou l， et al. natural language pr

人人文庫> 全部分類> 生活休閑 > 科普知識

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

一種基于詞嵌入與密度峰值策略的大數(shù)據(jù)文本聚類算法

文檔簡介

溫馨提示

最新文檔

評論

一種基于詞嵌入與密度峰值策略的大數(shù)據(jù)文本聚類算法

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔