




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
微博熱點(diǎn)話題的文本特征研究的相關(guān)理論與技術(shù)綜述目錄TOC\o"1-2"\h\u11590微博熱點(diǎn)話題的文本特征研究的相關(guān)理論與技術(shù)綜述 194251.1熱點(diǎn)話題發(fā)現(xiàn)相關(guān)概述 128341.2文本預(yù)處理 2231271.1.1中文分詞 2277401.1.2文本去停用詞 3258511.3文本表示 493471.3.1基于向量空間模型的文本表示 424151.3.2基于主題模型的文本表示 5207521.3.3基于詞嵌入模型的文本表示 5133581.4文本特征選擇及相似度計(jì)算 8177331.4.1文本特征選擇 8269701.4.2文本相似度計(jì)算 989571.5傳統(tǒng)聚類方法 1016543(1)基于劃分的聚類算法 114999(2)基于層次的聚類算法 1113596(3)基于密度的聚類算法 1226725(4)基于圖論的聚類算法 124512(5)基于網(wǎng)格的聚類算法 1227424(6)基于模型的聚類算法 13173381.6頻繁詞集相關(guān)概述 1373061.6.1頻繁詞集相關(guān)理論 13298111.6.2頻繁詞集挖掘算法 141.1熱點(diǎn)話題發(fā)現(xiàn)相關(guān)概述話題檢測(cè)與跟蹤技術(shù)(TopicDetectionandTracking,TDT)最早由美國(guó)國(guó)防部高級(jí)研究計(jì)劃署等提出,TDT作為一種信息處理技術(shù),其主要任務(wù)是對(duì)文字形態(tài)的新聞媒體信息流進(jìn)行分割,自動(dòng)檢測(cè)出不同的新聞事件,在提取出新話題的同時(shí),將以某種合適的方式將檢測(cè)出的話題呈現(xiàn)給用戶。話題檢測(cè)任務(wù)作為TDT的主要任務(wù)之一,其目的是識(shí)別出系統(tǒng)預(yù)先未知的新興話題并對(duì)話題進(jìn)行展示。在該類任務(wù)中,首先對(duì)預(yù)處理后的文本進(jìn)行建模,轉(zhuǎn)化成計(jì)算機(jī)能夠處理的表示形式,而后采用合適的聚類算法對(duì)文本進(jìn)行聚類,以獲得不同的聚類簇,同時(shí)達(dá)到簇內(nèi)內(nèi)容緊密相關(guān),簇間內(nèi)容明顯分離的效果,并且每個(gè)聚類簇表達(dá)一個(gè)獨(dú)立的話題[30]。目前,話題檢測(cè)技術(shù)被越來(lái)越多的應(yīng)用于微博、論壇等社交網(wǎng)絡(luò)平臺(tái)中,是網(wǎng)絡(luò)輿情的重要研究方向之一。微博熱點(diǎn)話題發(fā)現(xiàn)作為微博輿情研究中的重要環(huán)節(jié),也是在話題檢測(cè)任務(wù)的基礎(chǔ)上進(jìn)行的。對(duì)于發(fā)現(xiàn)的話題結(jié)果,以某種合適的方式對(duì)話題進(jìn)行熱度評(píng)估分析,從而得出熱點(diǎn)話題作為微博輿情的重要參考。綜上所述,微博熱點(diǎn)話題發(fā)現(xiàn)的一般流程如圖2-1所示。圖2-1微博熱點(diǎn)話題發(fā)現(xiàn)流程圖Fig.2-1Flowchartofhottopicdiscoveryonweibo微博熱點(diǎn)話題發(fā)現(xiàn)的流程首先是微博數(shù)據(jù)的采集,主要是利用爬蟲等方法從新浪微博上爬取微博數(shù)據(jù),并對(duì)數(shù)據(jù)進(jìn)行整理與存儲(chǔ);為了得到規(guī)范的數(shù)據(jù)集,隨后進(jìn)行數(shù)據(jù)預(yù)處理,包括中文分詞及去停用詞;接著進(jìn)行文本特征提取,以方便后續(xù)聚類研究;之后通過(guò)構(gòu)建文本表示模型對(duì)處理好的微博數(shù)據(jù)集進(jìn)行文本表示,利用聚類算法對(duì)微博文本聚類形成話題簇,最后通過(guò)熱點(diǎn)話題評(píng)估方法得到最終所研究的熱點(diǎn)話題。1.2文本預(yù)處理1.1.1中文分詞句子中文分詞是數(shù)據(jù)預(yù)處理中非常重要的一個(gè)環(huán)節(jié),中文句子不同于英文句子以單詞之間的空格作為自然分隔符,僅僅根據(jù)空格或標(biāo)點(diǎn)符號(hào)就能對(duì)英文句子進(jìn)行切分。在中文等自然語(yǔ)言中,詞與詞之間緊密相連沒(méi)有類似空格的區(qū)分標(biāo)志,因此,中文分詞要比英文分詞復(fù)雜很多,需要用中文分詞技術(shù)將中文句子分割成若干個(gè)有意義的詞匯,例如“推動(dòng)線上消費(fèi)規(guī)范健康發(fā)展”的分詞結(jié)果為:“推動(dòng)/線上/消費(fèi)/規(guī)范/健康/發(fā)展”。目前主流的中文分詞方法主要包括:基于字符串匹配的分詞方法、基于統(tǒng)計(jì)的分詞方法和基于理解的分詞方法[31]三大類。(1)基于字符串匹配的分詞方法又叫字典匹配法,該方法需要借助外部的中文詞庫(kù)作為匹配的詞典,按照一定的策略將待分詞的文本與詞典中的詞語(yǔ)一一進(jìn)行檢查,將檢查結(jié)果相同的字符串劃分為一個(gè)詞。這種分詞方法中,詞典的質(zhì)量將會(huì)直接影響到分詞結(jié)果。(2)基于統(tǒng)計(jì)的分詞方法不用預(yù)設(shè)好分詞詞典,而是計(jì)算相鄰字符在語(yǔ)料中的共同出現(xiàn)頻率,并由此來(lái)判斷該字符串是否為一個(gè)詞語(yǔ),如果相鄰字符在語(yǔ)料中同時(shí)出現(xiàn)的概率越大,則表明它們組合為一個(gè)詞的可能性也就越大。該方法用到的典型模型有n元語(yǔ)法模型、條件隨機(jī)場(chǎng)模型和隱馬爾可夫模型等。(3)基于理解的分詞方法基本思想是通過(guò)儲(chǔ)備大量的人類語(yǔ)言知識(shí),讓計(jì)算機(jī)在充分學(xué)習(xí)到句子的語(yǔ)法語(yǔ)義信息,模擬人類在正常交流中對(duì)句子的理解,來(lái)實(shí)現(xiàn)計(jì)算機(jī)自動(dòng)中文分詞。由于漢語(yǔ)復(fù)雜又難懂,具有一定的語(yǔ)言特殊性,因此基于理解的分詞方法目前還處在研究實(shí)驗(yàn)階段。隨著我國(guó)對(duì)中文分詞方法的不斷研究與探索,已經(jīng)出現(xiàn)了一些技術(shù)成熟且應(yīng)用廣泛的中文分詞工具,例如清華大學(xué)的THULAC漢語(yǔ)詞匯分析工具包,中國(guó)科學(xué)院計(jì)算所開發(fā)的NLPIR/ICTCLAS漢語(yǔ)分詞系統(tǒng),以及基于python語(yǔ)言實(shí)現(xiàn)的jieba分詞等。Jieba分詞憑借其精確度高、速度快的特點(diǎn)在國(guó)內(nèi)被研究者廣泛應(yīng)用。因此,本文使用jieba作為中文文本的分詞工具。1.1.2文本去停用詞停用詞主要是指在自然語(yǔ)言中具有一定功能但沒(méi)有具體價(jià)值的字詞。主要分為兩類,一類是在文本出現(xiàn)過(guò)于頻繁,同時(shí)又沒(méi)有太多實(shí)際含義的詞,比如中文中的“表示”、“就”、“我”等詞在大多數(shù)文本中都會(huì)出現(xiàn),對(duì)文本處理造成一定的干擾。第二類主要是一些語(yǔ)氣助詞、非語(yǔ)素詞、連詞等,比如“的”、“了”、“這”、“嗎”等。這些詞不對(duì)句子意思起關(guān)鍵作用,反而會(huì)增加句子維度,不利于后續(xù)分析,因此需要對(duì)這兩類詞進(jìn)行刪除,從而減少存儲(chǔ)空間,提高文本分析效果。常用的去除停用詞的方法是構(gòu)建停用詞表,也就是停用詞語(yǔ)列表[32],然后依次掃描文本數(shù)據(jù)分詞結(jié)果的每個(gè)單詞,和停用詞表進(jìn)行比對(duì),將包含在停用詞表中的文本詞語(yǔ)進(jìn)行剔除,直到文本數(shù)據(jù)中的所有單詞比對(duì)完為止。目前,國(guó)內(nèi)已經(jīng)有多個(gè)針對(duì)中文文本的標(biāo)準(zhǔn)停用詞表,如哈工大停用詞表、百度停用詞表[33]等。1.3文本表示計(jì)算機(jī)是不能讀懂文字的,因此我們需要對(duì)文本特征進(jìn)行處理和轉(zhuǎn)化,將文字形式的文本轉(zhuǎn)化為計(jì)算機(jī)能夠識(shí)別的二進(jìn)制形式,即文本表示(TextExpression)。文本表示的合適與否直接關(guān)系到后續(xù)話題發(fā)現(xiàn)的效率和準(zhǔn)確率,因此,文本表示模型的選取是非常重要的環(huán)節(jié)。目前,主流的文本表示方法大致可以歸納為基于向量空間模型、基于主題模型和基于詞嵌入模型的文本表示方法。1.3.1基于向量空間模型的文本表示向量空間模型(VectorSpaceModel,VSM)最初由Salton等人[34]提出,并逐漸在文本分析中得到了廣泛應(yīng)用。向量空間模型將文本數(shù)據(jù)集映射到多維空間向量實(shí)現(xiàn)文本表示,向量的每一個(gè)維度代表文本的一個(gè)特征詞。假設(shè)語(yǔ)料庫(kù)中有文本集合,每個(gè)文本由個(gè)特征詞表示,根據(jù)每個(gè)特征詞在文本中的重要性賦予其一定的權(quán)重,則文本可以建模為的形式。其中特征詞權(quán)重計(jì)算方法目前應(yīng)用最為廣泛的是TF-IDF,某個(gè)特征詞的TF-IDF權(quán)重值越大,表明該特征詞在其所在文本中的重要程度越大,同時(shí)對(duì)文本間的表征能力也就越強(qiáng)。文本向量空間模型如圖2-2所示。圖2-2文本向量空間模型Fig.2-2Textvectorspacemodel向量空間模型利用TF-IDF權(quán)重機(jī)制將文本轉(zhuǎn)化為向量,以向量之間的距離來(lái)表達(dá)兩個(gè)文本之間的相似性。但該模型在實(shí)際使用的時(shí)候也有一些困難之處,如果表示文本的特征詞太多,在計(jì)算時(shí)會(huì)導(dǎo)致矩陣維數(shù)災(zāi)難。此外,向量空間模型基于特征詞之間相互獨(dú)立性假設(shè),未考慮特征詞與其臨近詞之間的共現(xiàn)關(guān)系,忽略了文本上下文的語(yǔ)義信息。1.3.2基于主題模型的文本表示主題模型(TopicModel)主要應(yīng)用在自然語(yǔ)言處理領(lǐng)域的文本語(yǔ)義分析與挖掘,該模型是在文本和特征詞之間增加一層主題層,利用文本間詞的共現(xiàn)信息來(lái)發(fā)現(xiàn)海量無(wú)監(jiān)督語(yǔ)料中的抽象主題。一篇文章中某些經(jīng)常出現(xiàn)的特定詞語(yǔ)往往代表了這篇文章的中心思想,主題模型從概率生成模型的角度來(lái)對(duì)文本進(jìn)行表示。傳統(tǒng)的隱含狄利克雷分布(LatentDirichletAllocation,LDA)作為一種主題概率分布模型,在使用前要先用向量空間模型對(duì)文本進(jìn)行表示。LDA模型包含文檔、主題、詞三層結(jié)構(gòu),并基于狄利克雷分布抽樣生成文本的主題分布和主題的詞分布,選擇主題分布進(jìn)行文本表示。主題模型作為一種典型的詞袋模型,主要是利用了文檔級(jí)的詞共現(xiàn)信息,并沒(méi)有考慮特征詞之間的位置及語(yǔ)序關(guān)系,再加上短文本的數(shù)據(jù)稀疏性,導(dǎo)致主題模型無(wú)法實(shí)現(xiàn)對(duì)文本準(zhǔn)確表示。1.3.3基于詞嵌入模型的文本表示詞嵌入(WordEmbedding)的概念首次由Rumelhart等人[35]提出,通俗來(lái)講,詞嵌入就是指將一個(gè)詞語(yǔ)(word)轉(zhuǎn)換為一個(gè)向量(vector)表示,在自然語(yǔ)言處理中,詞嵌入幾乎是所有研究的基礎(chǔ)。詞嵌入將文本特征詞以詞向量的形式表示,充分考慮了的特征詞匯之間的語(yǔ)法關(guān)系和語(yǔ)義信息,尤其在短文本上的表現(xiàn)要遠(yuǎn)遠(yuǎn)由于TF-IDF等傳統(tǒng)的文本表示方法。隨著深度學(xué)習(xí)的發(fā)展,利用神經(jīng)網(wǎng)絡(luò)做文本特征抽取受到越來(lái)越多研究者的關(guān)注,很多用于訓(xùn)練詞嵌入向量的模型被提出。詞嵌入可將詞的特征映射到較低的維度,例如語(yǔ)料庫(kù)中的所有特征詞可以用256維特征來(lái)描述,使用模型參數(shù)更少,訓(xùn)練更快。目前主流的詞嵌入模型為Word2vec模型和BERT模型。(1)Word2vec模型。Word2vec是在2013年由Mikolov等人[36]提出的一種詞嵌入方法,其核心思想是根據(jù)詞語(yǔ)在語(yǔ)料庫(kù)中與其前后相鄰的若干個(gè)詞信息,為每個(gè)詞語(yǔ)訓(xùn)練一個(gè)相同維數(shù)的特征向量。Word2vec包含CBOW[37]和Skip-gram[38]兩種訓(xùn)練模型,其原理示意圖如圖2-3所示。圖2-3Word2vec兩種模型Fig.2-3TwoWord2vecmodelsCBOW和Skip-gram的共同之處在于都是由輸入層、投影層和輸出層三層組成,并且都是根據(jù)句子中相鄰的詞的上下文關(guān)系,來(lái)完成神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,以獲得最優(yōu)向量表示。但它們的預(yù)測(cè)過(guò)程卻是相反的,CBOW模型是通過(guò)在給定的特征詞前后各取個(gè)詞來(lái)預(yù)測(cè)當(dāng)前這個(gè)目標(biāo)詞匯。與CBOW相反,Skip-gram模型是已經(jīng)知道目標(biāo)特征詞信息來(lái)推測(cè)這個(gè)詞周圍可能出現(xiàn)的個(gè)詞。雖然Word2vec的出現(xiàn)對(duì)自然語(yǔ)言處理的發(fā)展有著很大貢獻(xiàn),但是word2vec的不足之處是一個(gè)詞語(yǔ)對(duì)應(yīng)一個(gè)特定的向量,導(dǎo)致一詞多義的問(wèn)題難以避免。再加上Word2vec作為一種靜態(tài)方式,不能根據(jù)具體的任務(wù)做動(dòng)態(tài)調(diào)整,學(xué)習(xí)到的語(yǔ)義信息也被窗口大小所限制。(2)BERT模型。BERT預(yù)訓(xùn)練語(yǔ)言模型由谷歌AI團(tuán)隊(duì)在2018年提出[39],是一個(gè)百層左右的神經(jīng)網(wǎng)絡(luò),能夠利用超大規(guī)模無(wú)標(biāo)注語(yǔ)料進(jìn)行模型參數(shù)學(xué)習(xí)。對(duì)比起之前的預(yù)訓(xùn)練模型如ELMo[40]、OpenAIGPT[41],BERT融入了更多的語(yǔ)法和詞法,捕捉到的是真正意義上的雙向上下文信息,在NLP領(lǐng)域的問(wèn)答類任務(wù)、序列標(biāo)注任務(wù)、單句分類任務(wù)等11個(gè)方向大幅刷新了精度,引起了一波新的研究熱潮。BERT模型的結(jié)構(gòu)如圖2-4所示。圖2-4BERT語(yǔ)言模型結(jié)構(gòu)Fig.2-4BERTlanguagemodelstructureBERT預(yù)訓(xùn)練語(yǔ)言模型拋棄了傳統(tǒng)的RNN和CNN網(wǎng)絡(luò)結(jié)構(gòu),采用Transformer[42]編碼器作為模型核心結(jié)構(gòu)。Transformer作為一種新的編碼-解碼方式,由6個(gè)編碼器(Encoder)和6個(gè)解碼器(Decoder)堆疊而成,有著超強(qiáng)的文本表征能力和并行計(jì)算能力,是目前自然語(yǔ)言處理領(lǐng)域非常流行的網(wǎng)絡(luò)結(jié)構(gòu)。BERT主要借助Transformer的Encoder部分來(lái)對(duì)語(yǔ)言模型進(jìn)行訓(xùn)練,獲得包含豐富語(yǔ)義信息的文本向量化表示,每個(gè)單元主要包含自注意力機(jī)制和前饋神經(jīng)網(wǎng)絡(luò)兩個(gè)子層。Transformer-encoder的結(jié)構(gòu)如圖2-5所示。圖2-5Transformer-encoder結(jié)構(gòu)圖Fig.2-5Transformer-encoderstructurediagramTransformer-encoder中最重要的部分就是自注意力部分,自注意力模型通過(guò)在序列內(nèi)部做attention,來(lái)尋找序列內(nèi)部之間的聯(lián)系。self-attention作為attention的特殊形式,使BERT不僅具備了RNN提取長(zhǎng)距離依賴關(guān)系的能力,同時(shí)擁有了CNN提取輸入序列中每個(gè)詞特征時(shí)并行計(jì)算的能力。此外,BERT模型還提出了兩個(gè)自監(jiān)督任務(wù)來(lái)提高語(yǔ)義表征能力:(1)掩碼語(yǔ)言模型(MLM)任務(wù)。該任務(wù)是在訓(xùn)練的時(shí)候隨機(jī)將輸入語(yǔ)料中15%的詞進(jìn)行標(biāo)記,并在這些標(biāo)記的單詞中以80%的概率會(huì)直接被替換為特殊標(biāo)記[Mask],10%的概率會(huì)用從語(yǔ)料中任意抽取的單詞所代替,剩下10%的概率會(huì)保留原來(lái)的詞不變,然后通過(guò)上下文預(yù)測(cè)被遮蓋的詞。(2)句子連貫性判定(NSP)任務(wù)。該任務(wù)是判斷某個(gè)句子是否是另一個(gè)句子的下文,具體做法是,選擇若干句子對(duì)A和B,其中50%的句子B是A的下一個(gè)句子,其余50%的句子B是數(shù)據(jù)集中任意選擇的,通過(guò)迭代訓(xùn)練學(xué)習(xí)到其中的關(guān)聯(lián)性。與傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)相比,BERT模型使用雙向Transformer對(duì)目標(biāo)單詞進(jìn)行上下文特征信息提取,能夠較完整地保存文本語(yǔ)義信息;同時(shí)BERT模型能充分利用上下文信息動(dòng)態(tài)調(diào)整文本句向量,可以有效解決一詞多義的難題,在某種程度上,可以進(jìn)行同義詞的區(qū)分。最為一個(gè)Word2vec的替代者,BERT模型是在Word2vec模型的基礎(chǔ)上進(jìn)一步強(qiáng)化字(詞)向量模型的泛化能力,充分挖掘字符級(jí)向量間的關(guān)系特征,同時(shí),BERT以字為單元進(jìn)行訓(xùn)練,在一定程度上克服了Word2vec所面臨的未登錄詞難題。1.4文本特征選擇及相似度計(jì)算1.4.1文本特征選擇所謂特征選擇,是指在不改變?cè)蟹治鼋Y(jié)果的前提下,將所有的特征項(xiàng)按照一定的規(guī)則進(jìn)行篩選,選擇一部分具有代表性的特征項(xiàng),降低計(jì)算分析的復(fù)雜度。目前常見(jiàn)的文本特征選擇方法主要分為TF-IDF和TextRank等無(wú)監(jiān)督方法和卡方統(tǒng)計(jì)、信息增益、互信息等[43]有監(jiān)督方法。下面主要介紹TF-IDF和TextRank兩種方法。(1)TF-IDF方法TF-IDF是一種基于統(tǒng)計(jì)學(xué)的簡(jiǎn)單有效的特征選擇算法[44]。TF-IDF采用統(tǒng)計(jì)詞頻的思想,來(lái)衡量一個(gè)字或詞語(yǔ)對(duì)于一個(gè)語(yǔ)料庫(kù)中某個(gè)文件或一個(gè)文件集的重要性。具體計(jì)算公式如(2-1)~(2-3)所示: (2-1) (2-2)其中,在公式(2-1)中,分子為某個(gè)特征詞在文本中出現(xiàn)了多少次,分母為文本中總共有多少個(gè)特征詞。在公式(2-2)中,為數(shù)據(jù)集中所有文本總數(shù),表示在數(shù)據(jù)集中包含詞語(yǔ)的文本數(shù)量。則詞的權(quán)重如公式(2-3)所示: (2-3)(2)TextRank方法TextRank是在PageRank的基礎(chǔ)上提出的一種基于圖排序的算法[45],TextRank作為一種無(wú)監(jiān)督方法,不需要訓(xùn)練語(yǔ)料就可以方便實(shí)現(xiàn)特征詞提取,適用于多種不同的場(chǎng)合。TextRank的實(shí)現(xiàn)原理為,通過(guò)構(gòu)建一個(gè)詞匯網(wǎng)絡(luò)圖模型,利用多次迭代的方式計(jì)算每個(gè)詞語(yǔ)的TR值,將排名靠前的詞語(yǔ)作為關(guān)鍵詞。詞語(yǔ)的TR值計(jì)算如公式(2-4)所示: (2-4)其中為阻尼系數(shù),、為詞節(jié)點(diǎn),為指向的節(jié)點(diǎn)集合,為由發(fā)出所指向的節(jié)點(diǎn)集合,、分別為節(jié)點(diǎn)到、到邊的權(quán)重。TextRank算法實(shí)現(xiàn)流程為,在文本預(yù)處理之后得到個(gè)候選關(guān)鍵詞集合;然后構(gòu)建一個(gè)候選關(guān)鍵詞網(wǎng)絡(luò)圖,其中是節(jié)點(diǎn)集;利用公式(2-4)求得每個(gè)節(jié)點(diǎn)的TR值作為權(quán)重值,重復(fù)計(jì)算直到收斂;最終將得到的權(quán)重值從大到小進(jìn)行排列,取權(quán)重值最大的前個(gè)的節(jié)點(diǎn)所對(duì)應(yīng)的詞作為特征詞。1.4.2文本相似度計(jì)算在文本聚類的實(shí)現(xiàn)過(guò)程中,文本相似度計(jì)算[46]是非常基礎(chǔ)而關(guān)鍵的一個(gè)任務(wù)。在拼寫糾錯(cuò)、推薦系統(tǒng)、命名實(shí)體識(shí)別、自動(dòng)應(yīng)答、機(jī)器翻譯等方面有著深入而廣泛的應(yīng)用。文本距離與文本相似度是兩個(gè)相反的概念,兩個(gè)文本對(duì)象之間距離越小,則它們“離得越近”,相似度也就越大。在聚類算法執(zhí)行過(guò)程中,兩個(gè)文本數(shù)據(jù)對(duì)象之間的相似度決定了它們能否被劃分為一個(gè)類簇。(1)歐氏距離歐氏距離也叫歐幾里得距離[47],表示的是兩個(gè)點(diǎn)在歐式空間中的直線距離。對(duì)于兩個(gè)向量化表示后的文本和文本,其歐氏距離計(jì)算公式見(jiàn)(2-5)所示: (2-5)(2)余弦相似度在數(shù)學(xué)幾何中,兩個(gè)向量的夾角余弦值可用來(lái)度量它們之間方向的差異;而在自然語(yǔ)言處理中,對(duì)文本數(shù)據(jù)進(jìn)行向量化表示,將向量根據(jù)坐標(biāo)映射到向量空間后,也可以借用余弦相似度來(lái)度量?jī)蓚€(gè)文本數(shù)據(jù)向量之間的差異。對(duì)于文本和文本,它們的夾角余弦值越接近于1,意味著二者夾角越小,相似度越高。其計(jì)算公式見(jiàn)(2-6)所示: (2-6)(2)Jaccard距離Jaccard距離采用的是集合操作,可以用來(lái)衡量由符號(hào)或布爾值構(gòu)成的集合之間的差異性[48]。如果兩個(gè)文本不是采用向量化數(shù)值表示形式,而是用特征詞集合來(lái)表達(dá),則使用Jaccard距離來(lái)計(jì)算文本之間的相似度最合適不過(guò)了。對(duì)于給定的由特征詞表示的兩個(gè)文本X、Y,其Jaccard距離可以用兩個(gè)文本所含的特征詞交集個(gè)數(shù)和并集個(gè)數(shù)的比值來(lái)表示,具體計(jì)算公式見(jiàn)(2-7)所示: (2-7)1.5傳統(tǒng)聚類方法近年來(lái),聚類技術(shù)在自然語(yǔ)言處理文本分析領(lǐng)域的研究變得越來(lái)越廣泛而深入。聚類不同于分類任務(wù),聚類是一種無(wú)監(jiān)督的機(jī)器學(xué)習(xí)算法,其主要任務(wù)是將無(wú)標(biāo)簽的文本數(shù)據(jù)按照一定的規(guī)則劃分為若干個(gè)互不相交的類簇,簇內(nèi)文本相似性較高,對(duì)應(yīng)著同一個(gè)概念,簇間文本相似性較低彼此互相分離。目前,常用到的聚類算法主要有如下六種。(1)基于劃分的聚類算法基于劃分的聚類算法基本原理是,給定個(gè)數(shù)據(jù)點(diǎn)的數(shù)據(jù)集合,根據(jù)一定的規(guī)則構(gòu)建數(shù)據(jù)集合的個(gè)劃分,每個(gè)劃分代表一個(gè)類別。每個(gè)類別最少要有一條數(shù)據(jù)記錄,并且每條數(shù)據(jù)記錄只屬于一個(gè)類別。典型的劃分聚類算法是K-means算法[49],具體算法描述如算法2-1所示。算法2-1K-means算法Algorithm2-1K-meansalgorithm輸入:聚類數(shù)目,包含個(gè)文本的文本集輸出:個(gè)簇劃分Begin在數(shù)據(jù)集中任意選中個(gè)初始聚類中心,記為;計(jì)算每一個(gè)數(shù)據(jù)點(diǎn)(除去個(gè)中心)到初始聚類中心的距離;將分配到與其距離最近的聚類中心所在類簇中;更新聚類中心點(diǎn);循環(huán)步驟2-4,直到每個(gè)聚類中心點(diǎn)都不再變化,則聚類算法結(jié)束。EndK-medoids算法是K-means算法的一個(gè)變種,兩者主要在中心點(diǎn)的選擇上有所不同,K-medoids算法是從樣本點(diǎn)中進(jìn)行選取,選擇一個(gè)到其他所有點(diǎn)的距離和最小的點(diǎn)作為中心點(diǎn);而K-means算法是用當(dāng)前簇中所有樣本點(diǎn)均值作為中心點(diǎn)。其中,K-medoids善于處理離群點(diǎn),且對(duì)噪聲魯棒性比較好?;趧澐值木垲愃惴▽?shí)現(xiàn)簡(jiǎn)單,易于理解;但需要在算法啟動(dòng)前人為設(shè)定聚類數(shù)目,不同的值得到的聚類效果相差很大,并且結(jié)果的優(yōu)劣依賴于對(duì)初始簇中心的選擇,不同的選取方式會(huì)得到不同的聚類結(jié)果,容易陷入局部最優(yōu)解。(2)基于層次的聚類算法基于層次的聚類算法通常包含凝聚的(自底向上)和分裂的(自頂向下)兩種方法。凝聚的層次聚類算法是最開始將每一個(gè)對(duì)象都當(dāng)作初始簇,之后根據(jù)某種預(yù)定好的規(guī)則迭代地合并這些初始簇,成為越來(lái)越大的簇,直到全部的對(duì)象都被劃分在一個(gè)簇中,或達(dá)到結(jié)束條件停止。分裂的層次聚類算法是開始將全部的對(duì)象放在一個(gè)簇中,該簇作為層次結(jié)構(gòu)的根,然后通過(guò)計(jì)算類簇之間的距離,遞歸式地逐漸細(xì)分為越來(lái)越小的簇,直到最底層的簇都足夠凝聚,即僅包含一個(gè)對(duì)象或者簇內(nèi)對(duì)象彼此充分相似為止。兩種方式不同的層次聚類過(guò)程如圖2-6所示?;趯哟蔚木垲愃惴軌蜻m應(yīng)任何數(shù)據(jù)集的處理,并且對(duì)于樣本的輸入順序是不敏感的,具有較高的文本劃分準(zhǔn)確率。但是層次聚類的處理復(fù)雜,需要進(jìn)行大量的計(jì)算。聚類的結(jié)果也和聚類的合并點(diǎn)和分裂點(diǎn)有著很大的關(guān)系,往往將它與其他聚類方法配合使用。代表算法有BIRCH、CURE等。圖2-6兩種方式層次聚類過(guò)程圖Fig.2-6Two-wayhierarchicalclusteringprocessdiagram(3)基于密度的聚類算法基于密度的聚類算法基本思想是,在由所有樣本形成的整個(gè)數(shù)據(jù)空間中,把每個(gè)類簇看作高密度區(qū)域(稠密區(qū)),該區(qū)域由很多稠密樣本點(diǎn)構(gòu)成,并且被一些低密度區(qū)域(稀疏區(qū))所分開。利用該算法從數(shù)據(jù)的總體布局出發(fā),利用樣本點(diǎn)在數(shù)據(jù)空間中的稠密程度進(jìn)行聚類,具體實(shí)現(xiàn)為,逐一判斷每個(gè)區(qū)域中的樣本密度是否超過(guò)預(yù)先設(shè)定的一個(gè)閾值,如果滿足,則將該樣本劃分到離它距離相近的結(jié)果簇中,最終實(shí)現(xiàn)過(guò)濾低密度區(qū)域,發(fā)現(xiàn)稠密樣本。代表算法有DBSCAN、OPTICS等。(4)基于圖論的聚類算法基于圖論的聚類算法是首先建立與問(wèn)題相符合的圖,然后找到數(shù)據(jù)的最小單元,將其作為圖的節(jié)點(diǎn),為了處理數(shù)據(jù)的局部特性,每對(duì)最小處理單元數(shù)據(jù)之間都有一個(gè)相似性度量標(biāo)準(zhǔn),即利用圖的邊來(lái)判定最小處理單元數(shù)據(jù)之間的相似性?;趫D論的聚類算法的一個(gè)優(yōu)點(diǎn)是把聚類變換為組合優(yōu)化模型,然后通過(guò)圖論并結(jié)合相關(guān)啟發(fā)式算法進(jìn)行處理。譜聚類和AffinityPropagation(AP)聚類均是基于圖論聚類的聚類算法,這兩種算法的基本原理及實(shí)現(xiàn)流程分別在之后的第三章、第四章進(jìn)行闡述。(5)基于網(wǎng)格的聚類算法基于網(wǎng)格的聚類算法以單個(gè)的數(shù)據(jù)單元為對(duì)象,從對(duì)數(shù)據(jù)空間劃分的角度出發(fā),將其劃分成獨(dú)立于數(shù)據(jù)點(diǎn)的有限個(gè)單元,這樣便形成了一個(gè)類似于網(wǎng)格的結(jié)構(gòu),為聚類提供可操作的網(wǎng)格空間。這種方法的主要特點(diǎn)是處理速度和網(wǎng)絡(luò)空間的單元數(shù)存在一定的關(guān)系,而和數(shù)據(jù)點(diǎn)的數(shù)量沒(méi)有關(guān)系,因此,能夠處理海量的數(shù)據(jù)集。這種方法雖然有效地提高了運(yùn)算效率,但同時(shí)也犧牲了聚類結(jié)果的質(zhì)量。代表算法有STING、Wave-Cluster等。(6)基于模型的聚類算法基于模型的聚類算法會(huì)給每一個(gè)數(shù)據(jù)集分布假定一個(gè)模型,然后通過(guò)某種統(tǒng)計(jì)方法找出與這種數(shù)據(jù)分布相符合的概率模型。一般這種方法的處理步驟是,對(duì)于輸入數(shù)據(jù),會(huì)通過(guò)如采樣、回歸等為每一種聚類假設(shè)選擇一個(gè)模型,然后從已有的輸入中,選擇一組能夠很好滿足這個(gè)模型的數(shù)據(jù)集。從而根據(jù)模型找到數(shù)據(jù)集中的不同類簇。一般的模型包括各種密度分布函數(shù)如狄利克雷分布、貝塔分布等。這種聚類算法仍處于研究探索階段。1.6頻繁詞集相關(guān)概述1.6.1頻繁詞集相關(guān)理論關(guān)聯(lián)規(guī)則(AssociationRules)是形如的表達(dá)式,反映的是某個(gè)事物與另一個(gè)事物之間的相互關(guān)聯(lián)性和依存性。關(guān)聯(lián)規(guī)則的典型例子就是我們熟知的“購(gòu)物籃事務(wù)”,如表2-1所示。表2-1購(gòu)物籃示例Tab.2-1ShoppingbasketexampleTID項(xiàng)集1{面包,牛奶}2{面包,尿布,啤酒,雞蛋}3{牛奶,尿布,啤酒,可樂(lè)}4{面包,牛奶,尿布,啤酒}5{面包,牛奶,尿布,可樂(lè)}表2-1中每一行由一個(gè)標(biāo)識(shí)符和顧客購(gòu)買的物品組成,從表2-1所示的數(shù)據(jù)中可以提取出規(guī)則:{尿布}{啤酒},該規(guī)則表明尿布和啤酒的銷售存在一定的關(guān)聯(lián)性,因?yàn)樵S多購(gòu)買尿布的顧客也購(gòu)買啤酒。尿布和啤酒一起購(gòu)買的行為方式,就可以使用關(guān)聯(lián)規(guī)則來(lái)進(jìn)行分析,即形如“由于某些事件的發(fā)生(買尿布)而引起另外一些事件(買啤酒)的發(fā)生”之類的規(guī)則。關(guān)聯(lián)規(guī)則常常用于從整個(gè)數(shù)據(jù)集中挖掘出一些有意義事物之間存在的某種關(guān)聯(lián)關(guān)系,在我們的生產(chǎn)生活中有著廣泛的應(yīng)用。頻繁項(xiàng)集挖掘是一項(xiàng)基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘研究?jī)?nèi)容。這里我們有定義,設(shè)為一組不同元素的集合,集合中的每個(gè)元素稱為數(shù)據(jù)項(xiàng)。記為的集合,,其中被稱為一個(gè)事務(wù),并且把稱為上的數(shù)據(jù)集。每一個(gè)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 初中生社會(huì)實(shí)踐能力的多元化發(fā)展與評(píng)價(jià)考核試卷
- 保健食品營(yíng)養(yǎng)需求分析與滿足策略實(shí)施效果考核試卷
- 合成氣制合成油考核試卷
- 國(guó)際貿(mào)易信用證條款解析與應(yīng)用考核試卷
- 網(wǎng)購(gòu)家具合同范本
- 簡(jiǎn)單的工傷合同范本
- 賣車簡(jiǎn)單合同范本
- 農(nóng)業(yè)訂單合同范本
- 電視購(gòu)物產(chǎn)品退換政策協(xié)議
- 瑜伽培訓(xùn)合同協(xié)議書
- 經(jīng)銷商授權(quán)協(xié)議合同書(中英文對(duì)照)
- 第三章走向混沌的道路
- 化探野外工作方法及要求
- 2006年事業(yè)單位工資改革工資標(biāo)準(zhǔn)表及套改表2
- 初三化學(xué)公式大全
- 江蘇省特種設(shè)備安全條例2021
- 外科學(xué)總論--創(chuàng)傷ppt
- 青島海洋地質(zhì)研究所公開招聘面試答辯PPT課件
- 舉世無(wú)雙的建筑師
- 常見(jiàn)導(dǎo)管的固定與維護(hù)PPT課件
- 白龜湖濕地公園調(diào)研報(bào)告
評(píng)論
0/150
提交評(píng)論