《微博熱點(diǎn)話題的文本特征研究的相關(guān)理論與技術(shù)》9100字

上傳人：E*** IP屬地：湖北上傳時(shí)間：2025-02-26 格式：DOCX 頁(yè)數(shù)：15 大小：452.94KB 積分：15 舉報(bào) 版權(quán)申訴

《微博熱點(diǎn)話題的文本特征研究的相關(guān)理論與技術(shù)》9100字_第2頁(yè)

《微博熱點(diǎn)話題的文本特征研究的相關(guān)理論與技術(shù)》9100字_第3頁(yè)

《微博熱點(diǎn)話題的文本特征研究的相關(guān)理論與技術(shù)》9100字_第4頁(yè)

《微博熱點(diǎn)話題的文本特征研究的相關(guān)理論與技術(shù)》9100字_第5頁(yè)

已閱讀5頁(yè)，還剩10頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

微博熱點(diǎn)話題的文本特征研究的相關(guān)理論與技術(shù)綜述目錄TOC\o"1-2"\h\u11590微博熱點(diǎn)話題的文本特征研究的相關(guān)理論與技術(shù)綜述 194251.1熱點(diǎn)話題發(fā)現(xiàn)相關(guān)概述 128341.2文本預(yù)處理 2231271.1.1中文分詞 2277401.1.2文本去停用詞 3258511.3文本表示 493471.3.1基于向量空間模型的文本表示 424151.3.2基于主題模型的文本表示 5207521.3.3基于詞嵌入模型的文本表示 5133581.4文本特征選擇及相似度計(jì)算 8177331.4.1文本特征選擇 8269701.4.2文本相似度計(jì)算 989571.5傳統(tǒng)聚類方法 1016543（1）基于劃分的聚類算法 114999（2）基于層次的聚類算法 1113596（3）基于密度的聚類算法 1226725（4）基于圖論的聚類算法 124512（5）基于網(wǎng)格的聚類算法 1227424（6）基于模型的聚類算法 13173381.6頻繁詞集相關(guān)概述 1373061.6.1頻繁詞集相關(guān)理論 13298111.6.2頻繁詞集挖掘算法 141.1熱點(diǎn)話題發(fā)現(xiàn)相關(guān)概述話題檢測(cè)與跟蹤技術(shù)(TopicDetectionandTracking，TDT)最早由美國(guó)國(guó)防部高級(jí)研究計(jì)劃署等提出，TDT作為一種信息處理技術(shù)，其主要任務(wù)是對(duì)文字形態(tài)的新聞媒體信息流進(jìn)行分割，自動(dòng)檢測(cè)出不同的新聞事件，在提取出新話題的同時(shí)，將以某種合適的方式將檢測(cè)出的話題呈現(xiàn)給用戶。話題檢測(cè)任務(wù)作為TDT的主要任務(wù)之一，其目的是識(shí)別出系統(tǒng)預(yù)先未知的新興話題并對(duì)話題進(jìn)行展示。在該類任務(wù)中，首先對(duì)預(yù)處理后的文本進(jìn)行建模，轉(zhuǎn)化成計(jì)算機(jī)能夠處理的表示形式，而后采用合適的聚類算法對(duì)文本進(jìn)行聚類，以獲得不同的聚類簇，同時(shí)達(dá)到簇內(nèi)內(nèi)容緊密相關(guān)，簇間內(nèi)容明顯分離的效果，并且每個(gè)聚類簇表達(dá)一個(gè)獨(dú)立的話題[30]。目前，話題檢測(cè)技術(shù)被越來(lái)越多的應(yīng)用于微博、論壇等社交網(wǎng)絡(luò)平臺(tái)中，是網(wǎng)絡(luò)輿情的重要研究方向之一。微博熱點(diǎn)話題發(fā)現(xiàn)作為微博輿情研究中的重要環(huán)節(jié)，也是在話題檢測(cè)任務(wù)的基礎(chǔ)上進(jìn)行的。對(duì)于發(fā)現(xiàn)的話題結(jié)果，以某種合適的方式對(duì)話題進(jìn)行熱度評(píng)估分析，從而得出熱點(diǎn)話題作為微博輿情的重要參考。綜上所述，微博熱點(diǎn)話題發(fā)現(xiàn)的一般流程如圖2-1所示。圖2-1微博熱點(diǎn)話題發(fā)現(xiàn)流程圖Fig.2-1Flowchartofhottopicdiscoveryonweibo微博熱點(diǎn)話題發(fā)現(xiàn)的流程首先是微博數(shù)據(jù)的采集，主要是利用爬蟲等方法從新浪微博上爬取微博數(shù)據(jù)，并對(duì)數(shù)據(jù)進(jìn)行整理與存儲(chǔ)；為了得到規(guī)范的數(shù)據(jù)集，隨后進(jìn)行數(shù)據(jù)預(yù)處理，包括中文分詞及去停用詞；接著進(jìn)行文本特征提取，以方便后續(xù)聚類研究；之后通過(guò)構(gòu)建文本表示模型對(duì)處理好的微博數(shù)據(jù)集進(jìn)行文本表示，利用聚類算法對(duì)微博文本聚類形成話題簇，最后通過(guò)熱點(diǎn)話題評(píng)估方法得到最終所研究的熱點(diǎn)話題。1.2文本預(yù)處理1.1.1中文分詞句子中文分詞是數(shù)據(jù)預(yù)處理中非常重要的一個(gè)環(huán)節(jié)，中文句子不同于英文句子以單詞之間的空格作為自然分隔符，僅僅根據(jù)空格或標(biāo)點(diǎn)符號(hào)就能對(duì)英文句子進(jìn)行切分。在中文等自然語(yǔ)言中，詞與詞之間緊密相連沒(méi)有類似空格的區(qū)分標(biāo)志，因此，中文分詞要比英文分詞復(fù)雜很多，需要用中文分詞技術(shù)將中文句子分割成若干個(gè)有意義的詞匯，例如“推動(dòng)線上消費(fèi)規(guī)范健康發(fā)展”的分詞結(jié)果為：“推動(dòng)/線上/消費(fèi)/規(guī)范/健康/發(fā)展”。目前主流的中文分詞方法主要包括：基于字符串匹配的分詞方法、基于統(tǒng)計(jì)的分詞方法和基于理解的分詞方法[31]三大類。（1）基于字符串匹配的分詞方法又叫字典匹配法，該方法需要借助外部的中文詞庫(kù)作為匹配的詞典，按照一定的策略將待分詞的文本與詞典中的詞語(yǔ)一一進(jìn)行檢查，將檢查結(jié)果相同的字符串劃分為一個(gè)詞。這種分詞方法中，詞典的質(zhì)量將會(huì)直接影響到分詞結(jié)果。（2）基于統(tǒng)計(jì)的分詞方法不用預(yù)設(shè)好分詞詞典，而是計(jì)算相鄰字符在語(yǔ)料中的共同出現(xiàn)頻率，并由此來(lái)判斷該字符串是否為一個(gè)詞語(yǔ)，如果相鄰字符在語(yǔ)料中同時(shí)出現(xiàn)的概率越大，則表明它們組合為一個(gè)詞的可能性也就越大。該方法用到的典型模型有n元語(yǔ)法模型、條件隨機(jī)場(chǎng)模型和隱馬爾可夫模型等。（3）基于理解的分詞方法基本思想是通過(guò)儲(chǔ)備大量的人類語(yǔ)言知識(shí)，讓計(jì)算機(jī)在充分學(xué)習(xí)到句子的語(yǔ)法語(yǔ)義信息，模擬人類在正常交流中對(duì)句子的理解，來(lái)實(shí)現(xiàn)計(jì)算機(jī)自動(dòng)中文分詞。由于漢語(yǔ)復(fù)雜又難懂，具有一定的語(yǔ)言特殊性，因此基于理解的分詞方法目前還處在研究實(shí)驗(yàn)階段。隨著我國(guó)對(duì)中文分詞方法的不斷研究與探索，已經(jīng)出現(xiàn)了一些技術(shù)成熟且應(yīng)用廣泛的中文分詞工具，例如清華大學(xué)的THULAC漢語(yǔ)詞匯分析工具包，中國(guó)科學(xué)院計(jì)算所開發(fā)的NLPIR/ICTCLAS漢語(yǔ)分詞系統(tǒng)，以及基于python語(yǔ)言實(shí)現(xiàn)的jieba分詞等。Jieba分詞憑借其精確度高、速度快的特點(diǎn)在國(guó)內(nèi)被研究者廣泛應(yīng)用。因此，本文使用jieba作為中文文本的分詞工具。1.1.2文本去停用詞停用詞主要是指在自然語(yǔ)言中具有一定功能但沒(méi)有具體價(jià)值的字詞。主要分為兩類，一類是在文本出現(xiàn)過(guò)于頻繁，同時(shí)又沒(méi)有太多實(shí)際含義的詞，比如中文中的“表示”、“就”、“我”等詞在大多數(shù)文本中都會(huì)出現(xiàn)，對(duì)文本處理造成一定的干擾。第二類主要是一些語(yǔ)氣助詞、非語(yǔ)素詞、連詞等，比如“的”、“了”、“這”、“嗎”等。這些詞不對(duì)句子意思起關(guān)鍵作用，反而會(huì)增加句子維度，不利于后續(xù)分析，因此需要對(duì)這兩類詞進(jìn)行刪除，從而減少存儲(chǔ)空間，提高文本分析效果。常用的去除停用詞的方法是構(gòu)建停用詞表，也就是停用詞語(yǔ)列表[32]，然后依次掃描文本數(shù)據(jù)分詞結(jié)果的每個(gè)單詞，和停用詞表進(jìn)行比對(duì)，將包含在停用詞表中的文本詞語(yǔ)進(jìn)行剔除，直到文本數(shù)據(jù)中的所有單詞比對(duì)完為止。目前，國(guó)內(nèi)已經(jīng)有多個(gè)針對(duì)中文文本的標(biāo)準(zhǔn)停用詞表，如哈工大停用詞表、百度停用詞表[33]等。1.3文本表示計(jì)算機(jī)是不能讀懂文字的，因此我們需要對(duì)文本特征進(jìn)行處理和轉(zhuǎn)化，將文字形式的文本轉(zhuǎn)化為計(jì)算機(jī)能夠識(shí)別的二進(jìn)制形式，即文本表示（TextExpression）。文本表示的合適與否直接關(guān)系到后續(xù)話題發(fā)現(xiàn)的效率和準(zhǔn)確率，因此，文本表示模型的選取是非常重要的環(huán)節(jié)。目前，主流的文本表示方法大致可以歸納為基于向量空間模型、基于主題模型和基于詞嵌入模型的文本表示方法。1.3.1基于向量空間模型的文本表示向量空間模型（VectorSpaceModel,VSM）最初由Salton等人[34]提出，并逐漸在文本分析中得到了廣泛應(yīng)用。向量空間模型將文本數(shù)據(jù)集映射到多維空間向量實(shí)現(xiàn)文本表示，向量的每一個(gè)維度代表文本的一個(gè)特征詞。假設(shè)語(yǔ)料庫(kù)中有文本集合，每個(gè)文本由個(gè)特征詞表示，根據(jù)每個(gè)特征詞在文本中的重要性賦予其一定的權(quán)重，則文本可以建模為的形式。其中特征詞權(quán)重計(jì)算方法目前應(yīng)用最為廣泛的是TF-IDF，某個(gè)特征詞的TF-IDF權(quán)重值越大，表明該特征詞在其所在文本中的重要程度越大，同時(shí)對(duì)文本間的表征能力也就越強(qiáng)。文本向量空間模型如圖2-2所示。圖2-2文本向量空間模型Fig.2-2Textvectorspacemodel向量空間模型利用TF-IDF權(quán)重機(jī)制將文本轉(zhuǎn)化為向量，以向量之間的距離來(lái)表達(dá)兩個(gè)文本之間的相似性。但該模型在實(shí)際使用的時(shí)候也有一些困難之處，如果表示文本的特征詞太多，在計(jì)算時(shí)會(huì)導(dǎo)致矩陣維數(shù)災(zāi)難。此外，向量空間模型基于特征詞之間相互獨(dú)立性假設(shè)，未考慮特征詞與其臨近詞之間的共現(xiàn)關(guān)系，忽略了文本上下文的語(yǔ)義信息。1.3.2基于主題模型的文本表示主題模型（TopicModel）主要應(yīng)用在自然語(yǔ)言處理領(lǐng)域的文本語(yǔ)義分析與挖掘，該模型是在文本和特征詞之間增加一層主題層，利用文本間詞的共現(xiàn)信息來(lái)發(fā)現(xiàn)海量無(wú)監(jiān)督語(yǔ)料中的抽象主題。一篇文章中某些經(jīng)常出現(xiàn)的特定詞語(yǔ)往往代表了這篇文章的中心思想，主題模型從概率生成模型的角度來(lái)對(duì)文本進(jìn)行表示。傳統(tǒng)的隱含狄利克雷分布（LatentDirichletAllocation,LDA）作為一種主題概率分布模型，在使用前要先用向量空間模型對(duì)文本進(jìn)行表示。LDA模型包含文檔、主題、詞三層結(jié)構(gòu)，并基于狄利克雷分布抽樣生成文本的主題分布和主題的詞分布，選擇主題分布進(jìn)行文本表示。主題模型作為一種典型的詞袋模型，主要是利用了文檔級(jí)的詞共現(xiàn)信息，并沒(méi)有考慮特征詞之間的位置及語(yǔ)序關(guān)系，再加上短文本的數(shù)據(jù)稀疏性，導(dǎo)致主題模型無(wú)法實(shí)現(xiàn)對(duì)文本準(zhǔn)確表示。1.3.3基于詞嵌入模型的文本表示詞嵌入（WordEmbedding）的概念首次由Rumelhart等人[35]提出，通俗來(lái)講，詞嵌入就是指將一個(gè)詞語(yǔ)（word）轉(zhuǎn)換為一個(gè)向量（vector）表示，在自然語(yǔ)言處理中，詞嵌入幾乎是所有研究的基礎(chǔ)。詞嵌入將文本特征詞以詞向量的形式表示，充分考慮了的特征詞匯之間的語(yǔ)法關(guān)系和語(yǔ)義信息，尤其在短文本上的表現(xiàn)要遠(yuǎn)遠(yuǎn)由于TF-IDF等傳統(tǒng)的文本表示方法。隨著深度學(xué)習(xí)的發(fā)展，利用神經(jīng)網(wǎng)絡(luò)做文本特征抽取受到越來(lái)越多研究者的關(guān)注，很多用于訓(xùn)練詞嵌入向量的模型被提出。詞嵌入可將詞的特征映射到較低的維度，例如語(yǔ)料庫(kù)中的所有特征詞可以用256維特征來(lái)描述，使用模型參數(shù)更少，訓(xùn)練更快。目前主流的詞嵌入模型為Word2vec模型和BERT模型。（1）Word2vec模型。Word2vec是在2013年由Mikolov等人[36]提出的一種詞嵌入方法，其核心思想是根據(jù)詞語(yǔ)在語(yǔ)料庫(kù)中與其前后相鄰的若干個(gè)詞信息，為每個(gè)詞語(yǔ)訓(xùn)練一個(gè)相同維數(shù)的特征向量。Word2vec包含CBOW[37]和Skip-gram[38]兩種訓(xùn)練模型，其原理示意圖如圖2-3所示。圖2-3Word2vec兩種模型Fig.2-3TwoWord2vecmodelsCBOW和Skip-gram的共同之處在于都是由輸入層、投影層和輸出層三層組成，并且都是根據(jù)句子中相鄰的詞的上下文關(guān)系，來(lái)完成神經(jīng)網(wǎng)絡(luò)的訓(xùn)練，以獲得最優(yōu)向量表示。但它們的預(yù)測(cè)過(guò)程卻是相反的，CBOW模型是通過(guò)在給定的特征詞前后各取個(gè)詞來(lái)預(yù)測(cè)當(dāng)前這個(gè)目標(biāo)詞匯。與CBOW相反，Skip-gram模型是已經(jīng)知道目標(biāo)特征詞信息來(lái)推測(cè)這個(gè)詞周圍可能出現(xiàn)的個(gè)詞。雖然Word2vec的出現(xiàn)對(duì)自然語(yǔ)言處理的發(fā)展有著很大貢獻(xiàn)，但是word2vec的不足之處是一個(gè)詞語(yǔ)對(duì)應(yīng)一個(gè)特定的向量，導(dǎo)致一詞多義的問(wèn)題難以避免。再加上Word2vec作為一種靜態(tài)方式，不能根據(jù)具體的任務(wù)做動(dòng)態(tài)調(diào)整，學(xué)習(xí)到的語(yǔ)義信息也被窗口大小所限制。（2）BERT模型。BERT預(yù)訓(xùn)練語(yǔ)言模型由谷歌AI團(tuán)隊(duì)在2018年提出[39]，是一個(gè)百層左右的神經(jīng)網(wǎng)絡(luò)，能夠利用超大規(guī)模無(wú)標(biāo)注語(yǔ)料進(jìn)行模型參數(shù)學(xué)習(xí)。對(duì)比起之前的預(yù)訓(xùn)練模型如ELMo[40]、OpenAIGPT[41]，BERT融入了更多的語(yǔ)法和詞法，捕捉到的是真正意義上的雙向上下文信息，在NLP領(lǐng)域的問(wèn)答類任務(wù)、序列標(biāo)注任務(wù)、單句分類任務(wù)等11個(gè)方向大幅刷新了精度，引起了一波新的研究熱潮。BERT模型的結(jié)構(gòu)如圖2-4所示。圖2-4BERT語(yǔ)言模型結(jié)構(gòu)Fig.2-4BERTlanguagemodelstructureBERT預(yù)訓(xùn)練語(yǔ)言模型拋棄了傳統(tǒng)的RNN和CNN網(wǎng)絡(luò)結(jié)構(gòu)，采用Transformer[42]編碼器作為模型核心結(jié)構(gòu)。Transformer作為一種新的編碼-解碼方式，由6個(gè)編碼器（Encoder）和6個(gè)解碼器（Decoder）堆疊而成，有著超強(qiáng)的文本表征能力和并行計(jì)算能力，是目前自然語(yǔ)言處理領(lǐng)域非常流行的網(wǎng)絡(luò)結(jié)構(gòu)。BERT主要借助Transformer的Encoder部分來(lái)對(duì)語(yǔ)言模型進(jìn)行訓(xùn)練，獲得包含豐富語(yǔ)義信息的文本向量化表示，每個(gè)單元主要包含自注意力機(jī)制和前饋神經(jīng)網(wǎng)絡(luò)兩個(gè)子層。Transformer-encoder的結(jié)構(gòu)如圖2-5所示。圖2-5Transformer-encoder結(jié)構(gòu)圖Fig.2-5Transformer-encoderstructurediagramTransformer-encoder中最重要的部分就是自注意力部分，自注意力模型通過(guò)在序列內(nèi)部做attention，來(lái)尋找序列內(nèi)部之間的聯(lián)系。self-attention作為attention的特殊形式，使BERT不僅具備了RNN提取長(zhǎng)距離依賴關(guān)系的能力，同時(shí)擁有了CNN提取輸入序列中每個(gè)詞特征時(shí)并行計(jì)算的能力。此外，BERT模型還提出了兩個(gè)自監(jiān)督任務(wù)來(lái)提高語(yǔ)義表征能力：（1）掩碼語(yǔ)言模型（MLM）任務(wù)。該任務(wù)是在訓(xùn)練的時(shí)候隨機(jī)將輸入語(yǔ)料中15%的詞進(jìn)行標(biāo)記，并在這些標(biāo)記的單詞中以80%的概率會(huì)直接被替換為特殊標(biāo)記[Mask]，10%的概率會(huì)用從語(yǔ)料中任意抽取的單詞所代替，剩下10%的概率會(huì)保留原來(lái)的詞不變，然后通過(guò)上下文預(yù)測(cè)被遮蓋的詞。（2）句子連貫性判定（NSP）任務(wù)。該任務(wù)是判斷某個(gè)句子是否是另一個(gè)句子的下文，具體做法是，選擇若干句子對(duì)A和B，其中50%的句子B是A的下一個(gè)句子，其余50%的句子B是數(shù)據(jù)集中任意選擇的，通過(guò)迭代訓(xùn)練學(xué)習(xí)到其中的關(guān)聯(lián)性。與傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)相比，BERT模型使用雙向Transformer對(duì)目標(biāo)單詞進(jìn)行上下文特征信息提取，能夠較完整地保存文本語(yǔ)義信息；同時(shí)BERT模型能充分利用上下文信息動(dòng)態(tài)調(diào)整文本句向量，可以有效解決一詞多義的難題，在某種程度上，可以進(jìn)行同義詞的區(qū)分。最為一個(gè)Word2vec的替代者，BERT模型是在Word2vec模型的基礎(chǔ)上進(jìn)一步強(qiáng)化字（詞）向量模型的泛化能力，充分挖掘字符級(jí)向量間的關(guān)系特征，同時(shí)，BERT以字為單元進(jìn)行訓(xùn)練，在一定程度上克服了Word2vec所面臨的未登錄詞難題。1.4文本特征選擇及相似度計(jì)算1.4.1文本特征選擇所謂特征選擇，是指在不改變?cè)蟹治鼋Y(jié)果的前提下，將所有的特征項(xiàng)按照一定的規(guī)則進(jìn)行篩選，選擇一部分具有代表性的特征項(xiàng)，降低計(jì)算分析的復(fù)雜度。目前常見(jiàn)的文本特征選擇方法主要分為TF-IDF和TextRank等無(wú)監(jiān)督方法和卡方統(tǒng)計(jì)、信息增益、互信息等[43]有監(jiān)督方法。下面主要介紹TF-IDF和TextRank兩種方法。（1）TF-IDF方法TF-IDF是一種基于統(tǒng)計(jì)學(xué)的簡(jiǎn)單有效的特征選擇算法[44]。TF-IDF采用統(tǒng)計(jì)詞頻的思想，來(lái)衡量一個(gè)字或詞語(yǔ)對(duì)于一個(gè)語(yǔ)料庫(kù)中某個(gè)文件或一個(gè)文件集的重要性。具體計(jì)算公式如(2-1)~(2-3)所示： (2-1) (2-2)其中，在公式(2-1)中，分子為某個(gè)特征詞在文本中出現(xiàn)了多少次，分母為文本中總共有多少個(gè)特征詞。在公式(2-2)中，為數(shù)據(jù)集中所有文本總數(shù)，表示在數(shù)據(jù)集中包含詞語(yǔ)的文本數(shù)量。則詞的權(quán)重如公式(2-3)所示： (2-3)（2）TextRank方法TextRank是在PageRank的基礎(chǔ)上提出的一種基于圖排序的算法[45]，TextRank作為一種無(wú)監(jiān)督方法，不需要訓(xùn)練語(yǔ)料就可以方便實(shí)現(xiàn)特征詞提取，適用于多種不同的場(chǎng)合。TextRank的實(shí)現(xiàn)原理為，通過(guò)構(gòu)建一個(gè)詞匯網(wǎng)絡(luò)圖模型，利用多次迭代的方式計(jì)算每個(gè)詞語(yǔ)的TR值，將排名靠前的詞語(yǔ)作為關(guān)鍵詞。詞語(yǔ)的TR值計(jì)算如公式(2-4)所示： (2-4)其中為阻尼系數(shù)，、為詞節(jié)點(diǎn)，為指向的節(jié)點(diǎn)集合，為由發(fā)出所指向的節(jié)點(diǎn)集合，、分別為節(jié)點(diǎn)到、到邊的權(quán)重。TextRank算法實(shí)現(xiàn)流程為，在文本預(yù)處理之后得到個(gè)候選關(guān)鍵詞集合；然后構(gòu)建一個(gè)候選關(guān)鍵詞網(wǎng)絡(luò)圖，其中是節(jié)點(diǎn)集；利用公式(2-4)求得每個(gè)節(jié)點(diǎn)的TR值作為權(quán)重值，重復(fù)計(jì)算直到收斂；最終將得到的權(quán)重值從大到小進(jìn)行排列，取權(quán)重值最大的前個(gè)的節(jié)點(diǎn)所對(duì)應(yīng)的詞作為特征詞。1.4.2文本相似度計(jì)算在文本聚類的實(shí)現(xiàn)過(guò)程中，文本相似度計(jì)算[46]是非常基礎(chǔ)而關(guān)鍵的一個(gè)任務(wù)。在拼寫糾錯(cuò)、推薦系統(tǒng)、命名實(shí)體識(shí)別、自動(dòng)應(yīng)答、機(jī)器翻譯等方面有著深入而廣泛的應(yīng)用。文本距離與文本相似度是兩個(gè)相反的概念，兩個(gè)文本對(duì)象之間距離越小，則它們“離得越近”，相似度也就越大。在聚類算法執(zhí)行過(guò)程中，兩個(gè)文本數(shù)據(jù)對(duì)象之間的相似度決定了它們能否被劃分為一個(gè)類簇。（1）歐氏距離歐氏距離也叫歐幾里得距離[47]，表示的是兩個(gè)點(diǎn)在歐式空間中的直線距離。對(duì)于兩個(gè)向量化表示后的文本和文本，其歐氏距離計(jì)算公式見(jiàn)(2-5)所示： (2-5)（2）余弦相似度在數(shù)學(xué)幾何中，兩個(gè)向量的夾角余弦值可用來(lái)度量它們之間方向的差異；而在自然語(yǔ)言處理中，對(duì)文本數(shù)據(jù)進(jìn)行向量化表示，將向量根據(jù)坐標(biāo)映射到向量空間后，也可以借用余弦相似度來(lái)度量?jī)蓚€(gè)文本數(shù)據(jù)向量之間的差異。對(duì)于文本和文本，它們的夾角余弦值越接近于1，意味著二者夾角越小，相似度越高。其計(jì)算公式見(jiàn)(2-6)所示： (2-6)（2）Jaccard距離Jaccard距離采用的是集合操作，可以用來(lái)衡量由符號(hào)或布爾值構(gòu)成的集合之間的差異性[48]。如果兩個(gè)文本不是采用向量化數(shù)值表示形式，而是用特征詞集合來(lái)表達(dá)，則使用Jaccard距離來(lái)計(jì)算文本之間的相似度最合適不過(guò)了。對(duì)于給定的由特征詞表示的兩個(gè)文本X、Y，其Jaccard距離可以用兩個(gè)文本所含的特征詞交集個(gè)數(shù)和并集個(gè)數(shù)的比值來(lái)表示，具體計(jì)算公式見(jiàn)(2-7)所示： (2-7)1.5傳統(tǒng)聚類方法近年來(lái)，聚類技術(shù)在自然語(yǔ)言處理文本分析領(lǐng)域的研究變得越來(lái)越廣泛而深入。聚類不同于分類任務(wù)，聚類是一種無(wú)監(jiān)督的機(jī)器學(xué)習(xí)算法，其主要任務(wù)是將無(wú)標(biāo)簽的文本數(shù)據(jù)按照一定的規(guī)則劃分為若干個(gè)互不相交的類簇，簇內(nèi)文本相似性較高，對(duì)應(yīng)著同一個(gè)概念，簇間文本相似性較低彼此互相分離。目前，常用到的聚類算法主要有如下六種。（1）基于劃分的聚類算法基于劃分的聚類算法基本原理是，給定個(gè)數(shù)據(jù)點(diǎn)的數(shù)據(jù)集合，根據(jù)一定的規(guī)則構(gòu)建數(shù)據(jù)集合的個(gè)劃分，每個(gè)劃分代表一個(gè)類別。每個(gè)類別最少要有一條數(shù)據(jù)記錄，并且每條數(shù)據(jù)記錄只屬于一個(gè)類別。典型的劃分聚類算法是K-means算法[49]，具體算法描述如算法2-1所示。算法2-1K-means算法Algorithm2-1K-meansalgorithm輸入：聚類數(shù)目，包含個(gè)文本的文本集輸出：個(gè)簇劃分Begin在數(shù)據(jù)集中任意選中個(gè)初始聚類中心，記為；計(jì)算每一個(gè)數(shù)據(jù)點(diǎn)（除去個(gè)中心）到初始聚類中心的距離；將分配到與其距離最近的聚類中心所在類簇中；更新聚類中心點(diǎn)；循環(huán)步驟2-4，直到每個(gè)聚類中心點(diǎn)都不再變化，則聚類算法結(jié)束。EndK-medoids算法是K-means算法的一個(gè)變種，兩者主要在中心點(diǎn)的選擇上有所不同，K-medoids算法是從樣本點(diǎn)中進(jìn)行選取，選擇一個(gè)到其他所有點(diǎn)的距離和最小的點(diǎn)作為中心點(diǎn)；而K-means算法是用當(dāng)前簇中所有樣本點(diǎn)均值作為中心點(diǎn)。其中，K-medoids善于處理離群點(diǎn)，且對(duì)噪聲魯棒性比較好?；趧澐值木垲愃惴▽?shí)現(xiàn)簡(jiǎn)單，易于理解；但需要在算法啟動(dòng)前人為設(shè)定聚類數(shù)目，不同的值得到的聚類效果相差很大，并且結(jié)果的優(yōu)劣依賴于對(duì)初始簇中心的選擇，不同的選取方式會(huì)得到不同的聚類結(jié)果，容易陷入局部最優(yōu)解。（2）基于層次的聚類算法基于層次的聚類算法通常包含凝聚的(自底向上)和分裂的(自頂向下)兩種方法。凝聚的層次聚類算法是最開始將每一個(gè)對(duì)象都當(dāng)作初始簇，之后根據(jù)某種預(yù)定好的規(guī)則迭代地合并這些初始簇，成為越來(lái)越大的簇，直到全部的對(duì)象都被劃分在一個(gè)簇中，或達(dá)到結(jié)束條件停止。分裂的層次聚類算法是開始將全部的對(duì)象放在一個(gè)簇中，該簇作為層次結(jié)構(gòu)的根，然后通過(guò)計(jì)算類簇之間的距離，遞歸式地逐漸細(xì)分為越來(lái)越小的簇，直到最底層的簇都足夠凝聚，即僅包含一個(gè)對(duì)象或者簇內(nèi)對(duì)象彼此充分相似為止。兩種方式不同的層次聚類過(guò)程如圖2-6所示?；趯哟蔚木垲愃惴軌蜻m應(yīng)任何數(shù)據(jù)集的處理，并且對(duì)于樣本的輸入順序是不敏感的，具有較高的文本劃分準(zhǔn)確率。但是層次聚類的處理復(fù)雜，需要進(jìn)行大量的計(jì)算。聚類的結(jié)果也和聚類的合并點(diǎn)和分裂點(diǎn)有著很大的關(guān)系，往往將它與其他聚類方法配合使用。代表算法有BIRCH、CURE等。圖2-6兩種方式層次聚類過(guò)程圖Fig.2-6Two-wayhierarchicalclusteringprocessdiagram（3）基于密度的聚類算法基于密度的聚類算法基本思想是，在由所有樣本形成的整個(gè)數(shù)據(jù)空間中，把每個(gè)類簇看作高密度區(qū)域（稠密區(qū)），該區(qū)域由很多稠密樣本點(diǎn)構(gòu)成，并且被一些低密度區(qū)域（稀疏區(qū)）所分開。利用該算法從數(shù)據(jù)的總體布局出發(fā)，利用樣本點(diǎn)在數(shù)據(jù)空間中的稠密程度進(jìn)行聚類，具體實(shí)現(xiàn)為，逐一判斷每個(gè)區(qū)域中的樣本密度是否超過(guò)預(yù)先設(shè)定的一個(gè)閾值，如果滿足，則將該樣本劃分到離它距離相近的結(jié)果簇中，最終實(shí)現(xiàn)過(guò)濾低密度區(qū)域，發(fā)現(xiàn)稠密樣本。代表算法有DBSCAN、OPTICS等。（4）基于圖論的聚類算法基于圖論的聚類算法是首先建立與問(wèn)題相符合的圖，然后找到數(shù)據(jù)的最小單元，將其作為圖的節(jié)點(diǎn)，為了處理數(shù)據(jù)的局部特性，每對(duì)最小處理單元數(shù)據(jù)之間都有一個(gè)相似性度量標(biāo)準(zhǔn)，即利用圖的邊來(lái)判定最小處理單元數(shù)據(jù)之間的相似性?；趫D論的聚類算法的一個(gè)優(yōu)點(diǎn)是把聚類變換為組合優(yōu)化模型，然后通過(guò)圖論并結(jié)合相關(guān)啟發(fā)式算法進(jìn)行處理。譜聚類和AffinityPropagation（AP）聚類均是基于圖論聚類的聚類算法，這兩種算法的基本原理及實(shí)現(xiàn)流程分別在之后的第三章、第四章進(jìn)行闡述。（5）基于網(wǎng)格的聚類算法基于網(wǎng)格的聚類算法以單個(gè)的數(shù)據(jù)單元為對(duì)象，從對(duì)數(shù)據(jù)空間劃分的角度出發(fā)，將其劃分成獨(dú)立于數(shù)據(jù)點(diǎn)的有限個(gè)單元，這樣便形成了一個(gè)類似于網(wǎng)格的結(jié)構(gòu)，為聚類提供可操作的網(wǎng)格空間。這種方法的主要特點(diǎn)是處理速度和網(wǎng)絡(luò)空間的單元數(shù)存在一定的關(guān)系，而和數(shù)據(jù)點(diǎn)的數(shù)量沒(méi)有關(guān)系，因此，能夠處理海量的數(shù)據(jù)集。這種方法雖然有效地提高了運(yùn)算效率，但同時(shí)也犧牲了聚類結(jié)果的質(zhì)量。代表算法有STING、Wave-Cluster等。（6）基于模型的聚類算法基于模型的聚類算法會(huì)給每一個(gè)數(shù)據(jù)集分布假定一個(gè)模型，然后通過(guò)某種統(tǒng)計(jì)方法找出與這種數(shù)據(jù)分布相符合的概率模型。一般這種方法的處理步驟是，對(duì)于輸入數(shù)據(jù)，會(huì)通過(guò)如采樣、回歸等為每一種聚類假設(shè)選擇一個(gè)模型，然后從已有的輸入中，選擇一組能夠很好滿足這個(gè)模型的數(shù)據(jù)集。從而根據(jù)模型找到數(shù)據(jù)集中的不同類簇。一般的模型包括各種密度分布函數(shù)如狄利克雷分布、貝塔分布等。這種聚類算法仍處于研究探索階段。1.6頻繁詞集相關(guān)概述1.6.1頻繁詞集相關(guān)理論關(guān)聯(lián)規(guī)則(AssociationRules)是形如的表達(dá)式，反映的是某個(gè)事物與另一個(gè)事物之間的相互關(guān)聯(lián)性和依存性。關(guān)聯(lián)規(guī)則的典型例子就是我們熟知的“購(gòu)物籃事務(wù)”，如表2-1所示。表2-1購(gòu)物籃示例Tab.2-1ShoppingbasketexampleTID項(xiàng)集1{面包，牛奶}2{面包，尿布，啤酒，雞蛋}3{牛奶，尿布，啤酒，可樂(lè)}4{面包，牛奶，尿布，啤酒}5{面包，牛奶，尿布，可樂(lè)}表2-1中每一行由一個(gè)標(biāo)識(shí)符和顧客購(gòu)買的物品組成，從表2-1所示的數(shù)據(jù)中可以提取出規(guī)則：{尿布}{啤酒}，該規(guī)則表明尿布和啤酒的銷售存在一定的關(guān)聯(lián)性，因?yàn)樵S多購(gòu)買尿布的顧客也購(gòu)買啤酒。尿布和啤酒一起購(gòu)買的行為方式，就可以使用關(guān)聯(lián)規(guī)則來(lái)進(jìn)行分析，即形如“由于某些事件的發(fā)生（買尿布）而引起另外一些事件（買啤酒）的發(fā)生”之類的規(guī)則。關(guān)聯(lián)規(guī)則常常用于從整個(gè)數(shù)據(jù)集中挖掘出一些有意義事物之間存在的某種關(guān)聯(lián)關(guān)系，在我們的生產(chǎn)生活中有著廣泛的應(yīng)用。頻繁項(xiàng)集挖掘是一項(xiàng)基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘研究?jī)?nèi)容。這里我們有定義，設(shè)為一組不同元素的集合，集合中的每個(gè)元素稱為數(shù)據(jù)項(xiàng)。記為的集合，，其中被稱為一個(gè)事務(wù)，并且把稱為上的數(shù)據(jù)集。每一個(gè)

人人文庫(kù)> 全部分類> 行業(yè)資料 > 工業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

《微博熱點(diǎn)話題的文本特征研究的相關(guān)理論與技術(shù)》9100字

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

《微博熱點(diǎn)話題的文本特征研究的相關(guān)理論與技術(shù)》9100字

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔