下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
基于關(guān)鍵詞組合向量模型的文本自動分類研究
[摘要]本文描述了一種新的基于關(guān)鍵詞組合模式的文本向量空間表示模型,相對于只使用文本中詞語的頻率的文本向量空間模型,這種新的模型在可以計算的前提下,使用了詞語之間的相對位置信息,從而可以解決部分詞語向量空間模型表示的不足。本文討論了使用這種模型的自動文本分類系統(tǒng),包括分類系統(tǒng)的結(jié)構(gòu)、特征提取、文本相似度計算公式,并給出了評估方法。
[關(guān)鍵詞]關(guān)鍵詞組合向量空間自動分類分類算法
近年來,以文本格式存儲的海量信息出現(xiàn)在Internet、數(shù)字化圖書館及公司的Intranet上,如何從這些浩瀚的文本中發(fā)現(xiàn)有價值的信息是信息處理領(lǐng)域的重要目標(biāo),而文本自動分類系統(tǒng)能夠在給定的分類模型下,根據(jù)文本的內(nèi)容自動對文本分門別類,從而更好地幫助人們組織及挖掘文本信息,因此得到日益廣泛的關(guān)注,成為信息處理領(lǐng)域最重要的研究方向之一。
一、自動分類的種類和作用
自動分類就是用計算機(jī)系統(tǒng)代替人工對文獻(xiàn)等對象進(jìn)行分類,一般包括自動聚類和自動歸類。自動聚類和自動歸類的主要區(qū)別就是自動聚類不需要事先定義好分類體系,而自動歸類則需要確定好類別體系,并且要為每個類別提供一批預(yù)先分好的對象作為訓(xùn)練文集,分類系統(tǒng)先通過訓(xùn)練文集學(xué)習(xí)分類知識,在實際分類時,再根據(jù)學(xué)習(xí)到的分類知識為需要分類的文獻(xiàn)確定一個或者多個類別。本文中所指的自動分類是指對網(wǎng)頁的自動分類,包括網(wǎng)頁的自動歸類和自動聚類。
目前搜索引擎提供兩種信息查詢方式:分類瀏覽和關(guān)鍵詞檢索。分類瀏覽一般是基于網(wǎng)站分類目錄。關(guān)鍵詞檢索的對象不是網(wǎng)站,而是符合條件的網(wǎng)頁。關(guān)鍵詞檢索信息量大、更新及時、不需要人工干預(yù)。
二、問題描述
1.系統(tǒng)任務(wù)
簡單地說,文本分類系統(tǒng)的任務(wù)是:在給定的分類體系下,根據(jù)文本的內(nèi)容自動地確定文本關(guān)聯(lián)的類別。從數(shù)學(xué)角度來看,文本分類是一個映射的過程,它將未標(biāo)明類別的文本映射到已有的類別中,該映射可以是一一映射,也可以是一對多的映射,因為通常一篇文本可以同多個類別相關(guān)聯(lián)。用數(shù)學(xué)公式表示如下:
文本分類的映射規(guī)則是系統(tǒng)根據(jù)已經(jīng)掌握的每類若干樣本的數(shù)據(jù)信息,總結(jié)出分類的規(guī)律性而建立的判別公式和判別規(guī)則。然后在遇到新文本時,根據(jù)總結(jié)出的判別規(guī)則,確定文本相關(guān)的類別。
2.評估方法
我們使用評估文本分類系統(tǒng)的兩個指標(biāo):準(zhǔn)確率和查全率。準(zhǔn)確率是所有判斷的文本中與人工分類結(jié)果吻合的文本所占的比率。其數(shù)學(xué)公式表示如下:;查全率是人工分類結(jié)果應(yīng)有的文本中分類系統(tǒng)吻合的文本所占的比率,其數(shù)學(xué)公式表示如下:;準(zhǔn)確率和查全率反映了分類質(zhì)量的兩個不同方面,兩者必須綜合考慮,不可偏廢。
3.詞語向量空間模型的文本表示
目前,在信息處理方向上,文本的表示主要采用向量空間模型(VSM)。向量空間模型的基本思想是以向量來表示文本:(W1,W2,W3……Wn),其中Wi為第i個特征項的權(quán)重,那么選取什么作為特征項呢,一般可以選擇字、詞或詞組,根據(jù)實驗結(jié)果,普遍認(rèn)為選取詞作為特征項要優(yōu)于字和詞組,因此,要將文本表示為向量空間中的一個向量,就首先要將文本分詞,由這些詞作為向量的維數(shù)來表示文本。詞頻分為絕對詞頻和相對詞頻,絕對詞頻,即使用詞在文本中出現(xiàn)的頻率表示文本,相對詞頻為歸一化的詞頻,其計算方法主要運用TF~I(xiàn)DF公式,目前存在多種TF~I(xiàn)DF公式,一種比較普遍的TF~I(xiàn)DF公式為:;其中,為詞t在文本中的權(quán)重,而為詞t在文本中的詞頻,N為訓(xùn)練文本的總數(shù),nt為訓(xùn)練文本集中出現(xiàn)t的文本數(shù),分母為歸一化因子。
4.詞語向量空間模型的訓(xùn)練方法和分類算法
訓(xùn)練方法和分類算法是分類系統(tǒng)的核心部分,目前存在多種基于向量空間模型的訓(xùn)練算法和分類算法,例如,支持向量機(jī)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 【全程復(fù)習(xí)方略】2020年人教A版數(shù)學(xué)文(廣東用)課時作業(yè):6.1不等關(guān)系與不等式
- 2024年梧州市第二人民醫(yī)院高層次衛(wèi)技人才招聘筆試歷年參考題庫頻考點附帶答案
- 健康科技:可穿戴健康設(shè)備
- 2024年離婚合同:雙方自愿分手及財產(chǎn)處理方案版B版
- 企業(yè)項目投資經(jīng)濟(jì)效益分析方法研究
- 初中數(shù)學(xué)“綜合與實踐”領(lǐng)域課程資源開發(fā)策略探討
- 深圳市四大名校自招真題及答案解析
- 新版GSP認(rèn)證標(biāo)準(zhǔn)
- 現(xiàn)代城市發(fā)展戰(zhàn)略研究
- 領(lǐng)導(dǎo)調(diào)研工作簡報
- 公司領(lǐng)導(dǎo)班子設(shè)置方案
- 專業(yè)展覽展示設(shè)計搭建公司
- 為銅制劑正名-冠菌銅? 產(chǎn)品課件-9-7
- 具有磁場保鮮裝置的制冷設(shè)備的制作方法
- 新人教版小學(xué)五年級數(shù)學(xué)上冊知識點歸納總結(jié)
- 2023年湖南省農(nóng)村信用社(農(nóng)村商業(yè)銀行)招聘員工筆試參考題庫附答案解析
- 七年級上英語知識梳理(牛津上海版)U1-U4
- 人力資源典型案例匯編
- 回族做禮拜的念詞集合6篇
- 設(shè)計服務(wù)實施方案模板
- 基于PLC的兩臺電動機(jī)順序啟動順序停止控制設(shè)計
評論
0/150
提交評論