



版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、 基于卷積神經(jīng)網(wǎng)絡(luò)的職位描述文本分類方法 陶宏曜+梁棟屹引言隨著Internet的發(fā)展,網(wǎng)絡(luò)上的信息量增長(zhǎng)迅猛,互聯(lián)網(wǎng)信息提取技術(shù)應(yīng)運(yùn)而生。自動(dòng)分類是數(shù)據(jù)挖掘中一項(xiàng)關(guān)鍵的技術(shù),在許多領(lǐng)域得到了廣泛的應(yīng)用。為了實(shí)現(xiàn)快速對(duì)大量文本自動(dòng)分類,許多學(xué)者對(duì)這一問題做了大量的探索,在構(gòu)造分類器時(shí)使用的技術(shù)大體可分為兩類:機(jī)器學(xué)習(xí)和深度學(xué)習(xí)。在機(jī)器學(xué)習(xí)領(lǐng)域中,有研究較為成熟的算法,如:樸素貝葉斯分類器,支持向量機(jī),信息熵,條件隨機(jī)場(chǎng)等。這些方法又可以分為三類:有監(jiān)督的機(jī)器學(xué)習(xí),半監(jiān)督的機(jī)器學(xué)習(xí)和無(wú)監(jiān)督的機(jī)器學(xué)習(xí)。其中李榮陸等人使用最大熵實(shí)現(xiàn)了對(duì)中文文本的分類。李婷婷等通過(guò)對(duì)文本數(shù)據(jù)構(gòu)建若干特征,再利用傳統(tǒng)的
2、機(jī)器學(xué)習(xí)方法對(duì)文本進(jìn)行分類。李文波等人提出了一種附加類別標(biāo)簽的LDA算法,該模型很好的解決了基于傳統(tǒng)LDA分類算法時(shí)強(qiáng)制分配隱含主題的問題。解沖鋒等人利用分類文本中旬子內(nèi)部詞語(yǔ)的相關(guān)性和句子間的相關(guān)性提出了一種基于序列的文本自動(dòng)分類算法?,F(xiàn)有許多分類器效果的好壞大都取決于所構(gòu)建特征的質(zhì)量和分類模型。為了得到更好的分類效果,國(guó)內(nèi)學(xué)者針對(duì)如何選取和生成特征,以及如何優(yōu)化模型參數(shù)等問題做了大量的研究。其中陸玉昌等人深入分析了向量空間模型(VSM)的本質(zhì),找出了其分類正確率低的原因,并提出了一種利用評(píng)估函數(shù)代替IDF函數(shù)的改進(jìn)方法。李榮陸等人提出了一種基于密度的KNN分類器訓(xùn)練樣本裁剪方法,克服了KN
3、N方法中存在的計(jì)算量大,而且訓(xùn)練樣本的分布不均勻會(huì)造成分類準(zhǔn)確率的下降的問題。尚文倩等人分析了基于矢量空間模型(VSM)的大多數(shù)分類器的瓶頸,通過(guò)對(duì)基尼指數(shù)進(jìn)行文本特征選擇的研究,構(gòu)造了基于基尼指數(shù)的文本特征評(píng)估函數(shù),提出了一種新的基于基尼指數(shù)的文本特征選擇算法,進(jìn)一步提高分類性能。劉赫等人針對(duì)文本分類中的特征加權(quán)問題,提出了一種基于特征重要度的特征加權(quán)方法。明顯改善了樣本空間的分布狀態(tài),簡(jiǎn)化了從樣本到類別的映射關(guān)系。唐煥玲等人針對(duì)如何從高維的特征空間中選取對(duì)文本分類有效的特征的問題,提出了一種結(jié)合評(píng)估函數(shù)的TEF-WA權(quán)重調(diào)整技術(shù),不僅提高了分類精確度,還降低了算法的時(shí)間復(fù)雜度。近幾年來(lái),有
4、關(guān)深度學(xué)習(xí)的理論研究與技術(shù)應(yīng)用吸引學(xué)術(shù)界和工業(yè)界的廣泛興趣。特別是圖像識(shí)別,語(yǔ)音識(shí)別等領(lǐng)域的成功應(yīng)用,越來(lái)越多的學(xué)者嘗試引入深度學(xué)習(xí)到自然語(yǔ)言的處理領(lǐng)域中來(lái)。梁軍等人利用自動(dòng)編碼技術(shù)和半監(jiān)督機(jī)器學(xué)習(xí),實(shí)現(xiàn)了對(duì)微博文本的情感分析,大量減少了人工標(biāo)注的工作量。陳翠平引入了深度學(xué)習(xí)的思想來(lái)完成文本分類任務(wù),使用深度信念網(wǎng)絡(luò)來(lái)完成提取文本特征的工作。Yoon等嘗試?yán)镁矸e神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來(lái)解決情感分析和問題分類等若干自然語(yǔ)言處理任務(wù),獲得了不錯(cuò)的效果。目前使用機(jī)器學(xué)習(xí)技術(shù)實(shí)現(xiàn)的中文文本分類器已達(dá)到了不錯(cuò)的效果,但仍然存在對(duì)混淆類數(shù)據(jù)處理不佳,特征不稀疏等問題。針對(duì)此問題本文提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)結(jié)合新
5、的TF-IDF算法和Word2vec工具的改良方法。本文在職位描述文本集上展開實(shí)驗(yàn),通過(guò)調(diào)整調(diào)整卷積核,池化層大小以及隱藏層層數(shù),分析新方法和傳統(tǒng)方法在不同訓(xùn)練參數(shù)情況下,對(duì)職業(yè)描述文本進(jìn)行自動(dòng)分類的性能。1基于卷積神經(jīng)網(wǎng)絡(luò)的文本分類模型卷積神經(jīng)網(wǎng)絡(luò)是前饋神經(jīng)網(wǎng)絡(luò)的一種,其特點(diǎn)有局部感受野、權(quán)值共享,可以極大地減少需要訓(xùn)練的參數(shù)個(gè)數(shù)?;诰矸e神經(jīng)網(wǎng)絡(luò)的文本分類器可以解決傳統(tǒng)文本分類器中人工選取特征難且不準(zhǔn)確的問題,其具體構(gòu)架如圖1所示:第一層為數(shù)據(jù)預(yù)處理層:該層首先對(duì)職位描述文本進(jìn)行分詞處理,然后根據(jù)每個(gè)詞的特性利用現(xiàn)有的算法提取每個(gè)詞的特征,以作為第二層的輸入層。第二層為卷積層:該層通過(guò)4x
6、l的卷積核對(duì)輸入層的詞特征進(jìn)行組合過(guò)濾,再使用Relu神經(jīng)元激勵(lì)函數(shù)計(jì)算從而形成更抽象的特征模型。第三層為池化層:對(duì)上一層的詞特征的相鄰小區(qū)域進(jìn)行聚類統(tǒng)計(jì),得到新的特征。第四層為全連接層:在經(jīng)過(guò)卷積層和池化層的處理之后,我們可以認(rèn)為職位的描述信息已經(jīng)被抽象成了信息含量更高的特征,需要使用全連接層來(lái)完成分類任務(wù)。第五層為Softmax分類層:通過(guò)Softmax層,可以得到當(dāng)前職位描述屬于不同分類的概率分布情況。數(shù)據(jù)預(yù)處理是整個(gè)分類方法的第一步,預(yù)處理的好壞直接影響著分類的效果的好壞。接下來(lái)將具體探討職位描述文本詞特征的提取問題。2傳統(tǒng)TF-IDF算法TF-IDF(詞頻率一逆文檔頻率)是一種用于資
7、訊檢索與資訊探勘的常用加權(quán)技術(shù)。它的主要方法是:Key在文檔中的權(quán)重為該Key在文檔中出現(xiàn)的頻數(shù)反比于包含該Key的文檔數(shù)目。TF表示Keyw在該文檔中出現(xiàn)的頻率,IDF表示所有文通過(guò)TF-IDF能夠提取出一篇文檔的Key,其含義是如果詞w的在該文檔中出現(xiàn)的頻率高,在其他文檔中出現(xiàn)的頻率低,就代表詞w能夠很好的表示該文檔的特征。STF-IDF將文檔的內(nèi)部信息與外部信息綜合起來(lái)考慮特征詞,能較為全面的反應(yīng)文檔的特性,但在IDF的設(shè)計(jì)中還存在缺陷,Key的權(quán)重反比于逆文檔頻率。在實(shí)際情況中,往往判斷一個(gè)文檔的Key權(quán)重并不總是反比于逆文檔頻率,特別是在短文本的Key抽取中使用TF-IDF算法的效果
8、不是很好。假設(shè)總文檔數(shù)為10,以表1為例,工作和javaKey在計(jì)算機(jī)類別和新聞傳媒類別中的逆文檔頻率分別為2,2和5,0。其中工作的IDF為log(10/4+0.01)=0.41,iava的IDF為log(10/5+0.01)=0.31。在c1類別的同一文檔中當(dāng)wl與w2具有相同的TF時(shí),TFIDF xTFIDFiava。TF-IDF和TF-IDF的值表明,工作比java根據(jù)代表力,但從Key工作和iava在計(jì)算機(jī)和新聞傳媒類別中的分布表明,java比工作具有更好的類別區(qū)分度。在短文本分類中如果單純使用TF-IDF作為文本特征的抽取方法,往往達(dá)不到分類的效果,導(dǎo)致這一問題的原因可歸結(jié)為兩點(diǎn):
9、一是TF-IDF設(shè)計(jì)本身的缺陷;二是對(duì)文本表示的特征深度不夠。對(duì)此可使用Word2vec的Skip-gram進(jìn)一步提取文本特征來(lái)提高分類精確度。endprint3Word2vec Skip-gram模型Word2vec是Mikolov等所提出模型的一個(gè)實(shí)現(xiàn),可以用來(lái)快速有效地訓(xùn)練詞向量。Word2vec包含了兩種訓(xùn)練模型,而skip-gram模型是其中的一種。采用該模型的最大優(yōu)勢(shì)在于,能夠克服傳統(tǒng)詞向量訓(xùn)練模型中由于窗口大小的限制,導(dǎo)致超出窗口范圍的詞語(yǔ)與當(dāng)前詞之間的關(guān)系不能被正確地反映到模型之中的問題。Skip-gram模型的設(shè)計(jì)見圖2所示。Skip-gram模型的訓(xùn)練目標(biāo)就是使得下式的值最
10、大。其中,c是窗口的大小,在Skip-gram模型中就是指n-Skip-gram中的n的大小,T是訓(xùn)練文本的大小。在Word2vec中,使用的是c-Skip-gram-bi-grams?;镜腟kip-gram模型計(jì)算條件概率公式如下:其中,Vw和V分別是詞w的輸入和輸出向量。使用Word2vec對(duì)中文文本生成的詞向量能夠從詞性,語(yǔ)法以及語(yǔ)義上表示一個(gè)詞的特性。相比于TF-IDF算法,詞向量所包含的信息量更為深入,所構(gòu)造出的分類器精確度有所提高,但仍存在對(duì)混淆類的數(shù)據(jù)噪點(diǎn)處理不佳的問題。4改進(jìn)的TF-IDF表示對(duì)于訓(xùn)練數(shù)據(jù)中存在像混淆類的噪點(diǎn)造成的文本分類不準(zhǔn)確的問題,我們可以在保持原有特征信
11、息量不變的基礎(chǔ)上,可引入改進(jìn)的TF-IDF特征表示來(lái)緩解問題。對(duì)傳統(tǒng)TF-IDF的改進(jìn)工作主要有兩點(diǎn):一是對(duì)原算法的應(yīng)用擴(kuò)展,二是對(duì)函數(shù)的改造。傳統(tǒng)TF-IDF解決是多個(gè)文檔的特征提取,此處我們可以上升到對(duì)每個(gè)類別的Key特征提取,具體算法是:其中TF表示的是W在CJ類別中出現(xiàn)的頻率,d代表Wi詞在Cj類中出現(xiàn)的文檔數(shù),D代表q類的總文檔數(shù)。公式(7)構(gòu)造的是一個(gè)閾值函數(shù)。公式(8)展開需要用到公式(7),N代表總類別數(shù),WiCj含義具體可參照公式(6)的介紹。重新構(gòu)造的IDF求的是KeyWi在分類時(shí)出現(xiàn)概率的對(duì)數(shù)。此處使用的閾值函數(shù)主要是減少數(shù)據(jù)噪點(diǎn)對(duì)計(jì)算Wi詞的真實(shí)IDF的影響。在計(jì)算完每
12、個(gè)詞在每一類中的TF-IDFmcj值后,可以運(yùn)用概率期望來(lái)表示每一個(gè)詞的TF-IDFwi權(quán)值,其具體計(jì)算方法詳見公式(9)和公式(10)。公式(10)中n是總詞數(shù),m是總類別數(shù)。利用改進(jìn)后的TF-IDF詞權(quán)重表示法結(jié)合Word2vec詞向量構(gòu)成的特征組再對(duì)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。實(shí)驗(yàn)結(jié)果表明這種方法,在緩解數(shù)據(jù)噪點(diǎn)對(duì)精確度的影響大的問題上是有效的。5實(shí)驗(yàn)分析5.1數(shù)據(jù)準(zhǔn)備及預(yù)處理本文實(shí)驗(yàn)采用從web上爬取的職位描述信息,共計(jì)四百萬(wàn)條信息。首先對(duì)職位描述文本進(jìn)行分詞以及去停詞。接著使用Word2vec和改進(jìn)前和改進(jìn)后的TF-IDF算法對(duì)職位描述文本進(jìn)行特征提取,并生成與之對(duì)應(yīng)的特征表。5.2測(cè)量標(biāo)
13、準(zhǔn)本文實(shí)驗(yàn)選擇的測(cè)量標(biāo)準(zhǔn)有兩個(gè):一是最直接衡量分類效果的預(yù)測(cè)正確率,如公式(11)所示。另一個(gè)是經(jīng)過(guò)Softmax回歸之后的預(yù)測(cè)分類和正確分類之間的交叉熵,如公式(12)所示,其中p為正確概率,g為預(yù)測(cè)概率,x表示預(yù)測(cè)類別。5.3樣本數(shù)量訓(xùn)練樣本的大小是影響分類效果最直接的因素之一,它也是整個(gè)實(shí)驗(yàn)研究的基礎(chǔ)。在對(duì)樣本數(shù)量考察時(shí),需保證只有樣本數(shù)量這一變量。本次實(shí)驗(yàn)將樣本數(shù)量分為100000條,200000條和300000條,實(shí)驗(yàn)結(jié)果見圖3所示。結(jié)果表明當(dāng)加大訓(xùn)練數(shù)量,可以改善分類的正確率。通過(guò)實(shí)驗(yàn)還發(fā)現(xiàn)隨著訓(xùn)練樣本數(shù)量的線性增加,對(duì)正確率的影響并不是線性的,數(shù)量越大,對(duì)正確率的影響越小。5.4
14、學(xué)習(xí)率的大小學(xué)習(xí)率的大小關(guān)系到神經(jīng)網(wǎng)絡(luò)的收斂速度。實(shí)驗(yàn)結(jié)果如圖4和圖5所示,可以觀測(cè)到當(dāng)學(xué)習(xí)率以5.0的速率訓(xùn)練時(shí),整個(gè)網(wǎng)絡(luò)會(huì)有很大的波動(dòng),且分類的結(jié)果也有比較大的誤差。當(dāng)學(xué)習(xí)率為0.008時(shí),整個(gè)網(wǎng)絡(luò)收斂相對(duì)穩(wěn)定,但是收斂的速度較慢。學(xué)習(xí)率太大會(huì)造成無(wú)法收斂,學(xué)習(xí)率偏小則收斂速度過(guò)慢,正確率也得不到很好的提升。通過(guò)多次實(shí)驗(yàn),我們發(fā)現(xiàn)當(dāng)學(xué)習(xí)率為0.07時(shí)效果最好,收斂相對(duì)較快,且預(yù)測(cè)的正確率高。5.5卷積核大小和全連接層數(shù)量卷積核大小即一次抓取局部多少個(gè)的詞的長(zhǎng)度。全連接的層數(shù)表示擬合參數(shù)的維度。在相同學(xué)習(xí)率和訓(xùn)練數(shù)據(jù),不同卷積核大小和全連接層節(jié)點(diǎn)數(shù)的情況下訓(xùn)練分類器,所得結(jié)果見表2所示。卷積
15、核為4*1最為合適,如表2的第一行可知當(dāng)卷積核太小時(shí),整個(gè)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)不到特征間的聯(lián)系,正確率相對(duì)較差。見表2第6行所示,當(dāng)卷積核太大則會(huì)使學(xué)習(xí)的特征太過(guò)泛化,提升不了分類的正確率。經(jīng)表2第3,4,5行比較顯示,全連接層為2層最佳,當(dāng)層數(shù)太低無(wú)法學(xué)習(xí)到更深的規(guī)則,當(dāng)層數(shù)過(guò)大時(shí)對(duì)分類效果的影響不大,反而還加大了算法的時(shí)間復(fù)雜度。5.6不同分類算法和訓(xùn)練特征使用TF-IDF,Word2vec和改進(jìn)后的TF-IDF的中文詞特征提取法。對(duì)傳統(tǒng)kNN分類器與基于卷積神經(jīng)網(wǎng)絡(luò)的分類器進(jìn)行了對(duì)比,實(shí)驗(yàn)結(jié)果見表3所示。通過(guò)對(duì)表3的kNN列和CNNs列的比較我們可以發(fā)現(xiàn),無(wú)論在哪種情況下使用卷積神經(jīng)網(wǎng)絡(luò)來(lái)對(duì)職位描述文本分類時(shí)都占有得天獨(dú)厚的優(yōu)勢(shì),其中使用Word2vec詞向量和改進(jìn)后的TF-
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 中級(jí)財(cái)務(wù)會(huì)計(jì)學(xué)知到課后答案智慧樹章節(jié)測(cè)試答案2025年春湖南工學(xué)院
- 四川工業(yè)科技學(xué)院《景觀設(shè)計(jì)(1)》2023-2024學(xué)年第一學(xué)期期末試卷
- 西南民族大學(xué)《化工機(jī)械強(qiáng)度與振動(dòng)》2023-2024學(xué)年第二學(xué)期期末試卷
- 洛陽(yáng)理工學(xué)院《組織學(xué)與胚胎學(xué)(B)》2023-2024學(xué)年第二學(xué)期期末試卷
- 四川省資陽(yáng)市2025屆五年級(jí)數(shù)學(xué)第二學(xué)期期末調(diào)研試題含答案
- 海南健康管理職業(yè)技術(shù)學(xué)院《中國(guó)古代文學(xué)A(V)》2023-2024學(xué)年第二學(xué)期期末試卷
- 大同煤炭職業(yè)技術(shù)學(xué)院《個(gè)案工作實(shí)務(wù)》2023-2024學(xué)年第二學(xué)期期末試卷
- 廣州華商學(xué)院《藥理學(xué)實(shí)驗(yàn)A》2023-2024學(xué)年第二學(xué)期期末試卷
- 古詩(shī)詞中煉字的好處
- 工程質(zhì)量控制中的常見問題與解決方案
- 貴州省2025年初中學(xué)業(yè)水平考試英語(yǔ)模擬練習(xí)卷(含答案含聽力二維碼無(wú)音頻及原文)
- 2025年溫州市圖盛供電服務(wù)有限公司招聘筆試參考題庫(kù)含答案解析
- 尼康D3200中文說(shuō)明書(完整版)
- 文明施工、環(huán)境保護(hù)管理體系與措施
- 應(yīng)急物資倉(cāng)儲(chǔ)管理與調(diào)度
- 梁寧產(chǎn)品經(jīng)理思維30講知識(shí)講稿
- 2024年新疆生產(chǎn)建設(shè)兵團(tuán)興新職業(yè)技術(shù)學(xué)院高職單招語(yǔ)文歷年參考題庫(kù)含答案解析
- 西學(xué)中培訓(xùn)基地結(jié)業(yè)考試試題
- 2024年醫(yī)師定考題庫(kù)匯編
- 2024 大模型典型示范應(yīng)用案例集-2
- 中央空調(diào)改造項(xiàng)目施工方案
評(píng)論
0/150
提交評(píng)論