基于百科數(shù)據(jù)的實(shí)體分類算法的研究與實(shí)現(xiàn)分析研究 軟件工程(嵌入式培養(yǎng))專業(yè)_第1頁(yè)
基于百科數(shù)據(jù)的實(shí)體分類算法的研究與實(shí)現(xiàn)分析研究 軟件工程(嵌入式培養(yǎng))專業(yè)_第2頁(yè)
基于百科數(shù)據(jù)的實(shí)體分類算法的研究與實(shí)現(xiàn)分析研究 軟件工程(嵌入式培養(yǎng))專業(yè)_第3頁(yè)
基于百科數(shù)據(jù)的實(shí)體分類算法的研究與實(shí)現(xiàn)分析研究 軟件工程(嵌入式培養(yǎng))專業(yè)_第4頁(yè)
基于百科數(shù)據(jù)的實(shí)體分類算法的研究與實(shí)現(xiàn)分析研究 軟件工程(嵌入式培養(yǎng))專業(yè)_第5頁(yè)
已閱讀5頁(yè),還剩30頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

目錄21879_WPSOffice_Level1摘要 18694_WPSOffice_Level1Abstract 229709_WPSOffice_Level1前言 321827_WPSOffice_Level1第一章緒論 48694_WPSOffice_Level21.1研究背景及意義 429709_WPSOffice_Level21.2國(guó)內(nèi)外研究現(xiàn)狀 521827_WPSOffice_Level21.2論文主要工作 58694_WPSOffice_Level3(1)百科數(shù)據(jù)的爬取: 629709_WPSOffice_Level3(2)數(shù)據(jù)預(yù)處理: 621827_WPSOffice_Level3(3)構(gòu)建異質(zhì)網(wǎng)絡(luò)以及Wordembedding: 621661_WPSOffice_Level3(4)卷積: 612616_WPSOffice_Level3(5)準(zhǔn)確性評(píng)估 621661_WPSOffice_Level21.3本文組織結(jié)構(gòu) 621661_WPSOffice_Level1第二章相關(guān)知識(shí)介紹 812616_WPSOffice_Level22.1神經(jīng)網(wǎng)絡(luò) 815_WPSOffice_Level23.2wordembedding 815_WPSOffice_Level33.2.1表示學(xué)習(xí) 818070_WPSOffice_Level33.2.1數(shù)學(xué)意義上的embedding 830427_WPSOffice_Level32.2.2wordembedding 918070_WPSOffice_Level22.3metapath2vec 930427_WPSOffice_Level22.4卷積神經(jīng)網(wǎng)絡(luò) 1017709_WPSOffice_Level32.4.1前饋神經(jīng)網(wǎng)絡(luò) 1015561_WPSOffice_Level32.4.2CNN 1028270_WPSOffice_Level32.4.3Logistic分類器 1117709_WPSOffice_Level22.5啟發(fā)式規(guī)則(HeuristicAlgorithm) 1115561_WPSOffice_Level22.6本章總結(jié) 1212616_WPSOffice_Level1第三章具體算法介紹 1328270_WPSOffice_Level23.1百科數(shù)據(jù)資源分析 133973_WPSOffice_Level23.2算法大致流程 1419425_WPSOffice_Level23.3詞向量生成 1513014_WPSOffice_Level23.4模型輸入 1630986_WPSOffice_Level23.5模型詳細(xì)介紹 1815_WPSOffice_Level1第四章實(shí)驗(yàn) 201959_WPSOffice_Level24.1概述 20208_WPSOffice_Level24.2baseline 214941_WPSOffice_Level34.3.1參數(shù)設(shè)定 235999_WPSOffice_Level34.3.2實(shí)驗(yàn)結(jié)果 2318070_WPSOffice_Level1第五章總結(jié) 2630427_WPSOffice_Level1參考文獻(xiàn) 2717709_WPSOffice_Level1致謝 29摘要 隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,在互聯(lián)網(wǎng)上流轉(zhuǎn)的數(shù)據(jù)信息量與日俱增。那么不可避免的,從這些數(shù)據(jù)中提取可用部分并且構(gòu)建有效的知識(shí),形成知識(shí)圖譜,用于準(zhǔn)確表達(dá)各個(gè)實(shí)體的語(yǔ)義和相互關(guān)系成為了十分重要的問題。 分類體系在構(gòu)建知識(shí)圖譜時(shí)是無(wú)法繞過的基礎(chǔ)工作,為保證知識(shí)圖譜的連貫性,可用性以及準(zhǔn)確性,實(shí)體的分類任務(wù)將成為知識(shí)圖譜構(gòu)建的首要工作。然而,現(xiàn)在的分類工作大部分都只能為實(shí)體進(jìn)行粗粒度的標(biāo)注,諸如:{“自然”;“科學(xué)”;“人物”;“歷史”;“生活”;“社會(huì)”;“藝術(shù)”;“經(jīng)濟(jì)”;“體育”;“地理”}這種程度的分類.雖然能夠解決部分在構(gòu)建知識(shí)圖譜時(shí)的問題,但是由于粒度過大,不夠精準(zhǔn),也有其缺陷。在本文中,我們主要提出并實(shí)驗(yàn)了使用卷積神經(jīng)網(wǎng)絡(luò)對(duì)實(shí)體進(jìn)行細(xì)粒度劃分的方法。 實(shí)體的來(lái)源為百科詞條,我們首先通過網(wǎng)絡(luò)爬蟲獲取到百科中詞條的相關(guān)信息,對(duì)詞條數(shù)據(jù)進(jìn)行預(yù)處理后得到結(jié)構(gòu)化的信息并將其存入到數(shù)據(jù)庫(kù)中??紤]到擁有相同類型的實(shí)體的info-box可能會(huì)擁有類似的attribute-value對(duì),我們將構(gòu)成一個(gè)包含attribute-value信息異質(zhì)網(wǎng)絡(luò)并從中抽取出路徑作為神經(jīng)網(wǎng)絡(luò)的輸入,最終訓(xùn)練出一個(gè)path-CNN的二分類模型用于預(yù)測(cè)對(duì)于一個(gè)實(shí)體判斷其是否屬于給定的分類。 關(guān)鍵詞:細(xì)粒度分類,實(shí)體,百科數(shù)據(jù),卷積神經(jīng)網(wǎng)絡(luò),異質(zhì)網(wǎng)絡(luò)Abstract AsthedevelopmentofInternettechnology,thedatainformationtransferringontheInternetisgrowingataterriblerate.Soinevitably,extractingtheusefulpartsfromthesedataandbuildingavalidknowledgemapforaccuratelyexpressingthesemanticsandinterrelationshipsofeachentityhavebecomeaveryimportantproblem. Theclassificationsystemisthebasicworkthatcannotbepassedwhenconstructingtheknowledgemap.Inordertoensurethecoherence,availabilityandaccuracyoftheknowledgemap,classificationwillbecometheprimarytask.However,mostoftoday'sclassificationworkcanonlybecoarse-grainedforentitiessuchas:{"nature";"Science";"Characters";"History";"Life";"Society";"Art";"Economy";"Sports"};Althoughitispossibletosolvesomeproblemsintheconstructionoftheknowledgemap,duetothecoarsenessandlackofprecision,It'sstillflawed.Inthispaper,wemainlyproposeandexperimentthemethodofusingconvolutionalneuralnetworktodividethefinegrainoftheentity.Thesourcesoftheentityareencyclopediaarticles.Wefirstobtaintherelevantinformationabouttheentryintheencyclopediathroughthewebcrawler,thenpreprocesstheentrydataandobtainthestructuredinformationandstoreitinthedatabase.Consideringtheinfo-boxofentitywiththesametypemayhavesimilarattribute-valuepairs,wewillmakeaheterogeneousnetworkswhichcontainstheattribute-valueinformationandextractthepathasneuralnetwork’sinput,finallywewillgiveapath-CNNbinaryclassificationmodelwhichisusedtopredictforanentitywhetheritbelongstoagivencategory.Attributewords:fine-grainedclassification,entity,encyclopediadata,convolutionalneuralnetwork,heterogeneousnetwork.前言 隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,人工智能已經(jīng)成為了時(shí)下最熱門的話題。計(jì)算機(jī)在實(shí)現(xiàn)智能化的道路上正在經(jīng)歷從感知智能到認(rèn)知智能的過渡發(fā)展期。認(rèn)知智能中最難解決的問題即為自然語(yǔ)言的語(yǔ)義理解問題。為了讓計(jì)算機(jī)可以正確理解人類的語(yǔ)言,我們需要預(yù)先讓計(jì)算機(jī)掌握足夠充分的人類社會(huì)及各個(gè)領(lǐng)域的知識(shí)。正所謂“知識(shí)是智能的前提”,由此知識(shí)圖譜的概念應(yīng)運(yùn)而生。知識(shí)圖譜的構(gòu)建是一項(xiàng)非常復(fù)雜的工程,其中建立知識(shí)的分類體系是知識(shí)圖譜構(gòu)建中最為基礎(chǔ)的工作。已經(jīng)有無(wú)數(shù)的學(xué)者在這個(gè)領(lǐng)域上做出了貢獻(xiàn),然而目前對(duì)于中文的實(shí)體分類工作目前仍然處于較為粗粒度的階段,我們?nèi)狈σ粋€(gè)可行的準(zhǔn)確的方案對(duì)于細(xì)粒度的分類要求進(jìn)行處理。以百科詞條為例,百科數(shù)據(jù)都有info-box(以鍵值對(duì)的形式表現(xiàn)出詞條實(shí)體所擁有的主要屬性,比如中國(guó)這個(gè)詞條就有著諸如“主要語(yǔ)言-漢語(yǔ)”,“文字-漢字”,“首都-北京”等attribute-value對(duì)),由于具有相同類別的實(shí)體大多數(shù)的attribute應(yīng)當(dāng)是重復(fù)的,故而現(xiàn)有的分類算法大都選擇attribute作為特征進(jìn)行訓(xùn)練。在進(jìn)行粗粒度的劃分時(shí),這種特征十分有效,但是當(dāng)進(jìn)行細(xì)粒度劃分時(shí),由于特征太少會(huì)導(dǎo)致分類結(jié)果很模糊,比如一本懸疑小說(shuō)和一本武俠小說(shuō),會(huì)具有九成一樣的attribute,在使用原有的方法進(jìn)行分類就容易導(dǎo)致一本只屬于武俠小說(shuō)的書被同時(shí)分類到“懸疑小說(shuō)”和“武俠小說(shuō)”上。所以特征需要重新抽取。 在本文中,我們研究并實(shí)現(xiàn)了將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到實(shí)體分類中,以實(shí)現(xiàn)細(xì)粒度劃分的目的。主要工作如下: (1)從互動(dòng)百科以及百度百科上獲得實(shí)體數(shù)據(jù)(主要爬取部分包括:實(shí)體名,info-box,開放分類,簡(jiǎn)介)。 (2)獲取訓(xùn)練集:部分的實(shí)體的title具有人工標(biāo)注的標(biāo)簽,抽取出人工標(biāo)注的標(biāo)簽后與開放分類中已經(jīng)存在的分類作比對(duì),如果開放分類中存在此標(biāo)簽,那么將這個(gè)標(biāo)簽作為當(dāng)前實(shí)體的分類并將此實(shí)體加入正訓(xùn)練集。 (3)對(duì)數(shù)據(jù)進(jìn)行預(yù)處理并構(gòu)建卷積神經(jīng)網(wǎng)絡(luò)的第一層后,設(shè)定卷積核大小等參數(shù)進(jìn)行卷積操作。 第一章 緒論 本章節(jié)首先介紹了細(xì)粒度的實(shí)體分類算法的研究背景和意義,隨后簡(jiǎn)單介紹了算法實(shí)現(xiàn)過程中的主要工作,在最后概括了下本篇論文的架構(gòu)。1.1研究背景及意義 隨著計(jì)算機(jī)技術(shù)的發(fā)展,近年來(lái),人工智能已經(jīng)成為了炙手可熱的話題。計(jì)算機(jī)需要一個(gè)算法去幫助它理解事物和判斷人類意圖。然而計(jì)算機(jī)若是想要擁有智能,一個(gè)好的知識(shí)圖譜時(shí)必不可少的。百度的技術(shù)副總裁王海峰在演講時(shí)說(shuō)過:知識(shí)與人工智能的價(jià)值就在于,讓機(jī)器具備認(rèn)知能力。每個(gè)人都有自己的知識(shí)面,這些本質(zhì)上都是知識(shí)圖譜。而對(duì)于人工智能來(lái)說(shuō),知識(shí)圖譜是機(jī)器獲得認(rèn)知的前提。現(xiàn)如今,諸如Dbpedia[9]、Freebase[10]、Yago[11]和Probase[12]等知識(shí)圖譜已經(jīng)廣泛應(yīng)用于許多實(shí)際應(yīng)用中,如知識(shí)推理、實(shí)體鏈接[14]和問答等。 分類體系是建立知識(shí)圖譜的基石,在各大知識(shí)圖譜的應(yīng)用場(chǎng)景中,比如:從百度搜索結(jié)果時(shí),在右側(cè)的聯(lián)想推薦同類搜索;旅游搜索地圖時(shí),為你自動(dòng)推薦的附近景點(diǎn)和商家……這些都是建立在對(duì)知識(shí)進(jìn)行分類的基礎(chǔ)上。然而現(xiàn)有的搜索算法還是十分粗糙。在保證準(zhǔn)確度的前提下最多只能進(jìn)行200個(gè)分類。這顯然并不夠,以百度搜索的實(shí)際場(chǎng)景為例:若是一位用戶在搜索《福爾模式探案集》這本懸疑小說(shuō)的時(shí)候,搜索結(jié)果界面右側(cè)的聯(lián)想部分,若是圖譜中分類的顆粒度不夠小,則可能出現(xiàn)一本武俠小說(shuō)和這本懸疑小說(shuō)被歸為一類,在假設(shè)這本武俠小說(shuō)的搜索熱度高一點(diǎn)的話,最終的結(jié)果就會(huì)是這本武俠小說(shuō)出現(xiàn)在了聯(lián)想推薦中。顯然這個(gè)并不是推薦算法設(shè)計(jì)者想要的結(jié)果。這就是研究細(xì)粒度的分類算法的意義所在。 本文主要研究的是對(duì)于百科數(shù)據(jù)的實(shí)體分類。百科數(shù)據(jù)所擁有的info-box在兩個(gè)詞條所處的分類一樣的時(shí)候,info-box中的attribute也會(huì)具有相似性,所以現(xiàn)有的很多算法都是通過attribute來(lái)進(jìn)行訓(xùn)練。然而info-box中只出現(xiàn)了實(shí)體的主要屬性,這代表著特征的充分性不夠。在進(jìn)行粗粒度的劃分的時(shí)候行之有效,但是一旦分類數(shù)量一旦超過百個(gè)就會(huì)出現(xiàn)準(zhǔn)確度大幅降低的問題。本文主要研究的內(nèi)容就是擴(kuò)充特征以及將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到實(shí)體分類中。能夠有效提高分類的準(zhǔn)確度以及降低粒度。1.2國(guó)內(nèi)外研究現(xiàn)狀由于大數(shù)據(jù)時(shí)代下,構(gòu)建知識(shí)圖譜的信息大都隱藏在非結(jié)構(gòu)化的文本數(shù)據(jù)中,如何從這些文本數(shù)據(jù)中抽取滿足特定需求的信息是第一步需要解決的目標(biāo)。信息抽取從20世紀(jì)60年代于美國(guó)率先啟動(dòng)直到80年代步入繁榮期,近些年仍有學(xué)者不斷對(duì)其研究改善,其中最為經(jīng)典的Python的Scrapy爬蟲以及Java中的Jsoup包。同時(shí)實(shí)體分類其實(shí)已然成為了一個(gè)較為成熟的算法,已經(jīng)有很多學(xué)者就此作出了研究[1]。較為成熟的有:Toral和Mu等人提出了一種將百科全書歸類為三種類型(位置、組織、人)的方法,使用了文章正文中包含的詞,以及在WordNet中使用單詞的hypernym信息作為外部知識(shí)庫(kù)。最后,他們采用加權(quán)投票算法來(lái)確定每篇文章的類型[5]。Dakka和Cucerzan等人使用了監(jiān)督機(jī)器學(xué)習(xí)算法的算法:SVMs和naiveBayes將百科全書分為四種類型(PER,ORG,LOC,MISC),由ACE定義。他們?yōu)槊恳黄恼率褂昧藥讉€(gè)不同的特性:單詞袋、文章結(jié)構(gòu)、摘要、標(biāo)題和實(shí)體[6]。在最近的一項(xiàng)研究中,Suzuki等人提出了一種基于神經(jīng)網(wǎng)絡(luò)的多任務(wù)學(xué)習(xí)方法[7],該方法將百科全書的文章分類為由Sekine等人提出的200種類型的文章。他們使用兩組特性來(lái)構(gòu)建模型,其中一個(gè)是Higashinaka等人提出的基線特征集。另一個(gè)是文章向量(即wordembedding)還有早些年有人對(duì)于基于半監(jiān)督學(xué)習(xí)的多特征大規(guī)模實(shí)體分類[15],嘗試解決了在大規(guī)模的數(shù)據(jù)下擴(kuò)充訓(xùn)練正樣本以提高分類準(zhǔn)確度的目的,同時(shí)也嘗試了對(duì)于樣本中的長(zhǎng)數(shù)據(jù)進(jìn)行處理。近些年還有人嘗試基于中文百科知識(shí)進(jìn)行分類體系的構(gòu)建[2],剖析實(shí)體和分類之間的從屬以及分類之間的父子關(guān)系。也有將MLU聯(lián)合推斷方法應(yīng)用到人物實(shí)體識(shí)別中[3]。這些都是對(duì)于分類算法的貢獻(xiàn)。但大多數(shù)研究假設(shè)的是一組相對(duì)較小的粗粒度類型,在現(xiàn)有的研究中最多可達(dá)200種。1.2論文主要工作 本文以互動(dòng)百科以及百度百科的數(shù)據(jù)為基礎(chǔ),從現(xiàn)有的實(shí)體名的人工標(biāo)注的標(biāo)簽中抽取出細(xì)粒度的分類,隨后構(gòu)建訓(xùn)練集并通過卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行分類。主要工作如下:百科數(shù)據(jù)的爬?。簭幕?dòng)百科以及百度百科中爬取到實(shí)體數(shù)據(jù),主要包括:info-box,實(shí)體名以及括號(hào)后的人工標(biāo)注標(biāo)簽,簡(jiǎn)介以及開放分類。數(shù)據(jù)預(yù)處理:抽取出每個(gè)分類對(duì)應(yīng)的attribute等數(shù)據(jù)并對(duì)現(xiàn)有數(shù)據(jù)進(jìn)行梳理分表統(tǒng)計(jì)等工作,隨后將其存入CSV文件,這將成為之后進(jìn)行卷積神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)基礎(chǔ)。構(gòu)建異質(zhì)網(wǎng)絡(luò)以及Wordembedding:梳理entity(實(shí)體名)-value-attribute-category(分類)之間的 關(guān)系并構(gòu)建相應(yīng)的異質(zhì)網(wǎng)絡(luò)異質(zhì)網(wǎng)絡(luò),隨后采用metapath2vec的方 式生成詞向量。這些詞向量將成為之后path-CNN模型的輸入的節(jié)點(diǎn)。卷積:使用path-CNN訓(xùn)練模型。對(duì)于每一個(gè)entity,判斷其是否屬于某個(gè)category。構(gòu)造最多五百個(gè)entity->type的路徑并將每一個(gè)路徑作為向量作為模型的輸入,最后對(duì)這些向量集進(jìn)行卷積操作。最終輸出應(yīng)當(dāng)為當(dāng)前entity是否屬于該category。準(zhǔn)確性評(píng)估 采用類似Yago的方式對(duì)于試驗(yàn)結(jié)果的準(zhǔn)確度進(jìn)行評(píng)估,選取數(shù)個(gè)志 愿者以及抽取數(shù)量足夠的檢測(cè)集,使用投票的方法獲得準(zhǔn)確度評(píng)估結(jié) 果。1.3本文組織結(jié)構(gòu) 本文主要分為六個(gè)章節(jié),具體的章節(jié)結(jié)構(gòu)如下:第一章為緒論。介紹了本次畢設(shè)算法的研究背景和意義,并對(duì)本畢業(yè)設(shè)計(jì)所做的主要工作做出簡(jiǎn)介。第二章大致描述了算法的主體流程以及訓(xùn)練出的模型的作用第三章是算法涉及到的相關(guān)技術(shù)的介紹,主要包括卷積神經(jīng)網(wǎng)絡(luò),wordembedding等。第四章本章主要是對(duì)模型以及其中用到的核心算法進(jìn)行詳細(xì)說(shuō)明和解釋。介紹了相對(duì)于原本的分類算法,如何用卷積神經(jīng)網(wǎng)絡(luò)來(lái)降低分類的顆粒度。介紹了對(duì)于已有的傳統(tǒng)算法是如何進(jìn)行改進(jìn)的。第五章本畢業(yè)設(shè)計(jì)的實(shí)驗(yàn)過程,了解了核心算法之后,就進(jìn)行算法的開發(fā)與實(shí)現(xiàn)。第六章為總結(jié)與展望。總結(jié)并歸納算法的實(shí)驗(yàn)結(jié)果并對(duì)實(shí)體分類算法的未來(lái)工作進(jìn)行了展望。相關(guān)知識(shí)介紹2.1神經(jīng)網(wǎng)絡(luò)“神經(jīng)網(wǎng)絡(luò)(neuralnetworks)是由具有適應(yīng)性的簡(jiǎn)單單元組成的廣泛并行互聯(lián)的網(wǎng)絡(luò),它的組織能夠模擬生物神經(jīng)系統(tǒng)對(duì)真實(shí)世界所作出的交互反應(yīng)”[Kohonen,1998]。下圖為最為簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)模型:在這個(gè)模型中,神經(jīng)元接受來(lái)自神經(jīng)元a1到an的輸入,每一個(gè)輸入都帶有一個(gè)權(quán)值表達(dá)該輸入的重要性,其后對(duì)于每一個(gè)輸入乘以權(quán)值并且進(jìn)行累加。f代表當(dāng)前神經(jīng)元的操作函數(shù),換句話說(shuō)當(dāng)前神經(jīng)元的輸出內(nèi)容。3.2wordembedding 3.2.1表示學(xué)習(xí)所謂的表示學(xué)習(xí),在深度學(xué)習(xí)領(lǐng)域指的是:以自然語(yǔ)言處理(NaturalLanguageProcessing,NLP)對(duì)于某一個(gè)模型樣本輸入,由于計(jì)算機(jī)難以直接得理解自然語(yǔ)言中的單詞和語(yǔ)句的語(yǔ)義,表示學(xué)習(xí)的工作就是將原本對(duì)于計(jì)算機(jī)來(lái)說(shuō)晦澀難懂的輸入變成某個(gè)特定的,能被計(jì)算機(jī)理解的形式的輸入,比如講一個(gè)圖形信息轉(zhuǎn)化為點(diǎn)陣圖,將詞語(yǔ)轉(zhuǎn)化成為詞向量等。 3.2.1數(shù)學(xué)意義上的embedding從數(shù)學(xué)意義上來(lái)說(shuō)embedding是這樣的定義:若要將某個(gè)對(duì)象映射到另一個(gè)對(duì)象中。embedding就是一個(gè)單射的,結(jié)構(gòu)保持(structure-preserving)的映射。所謂的結(jié)構(gòu)保持就是指保留基本屬性,需要根據(jù)X和Y所屬的具體類型來(lái)定,比如現(xiàn)在需要將整數(shù)映射到有理數(shù)集中,最終依舊要保持這樣的屬性以及其他整數(shù)所具有的屬性。那么我們定義;這樣的一個(gè)映射就能被稱為embedding。 2.2.2wordembedding在機(jī)器學(xué)習(xí)領(lǐng)域上的wordembedding(詞嵌入)和在數(shù)學(xué)意義上的embedding有著很多不同之處。Wordembedding的目的在于將一個(gè)單詞表示為一個(gè)能夠代表當(dāng)前的單詞的屬性的向量。這個(gè)所謂的當(dāng)前的屬性主要體現(xiàn)在近義詞是否能夠通過將兩個(gè)詞對(duì)應(yīng)的詞向量在cos距離上相近。比如單詞“蘋果”可能被表達(dá)為<0.6,0.8>,香蕉可能被表達(dá)為<0.55,0.75>這樣一來(lái)將這兩個(gè)向量作為坐標(biāo)映射到一個(gè)x-y平面坐標(biāo)系后就會(huì)發(fā)現(xiàn)。這兩個(gè)點(diǎn)與原點(diǎn)相連形成的線的夾角非常小。這就代表著兩個(gè)詞比較相近。2.3metapath2vecMetapath2vec是一片發(fā)布在KDD-2017上的一片論文的工作。主要內(nèi)容為對(duì)于一個(gè)HeterogeneousNetwork(異質(zhì)網(wǎng)絡(luò))的表示學(xué)習(xí)算法的研究。在這個(gè)算法之前已經(jīng)有了Deepwalk以及node2vec兩種模型提出了對(duì)于網(wǎng)絡(luò)的表示學(xué)習(xí)。而Metapath2vec主要的創(chuàng)新點(diǎn)為使用元路徑(metapath)來(lái)指導(dǎo)尋找一個(gè)節(jié)點(diǎn)的相鄰節(jié)點(diǎn)的集合時(shí)的游走,這也是這種算法命名的由來(lái)。所謂的元路徑就是指一組連接多個(gè)節(jié)點(diǎn)的路徑,但是這個(gè)路徑包含著不同類型的節(jié)點(diǎn),換句話說(shuō)它可以表示出不同類型的節(jié)點(diǎn)相互聯(lián)結(jié)的語(yǔ)義。這樣解決了在就要有不同類型節(jié)點(diǎn)的異質(zhì)網(wǎng)絡(luò)中的節(jié)點(diǎn)表示問題。2.4卷積神經(jīng)網(wǎng)絡(luò) 2.4.1前饋神經(jīng)網(wǎng)絡(luò)前饋神經(jīng)網(wǎng)絡(luò)(FeedforwardNeuralNetwork)是神經(jīng)網(wǎng)絡(luò)的一種。在這種神經(jīng)網(wǎng)絡(luò)中,網(wǎng)絡(luò)的每一層只會(huì)接受來(lái)自上一層的輸入同時(shí)將自己的輸出作為輸入給下一層直到整個(gè)網(wǎng)絡(luò)的輸出為止,而不存在任何的反饋。直觀的來(lái)說(shuō),這是一個(gè)有向無(wú)環(huán)圖。2.4.2CNN卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetwork,CNN)[4]是一種經(jīng)典的前饋神經(jīng)網(wǎng)絡(luò)。它的歷史可以追溯到上個(gè)世紀(jì)五十年代,然而真正將卷積神經(jīng)網(wǎng)絡(luò)發(fā)揚(yáng)光大的是在20世紀(jì)90年代出現(xiàn)的一種多層的人工神經(jīng)網(wǎng)絡(luò):LeNet-5。當(dāng)時(shí)是用作手寫數(shù)字的分類,雖然LeNet-5難以處理復(fù)雜問題,但是已經(jīng)趨近于現(xiàn)在的用于圖像識(shí)別的成熟的CNN了。直到06年起,CNN的發(fā)展迎來(lái)了巔峰期,在圖像識(shí)別領(lǐng)域取得了巨大的突破。卷積神經(jīng)網(wǎng)絡(luò)在進(jìn)行圖像識(shí)別的時(shí)候會(huì)有一個(gè)卷積核用于掃描圖像中的像素點(diǎn),對(duì)于每一次掃描都是輸出層輸入的一部分。以30*30的像素圖為例,若是卷積核的大小為5*5,那么就會(huì)出現(xiàn)26*26個(gè)掃描結(jié)果,隨后每一個(gè)掃描結(jié)果會(huì)在隱藏層中經(jīng)過一個(gè)共享的權(quán)重(這個(gè)權(quán)重應(yīng)當(dāng)是一個(gè)5*5的權(quán)重矩陣)進(jìn)行最后得到26*26個(gè)同一種特征。在實(shí)際的應(yīng)用中會(huì)不止一個(gè)權(quán)重矩陣來(lái)學(xué)習(xí)到更加豐富的特征。下一步的操作為池化:對(duì)于每一個(gè)輸出的26*26的特征矩陣,對(duì)其進(jìn)行簡(jiǎn)化操作,最為經(jīng)典的max-pooling方法為將矩陣中的每一個(gè)2*2的小塊中的最大值作為代表輸出。一個(gè)26*26的特征矩陣經(jīng)過池化后會(huì)得到13*13的結(jié)果矩陣。最終將上述的一系列結(jié)果連接在一起輸入最終的輸入層,一個(gè)用于圖像識(shí)別的卷積神經(jīng)網(wǎng)絡(luò)模型就完成了。而應(yīng)用于文本的卷積網(wǎng)絡(luò)主要的變化在于輸入層,輸入層不再是一個(gè)圖像的矩陣而是由一個(gè)個(gè)詞向量組成的向量矩陣,而卷積核的最小粒度也從像素點(diǎn)變?yōu)榱艘粋€(gè)詞向量。 2.4.3Logistic分類器本次實(shí)驗(yàn)中,在Path-CNN模型最后獲得的特征矩陣,我們采用了邏輯回歸對(duì)于特征矩陣進(jìn)行二分類。在邏輯回歸中,邏輯函數(shù)的最為常用的是一個(gè)Sigmoid函數(shù)。Sigmoid函數(shù)是一個(gè)將向量映射到(0,1)區(qū)間的函數(shù),在分類問題中,這個(gè)輸出代表的是:對(duì)于一個(gè)特征向量的輸入,其輸出的是當(dāng)前分類對(duì)象為當(dāng)前分類的可能性。在最終的輸出中,將可能性大于0.5的結(jié)果輸出為1,否則輸出0。我們定義為邏輯回歸的輸入,g代表曲線函數(shù)(Sigmoidfunction),g的表達(dá)式如下:該函數(shù)具有優(yōu)美的S型曲線,并且輸出是一個(gè)位于區(qū)間(0,1)的值,曲線效果如下圖:我們用h表示邏輯回歸的函數(shù),帶入Sigmoid函數(shù)后得到:其中代表參數(shù)向量,通過訓(xùn)練得出。代表矩陣的轉(zhuǎn)置。經(jīng)由該函數(shù),我們將特征向量變換為一個(gè)0-1之間的值,最終和0.5作比較后輸出二分類結(jié)果。2.5啟發(fā)式規(guī)則(HeuristicAlgorithm)所謂啟發(fā)式規(guī)則是一種思想,在各個(gè)專業(yè)領(lǐng)域有著截然不同的體現(xiàn)。直接的解釋為:基于經(jīng)驗(yàn)的技巧,用于解決問題,學(xué)習(xí)和探索。他基本等同于:實(shí)際經(jīng)驗(yàn)估計(jì),有依據(jù)的猜測(cè)以及常識(shí)。在解決問題的時(shí)候,首先采用過往的經(jīng)驗(yàn)規(guī)則進(jìn)行發(fā)現(xiàn)。特點(diǎn)在于利用過去的經(jīng)驗(yàn)來(lái)選擇行之有效的方法而不是系統(tǒng)的,以確定的過程來(lái)尋求解決方案。這種規(guī)則是和算法的思想相對(duì)立。所謂的算法是將所有的可能性進(jìn)行嘗試并且從中選擇可行的答案。但是面對(duì)一個(gè)復(fù)雜的問題,算法的思想帶來(lái)的只會(huì)是工作量的大幅度提升。而啟發(fā)式規(guī)則的目的則是在有限的資源下,依據(jù)已有的歷史經(jīng)驗(yàn)選擇進(jìn)行的嘗試,以減少尋找解決方案消耗的資源。當(dāng)然人力有未逮之時(shí),啟發(fā)式規(guī)則也有失敗的可能性,然而很多科學(xué)家的重大發(fā)現(xiàn),都是使用簡(jiǎn)單的啟發(fā)式規(guī)則。啟發(fā)式規(guī)則在本文中的體現(xiàn)為發(fā)現(xiàn)細(xì)粒度分類同時(shí)標(biāo)明訓(xùn)練集以及在最后的驗(yàn)證的過程中作為一種驗(yàn)證的方案。我們對(duì)于上述問題基于經(jīng)驗(yàn)提出了兩種方案:(1)從title-label中發(fā)現(xiàn)分類以及驗(yàn)證分類(2)從info-box中和類型相關(guān)的屬性對(duì)中發(fā)現(xiàn)分類以及驗(yàn)證。這兩種方式在下文中會(huì)分別在第三章和第五章進(jìn)行詳細(xì)的介紹。2.6本章總結(jié) 本章主要簡(jiǎn)要介紹了文本分類以及本次試驗(yàn)用到的相關(guān)技術(shù)。包括知識(shí)圖譜,神經(jīng)網(wǎng)絡(luò),中文文本的向量化(WordEmbedding以及Metapath2vec),卷積神經(jīng)網(wǎng)絡(luò)以及其中涉及的分類函數(shù)和啟發(fā)式規(guī)則等內(nèi)容。讓人對(duì)本文所用技術(shù)有大致的了解,以及對(duì)之后的問題展開描述進(jìn)行鋪墊具體算法介紹3.1百科數(shù)據(jù)資源分析在在線百科全書中,基本上有四個(gè)地方可以為我們提供每個(gè)實(shí)體的類型信息。為了在百科全書的頁(yè)面中區(qū)分不同的實(shí)體和相同的名稱,每個(gè)實(shí)體都有標(biāo)簽,稱為title-label。例如,哈利波特的頁(yè)面有以下幾個(gè)標(biāo)題:哈利波特(J.K.羅琳的魔法系列小說(shuō)),哈利波特(華納兄弟制作的系列電影)和哈利波特(小說(shuō)哈利波特的主角)。Info-box包含關(guān)于這個(gè)頁(yè)面實(shí)體的一些結(jié)構(gòu)化信息。Info-box中的內(nèi)容的格式是屬性和屬性值。例如,周杰倫的信息盒包含了諸如(國(guó)籍、中國(guó))、(職業(yè)、歌手)、(代表工作、雙節(jié)棍)等信息摘要是用自然語(yǔ)言對(duì)頁(yè)面的實(shí)體進(jìn)行簡(jiǎn)要描述。通常,抽象中的第一個(gè)句子包含實(shí)體的類型信息。例如,周杰倫的第一句話是周杰倫(生于1979年1月18日)是臺(tái)灣的音樂家、歌手、演員和導(dǎo)演。我們可以從摘要中得到一些關(guān)于周杰倫的細(xì)粒度信息,當(dāng)然這可能產(chǎn)生一定的噪聲,這些噪音是由錯(cuò)誤的提取結(jié)果引起的。志愿者給頁(yè)面的實(shí)體提供了大量的標(biāo)簽。例如,周杰倫有歌手、音樂家、音樂等志愿者的標(biāo)簽,我們把這些標(biāo)簽稱為“群體標(biāo)簽”。顯然,群體標(biāo)簽為實(shí)體提供了大量的候選類型信息,但許多標(biāo)簽并不是應(yīng)該刪除的類型信息,比如周杰倫的標(biāo)簽音樂。3.2算法大致流程圖(1)算法工作流程圖(1)所示為本次試驗(yàn)的主要工作流程:步驟1.獲取正訓(xùn)練集:首先從百度百科等百科中抽取數(shù)據(jù),其中數(shù)據(jù)的info-box將是重要的信息。隨后選取正訓(xùn)練集。在百科數(shù)據(jù)中,同名實(shí)體為了區(qū)分會(huì)在標(biāo)題給予其標(biāo)簽,就比如“張偉-花兒樂隊(duì)主唱”由于有很多同名同姓的張偉,為了表明是這個(gè)張偉,詞條的編輯人員會(huì)人工為其在標(biāo)題上添加標(biāo)簽。這種帶標(biāo)簽的詞條就可以當(dāng)做以后訓(xùn)練的正集。同時(shí)部分的詞條的info-box中會(huì)有類型或者其同義詞這樣的attribute,比如有的游戲詞條會(huì)有“游戲類型”這樣的attribute。帶有這樣信息的詞條也可以做為訓(xùn)練正集使用。隨后將出現(xiàn)次數(shù)少于3次的弱類型以及未在開放分類中出現(xiàn)的詞條過濾掉后得到的就為最終的細(xì)粒度類型(大約4000個(gè))以及對(duì)應(yīng)的已經(jīng)擁有類型實(shí)體將作為正訓(xùn)練集。步驟2.統(tǒng)計(jì)類型及其關(guān)聯(lián)的attribute:對(duì)于在前文提取的正訓(xùn)練集中出現(xiàn)類型,若是有個(gè)屬性名(attribute)被三個(gè)屬于當(dāng)前類的實(shí)體所擁有,則稱該類型擁有該attribute。步驟3.構(gòu)建信息圖:在為類型生成屬性之后,我們將每個(gè)實(shí)體、它的屬性和值、每種類型及其屬性相關(guān)聯(lián)構(gòu)造成為一個(gè)信息圖,如圖(2):定義1:數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)被定義為一個(gè)異質(zhì)網(wǎng)絡(luò),其中:是節(jié)點(diǎn)集合,包括:所有的實(shí)體名的集合,:實(shí)體在info-box中的屬性值(value),:實(shí)體在info-box中的屬性名(attribute),:所有抽取出的類型的集合。是邊的集合,其中指的是連接實(shí)體以及其擁有的屬性值的邊,指的是對(duì)于每一個(gè)attribute與其可能擁有的value之間的連接的邊。代表類型以及歸屬于該類型的attribute之間的連線。步驟4.獲取負(fù)訓(xùn)練集:我們定義了一些規(guī)則來(lái)生成負(fù)訓(xùn)練集(例如從信息圖中得到的一對(duì)沒有從屬關(guān)系的實(shí)體和類型的配對(duì))。實(shí)體和類型的屬性可能相互重疊。如果有更多重疊的部分,它們之間的關(guān)系也應(yīng)該更緊密。因此,一旦實(shí)體和類型之間的重疊屬性的數(shù)量是當(dāng)前實(shí)體擁有屬性的30%-50%,我們就將這個(gè)<實(shí)體,類型>對(duì)作為負(fù)訓(xùn)練樣本。步驟5.訓(xùn)練path-CNN模型:我們通過上兩個(gè)步驟獲得的訓(xùn)練集來(lái)生成路徑,以作為訓(xùn)練CNN的輸入,更多關(guān)于卷積神經(jīng)網(wǎng)絡(luò)的細(xì)節(jié)將在第四章介紹。步驟6.識(shí)別實(shí)體類型:最后,我們使用path-CNN模型為每個(gè)實(shí)體識(shí)別更多類型。例如,給定一個(gè)實(shí)體周杰倫有許多候選類型,如人、音樂家、歌手等,我們可以確定<周杰倫,人>,<周杰倫,音樂家>和<周杰倫,歌手>是正確的類型信息。圖(2)異質(zhì)網(wǎng)絡(luò)示意圖3.3詞向量生成在由Dong等人提出的mate2path模型中,是通過基于元路徑(MetaPath)的隨機(jī)游走來(lái)獲得節(jié)點(diǎn)的鄰居節(jié)點(diǎn)集合,之后再使用異質(zhì)的skip-gram模型進(jìn)行節(jié)點(diǎn)embedding。元路徑是一種通過一組關(guān)系連接多個(gè)節(jié)點(diǎn)類型的路徑,可以用來(lái)描述異質(zhì)網(wǎng)絡(luò)中不同類型對(duì)象之間各種連接的不同語(yǔ)義關(guān)系。比如圖(2)中:e1和e2具有相同的attribute(a1),則通過a1將兩個(gè)entity連接在一起形成一條元路徑,兩個(gè)entity所語(yǔ)句的屬性值被填充到entity和a1之間。下一條則是通過相同的type來(lái)形成元路徑,原理與第一條類似。3.4模型輸入根據(jù)圖(2)中的異質(zhì)網(wǎng)絡(luò)示意圖,定義兩種路徑的生成方案:方案1的形式為:實(shí)體名(e)->屬性值(v)->屬性名(a)->分類(t)。這種形式下,屬性名a既出現(xiàn)在了當(dāng)前實(shí)體的info-box中,同時(shí)也歸屬于給定的分類。即:分類(t)和實(shí)體(e)擁有相同的屬性名(a)。方案2的形式為:實(shí)體名(e1)->屬性值(v1)->屬性名(a1)->屬性值(v2)->實(shí)體名(e2)->屬性值(v3)->屬性名(a3)->分類(t)??紤]到一個(gè)實(shí)體的info-box中持有的attribute-value屬性對(duì)是有限的,故而方案1可以給出的路徑也是有限且遠(yuǎn)不夠的,同時(shí)或許同當(dāng)前實(shí)體擁有著同一個(gè)attribute的實(shí)體擁有著類似的特征。故而提出了方案2:在尋找路徑的時(shí)候從當(dāng)前實(shí)體(e1)出發(fā),經(jīng)由某個(gè)屬性值(v1)走向其持有的一個(gè)一個(gè)屬性名(a1)。尋找a1屬性名另一個(gè)可能值(v2),通過v2尋找到另一個(gè)實(shí)體(e2)。e2需滿足“與給定分類(t)有著相同屬性名(v3)”。路徑的后半段就是從e2走向t,類似方案1。生成模型輸入的偽代碼如下: 輸入為目標(biāo)要生成路徑的entity-type對(duì)以及以及各個(gè)數(shù)據(jù)集。輸出為最終生成的路徑集合。最開始的時(shí)候抽取entity包含的attribute以及type包含的attribute,從中選擇交集后將交集中的所有attribute以及其所對(duì)應(yīng)的value以(entity->value->attribute->type)的格式輸出。隨后從第9行開始為按照方案2來(lái)尋找路徑:在數(shù)據(jù)集中尋找到一個(gè)新的實(shí)體e2,該實(shí)體滿足與舊實(shí)體有一個(gè)共享的attribute(a1),并且與目標(biāo)類有一個(gè)共享的與a1不同的attribute(a3),隨后將這些節(jié)點(diǎn)連接形成一個(gè)新的路徑。路徑示意圖如下圖中從e1出發(fā)走向t的紅線部分(e1->v1->a1->v2->e2->v3->a3->t).圖(4)方案二路徑選取示意圖在上一節(jié)中,我們已經(jīng)介紹了如何通過metapath2vec模型生成詞向量,在本次試驗(yàn)中,生成的詞向量維度為128。對(duì)于每一個(gè)給定entity-type我們尋找500條路徑?,F(xiàn)在假設(shè)集合為一個(gè)給定entity-type的所有路徑。那么對(duì)于任一,應(yīng)當(dāng)有著兩種可能的形式,一種長(zhǎng)度為4,來(lái)自方案1,一種長(zhǎng)度為8,來(lái)自方案2。現(xiàn)在我們將一個(gè)擁有n個(gè)節(jié)點(diǎn)的路徑做如下表示:其中n為路徑長(zhǎng)度。那么由方案一形成的路徑應(yīng)當(dāng)表示為:,由方案2形成的路徑應(yīng)當(dāng)表示為,為了保證輸入的一致性,我們將方案1生成的路徑也擴(kuò)展為長(zhǎng)度為8的路徑,將空白處填0,結(jié)果如下。其中的0在真正輸入的時(shí)候應(yīng)當(dāng)為一個(gè)有著128個(gè)元素的一維向量,每一個(gè)元素都為0。最終我們輸入到cnn模型的數(shù)據(jù)應(yīng)當(dāng)為一個(gè)128*8*500的三維向量。其中128代表詞向量長(zhǎng)度,8為路徑長(zhǎng)度,500為路徑數(shù)量。圖(3)CNN模型示意圖3.5模型詳細(xì)介紹總的來(lái)說(shuō),模型使用三個(gè)卷積核從中提取特征,隨后將所有的特征整合成為一個(gè)向量,經(jīng)由分類器獲得結(jié)果并輸出。下面將介紹這個(gè)模型的詳細(xì)信息。集合中包含著entity-type是否確實(shí)存在關(guān)聯(lián)的重要信息。因此使用卷積網(wǎng)絡(luò)提取所有的局部特征用于全局的預(yù)測(cè)。這個(gè)是卷積層完成的工作。在開始的時(shí)候選取三個(gè)不同長(zhǎng)度的卷積核對(duì)輸入的三維向量進(jìn)行滑動(dòng)操作。卷積核大小分別為6*128*1,4*128*1,2*128*1。隨后將獲取到的特征經(jīng)由max-pooling操作整合到三個(gè)長(zhǎng)度為500的向量中,向量的每一個(gè)元素都代表一條路徑在該卷積核下提取出的特征。卷及操作涉及一個(gè)filter,代表大小為的實(shí)數(shù)矩陣,其中代表卷積核包含的節(jié)點(diǎn)的數(shù)目,代表的是節(jié)點(diǎn)向量的長(zhǎng)度,以大小為6*128*1的卷積核為例,則。我們現(xiàn)在為500層的輸入的每一層的詞向量從上至下標(biāo)記為,并定義為卷積核滑動(dòng)過程中得到的小窗口,其中為最上面的向量的下標(biāo),為最下面的向量的下標(biāo)。即表示這樣的一個(gè)子路徑:。卷積核每一次滑動(dòng)都將獲得一個(gè)小窗口,就以6*128*1的卷積核為例,滑動(dòng)第i次時(shí)獲得的小窗口為,隨后我們使用生成一個(gè)特征:,其中是偏移量,而是非線性函數(shù),比如雙曲正切函數(shù)。每一個(gè)路徑經(jīng)由卷積核為6*128*1的卷積操作后將生成的特征,500個(gè)路徑最終生成3*500個(gè)特征,在池化層經(jīng)由最大池化處理后獲得一個(gè)長(zhǎng)度為500的特征向量。所謂的最大池化處理就是一種簡(jiǎn)單的從三個(gè)待選特征中選擇最大值作為池化后的輸出。即:,選用最大池化的理由是:經(jīng)由如此的操作,能夠過濾掉0項(xiàng)。我們已經(jīng)描述了通過一個(gè)卷積核獲得特征的方法,為了使獲取的特征更加全面,我們又設(shè)計(jì)了多個(gè)不同大小的卷積核來(lái)捕獲多種特征。最終生成了三個(gè)長(zhǎng)度為500的特征向量。最后我們將三個(gè)特征向量進(jìn)行全連接獲得一個(gè)新的一維向量,經(jīng)由sigmoid分類函數(shù)獲得最終的結(jié)果。實(shí)驗(yàn)4.1概述首先我們獲取到中國(guó)最大的百科全書中的詞條信息約800萬(wàn)條,對(duì)其中的info-box,title中的label等屬性進(jìn)行抽取整合后獲得數(shù)據(jù)集如下:圖(5)抽取百度百科數(shù)據(jù)預(yù)處理結(jié)果隨后如同第三章的描述那樣通過title-label來(lái)獲取正訓(xùn)練集。由于現(xiàn)在大部分的研究并沒有做到細(xì)粒度下的分類,經(jīng)過篩選我們選擇了TianXingWu于14年提出的一種關(guān)于百科詞條分類的一種算法(InstanceTypeRanker)作為我們實(shí)驗(yàn)的baseline。該算法使用的是一種基于統(tǒng)計(jì)學(xué)的思想,并且在文章的末尾,作者指出該算法在試用于細(xì)粒度的分類下也有可觀的效果,故而我們選取了這種算法。在實(shí)現(xiàn)baseline后我們?cè)偈褂胢etapath2vec算法將存于異質(zhì)網(wǎng)路中的分類,實(shí)體以及info-box屬性節(jié)點(diǎn)轉(zhuǎn)換成可以被計(jì)算機(jī)存取處理的節(jié)點(diǎn)向量,并根據(jù)第四章所描述的算法構(gòu)成卷積神經(jīng)網(wǎng)絡(luò)的輸入。將模型訓(xùn)練完成后進(jìn)行驗(yàn)證并且評(píng)估準(zhǔn)確度并與baseline做對(duì)比。4.2baseline圖(6)Baseline:InstanceTypeRanker示意圖上圖所示為baseline的示意圖。簡(jiǎn)單的來(lái)說(shuō),baseline在獲取到數(shù)據(jù)集后,對(duì)于每一種分類所關(guān)聯(lián)的attribute進(jìn)行了統(tǒng)計(jì),對(duì)于每一個(gè)attribute來(lái)說(shuō),若其關(guān)聯(lián)到的分類越少,那么該attribute在那些分類中越有話語(yǔ)權(quán)。體現(xiàn)到結(jié)構(gòu)化的數(shù)據(jù)上就是一個(gè)概率。隨后對(duì)于一個(gè)實(shí)體,其擁有數(shù)個(gè)attitude,每一個(gè)attribute都會(huì)對(duì)其關(guān)聯(lián)到的分類有個(gè)概率,將所有的attribute-type的概率按type相加,最終得到entity-type的概率。隨后將概率高于某個(gè)閾值的分類作為當(dāng)前實(shí)體的分類。圖(7)InstanceTypeRanker權(quán)值計(jì)算上圖為baseline的概率計(jì)算方式示意圖。顯然一個(gè)attribute所屬的類別越少,其在那幾種類別中越具有代表性故而對(duì)于,其中為attribute的集合。我們定義的權(quán)重:其中指的是具有的類型的數(shù)量。隨后我們定義權(quán)值實(shí)體I1通向其各個(gè)attribute之間的權(quán)值如下:其中N為i1所具有的的attribute的編號(hào)的最大值,編號(hào)從1開始,指的是編號(hào)為k的attribute。而每一個(gè)attribute指向其所具有的的分類的權(quán)值為:其中指的是含有下標(biāo)為k的attribute的數(shù)量。那么對(duì)于給定的實(shí)體,其屬于給定類的概率為公式為:其中M為和所擁有的attribute的數(shù)量。t為attribute的編號(hào),從1開始,最大為M。經(jīng)過試驗(yàn)后獲得的baseline的結(jié)果如下:圖(8)Baseline分類結(jié)果我最后將概率統(tǒng)計(jì)結(jié)果高于0.2的分類作為當(dāng)前entity的分類結(jié)果。上圖中的每一行的第一項(xiàng)為entity,第二項(xiàng)為分類,第三項(xiàng)為概率。可以看到分類的結(jié)果準(zhǔn)確度十分的不理想,經(jīng)常將其真正分類分到相似分類中,也就是說(shuō)該算法依舊無(wú)法區(qū)分相近分類的實(shí)體。4.3Path-CNN實(shí)驗(yàn)情況 4.3.1參數(shù)設(shè)定WordEmbedding的參數(shù):在第四節(jié)中提到我們使用metapath做詞向量的生成。它通過meta-path來(lái)指導(dǎo)隨機(jī)路徑的游走隨后根據(jù)kip-gram來(lái)生成詞向量。我們選取了兩種meta-path的節(jié)點(diǎn)構(gòu)成,分別為:“EVATAVE”以及“EVAVE”。同時(shí)算法中還使用了如下的參數(shù)設(shè)定:平均每個(gè)節(jié)點(diǎn)的游走次數(shù)W:100;游走步數(shù)長(zhǎng)度L:500;生成的詞向量的最終長(zhǎng)度D:128;其他的參數(shù)都采用默認(rèn)值。卷積神經(jīng)網(wǎng)絡(luò)模型參數(shù):每一次輸入是固定維度的詞向量集合,其中path的選取在第四章有詳細(xì)的介紹。最終的輸入結(jié)果為一個(gè)8*128*500的矩陣。其中128為WordEmbedding的結(jié)果的長(zhǎng)度;8為選取的路徑長(zhǎng)度;500為隨機(jī)選取的路徑數(shù)量。此外還有其他的參數(shù)設(shè)定如下:卷積核大小:分為三個(gè),分別為2*128*1,4*128*1,6*128*1;抽取數(shù)據(jù)集中的80%作為訓(xùn)練集以及將剩下的20%作為驗(yàn)證集;filters數(shù)量n:32;路徑向量矩陣個(gè)數(shù)s:500;Optimizer(優(yōu)化器)f:Adam;Learningrate(學(xué)習(xí)率):1e-5;mini-batchsizeb:64。 4.3.2實(shí)驗(yàn)結(jié)果 通過來(lái)自標(biāo)題標(biāo)簽(title-label)和info-box的分類數(shù)據(jù),我們最終篩選出4518種細(xì)粒度分類。隨后通過訓(xùn)練的path-cnn模型為7,976,064個(gè)實(shí)體鍵入類型。平均每一個(gè)實(shí)體被識(shí)別到三種類型。準(zhǔn)確度評(píng)估:我們主要從三個(gè)方面來(lái)評(píng)估是否正確分類分類:?jiǎn)l(fā)式規(guī)則,摘要和群體標(biāo)簽。其中群體標(biāo)簽在百度百科中每一個(gè)詞條有一個(gè)專門的詞條標(biāo)簽欄作標(biāo)注。下圖為詞條“中國(guó)”在百度百科中的群體標(biāo)簽。圖(10)百度百科中中國(guó)詞條群體標(biāo)簽由于個(gè)人無(wú)法對(duì)于所有的已分類實(shí)體給出其可信的分類準(zhǔn)確度評(píng)估,為了評(píng)估模型的準(zhǔn)確性,我們采用了類似Yago的標(biāo)注方式。我們邀請(qǐng)3個(gè)志愿者來(lái)參與此次對(duì)于分類結(jié)果的正確性的標(biāo)注過程。隨機(jī)抽取1000條分類數(shù)據(jù),對(duì)于分抽取結(jié)果中每一個(gè)給出的entity-type對(duì)(這些都是分類結(jié)果),志愿者需要給出‘正確’,‘錯(cuò)誤’以及‘不確定’三種結(jié)果中的一個(gè)。 隨后對(duì)于現(xiàn)有的baseline的分類結(jié)果采用相同的評(píng)估過程來(lái)評(píng)估準(zhǔn)確性。 表(1)顯示了準(zhǔn)確度評(píng)估的結(jié)果結(jié)果表明我們的模型我們的模型生成的分類數(shù)量高于InstanceTypeRanker,精度也獲得了提高,這表明了我們的模型在準(zhǔn)確性上的有效提高。模型類型數(shù)量來(lái)源分類結(jié)果數(shù)量準(zhǔn)確度InstanceTypeRanker1078info-box191,77090.51%摘要732,35273.39%群體標(biāo)簽3,159,48268.95%Path-CNN模型4,518title-labels300,31592.43%info-box191,77090.51%摘要9,008,44584.79%群體標(biāo)簽18,990,84480.46%表(1)當(dāng)前存在的模型和我們的模型的準(zhǔn)確度對(duì)比和DBpedia的重合度比較:DBpedia是一個(gè)已有的知識(shí)圖譜,它從維基百科中獲取結(jié)構(gòu)化的資料,并將其他渠道的資料相結(jié)合后與維基百科相連接,其中提供了為樣本標(biāo)注的功能,為對(duì)于實(shí)體也有其標(biāo)注。我們將生成的類型信息(25,651,022不同類型的信息)和中文DBpedia[13]作比較圖(2)顯示了比較結(jié)果以及我們獲得的類型信息和DBpedia的重合程度。(a)數(shù)據(jù)數(shù)量 (b)數(shù)據(jù)重合度我們的數(shù)據(jù)DBpedia重合度分類數(shù)量4,518170類型重合數(shù)82實(shí)體數(shù)量7,976,064876,725實(shí)體重合數(shù)425,422分類結(jié)果數(shù)量25,651,0221,534,268分類結(jié)果重合數(shù)153,642表(2)重合度比較根據(jù)比較結(jié)果,我們模型獲得的類型信息的數(shù)量明顯高于已有的知識(shí)圖譜(DBpedia),重疊部分教少。類型信息粒度的比較:高質(zhì)量的類型信息不僅需要高精確度,而且需要更細(xì)粒度的類型。如表(2)所示,DBpedia有中國(guó)版本的實(shí)體,但是由于類型的數(shù)量非常少,所以大量的實(shí)體被鍵入為粗粒度類型。例如,周杰倫在DBpedia只是被判斷為實(shí)體“人類”,但更精細(xì)的音樂家或歌手類型將更合適、更有用。在這里,我們比較了從DBpedia中獲得的實(shí)體類型的粒度。我們從重疊的實(shí)體中隨機(jī)選擇了1000個(gè)實(shí)體,并將實(shí)體及其相應(yīng)類型作為樣本交給三個(gè)志愿者進(jìn)行手動(dòng)比較。對(duì)于每一個(gè)樣本,志愿者都將其標(biāo)記為‘更精細(xì)’(Better)、‘更粗糙’(Poorer)和‘相似’(Similar)。例如,對(duì)于周杰倫的實(shí)體,我們獲得的類型是人、音樂家和歌手,而在DBpedia中只有一種類型的人。在這種情況下,所有的志愿者都會(huì)選擇“更精細(xì)”的標(biāo)簽。圖(11)顯示了比較結(jié)果。與DBpedia相比,我們百分之七十以上的實(shí)體都有更細(xì)粒度的類型。圖(11)和DBpedia進(jìn)行粒度對(duì)比 總結(jié)在本文中,我們介紹了一種基于卷積神經(jīng)網(wǎng)絡(luò)(名為Path-CNN)的二分類模型,為來(lái)自在線百科全書(百度百科)的實(shí)體提供了一種高粒度的分類信息的輸入。我們構(gòu)建了一個(gè)異質(zhì)網(wǎng)絡(luò),用于對(duì)于數(shù)據(jù)中的每一個(gè)節(jié)點(diǎn)進(jìn)行wordembedding。與其他現(xiàn)有的知識(shí)圖譜和實(shí)體分類模型相比,我們提供的方法有著更加高質(zhì)量,更加全面的數(shù)據(jù)以及更加細(xì)粒度的分類結(jié)果。未來(lái)展望:我們將繼續(xù)嘗試將實(shí)體的文本信息加入到特征提取的候選集當(dāng)中,同時(shí)考慮為當(dāng)前已有的分類構(gòu)建一個(gè)層次模型,從類型之間的關(guān)系上發(fā)掘更多的信息:例如將‘歌手’分類并入‘人類’分類的子集。同時(shí)我們還發(fā)現(xiàn)提取出的四千多中的分類中粒度分布很不均勻,有的分類粒度很細(xì)(比如‘古羅馬皇帝’這樣的分類,就太過細(xì)了,但是在模型訓(xùn)練的過程中依舊會(huì)有不少實(shí)體分為這個(gè)本不屬于它的分類)導(dǎo)致在分類的時(shí)候很容易產(chǎn)生噪聲,在未來(lái)的工作中可以考慮對(duì)分類本身進(jìn)行清洗工作。參考文獻(xiàn)郭喜躍.面向開放領(lǐng)域文本的實(shí)體關(guān)系抽取[C].武漢.2016[2]RenjieLou.TaxonmyInductionResearchonKnowledgeBasefromChineseEncyclopedia.浙江.浙江大學(xué).2016.[3]Liwei,XiaoYanghua,WangWei.PeopleEntityRecognitionBasedonChineseKnowledgeGraph[J].ComputerEngineering,2017,43(3):225-231,240.[4]Kim,Yoon.Convolutionalneuralnetworksforsentenceclassification[C].InProceedingsofthe2014ConferenceonEmpiricalMethodsinNaturalLanguageProcessing(EMNLP).2014[5]AntonioToral,RafaelMunoz.AproposaltoautomaticallybuildandmaintaingazetteersforNamedEntityRecognitionbyusingWikipedia[C].Eacl.2006[6]Dakka,W.,Cucerzan,S.:AugmentingWikipediawithNamed

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論