版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
由于網(wǎng)絡(luò)攻擊的增加及其可能造成的嚴(yán)重?fù)p害,網(wǎng)絡(luò)安全是一個(gè)對(duì)社會(huì)至關(guān)重要的關(guān)鍵領(lǐng)域,信息和數(shù)據(jù)基礎(chǔ)設(shè)施遭受網(wǎng)絡(luò)攻擊的風(fēng)險(xiǎn)越來(lái)越高。作為網(wǎng)絡(luò)空間安全的核心基礎(chǔ),密碼攻防領(lǐng)域的挑戰(zhàn)愈演愈烈。量子計(jì)算的發(fā)展使得傳統(tǒng)公鑰密碼算法變得不安全,為了應(yīng)對(duì)量子計(jì)算對(duì)公鑰密碼算法的威脅,全球掀起了后量子密碼算法研究的熱潮。然而,后量子密碼算法并不代表其實(shí)現(xiàn)過(guò)程達(dá)到了物理安全,后期出現(xiàn)的專(zhuān)門(mén)針對(duì)后量子密碼算法的側(cè)信道攻擊技術(shù),成為密碼算法物理安全的主要威脅手段。此外,機(jī)器學(xué)習(xí)和人工智能等技術(shù)的發(fā)展,使得密碼攻擊呈現(xiàn)系統(tǒng)化、智能化、平臺(tái)化、武器化和無(wú)源性等特點(diǎn)。信息系統(tǒng)平臺(tái)面臨的密碼防御困難越來(lái)越大。目前對(duì)于密碼攻擊和防御方面的研究大多數(shù)局限于密碼技術(shù)和理論的研究,且呈現(xiàn)出分支復(fù)雜、結(jié)構(gòu)多樣、知識(shí)分散等特點(diǎn),在密碼攻防領(lǐng)域并不能形成整體的通用的攻防模式和框架,尤其是在文獻(xiàn)資料繁多的情況下,利用這些分散、局限的知識(shí)很難形成全面有效的防御方案以應(yīng)對(duì)系統(tǒng)基礎(chǔ)設(shè)施的安全挑戰(zhàn)。對(duì)密碼攻防領(lǐng)域的知識(shí)結(jié)構(gòu)和體系模式進(jìn)行梳理可以形成領(lǐng)域知識(shí)模式和知識(shí)庫(kù),避免知識(shí)凌亂分散和體系不統(tǒng)一,可以提供系統(tǒng)性的表示和分析能力。由于密碼攻防領(lǐng)域的特殊性,相關(guān)領(lǐng)域知識(shí)通常難以獲取,不利于研究人員應(yīng)用,且隨著知識(shí)大爆炸和大數(shù)據(jù)時(shí)代的到來(lái),面臨海量數(shù)據(jù)資料,傳統(tǒng)的知識(shí)獲取方法不再適用。因此,知識(shí)圖譜作為近些年新興的知識(shí)庫(kù)管理技術(shù)在很多領(lǐng)域受到了廣泛的關(guān)注。知識(shí)圖譜是結(jié)構(gòu)化數(shù)據(jù)集合的一種,可以呈現(xiàn)知識(shí)的發(fā)展過(guò)程和關(guān)系圖,通過(guò)挖掘、分析、推理可以獲得知識(shí)潛在內(nèi)涵,并且可以使用其可視化功能提升知識(shí)的可理解性。知識(shí)圖譜的關(guān)系結(jié)構(gòu)適用于具有網(wǎng)絡(luò)結(jié)構(gòu)和復(fù)雜關(guān)系的知識(shí)體系,適用于密碼攻防知識(shí)體系的構(gòu)建和應(yīng)用,可以促進(jìn)密碼攻防模式的深入探索。為了生成密碼攻防領(lǐng)域知識(shí)模式,構(gòu)建該領(lǐng)域知識(shí)圖譜,基于人工智能技術(shù)和自然語(yǔ)言處理技術(shù),采用自頂向下方法,在密碼攻防領(lǐng)域本體的基礎(chǔ)上,收集多源領(lǐng)域文檔資料,通過(guò)知識(shí)圖譜技術(shù)構(gòu)建可維護(hù)、可重用、可共享和可分析的知識(shí)庫(kù),并在該知識(shí)庫(kù)基礎(chǔ)上進(jìn)行相關(guān)知識(shí)圖譜應(yīng)用。1
領(lǐng)域本體構(gòu)建獲取領(lǐng)域知識(shí)前,需要先歸納總結(jié)相關(guān)領(lǐng)域的本體概念,然后使用本體論的方法構(gòu)建知識(shí)模式。本體論研究方法是將知識(shí)[一個(gè)領(lǐng)域內(nèi)的概念(或?qū)嶓w)集合]及其之間的關(guān)系進(jìn)行形式化的、明確的描述。在本體中,可以編碼或定義語(yǔ)義信息和組件,如概念、對(duì)象、關(guān)系、屬性、約束和公理,使本體具有機(jī)器可讀性和推理能力。這種方式不僅引入了形式化的、顯式的、可共享的和可重用的知識(shí)表示,還可以通過(guò)添加關(guān)于領(lǐng)域的新知識(shí)進(jìn)行本體更新。1.1領(lǐng)域本體構(gòu)建方法本文使用Protégé5.5.0工具編輯和實(shí)現(xiàn)密碼攻防領(lǐng)域本體的構(gòu)建,具體流程可分為以下5個(gè)步驟:(1)確定領(lǐng)域的目的和范圍。領(lǐng)域是密碼攻防,領(lǐng)域本體目的是為構(gòu)建者提供密碼攻防領(lǐng)域的核心實(shí)體,以及如何實(shí)現(xiàn)實(shí)體之間的相互關(guān)聯(lián),生成一個(gè)可重用的密碼攻防領(lǐng)域的知識(shí)模式。領(lǐng)域工作范圍包括密碼攻擊和防御方面的內(nèi)容。(2)梳理領(lǐng)域?qū)嶓w和重要術(shù)語(yǔ)。對(duì)密碼攻防領(lǐng)域進(jìn)行典型密碼攻防場(chǎng)景分析和文獻(xiàn)調(diào)查,形成基礎(chǔ)數(shù)據(jù)庫(kù),其中包含1997—2022年的300多項(xiàng)研究和19項(xiàng)典型密碼攻防場(chǎng)景(如表1所示),從中得到200多種術(shù)語(yǔ)。表1密碼攻擊場(chǎng)景續(xù)表續(xù)表(3)定義核心概念、分類(lèi)和描述。這里的分類(lèi)并不限于創(chuàng)建類(lèi)似于層次結(jié)構(gòu)的類(lèi)結(jié)構(gòu),是為組成或影響密碼攻防領(lǐng)域的實(shí)體定義的一組概念。為每個(gè)核心概念提供定義并引出其同義詞術(shù)語(yǔ),便于領(lǐng)域知識(shí)的重用和共享。例如攻擊者(如密碼工程師)是進(jìn)行密碼攻擊的一方,它可以是一個(gè)人或組織,也可以是一個(gè)攻擊平臺(tái)。(4)定義關(guān)系。根據(jù)核心概念的定義創(chuàng)建概念之間的關(guān)系。有些關(guān)系直接在定義中表現(xiàn)出來(lái),而有些關(guān)系可能是隱式的,因此需要對(duì)其進(jìn)行顯式描述。例如,攻擊動(dòng)機(jī)是激勵(lì)(驅(qū)動(dòng))攻擊者進(jìn)行密碼攻擊的因素,因此,從“攻擊動(dòng)機(jī)”到“攻擊者”可以建立一個(gè)關(guān)系“激勵(lì)”。“激勵(lì)”作為謂詞被創(chuàng)建,“攻擊動(dòng)機(jī)”是它的主體,“攻擊者”是它的客體,符合主語(yǔ)—謂詞—賓語(yǔ)(Subject-Predicate-Object,SPO)三元組的格式和要求。(5)獲得本體。最后構(gòu)建出密碼攻防領(lǐng)域本體。1.2密碼攻防領(lǐng)域本體實(shí)現(xiàn)實(shí)現(xiàn)領(lǐng)域本體需要不斷積累領(lǐng)域知識(shí),創(chuàng)造出領(lǐng)域概念和關(guān)系,要求對(duì)該領(lǐng)域的基本知識(shí)概念和應(yīng)用有全面的了解,此外,還要對(duì)學(xué)科交叉的知識(shí)點(diǎn)有清晰的認(rèn)識(shí)。基于文獻(xiàn)[3],著重介紹本體實(shí)現(xiàn)的關(guān)鍵內(nèi)容和過(guò)程,即定義概念、關(guān)系及描述。本文所有數(shù)據(jù)均來(lái)源于1997—2022年的典型攻擊場(chǎng)景及文獻(xiàn)調(diào)查,將文獻(xiàn)中的標(biāo)題、摘要和關(guān)鍵字等部分通過(guò)CiteSpace分析工具進(jìn)行關(guān)聯(lián)分析,數(shù)據(jù)形式如表2所示。表2文獻(xiàn)調(diào)查數(shù)據(jù)示例1.2.1定義領(lǐng)域本體中的核心概念本節(jié)詳細(xì)介紹了組成和影響密碼攻防領(lǐng)域的實(shí)體相對(duì)應(yīng)的15個(gè)核心概念。每個(gè)概念描述了概念定義、同義詞術(shù)語(yǔ)、分類(lèi)方法和一些其他屬性。攻擊防御模型如圖1和圖2所示。攻擊模型表示典型密碼攻擊場(chǎng)景中攻擊者的攻擊流程:攻擊者受一定因素(動(dòng)機(jī))的激勵(lì),根據(jù)自身的密碼攻防知識(shí),形成攻擊目標(biāo);分析目標(biāo)系統(tǒng)實(shí)現(xiàn)的核心操作,找到攻擊點(diǎn),利用攻擊機(jī)制(攻擊方法),制定攻擊策略;執(zhí)行攻擊并得到攻擊結(jié)果;結(jié)果反饋到滿足攻擊動(dòng)機(jī)的預(yù)定攻擊目標(biāo)。防御模型則表示在典型的防御場(chǎng)景中的防御流程:根據(jù)安全目標(biāo)和自身基礎(chǔ)知識(shí),通過(guò)軟硬件系統(tǒng)形成密碼防御系統(tǒng);分析密碼系統(tǒng)核心實(shí)現(xiàn)面臨的攻擊威脅,根據(jù)防御機(jī)制(防御方法),形成防御策略;根據(jù)防御效果,對(duì)防御方案進(jìn)行安全性評(píng)價(jià);進(jìn)行防御策略更新。圖2防御模型由圖1和圖2中的模型可以得到攻擊者、攻擊動(dòng)機(jī)、攻擊目標(biāo)、基礎(chǔ)知識(shí)等15類(lèi)定義,在Protégé工具中的結(jié)構(gòu)如圖3所示,將典型攻擊場(chǎng)景和文獻(xiàn)調(diào)查中的實(shí)體類(lèi)進(jìn)行細(xì)分。圖3本體概念的實(shí)現(xiàn)1.2.2定義領(lǐng)域本體中的關(guān)系基于上述給出的15大類(lèi)定義,本文根據(jù)攻擊者和防御者模型的流程分析,提取出核心概念之間的17種關(guān)系構(gòu)成SPO三元組。這些關(guān)系及其主體、方向和客體(結(jié)束)如表3所示。表3關(guān)系列舉1.2.3在本體中定義其他描述除表3中對(duì)概念和關(guān)系的公理描述外,還可以添加注釋。例如,添加實(shí)例注釋有利于后期實(shí)例編輯和知識(shí)分析;還可以增加一條推理規(guī)則:如果攻擊者制定并執(zhí)行某種攻擊方法,該攻擊方法應(yīng)用于特定的密碼系統(tǒng),則從攻擊者到密碼系統(tǒng)將創(chuàng)建一個(gè)關(guān)系“攻擊”。另外,為了統(tǒng)計(jì)分析后期構(gòu)建的知識(shí)圖譜,還需要為每個(gè)類(lèi)的所有子類(lèi)添加諸如“上游查詢次數(shù)”“下游查詢次數(shù)”“最新查詢時(shí)間”等屬性。1.2.4獲得密碼攻防領(lǐng)域本體根據(jù)核心概念和關(guān)系的梳理,使用Protégé工具構(gòu)建的密碼攻防領(lǐng)域本體如圖4所示,其中每個(gè)方框里的概念表示附近核心概念的分類(lèi)法,核心概念及其關(guān)系為圖中虛線連接起來(lái)的部分,右邊區(qū)域?yàn)殛P(guān)系的圖例。將實(shí)體和關(guān)系以簡(jiǎn)潔的方式進(jìn)行梳理整合,得到密碼攻防領(lǐng)域?qū)嶓w關(guān)系,如圖5所示。圖5中三元組<攻擊動(dòng)機(jī),激勵(lì),攻擊者>表示為兩個(gè)○概念和一個(gè)→關(guān)系的形式。圖4Protégé構(gòu)建的密碼攻防領(lǐng)域本體圖5密碼攻防領(lǐng)域?qū)嶓w關(guān)系通過(guò)上述的構(gòu)建過(guò)程,在Protégé中編碼了15個(gè)核心概念和17種核心概念之間的關(guān)系,并提供了相關(guān)的描述、規(guī)則和注釋。后續(xù)可以使用資源描述框架(Resource
DescriptionFramework,RDF)、可擴(kuò)展標(biāo)記語(yǔ)言(ExtensibleMarkupLanguage,XML)、網(wǎng)絡(luò)本體語(yǔ)言(WebOntologyLanguage,OWL)等多種本體描述語(yǔ)言和文件格式導(dǎo)出該領(lǐng)域本體,實(shí)現(xiàn)領(lǐng)域知識(shí)模式的重用和共享。2領(lǐng)域知識(shí)圖譜構(gòu)建基于現(xiàn)階段的人工智能技術(shù)和自然語(yǔ)言處理技術(shù),采用自頂向下方法,在密碼攻防領(lǐng)域本體的基礎(chǔ)上,收集多源的領(lǐng)域文檔資料進(jìn)行預(yù)處理,采用基于深度學(xué)習(xí)的聯(lián)合信息抽取方法構(gòu)建密碼攻防領(lǐng)域知識(shí)圖譜,構(gòu)建流程架構(gòu)如圖6所示。圖6領(lǐng)域知識(shí)圖譜構(gòu)建流程架構(gòu)圖6中(1)本體開(kāi)發(fā)和(2)典型密碼攻防場(chǎng)景已在第1章節(jié)介紹,(7)~(10)是知識(shí)圖譜后期更新維護(hù)的過(guò)程,與(3)~(6)大體相同。下面著重介紹多源數(shù)據(jù)清洗、數(shù)據(jù)預(yù)處理、聯(lián)合學(xué)習(xí)方法、結(jié)果及分析和知識(shí)入庫(kù)5個(gè)方面的內(nèi)容。2.1多源數(shù)據(jù)清洗數(shù)據(jù)資料的來(lái)源有很多方面,如最新的機(jī)構(gòu)研究報(bào)告、文獻(xiàn)資料、百科知識(shí)等。不同來(lái)源的文檔數(shù)據(jù),除了在文檔格式上的區(qū)別(如HTML、PDF、DOCX、TXT等),還有語(yǔ)言、語(yǔ)法、習(xí)慣、場(chǎng)合等方面的區(qū)別,因此需要對(duì)不同來(lái)源的數(shù)據(jù)分別進(jìn)行清洗處理,生成包含單條句子的不同來(lái)源數(shù)據(jù)集。這樣將不同來(lái)源的格式化和非格式化數(shù)據(jù)文檔進(jìn)行統(tǒng)一整理,輸出統(tǒng)一格式,一般為用于自然語(yǔ)言處理的原始數(shù)據(jù)集,每行表示一條語(yǔ)句的UTF-8編碼的文本數(shù)據(jù)格式。多源數(shù)據(jù)清洗的流程如圖7所示。第1步,收集整理到密碼攻防領(lǐng)域多源文檔資料,文檔分為3類(lèi):研究報(bào)告,來(lái)源于網(wǎng)絡(luò)平臺(tái),一般可以輸出為T(mén)XT或DOCX格式文檔;領(lǐng)域文獻(xiàn)資料,來(lái)源于中文期刊摘要和正文部分,一般是PDF或CAJ格式,可以轉(zhuǎn)化為T(mén)XT文檔;網(wǎng)絡(luò)百科,采用網(wǎng)絡(luò)爬蟲(chóng)的方式,由初始關(guān)鍵詞出發(fā),查詢到大量相關(guān)領(lǐng)域詞條信息,經(jīng)過(guò)人工刪除整理形成數(shù)據(jù)文檔。第2步,針對(duì)每一類(lèi)型的文檔進(jìn)行文字提取,如HTML格式文檔可以根據(jù)標(biāo)簽取值,取得含有表述實(shí)際意義的段落或者句子,PDF和DOC文檔則可以轉(zhuǎn)化為T(mén)XT文本格式。第3步,文字清理,將文檔中文字意義表征不明顯或不相關(guān)的段落或句子刪除,如圖片、超鏈接、公式、廣告句等,僅保留有意義的段落。第4步,文檔組合,將上述文檔進(jìn)行拆分合并,保持合并之后的每個(gè)文檔數(shù)據(jù)量相當(dāng),避免出現(xiàn)數(shù)據(jù)量過(guò)大或者過(guò)小的文檔。第5步,對(duì)每個(gè)文檔進(jìn)行分句處理,每一個(gè)句子占用一行,是自然語(yǔ)言處理前期數(shù)據(jù)準(zhǔn)備的常規(guī)操作,用來(lái)規(guī)范數(shù)據(jù)輸入源,分句算法如算法1所示。其中分句符號(hào)一般包括中文句號(hào)、英文句號(hào)、省略號(hào)等。圖7多源數(shù)據(jù)清洗流程由算法1可知,運(yùn)用文檔分句算法時(shí),首先需要將整個(gè)文檔讀入內(nèi)存,去除換行符,將文檔內(nèi)容組合為一條字符串,然后將該字符串以預(yù)定的分句符號(hào)集(cutFlags)進(jìn)行分割,最終得到該文檔的語(yǔ)句集合(sentences)。2.2數(shù)據(jù)預(yù)處理2.2.1分詞和詞向量生成通常文字(中文或英文)不能被機(jī)器模型所識(shí)別,不能直接用于神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練,需要將其進(jìn)行向量化。對(duì)于中文自然語(yǔ)言句子,可以將每個(gè)文字或者每個(gè)詞組作為一個(gè)唯一標(biāo)識(shí),對(duì)這些唯一標(biāo)識(shí)進(jìn)行向量化后可以進(jìn)行模型訓(xùn)練。中文字或詞向量化的主要方法有word2vec,如連續(xù)詞袋模型(ContinuousBagofWords,CBOW)、skip-gram模型和預(yù)訓(xùn)練模型(Bidirectional
EncoderRepresentationsfromTransformers,BERT)。CBOW模型利用上下文信息來(lái)預(yù)測(cè)中心字,skip-gram模型是利用中心字來(lái)預(yù)測(cè)周邊臨近的字,大型預(yù)訓(xùn)練模型則根據(jù)字在句子中的上下文信息得出其字向量,可以解決word2vec中一詞多義問(wèn)題。BERT模型使用雙向Transformer編碼器兼顧上下文信息,根據(jù)字在句子中的上下文信息得出其字向量,也可以解決一詞多義問(wèn)題。本文選用BERT中文預(yù)訓(xùn)練模型來(lái)產(chǎn)生字向量。BERT模型的輸入表示包含3個(gè)部分:WordPiece向量、位置向量(PositionEmbedding)和句子向量(SegmentEmbedding),如圖8所示。其中“[CLS]”為句子的開(kāi)始標(biāo)記,“[SEP]”為句子的分割標(biāo)記。圖8BERT的輸入向量合成2.2.2序列標(biāo)注序列標(biāo)注是自然語(yǔ)言的基礎(chǔ)任務(wù)之一,目前主流的序列標(biāo)注方法有BIO、BIOES、IO、BMOES等,由于密碼攻防領(lǐng)域的特殊性,常會(huì)在文獻(xiàn)中出現(xiàn)復(fù)雜的實(shí)體,因此采用“BMOES-4位序列標(biāo)注法”將清洗的語(yǔ)句集合進(jìn)行標(biāo)注。2.3聯(lián)合學(xué)習(xí)法信息抽取任務(wù)是從預(yù)處理好的數(shù)據(jù)集中抽取出符合本體要求的SPO三元組的過(guò)程,是知識(shí)圖譜構(gòu)建的關(guān)鍵過(guò)程。信息抽取任務(wù)可以分為命名實(shí)體識(shí)別(NamedEntityRecognition,NER)和關(guān)系抽?。≧elationExtraction,RE)兩個(gè)部分。命名實(shí)體識(shí)別是信息抽取和信息檢索中的一項(xiàng)重要任務(wù),其目的是識(shí)別出文本中表示命名實(shí)體的成分,并對(duì)其進(jìn)行分類(lèi)。中文命名實(shí)體識(shí)別方法有Lattice-LSTM、Lattice-LSTM-CRF、BiLSTM-CRF
和BERT-BiLSTM-CRF等。其中的條件隨機(jī)場(chǎng)(ConditionalRandom
Field,CRF)的目標(biāo)函數(shù)不僅考慮輸入的狀態(tài)特征函數(shù),而且包含了標(biāo)簽轉(zhuǎn)移特征函數(shù),在位置標(biāo)注過(guò)程中可以充分利用內(nèi)部及上下文特征信息。關(guān)系抽取的方法主要分為兩類(lèi):一類(lèi)是流水線方法,即先抽取實(shí)體,再對(duì)實(shí)體進(jìn)行關(guān)系分類(lèi);另一類(lèi)是聯(lián)合學(xué)習(xí)方法,是指同時(shí)進(jìn)行實(shí)體識(shí)別和關(guān)系分類(lèi)。試驗(yàn)表明,聯(lián)合學(xué)習(xí)方法大大提升了實(shí)體和關(guān)系的抽取效果。例如,潘航宇提出了基于參數(shù)共享的聯(lián)合學(xué)習(xí)方法,將實(shí)體和關(guān)系抽取任務(wù)利用共享的編碼層建立聯(lián)系,兩個(gè)任務(wù)模型損失組合,再通過(guò)反向傳播調(diào)整參數(shù)來(lái)提升訓(xùn)練效果。因此,本文采用了聯(lián)合學(xué)習(xí)方法(BERT-BiLSTM-CRF-Att,BBCA),如圖9所示。圖9聯(lián)合學(xué)習(xí)方法圖9中主體包含了3個(gè)步驟:第1步,BERT詞嵌入,即將中文分詞后的語(yǔ)句向量化,使得每個(gè)字之間的語(yǔ)義信息相互關(guān)聯(lián);第2步,左側(cè)部分NER模塊,分為BiLSTM編碼層和CRF解碼層,BiLSTM層是長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LongShort-TermMemory,LSTM)的變體,使用LSTM對(duì)詞嵌入進(jìn)行編碼,再使用條件隨機(jī)場(chǎng)CRF確定每個(gè)字的標(biāo)注分類(lèi),即概率;第3步,右側(cè)部分RE模塊,將第1步的字向量和第2步的信息進(jìn)行拼接,通過(guò)多頭注意力機(jī)制提升分類(lèi)的準(zhǔn)確率,最后利用全連接層計(jì)算關(guān)系類(lèi)別的概率。在損失合并方面,利用中間監(jiān)督調(diào)整權(quán)衡參數(shù),以提升訓(xùn)練效果。2.3.1命名實(shí)體識(shí)別聯(lián)合學(xué)習(xí)法中命名實(shí)體識(shí)別包含BiLSTM層、Encode層和CRF層3個(gè)部分。其中,BiLSTM層結(jié)合上下文信息進(jìn)行編碼,通過(guò)合并正向和反向兩條鏈路計(jì)算輸出;Encode層將高維向量映射到符合標(biāo)簽維度的輸出;CRF層是一個(gè)方形矩陣,表示標(biāo)簽之間的轉(zhuǎn)移信息,提高輸出的合法性。(1)BiLSTM層:即雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò),通過(guò)合并正向和反向兩條鏈路計(jì)算輸出,更好地捕獲雙向的語(yǔ)義依賴。正向LSTM層可以用下式表示:式中:為t時(shí)次輸入;為t時(shí)次輸出;分別為輸入門(mén)、遺忘門(mén)、輸出門(mén)和當(dāng)前信息的候選狀態(tài);角標(biāo)i,f,o,c,h為元素序號(hào);W為轉(zhuǎn)換矩陣;b為偏置向量;σ和tanh為Sigmoid和雙曲正切函數(shù);⊙為逐元素乘積;t和t-1為時(shí)間序列。反向的LSTM計(jì)算方法同正向LSTM,輸出為則最終的BiLSTM輸出為正反兩個(gè)方向的隱藏狀態(tài)(2)Encode層:BiLSTM層的輸出是高維信息,若要得到每個(gè)字對(duì)應(yīng)實(shí)體標(biāo)簽的預(yù)測(cè)概率,還需要向低維度進(jìn)行投影,即需要加入一個(gè)全連接層。每個(gè)語(yǔ)句輸出的特征信息經(jīng)過(guò)全連接層之后得到標(biāo)簽概率其中M為語(yǔ)句長(zhǎng)度;L為標(biāo)簽數(shù)。(3)CRF層:為了保證序列的局部一致性,通常在Encode層之后添加CRF層。CRF具有轉(zhuǎn)移特征,考慮了輸出標(biāo)簽之間的順序,經(jīng)過(guò)訓(xùn)練之后的CRF層可以感知全局的約束信息,使得實(shí)體識(shí)別更加精準(zhǔn)。CRF判別過(guò)程如下:式中:y為標(biāo)注序列;x為單詞序列;Score(x,y)為單詞序列x產(chǎn)生標(biāo)注序列y的得分,得分越高則說(shuō)明其產(chǎn)生的概率越大。2.3.2關(guān)系抽取通過(guò)多頭注意力機(jī)制獲取關(guān)系分類(lèi)信息,根據(jù)輸入數(shù)據(jù)的不同部分賦予不同的權(quán)重,得出對(duì)每個(gè)詞語(yǔ)關(guān)系類(lèi)別預(yù)測(cè)的貢獻(xiàn)程度大小。注意力機(jī)制計(jì)算方法如圖10所示。該機(jī)制將輸入數(shù)據(jù)分為查詢向量Q和鍵值對(duì)K-V兩個(gè)部分。查詢向量Q表示需要注意的目標(biāo),而鍵值對(duì)K-V用于表示輸入數(shù)據(jù)的各個(gè)部分,Q,K,V三者都通過(guò)輸入矩陣X作線性變換而來(lái),變換矩陣為通過(guò)計(jì)算查詢向量Q和鍵值對(duì)K-V之間的相似度,可以獲得不同部分的權(quán)重值。圖10注意力機(jī)制計(jì)算方法第1步,將Q和K矩陣經(jīng)過(guò)MatMul生成相似度矩陣;第2步,對(duì)相似度矩陣作縮放(Scale);第3步,對(duì)向量掩碼;第4步,對(duì)相似度進(jìn)行歸一化(SoftMax)處理,得到歸一化之后的權(quán)重矩陣;第5步,將權(quán)重矩陣與V相乘,得到加權(quán)求和的輸出結(jié)果。利用多頭注意力機(jī)制將上述注意力過(guò)程經(jīng)過(guò)多次重復(fù),對(duì)結(jié)果進(jìn)行拼接。在多次中每次使用的線性變換矩陣均不同,則對(duì)向量空間的表示也不同,能獲得更多的文本特征信息。2.3.3基于中間監(jiān)督的損失合并由于實(shí)體識(shí)別和關(guān)系抽取的階段性,基于中間監(jiān)督構(gòu)建損失函數(shù),將實(shí)體識(shí)別的損失作為最終總損失函數(shù)的一部分,總損失函數(shù)如下:式中:CEL為損失函數(shù);pe'和pr'分別表示實(shí)體識(shí)別和關(guān)系抽取生成結(jié)果;α和β為權(quán)衡參數(shù),均設(shè)置為0.5。2.4結(jié)果及分析(1)數(shù)據(jù)集。鑒于密碼攻防領(lǐng)域的特殊性,當(dāng)前并未有公開(kāi)的中文專(zhuān)業(yè)數(shù)據(jù)集。通過(guò)人工收集密碼攻防領(lǐng)域的中文源數(shù)據(jù)集(主要來(lái)源有研究報(bào)告、百科知識(shí)及文獻(xiàn)資料等)。從這些數(shù)據(jù)資料中提取了3012條合法語(yǔ)句,每條語(yǔ)句均經(jīng)人工標(biāo)注,包含一條以上的實(shí)體或關(guān)系。(2)評(píng)價(jià)指標(biāo)。本文使用的是通用評(píng)價(jià)指標(biāo)準(zhǔn)確率(Precision)、召回率(Recall)和F1值進(jìn)行信息抽取效果評(píng)估,其值由下式得到:式中:TP為真正例;FP為假正例;FN為假反例;F1值為準(zhǔn)確率和召回率的加權(quán)調(diào)和平均值。(3)結(jié)果及分析。為了驗(yàn)證使用的聯(lián)合抽取模型的有效性,綜合對(duì)比了傳統(tǒng)模型Lattice-LSTM、BiLSTM-CRF和BERT-BiLSTM-CRF,試驗(yàn)結(jié)果如表4所示。由表4可以看出,聯(lián)合學(xué)習(xí)方法整體的效果優(yōu)于傳統(tǒng)模型,主要原因有兩點(diǎn):特征向量的生成采用了預(yù)訓(xùn)練模型,準(zhǔn)確率更高;在關(guān)系分類(lèi)時(shí)采用了注意力機(jī)制,減少了分類(lèi)噪聲,也提高了準(zhǔn)確率。表4試驗(yàn)結(jié)果由表4還可以看出,以上訓(xùn)練結(jié)果較其他領(lǐng)域開(kāi)源公共數(shù)據(jù)集訓(xùn)練低,主要有兩方面原因:一方面,多源的領(lǐng)域數(shù)據(jù)集收集可能不夠全面,代表性不足;另一方面,領(lǐng)域知識(shí)模型可能不夠精確,領(lǐng)域本體可能還有需要改進(jìn)的地方。通過(guò)模型訓(xùn)練和預(yù)測(cè),共產(chǎn)生密碼攻防領(lǐng)域?qū)嶓w620個(gè),SPO三元組1247組。三元組示例如表5所示,統(tǒng)計(jì)結(jié)果如圖11所示。表5試驗(yàn)產(chǎn)生的SPO三元組圖11知識(shí)圖譜統(tǒng)計(jì)2.5知識(shí)入庫(kù)使用圖數(shù)據(jù)庫(kù)Neo4j作為存儲(chǔ)、顯示知識(shí)圖譜和分析密碼攻擊的工具。Neo4j能夠更容易、更快速地表示、檢索和導(dǎo)航連接的數(shù)據(jù)。Neo4jCQL(查詢語(yǔ)言)命令是聲明式模式匹配的,采用人類(lèi)可讀的格式,易于學(xué)習(xí)。3
領(lǐng)域知識(shí)圖譜應(yīng)用3.1路徑查找算法基于本文構(gòu)建的知識(shí)圖譜有如下設(shè)定:(1)給15個(gè)類(lèi)的每個(gè)子類(lèi)實(shí)例都增加若干個(gè)“成功次數(shù)”屬性,體現(xiàn)節(jié)點(diǎn)關(guān)系之間的權(quán)重分配,各節(jié)點(diǎn)間的查詢順序也可以使用該屬性進(jìn)行排序;(2)每次攻擊成功,即攻擊效果滿足目標(biāo)要求,則該路徑上所有節(jié)點(diǎn)的“成功次數(shù)”屬性加1;(3)每次防御成功,即防御效果滿足目標(biāo)要求,則該路徑上所有節(jié)點(diǎn)的“成功次數(shù)”屬性加1;(4)路徑查詢中優(yōu)先從具有較高“成功次數(shù)”屬性的節(jié)點(diǎn)路徑進(jìn)行選擇;(5)路徑查詢中在任何一步都可以有優(yōu)先性(條件),這是基于攻擊者或防御者前期經(jīng)驗(yàn)設(shè)定的。由此引出以下兩個(gè)路徑探索算法:在算法2中,以攻擊者(atter)或者攻擊動(dòng)機(jī)(att_mot)為起始點(diǎn),在未到達(dá)攻擊點(diǎn)(att_point)之前,將路徑上符合條件的節(jié)點(diǎn)加入攻擊路徑(att_path)中。下一節(jié)點(diǎn)查詢順序以高“成功次數(shù)”優(yōu)先,且路徑中需滿足預(yù)設(shè)條件。到達(dá)攻擊點(diǎn)之后執(zhí)行攻擊,如果攻擊成功,則返回攻擊路徑;如果攻擊失敗,則清空
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 《殖民地人民的反抗》課件
- 2023年遼寧省阜新市公開(kāi)招聘警務(wù)輔助人員輔警筆試自考題1卷含答案
- 2021年安徽省池州市公開(kāi)招聘警務(wù)輔助人員輔警筆試自考題2卷含答案
- 2022年湖北省隨州市公開(kāi)招聘警務(wù)輔助人員輔警筆試自考題2卷含答案
- 進(jìn)階練14 書(shū)信作文(滿分范文)專(zhuān)練-新高考英語(yǔ)一輪總復(fù)習(xí)(上海專(zhuān)用)(解析版)
- 令世界矚目的中國(guó)奇跡現(xiàn)代中國(guó)橋梁跨越式發(fā)展34課件講解
- 2024政工程承包施工合同書(shū)
- 2024版健身器材購(gòu)置及安裝合同2篇
- 2024年茶樓損益分析及預(yù)測(cè)合同
- 2024版安全評(píng)估標(biāo)準(zhǔn)化服務(wù)協(xié)議版B版
- 公務(wù)員調(diào)任(轉(zhuǎn)任)審批表 - 陽(yáng)春人才網(wǎng)
- IE部成立工作規(guī)劃
- 單體調(diào)試及試運(yùn)方案
- 2023-2024學(xué)年浙江省杭州市城區(qū)數(shù)學(xué)四年級(jí)第一學(xué)期期末學(xué)業(yè)水平測(cè)試試題含答案
- 網(wǎng)球技術(shù)與戰(zhàn)術(shù)-華東師范大學(xué)中國(guó)大學(xué)mooc課后章節(jié)答案期末考試題庫(kù)2023年
- 2023年35kV集電線路直埋施工方案
- 思政教師培訓(xùn)心得體會(huì)2021
- HLB值的實(shí)驗(yàn)測(cè)定方法
- 2023年《病歷書(shū)寫(xiě)基本規(guī)范》年度版
- 防止電力生產(chǎn)事故的-二十五項(xiàng)重點(diǎn)要求2023版
- 代理記賬機(jī)構(gòu)代理記賬業(yè)務(wù)規(guī)范
評(píng)論
0/150
提交評(píng)論