基于PKI的密文檢索系統(tǒng)_第1頁(yè)
基于PKI的密文檢索系統(tǒng)_第2頁(yè)
基于PKI的密文檢索系統(tǒng)_第3頁(yè)
基于PKI的密文檢索系統(tǒng)_第4頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、基于PKI的密文檢索系統(tǒng)李新中國(guó) 北京 中國(guó)科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心 OA室,100864摘要:本文在PKI和全文檢索技術(shù)的基礎(chǔ)上,實(shí)現(xiàn)了在不解密的條件下的數(shù)據(jù)檢索。本文所論述的密文檢索是對(duì)全文檢索技術(shù)的改造,在這里幾乎保留了全文檢索的全部技術(shù),只對(duì)索引文件的索引詞進(jìn)行了加密處理,便于系統(tǒng)實(shí)現(xiàn)。密文檢索系統(tǒng)的加密、解密發(fā)生在客戶端,有效的降低了數(shù)據(jù)安全對(duì)服務(wù)器和網(wǎng)絡(luò)環(huán)境安全的依賴。文章最后簡(jiǎn)要討論了密文檢索中的密鑰共享問(wèn)題。關(guān)鍵詞:密文檢索、全文檢索、加密Ciphertext Query System Based on PKILI XinOffice Automation Laboratory

2、, Computer Network Information Center, Chinese Academy of Sciences, Beijing, 100080Abstract:Without decrypted, a kind of full search index is set up on the base on PKI and full search index technology. Because the only change between new and old full search index technology is the encryption of inde

3、x words in the index file and the other all is almost same, this system will be easy to set up. Because the encrytion and decryption are do on the client side, the dependence of data security upon the server and network security is decreased greatly. The problem of share of encrypt key is briefly di

4、scussed in the last of this paper.Keyword:Query on Ciphertext, Full Search Index, Encrypt1引言電子文檔的存儲(chǔ)方式為數(shù)據(jù)的檢索和利用提供了極大的方便,因此,越來(lái)越多的業(yè)務(wù)數(shù)據(jù)成為電子文檔,其中也包括一些敏感數(shù)據(jù)。為了保護(hù)敏感數(shù)據(jù),有時(shí)需要進(jìn)行加密存儲(chǔ)。加密技術(shù)在提高數(shù)據(jù)安全性的同時(shí),也為數(shù)據(jù)的檢索設(shè)置了障礙。源本可以很方便檢索到數(shù)據(jù),經(jīng)過(guò)加密處理后成為不可檢索的內(nèi)容。如果密文數(shù)據(jù)的數(shù)量非常龐大,而又缺乏有效的檢索手段,將會(huì)嚴(yán)重影響密文數(shù)據(jù)的利用1-2。作者簡(jiǎn)介:李新(1966),男,山東淄博人,博士后,副研

5、究員,主要研究領(lǐng)域?yàn)樾畔踩⑥k公自動(dòng)化關(guān)鍵技術(shù)、軟件工程工業(yè)化。一般的明文數(shù)據(jù)檢索系統(tǒng)都有一套權(quán)限管理手段,數(shù)據(jù)的存儲(chǔ)與權(quán)限的管理設(shè)計(jì)在系統(tǒng)兩個(gè)不同的層次上,這兩個(gè)層次的偶合程度非常低,系統(tǒng)邏輯相對(duì)簡(jiǎn)單。與此不同的是,在密文數(shù)據(jù)檢索系統(tǒng)中,密文數(shù)據(jù)是由明文數(shù)據(jù)與密鑰計(jì)算而來(lái),由于密鑰在一定程度上反應(yīng)了權(quán)限邏輯,因此,權(quán)限邏輯通過(guò)密鑰傳遞到數(shù)據(jù)存儲(chǔ)層,這大大增加了數(shù)據(jù)存儲(chǔ)與權(quán)限管理兩個(gè)層次的偶合程度,系統(tǒng)的設(shè)計(jì)相對(duì)復(fù)雜。2全文檢索引擎技術(shù)路線的選擇只所以能夠從海量數(shù)據(jù)中較快取得相關(guān)信息,全文檢索依賴事先建立的基于索引項(xiàng)的索引庫(kù)。其原理是索引程序掃描數(shù)據(jù)中的索引項(xiàng),在索引文件中對(duì)每一個(gè)索引項(xiàng)建立

6、一個(gè)索引,指明該索引項(xiàng)在數(shù)據(jù)中出現(xiàn)的次數(shù)和位置;當(dāng)用戶查詢時(shí),檢索程序?qū)⒂脩舨樵儣l件分解為索引項(xiàng),在事先建立的索引庫(kù)中進(jìn)行查找(而不是從原始數(shù)據(jù)中查找),并將查找的結(jié)果反饋給用戶。英文句子的單詞之間有固定的空格,英文全文檢索系統(tǒng)可以簡(jiǎn)單的以單詞為索引項(xiàng)。中文句子中詞與詞之間沒(méi)有間隔,因此,在中文全文檢索系統(tǒng)中,索引項(xiàng)的選擇是一個(gè)基本的,也是非常重要的問(wèn)題。據(jù)此,可以將中文全文檢索引擎分成兩大類:基于字的全文檢索引擎和基于詞的全文檢索引擎?;谧值娜臋z索引擎使用單字為索引項(xiàng),將文章中的每一個(gè)字都錄入索引庫(kù)中,對(duì)用戶的檢索提問(wèn)根據(jù)單字匹配的原則去進(jìn)行檢索。按照GB2312的規(guī)定共有6763個(gè)漢字

7、。這樣索引集合就非常小,最大不會(huì)超過(guò)6763,在這一點(diǎn)上基于字的全文檢索引擎具有十分明顯的優(yōu)勢(shì)?;谠~的全文檢索引擎以中文句子中的詞為索引項(xiàng),更符合人的自然思維習(xí)慣。以詞為索引項(xiàng),就要進(jìn)行分詞,由于在中文句子中詞與詞之間不存在分隔符,因此,將由漢字組成的字符串進(jìn)行正確的分詞不是一件十分容易的事。分詞一般都要借助詞典來(lái)進(jìn)行,而中文的構(gòu)詞非常靈活,詞的數(shù)目幾乎是無(wú)限的,因此要構(gòu)造完備的詞典幾乎是不可能的。為了克服以詞為索引項(xiàng)所帶來(lái)的困難,人們還提出了一些別的方法,如:二元,三元語(yǔ)法索引項(xiàng)等3-4。有兩個(gè)指標(biāo)可以評(píng)價(jià)檢索引擎的檢索質(zhì)量:查全率和查準(zhǔn)率。查全率和查準(zhǔn)率是信息檢索中的一對(duì)矛盾,人們?cè)谶x擇

8、檢索引擎的時(shí)候往往不能兩全。一般認(rèn)為,提高查全率,返回更多的查詢結(jié)果,會(huì)相應(yīng)降低查準(zhǔn)率;提高查準(zhǔn)率,只返回精確的匹配結(jié)果,會(huì)相應(yīng)降低查全率,即查全率和查準(zhǔn)率成反比。如果被檢索的數(shù)據(jù)量非常大,為防止返回太多的無(wú)用信息,可以選擇查準(zhǔn)率較高的搜索引擎;如果被檢索的數(shù)據(jù)量有限,可以選擇查準(zhǔn)率較高的搜索引擎,避免信息遺漏。字是自然語(yǔ)言的最小顆粒,以字為索引單位的搜索引擎,如果查詢條件選擇得當(dāng),從理論上講幾乎不可能遺漏查詢信息,因此,具有較高的查全率和較低的查準(zhǔn)率。詞包含了更準(zhǔn)確的概念,以詞為索引單位的搜索引擎,由于符合人們的思維習(xí)慣,更有可能返回正確查詢結(jié)果,因此,具有較高的查準(zhǔn)率和較低的查全率?;谠~

9、的全文檢索需要維護(hù)一個(gè)龐大的詞庫(kù),對(duì)于明文全文檢索可以將詞庫(kù)放在服務(wù)器端,分詞和檢索都在服務(wù)器端進(jìn)行,客戶端不需要考慮詞庫(kù)的維護(hù)問(wèn)題,因此,詞庫(kù)的維護(hù)不會(huì)影響系統(tǒng)實(shí)現(xiàn)。而對(duì)于密文全文檢索,由于密鑰安全的要求,不能將密鑰送到服務(wù)器端進(jìn)行檢索詞的加密、解密,分詞需要在客戶端進(jìn)行,選擇基于字的全文檢索,可以降低系統(tǒng)的復(fù)雜性,避免詞庫(kù)維護(hù)。3密文檢索技術(shù)原理目前常用的加密方法分為“對(duì)稱算法”和“非對(duì)稱算法”兩大類。對(duì)稱算法以DES、IDEA為代表,加密、解密采用相同的密鑰,其優(yōu)點(diǎn)是加密、解密速度快;非對(duì)稱算法以RSA為代表,加密、解密采用不同的密鑰,其優(yōu)點(diǎn)是密鑰的分發(fā)、管理相對(duì)容易?!懊荑€對(duì)”是RSA

10、算法的核心,將其中的一個(gè)密鑰公開(kāi),稱為“公開(kāi)密鑰”;另外一個(gè)密鑰由密鑰持有人專用,稱為“私有密鑰”。公開(kāi)密鑰用于數(shù)據(jù)加密,私有密鑰用于數(shù)據(jù)解密。為提高保密強(qiáng)度,RSA密鑰至少為512位長(zhǎng),一般推薦使用1024位。這就使得加密、解密的計(jì)算量很大。為減少計(jì)算量,提高加密、解密速度,常采用非對(duì)稱算法與對(duì)稱算法相結(jié)合的方式,即:數(shù)據(jù)采用DES或IDEA等對(duì)稱算法加密,然后使用RSA公開(kāi)密鑰加密對(duì)稱算法“密鑰”。解密時(shí),首先用RSA私有密鑰解密對(duì)稱算法“密鑰”,然后用對(duì)稱算法“密鑰”解密數(shù)據(jù)。非對(duì)稱算法與對(duì)稱算法的結(jié)合使得在保持非對(duì)稱算法密鑰的分發(fā)、管理優(yōu)勢(shì)的同時(shí),大大提高了加密、解密速度。密文全文檢索

11、的索引文件是加密之前建立的,索引文件描述了詞條在原文中的位置,實(shí)際的檢索是在索引文件而不是在原文中查找檢索詞,因此,對(duì)原文進(jìn)行加密不會(huì)影響檢索。對(duì)于索引文件,我們只對(duì)其中的索引詞單獨(dú)加密,而不是對(duì)整個(gè)索引文件進(jìn)行加密,因此,密文索引文件中的索引詞與檢索時(shí)單獨(dú)加密的檢索詞,如果明文、密鑰一致則密文一致。因此,可以通過(guò)比對(duì)檢索詞密文和索引文件中的索引詞密文,找到檢索詞在原文中的位置。加密、解密運(yùn)算以二進(jìn)制方式處理數(shù)據(jù),為方便處理,可以采用Base64進(jìn)行編碼,將二進(jìn)制數(shù)據(jù)轉(zhuǎn)換成字符型數(shù)據(jù)。4密文檢索技術(shù)實(shí)現(xiàn)密文檢索技術(shù)包括加密、解密、檢索及密鑰共享四個(gè)部分。4.1加密加密前首先要生成對(duì)稱密鑰(以下

12、簡(jiǎn)稱密鑰),為了防止來(lái)自網(wǎng)絡(luò)內(nèi)部,尤其是系統(tǒng)管理員的安全威脅,密鑰應(yīng)該在客戶端生成。按照全文索引的技術(shù)要求,掃描原文、分詞并建立索引文件,用密鑰對(duì)索引文件中的索引詞進(jìn)行加密及Base64編碼處理,生成密文索引文件。用密鑰對(duì)原文進(jìn)行加密處理,生成密文。用自己的公開(kāi)密鑰對(duì)密鑰進(jìn)行加密處理生成密鑰密文。圖1 數(shù)據(jù)加密流程將密文索引文件、密文、密鑰密文保存到密文庫(kù)中,完成加密操作,見(jiàn)圖1。4.2檢索及解密檢索密文前首先要從密文庫(kù)中下載密鑰密文,然后用自己的私有密鑰解密,得到密鑰。將查詢提問(wèn)分解成檢索詞,用密鑰將檢索詞加密,經(jīng)過(guò)Base64編碼,得到檢索詞密文,將檢索詞密文送到密文庫(kù),從密文索引文件中查

13、找密文檢索詞,進(jìn)行全文檢索。下載符合檢索條件到的密文,用密鑰解密,得到原文,見(jiàn)圖2。圖2 密文檢索流程4.3密鑰共享與密文有關(guān)的系統(tǒng)必然帶來(lái)密鑰管理問(wèn)題5-6。從理論上講,對(duì)每個(gè)數(shù)據(jù)、每個(gè)用戶都使用不同的密鑰,系統(tǒng)安全性最高,但過(guò)多的密鑰會(huì)給系統(tǒng)的性能帶來(lái)很大負(fù)擔(dān),且管理不便,因此,密鑰管理的關(guān)鍵是密鑰共享。密鑰共享包括兩個(gè)方面的內(nèi)容:“不同數(shù)據(jù)間的密鑰共享”和“不同用戶間的密鑰共享”。不同數(shù)據(jù)間的密鑰共享指的是不同數(shù)據(jù)采用相同的密鑰加密、解密,因此,這些數(shù)據(jù)應(yīng)該具有相同的秘密等級(jí)或秘密分組。將秘密數(shù)據(jù)分組,同一組數(shù)據(jù)使用相同的密鑰,可以大大減少密鑰數(shù)量,簡(jiǎn)化密鑰管理和權(quán)限分配。密文全文檢索系

14、統(tǒng)可以按照這些秘密分組進(jìn)行設(shè)計(jì),在同一組中檢索數(shù)據(jù)時(shí),因?yàn)槊荑€相同,相同的檢索詞具有相同的密文,因此,只需一次從密文庫(kù)下載密鑰密文,就可以在這個(gè)分組內(nèi)查找匹配數(shù)據(jù)。不同的秘密分組由于密鑰不同,需要下載不同的密鑰密文,分別進(jìn)行檢索,最后將各個(gè)秘密分組的檢索結(jié)果合并為一個(gè),呈現(xiàn)給用戶。不同用戶間的密鑰共享指的是不同的用戶對(duì)同一數(shù)據(jù)可以使用相同的密鑰加密、解密。因?yàn)槊荑€相同,因此密文在密文庫(kù)可以只保留一份,這不僅大大減少了密文庫(kù)的存儲(chǔ)空間耗費(fèi),而且也為秘密數(shù)據(jù)的授權(quán)帶來(lái)極大方便,可以在不對(duì)原文解密的情況下,為其它用戶建立密鑰密文。圖3描述了這樣一個(gè)秘密授權(quán)的流程,秘密授權(quán)必須由具有秘密讀權(quán)限的用戶進(jìn)

15、行。首先,下載自己的密鑰密文,解密得到密鑰;然后,從證書(shū)庫(kù)下載對(duì)方公開(kāi)密鑰;用對(duì)方公開(kāi)密鑰對(duì)密鑰加密,得到對(duì)方密鑰密文;最后,將密鑰密文保存到密文庫(kù),完成秘密授權(quán)過(guò)程。此后,對(duì)方就可以下載和使用新產(chǎn)生的密鑰密文進(jìn)行密文檢索及數(shù)據(jù)解密了。圖3 秘密授權(quán)流程5結(jié)束語(yǔ)從某種意義上說(shuō)加密與檢索是一對(duì)矛盾,加密是為了防止信息非法擴(kuò)散,檢索是為信息獲取提供方便。密文檢索是在防止信息非法擴(kuò)散的同時(shí),為信息獲取提供的方便,是解決這對(duì)矛盾的一種有效途徑。本文所論述的密文檢索方法利用了目前明文全文檢索的技術(shù)路線,為了在不解密的條件下實(shí)現(xiàn)檢索,對(duì)索引文件只加密了索引詞,而索引文件中的其它信息沒(méi)有進(jìn)行加密處理,這或許在有些情況下會(huì)對(duì)秘密數(shù)據(jù)造成部分泄漏,使用時(shí)應(yīng)當(dāng)綜合考慮。參考文獻(xiàn)1 余祥宣,劉偉數(shù)據(jù)庫(kù)的密文索引機(jī)制J華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版)2002,30(3):17-182 宋俊洪,崔國(guó)華一種密文數(shù)據(jù)庫(kù)的查詢

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論