下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、基于OOXML的演示文稿溯源及編輯過程恢復(fù)方法研究微軟公司的0伍ce系列軟件自發(fā)布以來被廣泛應(yīng)用于文檔的編寫、演示、統(tǒng)計(jì)等領(lǐng)域,PowerPoint是其中一款演示文稿軟件。PowerPoint的普遍使用使得大量商業(yè)機(jī)密及創(chuàng)意產(chǎn)品資料以電子文檔的形式保存,然而由于電子文檔易復(fù)制、易修改的特性,與電子文檔相關(guān)的知識(shí)產(chǎn)權(quán)糾紛頻繁發(fā)生。在與電子文檔相關(guān)的知識(shí)產(chǎn)權(quán)糾紛中,文檔的來源性和編輯過程檢測(cè)是檢驗(yàn)的重點(diǎn)?,F(xiàn)有的方法多為通過WinHex等二進(jìn)制讀取軟件從文件底層讀取文件信息,達(dá)到檢測(cè)來源及恢復(fù)編輯過程的目的。而0伍ce系列軟件自2007版本之后采用了OOXMLc2(Open 0伍ce XML)格式存
2、儲(chǔ)文件,OOXML是一種以XML為基礎(chǔ)并以ZIP格式壓縮的電子文件規(guī)范,其將文檔屬性、文檔內(nèi)容、圖表、圖片、音視頻文件以及文檔之間的關(guān)系等打包在一起,大大提高了文檔的可恢復(fù)性。本文結(jié)合其獨(dú)特的XML格式,提出了PowerPoint2010基于OOXML的來源檢測(cè)及編輯過程恢復(fù)的方法。1 技術(shù)原理1.1 演示文稿文件結(jié)構(gòu)分析演示文稿文件采用ZIP格式壓縮,修改其后綴名為ZIP´即可對(duì)其進(jìn)行解壓縮。解壓縮后的PPTX文件夾由四部分組成,其中包括三個(gè)文件夾:_rels、docProps、ppt,以及一個(gè)xml文件:.xml。_rels文件夾中只有一個(gè)rels文件,它定義了部件之間
3、的關(guān)聯(lián)關(guān)系,是解析整個(gè)包時(shí)要瀏覽的第一個(gè)文件。docProps文件夾包含三個(gè)文件:docPropsappxml描述了軟件版本、文檔頁數(shù)、字符總數(shù)等:docPropscorexml描述了作者、文檔創(chuàng)建時(shí)間、最后修改時(shí)間等:docPropsthumbnail.jpeg是演示文稿第一頁的縮略圖。ppt文件夾是PowerPoint獨(dú)有的目錄,包含著其特有的文檔信息。其中,pptVrels指定文檔部件的集合如何組合為一個(gè)文檔;pptmedia包含文檔中嵌入的圖片、音頻、視頻等多媒體文件;ppttheme描述了文檔使用的主題風(fēng)格;pptslides是最重要的文件夾,它包含了每頁幻燈片的具體內(nèi)容及其關(guān)系文件
4、。其中,每一頁幻燈片都以一個(gè)獨(dú)立的xml文件格式存儲(chǔ),這些xml文件的命名規(guī)律為slide+幻燈片序號(hào)xml;,與之對(duì)應(yīng)的,pptslidesVrels文件夾中存放著各頁幻燈片的關(guān)系文件,這些關(guān)系文件的命名規(guī)律為slide幻燈片序號(hào)xmlrels;:最后,ppt文件夾的presentationxml文件負(fù)責(zé)將整個(gè)文件夾中的內(nèi)容串聯(lián)在一起形成一個(gè)完整的文檔。Content_types.xml定義包中各部分的內(nèi)容類型。1.2 PPTX文件來源性分析所謂文件的來源性分析,即通過對(duì)源文件與目標(biāo)文件進(jìn)行比較,判斷兩文件是否由同一文件復(fù)制而來。之前提到,幻燈片的具體內(nèi)容存儲(chǔ)在slide+幻燈片序號(hào).xml
5、;文件中。分析PPTX文件是否同源,可從這些slide文件的內(nèi)容人手。由于xml文件以樹狀結(jié)構(gòu)存儲(chǔ)數(shù)據(jù)凹,以樹狀結(jié)構(gòu)解讀slide文件可以得到其根節(jié)點(diǎn)為,根節(jié)點(diǎn)包含兩個(gè)一級(jí)子節(jié)點(diǎn)p:cSld和。其中,用戶可在節(jié)點(diǎn)中創(chuàng)建形狀樹,也就是編輯幻燈片的具體內(nèi)容。是的子節(jié)點(diǎn),如果幻燈片中插入了圖片、音頻、視頻等多媒體文件,里將存放這些多媒體文件的文件名及xml文檔賦予它們的ID號(hào)碼。中還包含著與同一級(jí)別的另一個(gè)子節(jié)點(diǎn),xml文檔的用戶可以在該節(jié)點(diǎn)中存放自定義的數(shù)據(jù)。slide文件的樹形結(jié)構(gòu)如圖1所示。由樹形結(jié)構(gòu)圖可以看到,用戶自定義節(jié)點(diǎn)中存放了四級(jí)子節(jié)點(diǎn),該節(jié)點(diǎn)擁有屬性val,該屬性的值可稱為幻燈片的c
6、reationID值。研究發(fā)現(xiàn),同一演示文稿中的各幻燈片的creationID值均不相同,且分別建立的兩個(gè)演示文稿文件,其對(duì)應(yīng)頁幻燈片的creationID值也不相同。為探究由同一文件復(fù)制而來的演示文稿creationID值的變化規(guī)律,課題組進(jìn)行了大量實(shí)驗(yàn)。由實(shí)驗(yàn)結(jié)果總結(jié)的規(guī)律如表1所示:由表1可以看出,如果演示文稿A由演示文稿B通過復(fù)制操作生成,不論對(duì)演示文稿B做內(nèi)容修改還是對(duì)幻燈片頁數(shù)進(jìn)行增刪,只要演示文稿A中還存留有演示文稿B的任意張幻燈片,其留存的幻燈片就會(huì)保留演示文稿B中幻燈片的creationID值。圖2所示為samplepptx;、sample -副本pptx;和sample2.
7、pptx;中slidel.xml的內(nèi)容。其中,sample-副本.pptx;由sample.pptx;復(fù)制而來,并對(duì)內(nèi)容做了適當(dāng)修改,sample2.pptx;為另外創(chuàng)建的文件。可以看到前兩個(gè)文件擁有相同的creationID值(2338748835)而另外創(chuàng)建的文件slidelxml中的creationID值則完全不同(2411686777)。creationID值通常由8位以上數(shù)字組成,兩個(gè)creationID值完全相同的概率極低。因此,可以判定,演示文稿A如果含有與演示文稿B相同的creationID值,即可說明A與B同源。1.3 PPTX文件編輯順序分析所謂文件編輯順序分析,即以單個(gè)演
8、示文稿為分析對(duì)象,對(duì)演示文稿內(nèi)幻燈片及其多媒體內(nèi)容的增加、刪除等編輯過程進(jìn)行還原。1.3.1演示文稿的編輯時(shí)間鏈之前提到,位于docProps文件夾下的corexml描述了文檔作者、創(chuàng)建時(shí)間以及最后修改時(shí)間等。研究發(fā)現(xiàn)xml中記錄的除了創(chuàng)建時(shí)間和修改時(shí)間之外,還有一個(gè)節(jié)點(diǎn)。經(jīng)過實(shí)驗(yàn),得到revlsion節(jié)點(diǎn)、創(chuàng)建時(shí)間及修改時(shí)間的變化規(guī)律如表2所示。由表2可以看出,revlsion節(jié)點(diǎn)記錄了演示文稿的版本號(hào),即自創(chuàng)建以來修改過的次數(shù)。一個(gè)新建的pptx文檔,其版本號(hào)為1。對(duì)其進(jìn)行修改得到的pptx文檔,其版本號(hào)將隨著修改次數(shù)遞增。圖3所示的是演示文稿samplepptx的原文件及其修改一次后的c
9、orexml內(nèi)容。因此,從revlsion的數(shù)值可以判斷出文檔的編輯次數(shù)。顯然,revlsion較小的演示文稿的編輯順序先于revlsion較大的演示文稿,結(jié)合修改時(shí)間即可得到文件編輯的時(shí)間鏈。1.3.2幻燈片及其多媒體內(nèi)容的添加次序之前提到,pptpresentationxml文件負(fù)責(zé)將整個(gè)演示文稿串聯(lián)在一起。該xml文件的根節(jié)點(diǎn)是,其下的一級(jí)子節(jié)點(diǎn)中存儲(chǔ)著若干二級(jí)子節(jié)點(diǎn)即演示文稿中的幻燈片列表,節(jié)點(diǎn)中存儲(chǔ)幻燈片的標(biāo)識(shí)號(hào)(id)和索引號(hào)(r:id)。通過該索引號(hào)可在pptVrelspre-sentationxmlrels文件中查詢到pptslides文件夾下對(duì)應(yīng)的幻燈片的名稱。如果幻燈片中插
10、入了多媒體文件,這些多媒體文件的信息將儲(chǔ)存在pptslidesslide幻燈片序號(hào)xml;的節(jié)點(diǎn)。如圖1所示,節(jié)點(diǎn)包含三個(gè)子節(jié)點(diǎn)-、,其中,中存儲(chǔ)了xml文件賦予該多媒體文件的名字(name)和標(biāo)識(shí)號(hào)(id),則存儲(chǔ)了索引號(hào)(r:embed),通過索引號(hào)可以在pptslidesVrels關(guān)系文件中查詢多媒體文件的存儲(chǔ)路徑??梢钥闯?,無論是幻燈片本身還是幻燈片中添加的多媒體文件,都擁有各自的標(biāo)識(shí)號(hào)(id),經(jīng)過實(shí)驗(yàn),本文總結(jié)出幻燈片ID與多媒體ID的變化規(guī)律,如表3所示。由表3可以看出,隨著幻燈片的增加,幻燈片的ID隨之遞增。首張幻燈片的ID值默認(rèn)為256;,第二張幻燈片則為257;,以此類推。
11、而當(dāng)刪除其中某個(gè)幻燈片時(shí),其他幻燈片的ID值并不會(huì)發(fā)生改變。同樣的,隨著幻燈片中插入多媒體文件數(shù)量的增加,多媒體文件的ID值也呈遞增,幻燈片中加入的首個(gè)多媒體文件的ID值默認(rèn)為4;,第二個(gè)多媒體文件為5;,以此類推,當(dāng)刪除其中某個(gè)多媒體文件時(shí),其他多媒體文件的ID值也不會(huì)發(fā)生改變。因此,完全可以由幻燈片ID和多媒體文件ID分析出幻燈片及其多媒體文件的插入順序及刪除情況。如圖4所示,在samplepptx中先后添加三張幻燈片,其幻燈片ID分別為256;、257;、258;,刪除第二張幻燈片,可以發(fā)現(xiàn)幻燈片ID出現(xiàn)斷層。如圖5所示,在samplepptx的第一張幻燈片中先后插入三張圖片,其多媒體文
12、件ID分別為4;、5;、6;,刪除第二張圖片,可以發(fā)現(xiàn)多媒體文件ID出現(xiàn)斷層。2 系統(tǒng)功能基于第二節(jié)所述原理,課題組使用VBNET語言實(shí)現(xiàn)了0伍ce PowerPoint 2010溯源及多媒體編輯順序分析工具。系統(tǒng)分為來源分析模塊和多媒體文件分析模塊。兩個(gè)模塊的設(shè)計(jì)流程如圖6-7所示。為了測(cè)試系統(tǒng)的功能,課題組首先創(chuàng)建了一個(gè)單頁的演示文稿文件圖片實(shí)驗(yàn)pptx;,并在第一頁插入了三張圖片。復(fù)制圖片實(shí)驗(yàn)pptx;得到圖片實(shí)驗(yàn)副本pptx;,打開副本并刪除三張圖片中的第二張。圖8顯示的是系統(tǒng)對(duì)兩個(gè)演示文稿的來源性分析結(jié)果。從結(jié)果可以清晰地看出兩個(gè)演示文稿來源相同,且文件2(圖片實(shí)驗(yàn)pptx)的創(chuàng)建早于文件1(圖片實(shí)驗(yàn)副本pptx)。打開圖片實(shí)驗(yàn)pptx,對(duì)幻燈片1進(jìn)行分析,幻燈片1中的多媒體文件添加次序如圖7所示??梢钥闯龌脽羝?中的多媒體文件序號(hào)從4;開始,順序遞增至6;。打開圖片實(shí)驗(yàn)副本pptx,對(duì)幻燈片1進(jìn)行分析?;脽羝?中的多媒體文件添加次序如圖9所示??梢钥闯龌脽羝?中的多媒體文件序號(hào)從4;開始,但缺少了序號(hào)為5;的節(jié)點(diǎn)。結(jié)合來源性分析可以判斷,文件1為文件2復(fù)制所得,并在文件2的基礎(chǔ)上刪除了圖片4;。參考文獻(xiàn):【1】羅文華孫道寧Office Word文檔溯源方法研究警察技 術(shù),20
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度孟安與配偶離婚協(xié)議:共同財(cái)產(chǎn)分割及子女監(jiān)護(hù)協(xié)議4篇
- 導(dǎo)演與攝影師2025年度合作協(xié)議3篇
- 2025年銷售人員合同范本:旅游產(chǎn)品銷售合作協(xié)議2篇
- 城東小學(xué)2025年度智能調(diào)光窗簾紗窗采購合同2篇
- 二零二五年度美發(fā)店員工培訓(xùn)與職業(yè)發(fā)展合同4篇
- 2025年度金融衍生品買賣合同標(biāo)的交易風(fēng)險(xiǎn)管理4篇
- 2025年度綠色能源餐館司爐員專項(xiàng)聘用合同3篇
- 鄭州城市職業(yè)學(xué)院《交通監(jiān)控系統(tǒng)》2023-2024學(xué)年第一學(xué)期期末試卷
- 二零二五版苗木種植保險(xiǎn)產(chǎn)品設(shè)計(jì)與銷售合同4篇
- 2025年度房地產(chǎn)租賃融資合同模板4篇
- 2025春夏運(yùn)動(dòng)戶外行業(yè)趨勢(shì)白皮書
- 《法制宣傳之盜竊罪》課件
- 通信工程單位勞動(dòng)合同
- 2024年醫(yī)療器械經(jīng)營質(zhì)量管理規(guī)范培訓(xùn)課件
- 高低壓配電柜產(chǎn)品營銷計(jì)劃書
- 2024年4月自考02202傳感器與檢測(cè)技術(shù)試題
- 社會(huì)系統(tǒng)研究方法的重要原則
- 重癥醫(yī)學(xué)科健康宣教手冊(cè)
- 2022版《義務(wù)教育英語課程標(biāo)準(zhǔn)》解讀培訓(xùn)課件
- 五個(gè)帶頭方面談心談話范文三篇
- 互聯(lián)網(wǎng)的發(fā)展歷程
評(píng)論
0/150
提交評(píng)論