![改進(jìn)型Apriori算法在犯罪關(guān)聯(lián)分析中的應(yīng)用[精品資料]_第1頁(yè)](http://file.renrendoc.com/FileRoot1/2014-9/23/b579e041-c07c-49fc-a0dc-e03a6edacaf9/b579e041-c07c-49fc-a0dc-e03a6edacaf91.gif)
![改進(jìn)型Apriori算法在犯罪關(guān)聯(lián)分析中的應(yīng)用[精品資料]_第2頁(yè)](http://file.renrendoc.com/FileRoot1/2014-9/23/b579e041-c07c-49fc-a0dc-e03a6edacaf9/b579e041-c07c-49fc-a0dc-e03a6edacaf92.gif)
![改進(jìn)型Apriori算法在犯罪關(guān)聯(lián)分析中的應(yīng)用[精品資料]_第3頁(yè)](http://file.renrendoc.com/FileRoot1/2014-9/23/b579e041-c07c-49fc-a0dc-e03a6edacaf9/b579e041-c07c-49fc-a0dc-e03a6edacaf93.gif)
![改進(jìn)型Apriori算法在犯罪關(guān)聯(lián)分析中的應(yīng)用[精品資料]_第4頁(yè)](http://file.renrendoc.com/FileRoot1/2014-9/23/b579e041-c07c-49fc-a0dc-e03a6edacaf9/b579e041-c07c-49fc-a0dc-e03a6edacaf94.gif)
![改進(jìn)型Apriori算法在犯罪關(guān)聯(lián)分析中的應(yīng)用[精品資料]_第5頁(yè)](http://file.renrendoc.com/FileRoot1/2014-9/23/b579e041-c07c-49fc-a0dc-e03a6edacaf9/b579e041-c07c-49fc-a0dc-e03a6edacaf95.gif)
全文預(yù)覽已結(jié)束
下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
改進(jìn)型 Apriori 算法在犯罪關(guān)聯(lián)分析中的應(yīng)用 -精品資料 本文檔格式為 WORD,感謝你的閱讀。 最新最全的 學(xué)術(shù)論文 期刊文獻(xiàn) 年終總結(jié) 年終報(bào)告 工作總結(jié) 個(gè)人總結(jié) 述職報(bào)告 實(shí)習(xí)報(bào)告 單位總結(jié) 摘要:介紹了關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘技術(shù),特別是Apriori 核心算法,并對(duì) Apriori 算法進(jìn)行了 Hash優(yōu)化。以某市的犯罪信息數(shù)據(jù)庫(kù)為實(shí)例,將改進(jìn)后的關(guān)聯(lián)分析技術(shù)應(yīng)用其中,以便發(fā)現(xiàn)犯罪行為特點(diǎn)及犯罪嫌疑人特性等潛在的聯(lián)系,為公安部門(mén)的戰(zhàn)略部署、決策指揮、偵查破 案、治安管理等提供依據(jù)。 關(guān)鍵詞關(guān)鍵詞:犯罪特征;關(guān)聯(lián)規(guī)則;數(shù)據(jù)挖掘;Apriori TP312A16727800( 2013) 011006802 0 引言 信息技術(shù)的飛速發(fā)展,給公安機(jī)關(guān)的信息化應(yīng)用提供了強(qiáng)有力的保障,較大程度上提高了整個(gè)公安隊(duì)伍的戰(zhàn)斗力,在防范打擊違法犯罪、維護(hù)國(guó)家安全穩(wěn)定等方面起到了重要作用。 “ 金盾工程 ” 的推進(jìn),促使各類(lèi)業(yè)務(wù)應(yīng)用平臺(tái)逐步建成和完善,但情報(bào)導(dǎo)向的信息應(yīng)用仍處于初探階段。信息的關(guān)鍵價(jià)值不在于存儲(chǔ),而在于對(duì)所擁有的大量警務(wù)信息進(jìn)行二次挖掘 ,獲取更有價(jià)值的情報(bào)信息 1 。近年來(lái),公安部門(mén)積累了海量的基礎(chǔ)數(shù)據(jù)和犯罪數(shù)據(jù)信息,但對(duì)于這些數(shù)據(jù)的高效利用和深度應(yīng)用未有明顯成績(jī)。因此,如何利用先進(jìn)的信息技術(shù)在這些海量數(shù)據(jù)中進(jìn)行深度挖掘,得出一些新知識(shí),使之有益于公安部門(mén)的戰(zhàn)略部署、決策指揮、偵查破案、治安管理等,具有一定的時(shí)代意義。 1 關(guān)聯(lián)規(guī)則挖掘 關(guān)聯(lián)規(guī)則挖掘,有時(shí)也叫關(guān)聯(lián)分析,是數(shù)據(jù)挖掘的一個(gè)重要研究領(lǐng)域。它是指從事務(wù)數(shù)據(jù)庫(kù)、關(guān)系數(shù)據(jù)庫(kù)和其它信息存儲(chǔ)中的大量數(shù)據(jù)的項(xiàng)集之間發(fā)現(xiàn)有趣的、頻繁出現(xiàn)的模式、關(guān)聯(lián)和相關(guān)性,即所謂的關(guān)聯(lián) 規(guī)則。其形式為: “X=Y” ,即在設(shè)定的高置信度的規(guī)則下, X 事件發(fā)生了, Y 事件必然發(fā)生。 關(guān)聯(lián)規(guī)則挖掘核心算法為著名的 Apriori算法。當(dāng)然,此后出現(xiàn)了一些相關(guān)算法,諸如 DIC算法 2 、 DLG算法 3 和 DHP算法 4 等,都是基于 Apriori 算法做了改進(jìn)或優(yōu)化而成的。 1.1Apriori 算法 Apriori 算法,是一種挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法,是 Agrawal.R 、 Imieliski.T 等人在 1994第 20屆大型數(shù)據(jù)庫(kù)國(guó)際會(huì)議上提出的 5 ,于當(dāng)時(shí)最具影響力。此算法實(shí)質(zhì)是一個(gè)逐層迭代搜索的方法,利用 K 項(xiàng)集探索 K+1項(xiàng)集。第一次,找出頻繁 1 項(xiàng)集的集合,記為 L1;第二次,利用 L1探索 L2,找出頻繁 2 項(xiàng)集,記為 L2;如此進(jìn)行探索,直至頻繁項(xiàng)集 K 為空,停止。 算法描述如下: Input: Database D, of transactions; minimum support threshold; Output: L, frequent itemsets in D Method: ( 1) L1=find_frequent_1-itemsets( D); ( 2) For( k=2; Lk-1 ; k+) ( 3) Ck=apriori_gen( Lk-1, min_sup); ( 4) for each transaction tD ( 5) Ct=subset( Ck, t); ( 6) for each candidate c Ct ; ( 7) c.count+; ( 8) ( 9) Lk= cCk |c.countmi n_sup; ( 10) ( 11) return L=kLk ; Procedure apriori_gen( Lk-1: frequent( k-1) -itemsets; min_sup: support) ( 1) for each itemset l1 Lk -1 ( 2) for each itemset l2 Lk -1 ( 3) if( l1 1 = l2 1 ) ( l1 2 = l2 2 ) ( l1 k-2 = l2 k-2 ) ( l1 k-1 = l2 k-1 ) then ( 4) c=l1 l2 ; ( 5) if has_infrequent_subset( c, L k-1) then ( 6) delete c; ( 7) else add c to Ck; ( 8) ( 9) return Ck; Procedure has_infrequent_subset( c: candidate k-itemset; Lk-1: frequent( k-1) -itemsets) ( 1) for each( k-1) -subset s of c ( 2) if s ! L k -1 then ( 3) return true; ( 4) return false; 1.2關(guān)聯(lián)規(guī)則的產(chǎn)生 事實(shí)上,當(dāng)從數(shù)據(jù)庫(kù) D 中的事務(wù)找出頻繁項(xiàng)集時(shí),它們產(chǎn)生的關(guān)聯(lián)規(guī)則是顯而易見(jiàn)的,然而,這些規(guī)則的置信度是不一樣的。因此,和支持度一樣,置信度得設(shè)置一個(gè)閾值。在設(shè)定的置信度閾值和支持度閾值條件下,同時(shí)滿 足這兩個(gè)條件的規(guī)則叫強(qiáng)規(guī)則,這些規(guī)則通常頗為有趣,是關(guān)聯(lián)規(guī)則挖據(jù)的目的。 對(duì)于置信度,可以用下式表示,其中條件概率用項(xiàng)集支持度計(jì)數(shù)表示。 Conference( A=B) =P( B|A) =support-count( A+B)/support-count( A) 其中, support-count( A+B)是包含項(xiàng)集 A+B 的事務(wù)數(shù), support-count( A)包含項(xiàng)集的 A 的事務(wù)數(shù) 6 。 1.3Apriori 算法優(yōu)化 從算法描述可看出,當(dāng)數(shù)據(jù)庫(kù) D 的事務(wù)達(dá)到一定 規(guī)模時(shí),算法的空間復(fù)雜度和時(shí)間復(fù)雜度相當(dāng)高。因此,優(yōu)化是必要的,旨在提高原算法的效率。常用方法有:散列技術(shù)計(jì)數(shù)、事務(wù)壓縮、劃分、選樣。還有一些通過(guò)變形實(shí)現(xiàn)有效性,如動(dòng)態(tài)項(xiàng)集計(jì)數(shù)、多層和多維等關(guān)聯(lián)規(guī)則挖掘。 2 實(shí)例分析 2.1挖據(jù)過(guò)程 將 Apriori 算法應(yīng)用于犯罪行為分析,主要目的在于找出案件的各個(gè)特征及犯罪嫌疑人各個(gè)特征之前可能存在的相互關(guān)系,以便找出有用的關(guān)聯(lián)規(guī)則。其挖掘過(guò)程如下: ( 1)數(shù)據(jù)選擇。從犯罪行為數(shù)據(jù)庫(kù)中檢索并選擇與分析任務(wù)相關(guān)的數(shù)據(jù)并消除噪聲信息。 ( 2)數(shù)據(jù)梳理。運(yùn)用減低維數(shù)、連續(xù)數(shù)據(jù)的離散分類(lèi)等將數(shù)據(jù)梳理成標(biāo)準(zhǔn)統(tǒng)一的適合于挖據(jù)的形式。 ( 3)關(guān)聯(lián)規(guī)則挖掘。此步驟較為關(guān)鍵,使用 Apriori算法對(duì)已梳理過(guò)的事務(wù)進(jìn)行關(guān)聯(lián)分析。 ( 4)實(shí)效評(píng)估。通過(guò)調(diào)整支持度閾值及置信度閾值,按照既定的業(yè)務(wù)興趣度量,結(jié)合實(shí)戰(zhàn)檢驗(yàn),使得過(guò)程挖掘所獲得的知識(shí)結(jié)果更容易接受,且更有價(jià)值。 ( 5)知識(shí)表示與存儲(chǔ)。使用可視化和知識(shí)表示技術(shù),形成知識(shí)庫(kù),為決策提供依據(jù)。 其中, Apriori算法是關(guān)鍵。過(guò)程將發(fā)現(xiàn)事務(wù)數(shù)據(jù)庫(kù)中隱藏的形 式為 “A=B” 的規(guī)則,即在一定的支持度和一定置信度下,假如 A 發(fā)生則 B 一定發(fā)生。圖 1 犯罪行為關(guān)聯(lián)規(guī)則挖掘過(guò)程 2.2模型建立 優(yōu)秀的技術(shù)應(yīng)用于具體行業(yè),要想達(dá)到實(shí)戰(zhàn)的成果,模型的建立尤為重要。而對(duì)于關(guān)聯(lián)數(shù)據(jù)挖掘而言,這個(gè)模型的關(guān)鍵點(diǎn)在于合適事務(wù)數(shù)據(jù)庫(kù)的建立。公安業(yè)務(wù)數(shù)據(jù)庫(kù)巨大無(wú)比,如何梳理,直接影響到挖掘的成果。 在實(shí)際工作中,犯罪兩個(gè)重要的組成是犯罪行為和行為者。因此,從事和人出發(fā),考慮其特點(diǎn),以已破的刑事犯罪案件信息數(shù)據(jù)為主導(dǎo)進(jìn)行梳理, 案件信息:編號(hào)、類(lèi)別、時(shí)間、地點(diǎn)、特點(diǎn)、危害程度 、簡(jiǎn)情; 涉案人員:姓名、外號(hào)、性別、民族、出生日期、居民身份證號(hào)碼、籍貫、戶籍地、居住地、文化程度、收入狀況、家庭背景、違法犯罪經(jīng)歷。 本文中,挑選其中主要的八項(xiàng)事務(wù)建立模型:作案形式、選擇時(shí)機(jī)、選擇處所、選擇對(duì)象、案件類(lèi)別、嫌疑人籍貫、嫌疑人年齡、嫌疑人文化。 2.3數(shù)據(jù)抽樣 樣本來(lái)源于某地市 2012年搶劫案連續(xù)抽取的 12個(gè)樣本,并按照模型格式進(jìn)行梳理,其結(jié)果如表 1 所示。 閱讀相關(guān)文檔 :實(shí)施過(guò)程管理在網(wǎng)絡(luò)集成項(xiàng)目中的運(yùn)用 微課開(kāi)發(fā)與應(yīng)用研究 基于 C#的多機(jī)遠(yuǎn)程桌面 監(jiān)控系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn) 基于 Multigen Creator的三維虛擬校園應(yīng)用研究 基于 CDIO 理念的模擬電路課程教學(xué)改革與實(shí)踐 基于粒子群優(yōu)化算法和 Wiki 的數(shù)字化教材開(kāi)發(fā)研究 Flash 在深度和廣度優(yōu)先遍歷算法教學(xué)中的應(yīng)用 高效運(yùn)動(dòng)目標(biāo)檢測(cè)算法研究 基于 VC+的虛擬示波器軟件設(shè)計(jì) 振鏡式激光打標(biāo)系統(tǒng)及工藝參數(shù)分析 一種基于多因素的潛在好友推薦算法 基于 .NE
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 學(xué)前教育機(jī)構(gòu)師資隊(duì)伍建設(shè)與管理中的家庭教育協(xié)同研究報(bào)告
- 安全師年試題及答案
- 安全規(guī)程教育試題及答案
- 零售業(yè)數(shù)字化供應(yīng)鏈協(xié)同與供應(yīng)鏈協(xié)同平臺(tái)建設(shè)實(shí)踐報(bào)告
- 中國(guó)區(qū)域劃分及省份課件
- 法治安全教育主題班會(huì)
- 公文管理課件
- 中國(guó)八大景點(diǎn)課件
- 護(hù)理職業(yè)生涯規(guī)劃
- 防疫培訓(xùn)系列課件下載
- 如何當(dāng)好一名班主任 課件-2024-2025學(xué)年高一下學(xué)期班主任工作經(jīng)驗(yàn)分享
- 2025年基礎(chǔ)電氣工程考試試題及答案
- 2025年心理健康指導(dǎo)師職業(yè)資格考試試題及答案
- 七年級(jí)下冊(cè)道德與法治期末復(fù)習(xí)必刷主觀題含答案
- 2024年廣東省揭西縣教師招聘考試《教育學(xué)和心理學(xué)基礎(chǔ)知識(shí)》真題庫(kù)及答案
- 北京市順義區(qū)2023-2024學(xué)年六年級(jí)下學(xué)期數(shù)學(xué)期末試卷(含答案)
- 鎮(zhèn)江市鑫泰絕緣材料有限公司新型絕緣材料生產(chǎn)項(xiàng)目環(huán)評(píng)資料環(huán)境影響
- 公司安全廉政管理制度
- 江蘇省泰州市泰州中學(xué)2025屆英語(yǔ)八年級(jí)第二學(xué)期期末復(fù)習(xí)檢測(cè)試題含答案
- 2025昆明醫(yī)科大學(xué)海源學(xué)院輔導(dǎo)員考試試題及答案
- 商業(yè)領(lǐng)域的數(shù)字化轉(zhuǎn)型與人才培養(yǎng)的深度融合研究報(bào)告
評(píng)論
0/150
提交評(píng)論