




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
數據挖掘技術
在案件串并和嫌疑人排查中的應用一、序言傳統(tǒng)的信息管理系統(tǒng)(MIS),主要針對的是日常的結構化問題,以提高組織的運營效率為目標,通過將大量的數據轉換為有價值的信息來強化管理。隨著社會的進步和技術的發(fā)展,人們不再僅僅滿足于獲取多種信息和簡單的使用信息,而是想在深層次上利用這些信息為組織的決策提供幫助。因此,為了彌補MIS的不足,為了更好進行市場預測、資源配置、人力優(yōu)化和生產管理,在管理科學、運籌學、數理統(tǒng)計、人工智能等新方法和新技術的推動下,人們開始重視決策支持系統(tǒng)(DSS)的研究和應用。“9.11”事件發(fā)生以后,西方主要發(fā)達國家都高度重視數據挖掘在刑事犯罪情報分析領域的應用研究。刑事犯罪數據的分析與挖掘主要是通過對犯罪記錄進行分析,從而發(fā)現(xiàn)犯罪行為的規(guī)律、趨勢,了解不同犯罪行為之間的關聯(lián),以及何種狀態(tài)會誘發(fā)何種犯罪行為,進行串并案分析,提供破案線索和情報,預測并預防犯罪。在中國,隨著經濟增長、社會變革深入、人員流動性增強,影響社會穩(wěn)定的不安定因素增加。特別是2008年以后,中國大陸人均GDP突破3000美元,侵財類案件進入高發(fā)周期,流竄作案、團伙作案等新型犯罪手段層出不窮。部分公安機關開始運用商業(yè)智能(BI)的思維,利用商業(yè)智能(BI)分析工具,結合長期積累的偵查辦案經驗,探索建設警務決策支持系統(tǒng),研究開展基于犯罪數據的分析挖掘。二、案件串并和嫌疑人排查的主要方法1、關聯(lián)規(guī)則分析關聯(lián)規(guī)則算法指數據中兩個或多個變量取值之間暗含的某種規(guī)律性。支持度是對關聯(lián)規(guī)則重要性的衡量,置信度是對關聯(lián)規(guī)則準確性的衡量。以挖掘關聯(lián)規(guī)則為目標的挖掘過程一般包含兩個階段,第一階段,從資料庫中找出所有的高頻項目組,它們出現(xiàn)的頻率相對于所有組而言,達到或超過所設定的最小支持度。第二階段,從高頻項目組中產生關聯(lián)規(guī)則,保證應用該規(guī)則得到的結果可以達到最小的置信度。關聯(lián)規(guī)則在公安情報分析中的典型應用是對犯罪行為規(guī)律的挖掘。運用關聯(lián)規(guī)則可以發(fā)現(xiàn)犯罪分子的身份、年齡、地域等特征與其在實施犯罪行為中所使用的手段、特點、選擇的地點以及侵害對象等方面的關聯(lián)規(guī)律性,把具有相似特征的犯罪人員從海量數據中分揀出來,形成“高危人群”數據庫,利用高危人群數據庫指導幫助案件偵破。2、聚類分析聚類分析方法主要是研究對象中各點之間存在的程度不同的相似性,根據對象屬性找出各點間相似程度的序列,把一些相似程度較大的點聚合為一類。在公安情報分析中,聚類分析方法應用最廣泛??梢詫Ψ缸锸侄巍⑻攸c、作案時間等關鍵要素進行挖掘,幫助分析人員確定具有較高相似度的案件,刻畫嫌疑人特征,并把看似不相關的案件進行合并偵查。可以挖掘發(fā)現(xiàn)案件的高發(fā)時段、高發(fā)地區(qū)以及高發(fā)的作案手段,指導巡邏防控和情報預警。3、協(xié)同過濾協(xié)同過濾分析方法是在用戶群中找到指定用戶興趣相似的用戶,綜合這些相似用戶對某一信息的評價,形成該指定用戶對此信息的喜好程度的預測。一般分為基于項目的協(xié)同過濾和基于用戶的協(xié)同過濾。在公安實戰(zhàn)中,我們可以將案件(一串案件)發(fā)生軌跡視為“項目”,將嫌疑人活動軌跡視為“對項目的偏好”,通過計算軌跡吻合度,推薦可能的犯罪嫌疑人。4、分類與回歸分類與回歸分析主要用于找出描述并區(qū)分數據類的模型(或函數),以便能夠使用模型預測未知的對象類。分類分析的目的是學會一個分類模型,該模型能把數據庫中的項映射到給一組類別中的某一個類。在公安情報分析中,可以使用分類與回歸的分析方法,將特定的人員(例如:前科人員)映射到“高危人群”中,當“高危人群”出現(xiàn)時,出符合“犯罪內容”特征的犯罪預警。三、案件串并和嫌疑人排查業(yè)務需求1、業(yè)務背景隨著“金盾工程”建設的深入開展,各級公安機關已經逐步建立了各類公共基礎信息資源庫、人員社會行為動態(tài)信息資料庫和業(yè)務信息系統(tǒng),積累了大量的數據資源,這些數據資源和信息系統(tǒng)在輔助各級公安機關業(yè)務人員進行案件調查工作和服務群眾等方面帶來了很大的幫助,在一定程度上提高了案件處理的效率和水平。但是,大部分公安機關對案件進行串并、摸排嫌疑人仍停留在利用經驗積累進行人工分析的初級階段。面對信息資源不斷增長的現(xiàn)狀,公安機關迫切需要運用數據挖掘的思想和方法,對各類數據背后所蘊涵的內在的、必然的因果關系進行挖掘,提高案件串并和嫌疑人排查工作效率。2、業(yè)務應用場景由于犯罪行為動力定型的穩(wěn)定性和犯罪心理的思維定式,系列犯罪案件的作案人在其不斷的犯罪活動中的行為和特征具有穩(wěn)定性和規(guī)律性。本文所描述的分析方法適用于具有連續(xù)作案行為特征的犯罪情報分析,例如:團伙流竄案件、涉黑涉惡案件等可防性案件,不適用于偶發(fā)的、突發(fā)的“激情”犯罪。3、建設目標使用成熟的圖形化展示工具,集成串并案分析、排查嫌疑人功能,建立一個面向情報分析人員的智能分析系統(tǒng)。系統(tǒng)具備自學習功能,提供便捷、有效的串并案模型和排查模型,促進信息深度利用,提高公安機關信息化應用水平、串并案和排查嫌疑人工作效率。4、業(yè)務流程(1)建立案件特征庫。分析已破案件特征,包括:案件類別、作案特點、作案時機、侵害對象、作案工具等項目,分別生成串并案模型。(2)建立違法犯罪人員特征庫。對已破案件以及相關的違法犯罪人員進行分析,挖掘案件特征與犯罪人員特征的潛在關聯(lián)關系,構建“高危人群”數據庫。(3)運用串并案模型,針對未破案件,開展案件串并,并推薦出可能作案的高危人群。(4)構建違法犯罪人員活動軌跡數據庫,包括:違法犯罪人員乘坐出租車軌跡,違法犯罪人員機動車經過卡口(電子警察)軌跡,違法犯罪人員手機經過電子圍欄(基站)軌跡,違法犯罪人員上網、住宿、社保卡消費、公交(公共自行車)軌跡,重點人員本地金融活動軌跡,違法犯罪人員室外活動軌跡(基于天網工程人像比對發(fā)現(xiàn))。備注:違法犯罪人員機動車包含其本人所有車輛、同住
人和同戶人所有車輛。(5)將已串并案件的案發(fā)軌跡與符合高危特征的犯罪人員活動軌跡疊加分析,計算時間和空間上的吻合度,并推薦出未破案件的可能嫌疑人。四、詳細設計方案根據需求分析,實現(xiàn)業(yè)務應用功能總體設計思路為:對數據進行匯集、整合、建模,運用數據挖掘算法發(fā)現(xiàn)和揭示數據中隱含的關聯(lián)關系,并使用圖形方式展示。項目總體邏輯架構圖如下:些妄身價認證與詁問控機皆理京統(tǒng)圖1:總體邏輯架構圖1、數據獲取:對數據挖掘的數據源進行搜集整理。根據業(yè)務需求,搜集案件、嫌疑人、嫌疑人活動軌跡信息,獲取數據源連接和訪問權限,對數據結構進行分析,完成找到數據的工作。根據需求和數據源狀況,確定數據更新方法、更新策略,選擇ETL工具,本項目選擇IBMDatastage。
數據源名稱來源ETL策略備注刑事案件信息本地業(yè)務系統(tǒng)立案時間、每日、增量用于挖掘案刑事案件現(xiàn)場勘驗信息本地業(yè)務系統(tǒng)勘驗時間、每日、增量用于挖掘案違法犯罪人員(本地)本地業(yè)務系統(tǒng)錄入時間、每日、增量按身份證去違法犯罪人員(全國)公安部下發(fā)每月、批量按身份證去戶籍人口本地業(yè)務系統(tǒng)錄入(修改)時間、每日、增量用于確定違實有人口本地業(yè)務系統(tǒng)錄入(修改)時間、每日、增量用于確定違出租車軌跡以及乘客照片社會資源乘車時間、每日、增量照片比對確卡口過車信息本地業(yè)務系統(tǒng)過車時間、每日、增量發(fā)現(xiàn)軌跡電子警察抓拍信息本地業(yè)務系統(tǒng)抓怕時間、每日、增量發(fā)現(xiàn)軌跡電子圍欄和話單本地業(yè)務系統(tǒng)經過(通話)時間、每日、增量發(fā)現(xiàn)軌跡網吧上網記錄本地業(yè)務系統(tǒng)下網時間、每日、增量發(fā)現(xiàn)軌跡旅館住宿記錄本地業(yè)務系統(tǒng)入住時間、每日、增量發(fā)現(xiàn)軌跡社??ㄏM記錄社會資源刷卡時間、每日、增量發(fā)現(xiàn)軌跡公交(公共自行車)刷卡記錄社會資源刷卡時間、每日、增量發(fā)現(xiàn)軌跡重點人員本地金融活動記錄公安部下發(fā)刷卡時間、每日、增量發(fā)現(xiàn)軌跡違法犯罪人員室外活動軌跡本地業(yè)務系統(tǒng)經過時間、每日、增量圖像挖掘、表1:數據源表文案大全2、預處理:為數據挖掘提供符合要求數據,包括數據清洗、轉換(標準化)、裝載、建模。采用數據抽取工具(ETL),對收集的數據進行抽取、清洗、轉換及裝載,實現(xiàn)數據的整合、去重,向多維數據倉庫提供高質量的數據。圖2:ETL過程在此基礎上對數據進行關聯(lián)、建模,為情報分析研判提供可用的數據。根據業(yè)務特性,確定案件、犯罪人員以及犯罪人員活動軌跡三個主題,區(qū)分維度數據表和事實數據表,建立數據倉庫模型。下圖為案件事實表以及相關維度表數據結構示例。作部點維度'作案特點第二層編碼碼普稱述編蠢名描層冒層層一一一二二間第小定弟第S前點占苫苫苫又特3^3特3^6?案麥孌木案支箱作*作嘉作案選擇處所第二層編碼作案迷棒處所第一層編碼作案詵圣處所第一層名稱111iniEnii作案詵軍處所第二層描述作案選:棒處所維度載入時間作案選擇處所維度案件類別第三層編碼牛甥牛甥牛類9牛甥據碼稱普稱恭述編名竄名蔓描層層冒層冒層一一一二二二三三間第第*定鬼第心定鬼第時案件類別維度辦案單位維度亦案單位第二晝扁碼亦案單位第一晝扁碼亦案單位第一層名稱亦案單位第二層描述數據載入時間作案工具維度作案工具第二晝扁碼作案工具第一晝扁碼作案工具第一層名稱賽_其漏二作案工具第二層描述作案選擇對象第二層編碼碼普稱述編蠢名描層冒層層-------象象象間作案選擇對象維度志士黑標士空心(F瑪媽碼碼(F起母K-.碼母端端端費母母二漏二(F(F(F端(F督層房(F{F第層第W:態(tài)W:碼號期期親憂案碼京碼碼間編曰曰恭案恭編編編時件發(fā)理lii理支亦立案案水案案處受立不馨受立不破結流碼維碼端17端層碼層K:.碼碼is碼三二二二數碼瑪斯三象{F端端端編類端2定弟第心¥八端端處第對胃機莆域口曾』位占同因口擇別擇WE幼欒地出手工單堂(原涂類選.段發(fā)案案件發(fā)案IMO善委親案塞親件案時案作墨親案作作作辦作作作作作案作ti圖3:數據結構實例(案件表)3、數據挖掘:使用挖掘算法進行挖掘,找出有用的信息。(1)運用聚類分析方法,對某地近十年來的已破刑事案件進行分析,構建刑事案件空間向量矩陣,矩陣的行為一起刑事案件的一個空間向量,矩陣的列為作案手段、選擇處所、選擇時間、作案特點等特征。采用聚類操作后,如果多個案件的多個或全部屬性都有相似性,就可以認為這是一串案件,并形成一套分類規(guī)則,即案件串并模板。下圖展示了部分串并案模板。
1技唳開欲鯽成作案手段核術開題5Q作案手段攀爬入室50迭擇時機彳目同10迭擇處所彳目同30迭擇處所-迭擇住宅層次相同10迭擇處所-迭擇住宅層發(fā)相同10迭擇處所彳目同30迭擇時機彳目同10萼修改6aw除情、扳窗欄人室.?翻窗■室—作案手段隔、扳窗欄入室50作案豐段翻窗入■室50迭擇處所彳目同30迭擇時機-相同10選擇處所凝擇住宅層茨相同10迭擇處所-迭擇住宅層淡相同10選擇時機彳目同10選擇處所耳目同30■彩改m■除__—,尊改■圈除圖4:案件串并模板示例圖5:案件串并模板示例(2)運用關聯(lián)規(guī)則分析方法,對某地近十年來的已破刑事案件特征(II:作案手段、12:作案特點、13:案件類型、I4:選擇處所)和犯罪分子特征(15:戶籍地行政區(qū)劃)進行關聯(lián),構建數據庫事務集合D。運用Apriori算法,掃描事務數據庫,產生候選項集,設置min_sup=50,逐步迭代,產生頻繁k項集Lk以及支持度計數,k,2且必須要包含I5:戶籍地行政區(qū)劃;設置min_conf=80%由頻繁k項集Lk產生并輸出強關聯(lián)規(guī)則,得出高危人群數據庫。表2展示了運用關聯(lián)規(guī)則分析方法分析的高危人群部分數據樣本。
I1作案手段I2作案特點I3案件類型I4選擇處所I5行政區(qū)劃區(qū)劃名稱迷信多人作案詐騙街面340823安徽樅陽縣技術開鎖單人作案盜竊車內財物路面411528河南息縣冒充軍人、干部單人作案詐騙412825河南上蔡縣撬防盜門入室作案入室盜竊工商企業(yè)430427湖南耒陽市利用口香糖技術開鎖入室作案入室盜竊居民小區(qū)431224湖南淑浦縣飛車搶奪多人作案搶奪440229廣東翁源縣插片開鎖多人作案入室盜竊452728廣西東蘭縣夜間攀爬翻窗多人作案入室盜竊居民小區(qū)513428四川涼山籍表2:高危人群樣例數據(3)運用串并案模板對現(xiàn)行案件進行串并,并根據案件特征(作案手段、作案特點、案件類型、選擇處所等)比對高危人群數據庫,推薦出可能作案的高危人群。圖6:運用串并案模板進行串并案件(4)建立符合可能作案的高危人群特征(戶籍地)的違法犯罪人員活動軌跡數據庫,構建案件軌跡與嫌疑人員活動軌跡的空間和時間矢量矩陣,通過計算矢量距離,推導出與案件時間、軌跡吻合度最高,且符合案件特征的可能的作案嫌疑人。表3展示了一串案件發(fā)生時,6個符合特征的嫌疑人手機位置與案件發(fā)生地點的空間矢量距離,null表示沒有發(fā)現(xiàn)其活動信息。\嫌疑人1嫌疑人2嫌疑人3嫌疑人4嫌疑人5嫌疑人6案件1325mNullNull589mNullNull案件2Null600m400m5060mNullNull案件3160m2430mNullNullNull3680m案件4400m890m280mNullNullNull表3:嫌疑人手機位置與案件發(fā)生地點的空間矢量矩陣通過對表3的數據進行分析,可以初步判定嫌疑人1、嫌疑人2、嫌疑人3具有重大嫌疑。在實際操作中,單一種類軌跡構成的矩陣可能非常稀疏,往往需要將多種軌跡信息進行疊加分析,以提高分析的準確性。4、用戶界面:將數據挖掘通過可視化的方法展示給用戶。(1)數據挖掘過程具有高度的交互性,在涉及多維數據挖掘的過程中,要構建靈活的用戶界面和探索式的挖掘環(huán)境。在串并案模板挖掘過程中,我們采用構建立方體(Cube)的方法,允許用戶運用知識背景進行下鉆、切片、維度旋轉、設置度量等操作。(2)數據挖掘結果展示采用可視化圖形報表技術,具有用戶友好界面,使得所發(fā)現(xiàn)的知識容易被理解。對于軌跡類信息的展示,采用GIS技術,將案件發(fā)生地點和嫌疑人活
動軌跡以散點形態(tài)展示在地圖上。公民求助刑亭扉杵5.70%治安竅杵■刑事案件?治安案件■交通孚故公民求助刑亭扉杵5.70%治安竅杵■刑事案件?治安案件■交通孚故■治安災杏事故■災言
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 醫(yī)生合同范例
- 土地流轉簡易合同范本
- 入資合伙合同范本
- 大寒節(jié)氣新媒體運營
- 書畫外借合同范本
- 土地上蓋房合同范例
- 國際項目建設合同范本
- 租房合同學問拓展
- 乙類大棚施工合同范本
- 商場商鋪租賃合同范本
- 2025年食品供應商合同范本
- 《網絡信息安全教學》課件
- 徐州2025年江蘇徐州市口腔醫(yī)院招聘非在編醫(yī)務人員53人筆試歷年參考題庫附帶答案詳解-1
- 2025年01月2025中國作家協(xié)會所屬單位公開招聘11人筆試歷年典型考題(歷年真題考點)解題思路附帶答案詳解
- 用色彩情感引發(fā)共鳴社交媒體運營秘訣
- 2025年江西機電職業(yè)技術學院高職單招職業(yè)技能測試近5年??及鎱⒖碱}庫含答案解析
- 2025年江蘇旅游職業(yè)學院高職單招職業(yè)技能測試近5年常考版參考題庫含答案解析
- 2025年上海市租房合同標準樣本(2篇)
- 四年級 人教版 數學 第三單元《乘法運算律(四)(例8) -解決問題策略的多樣化》課件
- (高清版)JTGT 3650-01-2022 公路橋梁施工監(jiān)控技術規(guī)程
- DZ∕T 0213-2020 礦產地質勘查規(guī)范 石灰?guī)r、水泥配料類(正式版)
評論
0/150
提交評論