![聯(lián)通大數(shù)據(jù)公安情報(bào)應(yīng)用技術(shù)研究方案說明_第1頁](http://file4.renrendoc.com/view/1eefea8609a18b029e29775a6014d8bd/1eefea8609a18b029e29775a6014d8bd1.gif)
![聯(lián)通大數(shù)據(jù)公安情報(bào)應(yīng)用技術(shù)研究方案說明_第2頁](http://file4.renrendoc.com/view/1eefea8609a18b029e29775a6014d8bd/1eefea8609a18b029e29775a6014d8bd2.gif)
![聯(lián)通大數(shù)據(jù)公安情報(bào)應(yīng)用技術(shù)研究方案說明_第3頁](http://file4.renrendoc.com/view/1eefea8609a18b029e29775a6014d8bd/1eefea8609a18b029e29775a6014d8bd3.gif)
![聯(lián)通大數(shù)據(jù)公安情報(bào)應(yīng)用技術(shù)研究方案說明_第4頁](http://file4.renrendoc.com/view/1eefea8609a18b029e29775a6014d8bd/1eefea8609a18b029e29775a6014d8bd4.gif)
![聯(lián)通大數(shù)據(jù)公安情報(bào)應(yīng)用技術(shù)研究方案說明_第5頁](http://file4.renrendoc.com/view/1eefea8609a18b029e29775a6014d8bd/1eefea8609a18b029e29775a6014d8bd5.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
./聯(lián)通"大數(shù)據(jù)"公安情報(bào)應(yīng)用技術(shù)方案中國聯(lián)通XX省分公司2015年11月目錄第1章概述51.1項(xiàng)目背景51.2項(xiàng)目建設(shè)目標(biāo)51.3項(xiàng)目建設(shè)內(nèi)容6第2章系統(tǒng)總體架構(gòu)6第3章系統(tǒng)網(wǎng)絡(luò)及硬件環(huán)境7第4章數(shù)據(jù)能力開發(fā)84.1聯(lián)通總部大數(shù)據(jù)平臺能力介紹84.2數(shù)據(jù)采集9實(shí)時(shí)數(shù)據(jù)采集9定時(shí)數(shù)據(jù)采集9網(wǎng)頁數(shù)據(jù)〔非結(jié)構(gòu)化數(shù)據(jù)采集94.3實(shí)時(shí)數(shù)據(jù)加工和處理104.3.1Spark平臺104.3.2SparkStreaming實(shí)時(shí)數(shù)據(jù)加工104.4定時(shí)數(shù)據(jù)存儲及加工11數(shù)據(jù)存儲策略114.4.2Hadoop存儲與加工124.4.3Oracle數(shù)據(jù)展現(xiàn)17第5章應(yīng)用功能開發(fā)185.1數(shù)據(jù)查詢18號碼位置查詢18詳單查詢模塊19號碼軌跡查詢模塊20基站信息查詢21機(jī)主信息查詢模塊225.2數(shù)據(jù)推送23用戶基本信息推送23手機(jī)標(biāo)記信息推送23數(shù)據(jù)接口245.3監(jiān)控告警24標(biāo)記管理24號碼位置告警255.4統(tǒng)計(jì)分析25區(qū)域熱力25關(guān)鍵詞熱力265.5數(shù)據(jù)分析27號碼碰撞分析27聯(lián)系人分析27關(guān)系人分析28外來人員分析29網(wǎng)上異動分析30第6章項(xiàng)目實(shí)施316.1人員組織安排316.2項(xiàng)目實(shí)施步驟32平臺搭建32功能開發(fā)33應(yīng)用及優(yōu)化336.3項(xiàng)目投入估算34附件1.大數(shù)據(jù)平臺相關(guān)技術(shù)原理說明341.Hadoop基礎(chǔ)平臺341.1.HDFS341.2.Yarn361.3.Zookeeper372.Hbase高速即時(shí)查詢382.1.Hbase基礎(chǔ)組件382.2.Hbase封裝組件403.Spark實(shí)時(shí)數(shù)據(jù)處理42附件2.可對外提供數(shù)據(jù)合作的數(shù)據(jù)431.用戶位置數(shù)據(jù)432.用戶特征數(shù)據(jù)〔標(biāo)簽443.網(wǎng)上搜索關(guān)鍵詞數(shù)據(jù)46概述項(xiàng)目背景2014年中國聯(lián)通集團(tuán)大數(shù)據(jù)平臺建設(shè)完成,平臺具備2000個(gè)計(jì)算節(jié)點(diǎn)和20PB數(shù)據(jù)量,形成了全國性的數(shù)據(jù)中心,能夠基于全國用戶數(shù)據(jù)加工數(shù)據(jù)應(yīng)用產(chǎn)品。2015年XX公安廳計(jì)劃將大數(shù)據(jù)應(yīng)用在數(shù)據(jù)查詢、預(yù)警分析、綜合分析、治安管理、指揮調(diào)度等公安情報(bào)應(yīng)用上。為此雙方將聯(lián)通公司的大數(shù)據(jù)進(jìn)行開發(fā)利用,為公安情報(bào)應(yīng)用服務(wù)。項(xiàng)目建設(shè)目標(biāo)建設(shè)聯(lián)通"大數(shù)據(jù)"公安情報(bào)應(yīng)用平臺,服務(wù)XX公安情報(bào)應(yīng)用,具體包括八類公安情報(bào)應(yīng)用需求:電子地圖、人員布控:劃定某一區(qū)域?qū)崟r(shí)查詢號碼個(gè)數(shù)和明細(xì),調(diào)取通話記錄;當(dāng)特定號碼進(jìn)出某一區(qū)域進(jìn)行實(shí)時(shí)預(yù)警,并顯示號碼活動軌跡。預(yù)警分析〔涉恐類:設(shè)定敏感號碼關(guān)注,對號碼進(jìn)入/離開預(yù)定區(qū)域進(jìn)行預(yù)警;設(shè)定涉恐敏感詞、網(wǎng)頁、APP,對發(fā)送、訪問、使用涉恐敏感詞、網(wǎng)頁、APP的號碼進(jìn)行預(yù)警。預(yù)警分析〔涉穩(wěn)類:對號碼進(jìn)行標(biāo)簽管理,進(jìn)入限定區(qū)域預(yù)警;群體性事件人員分別熱力圖;網(wǎng)上串聯(lián)異動分析。綜合分析〔案件偵查類:對前科人員號碼進(jìn)行標(biāo)簽管理,進(jìn)入某個(gè)地市預(yù)警;查詢犯罪嫌疑人上網(wǎng)數(shù)據(jù)、寬帶數(shù)據(jù)、上網(wǎng)行為習(xí)慣、網(wǎng)上關(guān)系人等;對上網(wǎng)詳單、短信詳單文本進(jìn)行關(guān)鍵字過濾;找出在逃人員的各種關(guān)系人數(shù)據(jù);綜合分析〔個(gè)案分析:對人員和區(qū)域標(biāo)記管理;號碼位置查詢、號碼碰撞分析,目標(biāo)號碼進(jìn)出固定區(qū)域告警;檢索異常人群關(guān)鍵詞;分析出目標(biāo)號碼使用的新手機(jī)號碼;服務(wù)治安管理:區(qū)域內(nèi)人員熱力分布;外來人員信息獲取。服務(wù)指揮調(diào)度:警員手機(jī)號的定位,群發(fā)信息。戰(zhàn)略分析:長期上網(wǎng)行為分析;網(wǎng)上特定信息分析;全國話單調(diào)取服務(wù);群體"遷徙"分析。項(xiàng)目建設(shè)內(nèi)容利用中國聯(lián)通全國大數(shù)據(jù)優(yōu)勢,搭建聯(lián)通"大數(shù)據(jù)"公安情報(bào)應(yīng)用平臺,服務(wù)XX公安情報(bào)應(yīng)用。平臺及網(wǎng)絡(luò)環(huán)境搭建:建設(shè)大數(shù)據(jù)應(yīng)用平臺,具備數(shù)據(jù)計(jì)算與存儲環(huán)境,打通與用戶單位的網(wǎng)絡(luò)連接。數(shù)據(jù)采集:具備對移動網(wǎng)絡(luò)信令、詳單、業(yè)務(wù)日志等數(shù)據(jù)采集功能。數(shù)據(jù)實(shí)時(shí)計(jì)算:開發(fā)對用戶位置和軌跡、區(qū)域熱力、實(shí)時(shí)告警等功能的數(shù)據(jù)加工處理能力。數(shù)據(jù)定時(shí)加工存儲:實(shí)現(xiàn)通信行為、通信內(nèi)容、號碼軌跡、用戶特征的數(shù)據(jù)存儲和高速查詢;實(shí)現(xiàn)分析模型、統(tǒng)計(jì)匯總、應(yīng)用模型的開發(fā);為應(yīng)用功能加工所需數(shù)據(jù)。應(yīng)用功能開發(fā):開發(fā)數(shù)據(jù)查詢、數(shù)據(jù)推送、監(jiān)控告警、統(tǒng)計(jì)分析、數(shù)據(jù)分析應(yīng)用功能。系統(tǒng)總體架構(gòu)系統(tǒng)總體架構(gòu)分為三層架構(gòu),硬件平臺、數(shù)據(jù)能力、應(yīng)用功能。系統(tǒng)硬件平臺位于聯(lián)通網(wǎng)絡(luò),服務(wù)器由X86服務(wù)組成,用于搭建Hadoop集群環(huán)境和Oracle數(shù)據(jù)環(huán)境。網(wǎng)絡(luò)交換機(jī)統(tǒng)一采用萬兆交換機(jī)。數(shù)據(jù)能力由數(shù)據(jù)采集、實(shí)時(shí)數(shù)據(jù)加工、定時(shí)數(shù)據(jù)存儲加工組成。應(yīng)用功能由數(shù)據(jù)查詢、數(shù)據(jù)推送、監(jiān)控告警、統(tǒng)計(jì)分析、數(shù)據(jù)分析五大模塊組成。系統(tǒng)網(wǎng)絡(luò)及硬件環(huán)境"大數(shù)據(jù)"公安情報(bào)應(yīng)用平臺位于聯(lián)通網(wǎng)絡(luò),公安用戶通過專線訪問大數(shù)據(jù)應(yīng)用平臺?!?服務(wù)器統(tǒng)一由X86服務(wù)組成,X86服務(wù)器硬件如下:2路*8核雙線程CPU,內(nèi)存128G,硬盤16TB,網(wǎng)卡6千兆;〔2大數(shù)據(jù)應(yīng)用平臺硬件組成:Hadoop集群20臺X86服務(wù)器;Speak實(shí)時(shí)計(jì)算平臺8臺X86服務(wù)器;傳統(tǒng)Oracle平臺2臺X86服務(wù)器;FTP接口機(jī)1臺X86服務(wù)器;WEB應(yīng)用服務(wù)2臺X86服務(wù)器;ETL流程控制1臺X86服務(wù)器;萬兆交換機(jī)3臺;數(shù)據(jù)能力開發(fā)聯(lián)通總部大數(shù)據(jù)平臺能力介紹〔一總部大數(shù)據(jù)系統(tǒng)每日采集并處理全國31省生產(chǎn)數(shù)據(jù)。數(shù)據(jù)量B/M域170多億條,O域2700多億條,其中涉及數(shù)據(jù)源:BSS域18個(gè)總部橫向系統(tǒng),包括集中結(jié)算,集中渠道等;BSS域省經(jīng)分系統(tǒng)將31個(gè)不同版本的BSS系統(tǒng)按照統(tǒng)一接口規(guī)范加工上傳總部。MSS域13個(gè)總部集中系統(tǒng),包括ERP核心系統(tǒng)等?!捕暇€設(shè)備整體配備存儲容量6.78PB,X86存儲服務(wù)器共1301臺,分別搭建了Greenplum和Hadoop環(huán)境。Oracle數(shù)據(jù)庫:3*2節(jié)點(diǎn)RAC數(shù)據(jù)庫。數(shù)據(jù)采集實(shí)時(shí)數(shù)據(jù)采集〔一采集內(nèi)容采集內(nèi)容包括手機(jī)信令數(shù)據(jù)、手機(jī)短信日志。1、手機(jī)信令數(shù)據(jù):MC口手機(jī)信令采集數(shù)據(jù)包含手機(jī)號碼、基站LAC、基站CELLID、觸發(fā)時(shí)間字段。2、手機(jī)短信日志:從短信平臺手機(jī)短信發(fā)送日志采集數(shù)據(jù)包含手機(jī)號碼、發(fā)送時(shí)間、被叫號碼、短信內(nèi)容字段。〔二采集方式1、手機(jī)信令數(shù)據(jù):通過文件接口聯(lián)機(jī)采集,即MC口系統(tǒng)將信令數(shù)據(jù)轉(zhuǎn)為TXT文本,每5分鐘接口生成一次接口文件,FTP到接口機(jī)上。2、手機(jī)短信日志:通過文件接口聯(lián)機(jī)采集。短信平臺從短信發(fā)送日志中生成接口數(shù)據(jù)文件,FTP到接口機(jī)上。定時(shí)數(shù)據(jù)采集〔一采集內(nèi)容1、詳單數(shù)據(jù):移動網(wǎng)語音詳單、流量詳單、短信詳單。語音詳單采集數(shù)據(jù)內(nèi)容包括電話號碼、主/被叫號碼、呼叫時(shí)間、呼叫時(shí)長、長途類型、漫游類型、基站LAC和ID。流量詳單采集數(shù)據(jù)內(nèi)容包括電話號碼、通信時(shí)間、通信時(shí)長、上行流量、下行流量、訪問URL地址、基站LAC和ID。短信詳單采集數(shù)據(jù)內(nèi)容包括電話號碼、發(fā)送時(shí)間、接收號碼。2、用戶信息:包括用戶基本信息,用戶標(biāo)簽。用戶基本信息有用戶號碼、姓名、證件號碼、聯(lián)系地址、性別、年齡。用戶標(biāo)簽包括用戶業(yè)務(wù)標(biāo)簽和互聯(lián)網(wǎng)標(biāo)簽。網(wǎng)頁數(shù)據(jù)〔非結(jié)構(gòu)化數(shù)據(jù)采集網(wǎng)頁數(shù)據(jù)通過網(wǎng)絡(luò)爬蟲采集數(shù)據(jù)。網(wǎng)絡(luò)爬蟲〔又被稱為網(wǎng)頁蜘蛛,網(wǎng)絡(luò)機(jī)器人,是一種按照一定的規(guī)則,自動的抓取萬維網(wǎng)信息的程序或者腳本。爬蟲系統(tǒng)有四個(gè)存儲結(jié)構(gòu):待抓取URL庫、原始網(wǎng)頁庫、鏈出URL庫和xml庫。這四個(gè)存儲結(jié)構(gòu)都是存在于Hadoop的分布式文件系統(tǒng)以HDFS為載體?!?待抓取URL庫:存放當(dāng)前層需要抓取的URL集合,實(shí)際上就是一個(gè)記錄著待抓取URL的文本文件,其中URL之間以"\n"為分隔符。在第一層抓取之前,這個(gè)文本文件是用戶提交的URL種子集合作為爬蟲進(jìn)入互聯(lián)網(wǎng)的入口。<2>原始網(wǎng)頁庫:存放每一層抓取下來的原始網(wǎng)頁。這里的網(wǎng)頁是未經(jīng)過任何處理的HTML信息,其存放形式是key值為URL,value值為URL對應(yīng)的網(wǎng)頁HTML信息。<3>鏈出URL庫:存放每一層解析出來的鏈出鏈接,其存放形式是key值為URL,value值為URL對應(yīng)網(wǎng)頁包含的鏈出鏈接集合。<4>xml庫:存放所有層抓取下來的網(wǎng)頁經(jīng)過轉(zhuǎn)化的XML信息。這里的轉(zhuǎn)化相當(dāng)于對HTML信息的預(yù)處理。其存放形式是key值為URL,value值為URL對應(yīng)的網(wǎng)頁的XML信息。實(shí)時(shí)數(shù)據(jù)加工和處理Spark平臺實(shí)時(shí)計(jì)算平臺采用Spark組件替換Hadoop的MapReduce,數(shù)據(jù)存在HDFS上,計(jì)算時(shí)讀入內(nèi)存進(jìn)行運(yùn)算,運(yùn)算結(jié)果輸出至HDFS?!?信令數(shù)據(jù),在HDFS上存儲數(shù)據(jù)包含手機(jī)號碼、基站LAC、基站CELLID、觸發(fā)時(shí)間字段。存儲方式是文本,壓縮存儲?!?短信日志,在HDFS上存儲數(shù)據(jù)包含手機(jī)號碼、發(fā)送時(shí)間、被叫號碼、短信內(nèi)容字段。存儲方式是文本,壓縮存儲。SparkStreaming實(shí)時(shí)數(shù)據(jù)加工Sparkstreaming是構(gòu)建在spark上的實(shí)時(shí)流計(jì)算框架,擴(kuò)展了spark流式大數(shù)據(jù)處理能力。本項(xiàng)目中Sparkstreaming具體完成工作如下:〔一基站下用戶信息查詢〔人數(shù)統(tǒng)計(jì)、號碼明細(xì)提取。1、基站與用戶對應(yīng)關(guān)系口徑:當(dāng)用戶與該基站發(fā)生信令交互時(shí),用戶在此時(shí)歸屬該基站。如用戶未與其他基站發(fā)生信令交互,則一直歸屬該基站,直到用戶與另一個(gè)基站發(fā)生信令交互后,才歸入另一個(gè)基站。2、基站用戶統(tǒng)計(jì)口徑:先統(tǒng)計(jì)歸屬該基站的聯(lián)通用戶,并根據(jù)用戶來源地的聯(lián)通市場份額占比,反推出該位置的全量人數(shù)。計(jì)算所涉及的數(shù)據(jù)字段:用戶號碼、用戶歸屬地市、基站LAC和ID、基站經(jīng)緯度、全國各地市聯(lián)通市場份額占比?!捕柎a當(dāng)前位置和號碼今日軌跡。1、號碼當(dāng)前位置計(jì)算口徑:按該號碼最近一次交互的基站位置作為號碼當(dāng)前位置。2、號碼今日軌跡計(jì)算口徑:從凌晨0時(shí)起,根據(jù)信令數(shù)據(jù),按基站與用戶對應(yīng)關(guān)系口徑記錄號碼與基站發(fā)生交互的變化順序,號碼與基站對應(yīng)關(guān)系不重復(fù)記錄。號碼軌跡記錄字段包括手機(jī)號碼、日期、位置經(jīng)緯度、進(jìn)入時(shí)間、退出時(shí)間、停留時(shí)間?!踩齾^(qū)域熱力〔人流聚集分布。1、區(qū)域熱力計(jì)算。按5分鐘一次時(shí)間間隔,根據(jù)基站用戶統(tǒng)計(jì)口徑,匯總統(tǒng)計(jì)區(qū)域內(nèi)基站用戶數(shù),形成人流聚集區(qū)域熱力圖。2、區(qū)域熱力動態(tài)計(jì)算。根據(jù)基站人流量變化趨勢,計(jì)算區(qū)域內(nèi)人員流向及動態(tài),形成人員數(shù)量動態(tài)變化的預(yù)判,并通過區(qū)域熱力圖告警實(shí)現(xiàn)。例如有100人正向區(qū)域中心聚集。計(jì)算所涉及的數(shù)據(jù)字段:用戶號碼、日期及時(shí)間、基站LAC和ID、基站經(jīng)緯度?!菜膶?shí)時(shí)告警。1、號碼位置告警。已經(jīng)標(biāo)記的號碼進(jìn)入或離開限定區(qū)域,系統(tǒng)實(shí)時(shí)告警。進(jìn)入告警時(shí)間在標(biāo)記的號碼進(jìn)入限定區(qū)域內(nèi)的第一個(gè)基站范圍時(shí)產(chǎn)生。離開告警時(shí)間在在標(biāo)記的號碼進(jìn)入限定區(qū)域外的第一個(gè)基站范圍時(shí)產(chǎn)生。計(jì)算所涉及的數(shù)據(jù)字段:用戶號碼、日期及時(shí)間、基站LAC和ID、基站經(jīng)緯度、限定區(qū)域經(jīng)緯度。定時(shí)數(shù)據(jù)存儲及加工數(shù)據(jù)存儲策略根據(jù)數(shù)據(jù)重要性、訪問頻率、訪問性能要求、數(shù)據(jù)量等指標(biāo)對HDFS、Hive、HBase的數(shù)據(jù)進(jìn)行分類,并制定相應(yīng)的存儲策略。考慮本項(xiàng)目的實(shí)際情況,主要從數(shù)據(jù)周期、數(shù)據(jù)訪問情況、數(shù)據(jù)粒度等幾個(gè)方面考慮數(shù)據(jù)分級存儲策略,其中數(shù)據(jù)周期作為管理的主要關(guān)注點(diǎn)。在線級別采集來源數(shù)據(jù)詳單明細(xì)數(shù)據(jù)分析及統(tǒng)計(jì)數(shù)據(jù)匯總數(shù)據(jù)<DM>日月日月日月日月在線區(qū)1個(gè)月2個(gè)月2個(gè)月6個(gè)月6個(gè)月12個(gè)月長期近線區(qū)3-6個(gè)月7-12個(gè)月6-12個(gè)月1-2年歸檔區(qū)1-5年2-5年銷毀大于5年大于五年在線存儲:在線存儲又稱工作級的存儲,存儲設(shè)備和所存儲的數(shù)據(jù)時(shí)刻保持隨時(shí)響應(yīng)狀態(tài),可以實(shí)時(shí)讀寫的,可滿足計(jì)算平臺對數(shù)據(jù)訪問的速度要求。近線存儲:近線存儲定位于在線存儲和離線存儲之間的應(yīng)用,對性能要求相對來說并不高,但又提供相對較好的讀取性能。歸檔存儲:數(shù)據(jù)歸檔是將不再經(jīng)常使用的數(shù)據(jù)移到一個(gè)單獨(dú)的存儲設(shè)備來進(jìn)行長期保存的過程,對涉及的數(shù)據(jù)進(jìn)行離線存儲,以備非常規(guī)查詢等。Hadoop存儲與加工基于Hadoop+Hbase的大數(shù)據(jù)平臺,可實(shí)現(xiàn)海量數(shù)據(jù)存儲和高速數(shù)據(jù)查詢。通信行為數(shù)據(jù)在XX省內(nèi)聯(lián)通用戶〔包括XX省本地用戶和外省漫入用戶產(chǎn)生的通信行為數(shù)據(jù),即O域預(yù)處理詳單。1、語音詳單數(shù)據(jù)。字段包括電話號碼、主/被叫號碼、呼叫時(shí)間、呼叫時(shí)長、長途類型、漫游類型、基站LAC和ID。數(shù)據(jù)量1.5GB/天。2、流量詳單數(shù)據(jù)。字段包括電話號碼、通信時(shí)間、通信時(shí)長、上行流量、下行流量、訪問URL地址、基站LAC和ID。數(shù)據(jù)量3GB/天。3、短信詳單數(shù)據(jù)。字段包括電話號碼、發(fā)送時(shí)間、接收號碼。數(shù)據(jù)量0.5GB/天。通信內(nèi)容數(shù)據(jù)1、短信日志。手機(jī)短信平臺發(fā)送日志包含手機(jī)號碼、發(fā)送時(shí)間、被叫號碼、短信內(nèi)容字段。數(shù)據(jù)量1GB/天。2、上網(wǎng)URL關(guān)鍵詞。數(shù)據(jù)來源O域流量詳單,字段包括電話號碼、通信時(shí)間、訪問URL地址、基站LAC和ID、URL關(guān)鍵詞。數(shù)據(jù)量3GB/天。3、網(wǎng)頁內(nèi)容識別。數(shù)據(jù)來源對互聯(lián)網(wǎng)網(wǎng)頁的爬蟲抓取,字段包括網(wǎng)頁URL、關(guān)鍵詞。數(shù)據(jù)量10GB/天。號碼軌跡數(shù)據(jù)1、手機(jī)信令〔MC口數(shù)據(jù)。字段包括電話號碼、通信時(shí)間、基站LAC和ID,數(shù)據(jù)量15GB/天。2、號碼軌跡數(shù)據(jù)。從手機(jī)信令數(shù)據(jù)加工得到。字段包括電話號碼、到達(dá)時(shí)間、離開時(shí)間、位置經(jīng)緯度、停留時(shí)間。數(shù)據(jù)量1GB/天。用戶特征數(shù)據(jù)1、基本信息。字段包括用戶姓名、開戶地、證件號、證件地址、性別、年齡、業(yè)務(wù)類型、品牌套餐等信息。數(shù)據(jù)量1GB/天。2、上網(wǎng)行為特征。數(shù)據(jù)內(nèi)容包括上網(wǎng)流量、主要的上網(wǎng)地點(diǎn)、上網(wǎng)時(shí)間段、喜歡訪問的網(wǎng)站排名。數(shù)據(jù)量1GB/天。3、活動軌跡特征。數(shù)據(jù)內(nèi)容包括主要的活動地點(diǎn)〔經(jīng)緯度、活動時(shí)間段;從早到晚的主要活動軌跡。數(shù)據(jù)量1GB/天。4、朋友圈。手機(jī)號碼的交際圈,從長期〔如三個(gè)月的語音詳單中對手機(jī)號碼的主被號碼分析,按叫呼叫時(shí)長和次數(shù)排序,確定常用聯(lián)系人清單,即朋友圈。數(shù)據(jù)量1GB/天。5、標(biāo)記信息。主動標(biāo)記,通過用關(guān)鍵詞庫<涉案、涉毒、涉恐>過濾上網(wǎng)流量詳單和短信日志內(nèi)容,主動匹配出發(fā)送或使用過相關(guān)關(guān)鍵詞的手機(jī)號碼,并給予標(biāo)記。被動標(biāo)記,對涉穩(wěn)人員、各類犯罪前科人員手機(jī)號碼打標(biāo)記。數(shù)據(jù)小于1GB/天。分析模型數(shù)據(jù)1、交際圈分析模型。交際圈用于機(jī)主關(guān)系分析,手機(jī)號碼之間的交際緊密程度和交際對象,如下圖:交際圈分析按月從語音詳單中對手機(jī)號碼的主被叫情況統(tǒng)計(jì)分析,無論主被叫都記為一次接觸,并按接觸進(jìn)行排序。數(shù)據(jù)字段:手機(jī)號碼、接觸號碼、接觸次數(shù)、接觸次數(shù)占比。數(shù)據(jù)量約2GB/月。2、呼叫指紋分析模型。呼叫指紋分析模型用于關(guān)系人分析,即分析出老手機(jī)號碼用戶使用的新手機(jī)號碼。呼叫指紋分析通過目標(biāo)號碼的語音呼叫范圍特征、上網(wǎng)行為特征判斷相似的目標(biāo)號碼。〔1語音呼叫范圍特征:主叫號碼排序被叫號碼排序〔2上網(wǎng)行為特征:訪問網(wǎng)站排序使用APP排序〔3短信行為特征:主叫號碼排序被叫號碼排序數(shù)據(jù)字段:手機(jī)號碼、關(guān)聯(lián)手機(jī)號碼、匹配度。數(shù)據(jù)字段:數(shù)據(jù)量約2GB/月。3、號碼碰撞分析模型。號碼碰撞分析用于個(gè)案分析,根據(jù)號碼活動軌跡,分析限定時(shí)段的幾個(gè)區(qū)域內(nèi)或某個(gè)區(qū)域多個(gè)時(shí)段內(nèi),找出同時(shí)出現(xiàn)的手機(jī)號碼頻率??膳渲脳l件按出現(xiàn)次數(shù)進(jìn)行過濾。數(shù)據(jù)字段:區(qū)域、日期時(shí)段,手機(jī)號碼,出現(xiàn)次數(shù)。數(shù)據(jù)量約1GB/月。4、外來人員分析模型。外來人員分析模型服務(wù)治安管理。對進(jìn)入XX省停留達(dá)30日的外省手機(jī)號碼進(jìn)行標(biāo)記為外來人員。將用戶信息推送到派出所開展暫住人口登記核查。停留地市按30天內(nèi)手機(jī)號碼停留最多的地市進(jìn)行計(jì)算。數(shù)據(jù)字段:手機(jī)號碼、來源省份、停留地市。數(shù)據(jù)量約1GB/月。5、網(wǎng)上異動分析模型。網(wǎng)上異動分析用于涉穩(wěn)預(yù)警。通過對目標(biāo)號碼的流量大小和通話次數(shù)和范圍變化,判斷異動行為。〔1語音呼叫異動條件:主叫范圍突增300%;被叫范圍突增300%;主叫時(shí)長突增300%;被叫時(shí)長突增300%;〔2上網(wǎng)行為特征:訪問特定網(wǎng)站流量突增;使用特定APP流量突增;〔3短信行為特征:主叫范圍突增300%;被叫范圍突增300%;數(shù)據(jù)字段:異動手機(jī)號碼、異動時(shí)間、異動原因。數(shù)據(jù)量約1GB/月。統(tǒng)計(jì)匯總數(shù)據(jù)1、關(guān)鍵詞熱力數(shù)據(jù)。1從手機(jī)上網(wǎng)內(nèi)容URL中的關(guān)鍵詞進(jìn)行匯總計(jì)算。數(shù)據(jù)字段:日期、關(guān)鍵詞、手機(jī)號碼數(shù)據(jù)量。手機(jī)號碼數(shù)據(jù)量按聯(lián)通市場占比進(jìn)行推算,得出全量人數(shù)。數(shù)據(jù)量約1GB/月。2設(shè)定關(guān)鍵詞庫,對微博等網(wǎng)頁爬取數(shù)據(jù),進(jìn)行分詞統(tǒng)計(jì),獲取對政策的評價(jià)。數(shù)據(jù)字段:日期、關(guān)鍵詞、網(wǎng)上發(fā)布數(shù)量。數(shù)據(jù)量約30GB/月。2、區(qū)域熱力數(shù)據(jù)。通過手機(jī)號碼、基站ID和經(jīng)緯度,計(jì)算出區(qū)域內(nèi)的號碼個(gè)數(shù)。通過基站熱力圖反映區(qū)域內(nèi)人流熱度。計(jì)算頻率為每5分鐘按基站用戶統(tǒng)計(jì)口徑,對全省基站進(jìn)行一次匯總統(tǒng)計(jì)。數(shù)據(jù)字段:日期、時(shí)間、位置經(jīng)緯度、人數(shù)。人數(shù)按聯(lián)通市場占比進(jìn)行推算,得出全量人數(shù)。數(shù)據(jù)量約10GB/月。應(yīng)用模型數(shù)據(jù)1、標(biāo)記計(jì)算模型。通過用關(guān)鍵詞庫<涉案、涉毒、涉恐>過濾上網(wǎng)流量詳單和短信日志內(nèi)容,主動匹配出發(fā)送或使用過相關(guān)關(guān)鍵詞的手機(jī)號碼,并給予標(biāo)記。數(shù)據(jù)字段:異動手機(jī)號碼、異動時(shí)間、異動原因。數(shù)據(jù)量約1GB/月。Oracle數(shù)據(jù)展現(xiàn)告警信息及分發(fā)1、標(biāo)記管理數(shù)據(jù)。1對特定人員進(jìn)行標(biāo)記,給手機(jī)號碼打上標(biāo)記〔涉恐、涉穩(wěn)等。數(shù)據(jù)字段:手機(jī)號碼、標(biāo)記信息、標(biāo)記時(shí)間。2對特定區(qū)域進(jìn)行標(biāo)記,按經(jīng)緯度給劃定區(qū)域打上黨政機(jī)關(guān)、加油站等標(biāo)記。數(shù)據(jù)字段:區(qū)域、標(biāo)記信息、標(biāo)記時(shí)間。3對特定時(shí)間進(jìn)行標(biāo)記,按日期打上兩會等標(biāo)記,按時(shí)間打上上下班高峰等標(biāo)記。數(shù)據(jù)字段:日期、標(biāo)記信息、標(biāo)記時(shí)間。數(shù)據(jù)字段:時(shí)間、標(biāo)記信息、標(biāo)記時(shí)間。2、號碼位置告警數(shù)據(jù)。1當(dāng)標(biāo)記的特定號碼進(jìn)入特定區(qū)域后,系統(tǒng)自動報(bào)警。數(shù)據(jù)字段:日期和時(shí)間、告警號碼、告警位置、告警方式〔進(jìn)入特定區(qū)域。2當(dāng)標(biāo)記的特定號碼離開特定區(qū)域后,系統(tǒng)自動通知。數(shù)據(jù)字段:日期和時(shí)間、告警號碼、告警位置、告警方式〔離開特定區(qū)域。統(tǒng)計(jì)分析結(jié)果統(tǒng)計(jì)分析結(jié)果數(shù)據(jù)是指在Hadoop平臺加工完成的分析模型數(shù)據(jù)、統(tǒng)計(jì)匯總數(shù)據(jù)、應(yīng)用模型數(shù)據(jù)等。統(tǒng)計(jì)分析結(jié)果數(shù)據(jù)直接用于界面展現(xiàn)。配置與管理1、關(guān)鍵詞庫配置數(shù)據(jù)針對涉案、涉毒、涉恐、涉穩(wěn)等應(yīng)用方向,配置和管理關(guān)鍵詞及分類信息。2、手機(jī)號碼標(biāo)記管理數(shù)據(jù)〔1主動標(biāo)記的手機(jī)號碼數(shù)據(jù)。即系統(tǒng)通過用關(guān)鍵詞庫<涉案、涉毒、涉恐>過濾上網(wǎng)流量詳單和短信日志內(nèi)容,自動匹配出發(fā)送或使用過相關(guān)關(guān)鍵詞的手機(jī)號碼,并給予標(biāo)記?!?被動標(biāo)記的手機(jī)號碼數(shù)據(jù)。即民警對涉穩(wěn)人員、各類犯罪前科人員手機(jī)號碼打標(biāo)記。應(yīng)用功能開發(fā)聯(lián)通"大數(shù)據(jù)"公安情報(bào)應(yīng)用平臺功能包括數(shù)據(jù)查詢、數(shù)據(jù)推送、監(jiān)控告警、統(tǒng)計(jì)分析、數(shù)據(jù)分析五個(gè)模塊。數(shù)據(jù)查詢號碼位置查詢[業(yè)務(wù)功能]1、劃定一個(gè)位置〔區(qū)域,查詢其中電話號碼。2、手機(jī)號碼查詢實(shí)時(shí)位置。[功能設(shè)計(jì)]1、通過手機(jī)實(shí)時(shí)信令數(shù)據(jù)中手機(jī)號碼、基站ID并關(guān)聯(lián)基站經(jīng)緯度,計(jì)算出區(qū)域內(nèi)的號碼個(gè)數(shù)。2、輸入手機(jī)號碼,通過手機(jī)實(shí)時(shí)信令數(shù)據(jù)手機(jī)號碼、基站ID并關(guān)聯(lián)基站經(jīng)緯度,找出手機(jī)號碼的最近一次基站交互記錄,將基站位置作為手機(jī)號碼的位置。[應(yīng)用場景]1、基礎(chǔ)功能〔電子地圖。查詢特定號碼位置。2、綜合分析〔個(gè)案分析。劃定區(qū)域查詢手機(jī)號和有關(guān)信息。3、服務(wù)指揮調(diào)度。警員手機(jī)號的定位。詳單查詢模塊[業(yè)務(wù)功能]1、根據(jù)電話號碼調(diào)取用戶通信詳單;2、對設(shè)定的敏感詞、網(wǎng)頁、APP進(jìn)行過濾,找出相關(guān)號碼。[功能設(shè)計(jì)]1、通過手機(jī)號碼調(diào)取詳單??捎脝蝹€(gè)號碼或多個(gè)號碼批量查詢;查詢結(jié)果可以導(dǎo)出。語音詳單顯示電話號碼、主/被叫號碼、呼叫時(shí)間、呼叫時(shí)長。流量詳單顯示電話號碼、通信時(shí)間、通信時(shí)長、上行流量、下行流量。2、根據(jù)已經(jīng)設(shè)置的關(guān)鍵詞庫,上網(wǎng)詳單對URL中的關(guān)鍵詞進(jìn)行敏感詞過濾,根據(jù)網(wǎng)頁URL庫和APP庫進(jìn)行特點(diǎn)網(wǎng)頁、小眾APP過濾。[應(yīng)用場景]1、基礎(chǔ)功能<電子地圖>。話單調(diào)取。2、預(yù)警分析<涉恐類>。對手機(jī)短信和上網(wǎng)數(shù)據(jù)涉恐敏感詞過濾。3、綜合分析<案件偵查類>。上網(wǎng)、短信、社交軟件涉毒品、涉案件分析。4、綜合分析<個(gè)案分析>。檢索異常人群關(guān)鍵詞檢索。5、戰(zhàn)略分析。全國話單調(diào)取服務(wù)。號碼軌跡查詢模塊[業(yè)務(wù)功能]1、查詢手機(jī)號碼的位置軌跡;[功能設(shè)計(jì)]通過手機(jī)信令和基站數(shù)據(jù),按天繪制手機(jī)號碼的活動位置軌跡。以一次基站切換表示一次位置移動,在電子地圖上顯示。號碼軌跡顯示內(nèi)容包括手機(jī)號碼、日期、位置經(jīng)緯度、進(jìn)入時(shí)間、退出時(shí)間、停留時(shí)間。[應(yīng)用場景]1、基礎(chǔ)功能<人員布控>,顯示人員活動軌跡,。2、預(yù)警分析<涉恐類>,特定號碼活動軌跡展示。3、戰(zhàn)略分析,群體"遷徙"分析?;拘畔⒉樵僛業(yè)務(wù)功能]1、展現(xiàn)基站位置圖層,并可導(dǎo)出和進(jìn)行疊加;[功能設(shè)計(jì)]基站數(shù)據(jù)〔基站名稱、經(jīng)緯度、基站編號在地圖上展現(xiàn)。點(diǎn)擊可顯示具體基站編號和名稱。[應(yīng)用場景]基礎(chǔ)功能<電子地圖>,基站地圖圖層。機(jī)主信息查詢模塊[業(yè)務(wù)功能]1、單個(gè)或批量手機(jī)號碼查詢用戶信息;2、查詢用戶上網(wǎng)行為習(xí)慣、交際圈、關(guān)系人等。[功能設(shè)計(jì)]1、通過輸入手機(jī)號碼〔單個(gè)或多個(gè)查詢用戶資料,包括用戶姓名、證件號、證件地址、性別、年齡等信息,并可擴(kuò)展查詢用戶特征刻畫數(shù)據(jù),如上網(wǎng)行為習(xí)慣、交際圈、關(guān)系人等。例如交際圈顯示與目標(biāo)號碼有通信關(guān)系人際圈,并標(biāo)記出相互之間的聯(lián)系頻度,如下圖。[應(yīng)用場景]基礎(chǔ)功能<電子地圖>,電話號碼用戶信息的批量查詢。綜合分析<案件偵查類>,針對犯罪嫌疑人的數(shù)據(jù)分析。數(shù)據(jù)推送用戶基本信息推送[業(yè)務(wù)功能]1、通過數(shù)據(jù)接口,定時(shí)向公安內(nèi)網(wǎng)提供用戶手機(jī)號、用戶基本信息;[功能設(shè)計(jì)]1從數(shù)據(jù)平臺獲取用戶號碼、姓名、證件號、地址、性別、年齡等信息,生成接口文件并推送至接口機(jī)。2接口方式采用FTP方式,使用FTP服務(wù)器,主動定時(shí)生成接口文件,由公安數(shù)據(jù)使用者下載。3推送頻率,每天1次全量數(shù)據(jù)。[應(yīng)用場景]綜合分析<個(gè)案分析>,向公安內(nèi)網(wǎng)提供用戶手機(jī)號、用戶基本信息。手機(jī)標(biāo)記信息推送[業(yè)務(wù)功能]1、發(fā)送手機(jī)標(biāo)記信息〔使用敏感軟件、發(fā)送過涉恐關(guān)鍵詞等短信、訪問涉恐音視頻等;[功能設(shè)計(jì)]1當(dāng)大數(shù)據(jù)平臺進(jìn)行用戶手機(jī)標(biāo)記計(jì)算之后,從大數(shù)據(jù)平臺獲取用戶手機(jī)標(biāo)記信息,生成接口文件并推送至接口機(jī)。推送的手機(jī)標(biāo)記信息包括手機(jī)號碼、標(biāo)記信息、標(biāo)記時(shí)間。2接口方式采用FTP方式,使用FTP服務(wù)器,主動定時(shí)生成接口文件,由公安數(shù)據(jù)使用者下載。3推送頻率,每天1次全量數(shù)據(jù)。[應(yīng)用場景]綜合分析<個(gè)案分析>,向公安內(nèi)網(wǎng)提供用戶手機(jī)號、用戶基本信息。數(shù)據(jù)接口[業(yè)務(wù)功能]1、使用FTP服務(wù)器,主動定時(shí)生成接口文件,由公安數(shù)據(jù)使用者下載;[功能設(shè)計(jì)]由FTP文件接口機(jī)實(shí)現(xiàn)數(shù)據(jù)文件推送。[應(yīng)用場景]綜合分析<個(gè)案分析>。監(jiān)控告警標(biāo)記管理[業(yè)務(wù)功能]1、對特定人員進(jìn)行標(biāo)記,給手機(jī)號碼打上標(biāo)記〔涉恐、涉穩(wěn)等;2、對特定區(qū)域進(jìn)行標(biāo)記,按經(jīng)緯度給劃定區(qū)域打上黨政機(jī)關(guān)、加油站等標(biāo)記;3、對特定時(shí)間進(jìn)行標(biāo)記,按日期打上兩會等標(biāo)記,按時(shí)間打上上下班高峰等標(biāo)記;[功能設(shè)計(jì)]對標(biāo)記數(shù)據(jù)進(jìn)行維護(hù)。手機(jī)號碼標(biāo)記、特定區(qū)域標(biāo)記、日期和時(shí)間標(biāo)記,由公安民警通過系統(tǒng)界面進(jìn)行配置,數(shù)據(jù)實(shí)時(shí)生效。[應(yīng)用場景]基礎(chǔ)功能<人員布控>預(yù)警分析<涉恐類>預(yù)警分析<涉穩(wěn)類>綜合分析<案件偵查類>綜合分析<個(gè)案分析>號碼位置告警[業(yè)務(wù)功能]1、當(dāng)標(biāo)記的特定號碼進(jìn)入特定區(qū)域后,系統(tǒng)自動報(bào)警;2、當(dāng)標(biāo)記的特定號碼離開特定區(qū)域后,系統(tǒng)自動通知;[功能設(shè)計(jì)]1手機(jī)信令和基站數(shù)據(jù)實(shí)時(shí)計(jì)算,通過手機(jī)號碼、基站ID和經(jīng)緯度,實(shí)時(shí)得出號碼經(jīng)緯度。2與標(biāo)記信息進(jìn)行比對后告警。告警內(nèi)容包括告警時(shí)間、告警區(qū)域/位置、手機(jī)號碼、告警內(nèi)容〔進(jìn)入/離開。[應(yīng)用場景]基礎(chǔ)功能<人員布控>,區(qū)域布控。預(yù)警分析<涉恐類>,設(shè)定關(guān)注〔敏感區(qū)域號碼入黔來對某區(qū)域的人員進(jìn)行關(guān)注。預(yù)警分析<涉穩(wěn)類>,涉穩(wěn)人員預(yù)警。綜合分析<案件偵查類>,前科人員異動分析預(yù)警。綜合分析<個(gè)案分析>,目標(biāo)號碼進(jìn)出固定區(qū)域告警。統(tǒng)計(jì)分析區(qū)域熱力[業(yè)務(wù)功能]1、信號熱度,統(tǒng)計(jì)一個(gè)區(qū)域內(nèi)的人數(shù);2、區(qū)域內(nèi)的號碼查詢;[功能設(shè)計(jì)]1手機(jī)信令和基站數(shù)據(jù)實(shí)時(shí)計(jì)算。通過手機(jī)號碼、基站ID和經(jīng)緯度,計(jì)算出區(qū)域內(nèi)的號碼個(gè)數(shù)。通過基站熱力圖反映區(qū)域內(nèi)人流熱度。顯示內(nèi)容為區(qū)域內(nèi)的人數(shù)。2通過區(qū)域內(nèi)的基站查找在基站下的號碼明細(xì)。點(diǎn)擊基站顯示當(dāng)前在這個(gè)基站下的號碼明細(xì)。[應(yīng)用場景]預(yù)警分析<涉穩(wěn)類>,群體性事件處置。服務(wù)治安管理,信號熱度分布。關(guān)鍵詞熱力[業(yè)務(wù)功能]1、長期上網(wǎng)行為分析,對網(wǎng)上搜索的景區(qū)、餐飲、購物、交通路線等進(jìn)行分析匯總,提供數(shù)據(jù)參考;2、政策出臺前的網(wǎng)上信息分析,對網(wǎng)上針對該政策的反饋進(jìn)行分析,提供數(shù)據(jù)參考;[功能設(shè)計(jì)]1從手機(jī)上網(wǎng)記錄URL中的關(guān)鍵詞進(jìn)行匯總計(jì)算。能夠?qū)﹃P(guān)鍵詞進(jìn)行分類,例如按地州市進(jìn)行分類,顯示一個(gè)地州市的關(guān)鍵詞排行,如下圖,也可以按XX省匯總顯示。2設(shè)定關(guān)鍵詞庫,對微博等網(wǎng)頁爬取數(shù)據(jù),進(jìn)行分詞統(tǒng)計(jì),獲取對政策的評價(jià)。[應(yīng)用場景]戰(zhàn)略分析,長期上網(wǎng)行為分析、網(wǎng)上信息分析。數(shù)據(jù)分析號碼碰撞分析[業(yè)務(wù)功能]1、幾個(gè)區(qū)域,某個(gè)區(qū)域多個(gè)時(shí)段的號碼進(jìn)行碰撞分析,得出目標(biāo)號碼;[功能設(shè)計(jì)]1通過手機(jī)信令進(jìn)行計(jì)算,碰撞出限定區(qū)域或時(shí)段內(nèi)的高頻出的號碼信息。能夠分析限定時(shí)段的幾個(gè)區(qū)域內(nèi)或某個(gè)區(qū)域多個(gè)時(shí)段內(nèi),找出同時(shí)出現(xiàn)的手機(jī)號碼頻率。顯示的內(nèi)容有區(qū)域、日期時(shí)段,手機(jī)號碼,出現(xiàn)次數(shù)。2可配置條件按出現(xiàn)次數(shù)進(jìn)行過濾。[應(yīng)用場景]綜合分析〔個(gè)案分析,固定區(qū)域固定時(shí)段查詢目標(biāo)號碼。聯(lián)系人分析[業(yè)務(wù)功能]1、分析出目標(biāo)號碼的常用聯(lián)系人;[功能設(shè)計(jì)]從手機(jī)語音詳單,找出目標(biāo)號碼的主被號碼按叫呼叫時(shí)長和次數(shù)排序,確定常用聯(lián)系人。常用聯(lián)系人界面展示前8位用戶號碼及接觸次數(shù)占比,前1-3位距離最近;前4-6位距離適中;后7-8位距離最遠(yuǎn),如下圖:[應(yīng)用場景]綜合分析〔案件偵查類,在逃人員及其關(guān)系人的數(shù)據(jù)分析。綜合分析〔個(gè)案分析,生成朋友圈信息。關(guān)系人分析[業(yè)務(wù)功能]1、分析出目標(biāo)號碼的新手機(jī)號碼;[功能設(shè)計(jì)]1、通過目標(biāo)號碼的語音呼叫范圍特征、上網(wǎng)行為特征判斷相似的目標(biāo)號碼,由數(shù)據(jù)分析模型加工計(jì)算。2、顯示新號碼與舊號碼的匹配程度〔百分比。[應(yīng)用場景]綜合分析〔個(gè)案分析,分析出目標(biāo)人員使用的新手機(jī)號碼。外來人員分析[業(yè)務(wù)功能]1、找出進(jìn)入我省停留達(dá)30日的外省人員;[功能設(shè)計(jì)]通過手機(jī)信令進(jìn)行計(jì)算,找出停留30天的外省號碼。界面顯示外省人員手機(jī)號碼、來源省份、停留地市。[應(yīng)用場景]服務(wù)治安管理,外來人員信息獲取。網(wǎng)上異動分析[業(yè)務(wù)功能]1、對涉穩(wěn)人員手機(jī)號碼打標(biāo)簽,對串聯(lián)的行為進(jìn)行分析和預(yù)警;[功能設(shè)計(jì)]通過對目標(biāo)號碼的流量大小和通話次數(shù)和范圍變化,判斷異動行為。由數(shù)據(jù)分析模型加工計(jì)算,界面展現(xiàn)分析結(jié)果。[應(yīng)用場景]預(yù)警分析〔涉穩(wěn)類,網(wǎng)上串聯(lián)異動分析。項(xiàng)目實(shí)施人員組織安排按照項(xiàng)目管理方法,采取自上而下,統(tǒng)一組織,分期實(shí)施,嚴(yán)格劃分項(xiàng)目系統(tǒng)階段目標(biāo),確保如期完成,并保證前后系統(tǒng)無縫銜接,達(dá)到系統(tǒng)總體功能一致。在有關(guān)負(fù)責(zé)人的領(lǐng)導(dǎo)下,成立項(xiàng)目領(lǐng)導(dǎo)小組,直接指揮協(xié)調(diào)。項(xiàng)目組織機(jī)構(gòu)可用下圖表示:〔一項(xiàng)目領(lǐng)導(dǎo)小組項(xiàng)目領(lǐng)導(dǎo)小組為項(xiàng)目實(shí)施的最高決策機(jī)構(gòu)。職責(zé):批準(zhǔn)該系統(tǒng)總體設(shè)計(jì)方案和實(shí)施計(jì)劃,決定項(xiàng)目重大投資決策,認(rèn)定系統(tǒng)實(shí)施中的重要業(yè)務(wù)范圍和技術(shù)標(biāo)準(zhǔn),協(xié)調(diào)工程實(shí)施過程中XX省公安廳和承建方之間的關(guān)系。運(yùn)作方式:通過定期和不定期地協(xié)調(diào)會的方式,即在項(xiàng)目進(jìn)展的每個(gè)階段定期召開協(xié)調(diào)會,研究協(xié)調(diào)下一階段的工作和在項(xiàng)目實(shí)施過程中遇到要協(xié)調(diào)問題時(shí)召開領(lǐng)導(dǎo)成員參加的協(xié)調(diào)會,產(chǎn)生協(xié)調(diào)會紀(jì)要,用紀(jì)要來指導(dǎo)項(xiàng)目建設(shè)。組成:項(xiàng)目領(lǐng)導(dǎo)小組由XX省公安廳〔或其領(lǐng)導(dǎo)機(jī)關(guān)人員與承建方人員共同組成?!捕?xiàng)目實(shí)施小組職責(zé):按照項(xiàng)目設(shè)計(jì)指標(biāo)、進(jìn)度安排和協(xié)調(diào)會紀(jì)要的要求,按期保質(zhì)地完成項(xiàng)目建設(shè)。運(yùn)作方式:實(shí)行項(xiàng)目經(jīng)理負(fù)責(zé)制,項(xiàng)目經(jīng)理技術(shù)要求和進(jìn)度制定各階段的項(xiàng)目實(shí)施計(jì)劃和相應(yīng)的財(cái)務(wù)管理,監(jiān)督項(xiàng)目各部分的實(shí)施。組成:由承建方及有關(guān)的產(chǎn)品供貨商組成,下劃三個(gè)功能小組:即專家組、開發(fā)組、測試組。1、專家組職責(zé):提供專業(yè)咨詢意見,協(xié)助總體設(shè)計(jì)。人員組成:大數(shù)據(jù)技術(shù)專家、熟悉公安業(yè)務(wù)專家、對軟件開發(fā)工程有豐富管理工作經(jīng)驗(yàn)的專家。2、軟件開發(fā)組職責(zé):具體承擔(dān)信息系統(tǒng)的開發(fā)任務(wù)。人員組成:數(shù)據(jù)開發(fā)員、數(shù)據(jù)分析員、程序員。3、測試組職責(zé):對各種設(shè)備進(jìn)行進(jìn)貨、安裝、測試檢驗(yàn);對軟件各子系統(tǒng)模式的功能、可靠性進(jìn)行測試,并寫出測試報(bào)告。人員組成:熟悉公安業(yè)務(wù)的工作人員、大數(shù)據(jù)技術(shù)專家、承建方有關(guān)技術(shù)人員。項(xiàng)目實(shí)施步驟通過平臺搭建、功能開發(fā)、應(yīng)用及優(yōu)化三個(gè)階段逐步完成"大數(shù)據(jù)"公安情報(bào)應(yīng)用平臺建設(shè),滿足八類公安情報(bào)應(yīng)用需求。平臺搭建平臺搭建主要工作內(nèi)容是搭建平臺網(wǎng)絡(luò)及硬件環(huán)境,實(shí)現(xiàn)數(shù)據(jù)采集存儲?!惨黄脚_搭建基于X86服務(wù)器的實(shí)時(shí)計(jì)算平臺搭建:完成服務(wù)器硬件安裝,建立好Speak計(jì)算平臺軟件環(huán)境。Hadoop大數(shù)據(jù)集群環(huán)境搭建:完成服務(wù)器硬件安裝,完成Hadoop集群軟件安裝,正常運(yùn)行大數(shù)據(jù)集群。完成網(wǎng)絡(luò)連接:完成大數(shù)據(jù)集群網(wǎng)絡(luò)環(huán)境,與接口機(jī)、WEB應(yīng)用服務(wù)器網(wǎng)絡(luò)連接。打通與XX省公安廳專線網(wǎng)絡(luò)連接?!捕?shù)據(jù)采集存儲詳單數(shù)據(jù)采集:實(shí)現(xiàn)在XX省內(nèi)聯(lián)通用戶〔包括XX省本地用戶和外省漫入用戶產(chǎn)生的通信詳單采集,即O域預(yù)處理詳單采集。信令和業(yè)務(wù)日志數(shù)據(jù)采集:實(shí)現(xiàn)移動網(wǎng)絡(luò)MC口信令數(shù)據(jù)采集,實(shí)現(xiàn)短信日志數(shù)據(jù)采集。功能開發(fā)功能開發(fā)主要包括開發(fā)數(shù)據(jù)加工處理能力開發(fā)和開發(fā)應(yīng)用系統(tǒng)界面功能開發(fā)兩個(gè)方方面。〔一數(shù)據(jù)加工、計(jì)算實(shí)時(shí)數(shù)據(jù)加工和計(jì)算:開發(fā)實(shí)時(shí)數(shù)據(jù)加工程序,完成區(qū)域熱力、實(shí)時(shí)告警、位置軌跡等實(shí)時(shí)計(jì)算功能。定時(shí)數(shù)據(jù)加工和計(jì)算:開發(fā)定時(shí)數(shù)據(jù)加工程序,完成分析模型、統(tǒng)計(jì)分析、標(biāo)記計(jì)算等數(shù)據(jù)加工和計(jì)算功能?!捕?yīng)用功能開發(fā)開發(fā)數(shù)據(jù)查詢、數(shù)據(jù)告警、數(shù)據(jù)推送功能界面。開發(fā)統(tǒng)計(jì)分析、數(shù)據(jù)分析功能界面。應(yīng)用及優(yōu)化大數(shù)據(jù)應(yīng)用功能優(yōu)化主要工作內(nèi)容是數(shù)據(jù)模型優(yōu)化和應(yīng)用功能優(yōu)化。〔一數(shù)據(jù)模型優(yōu)化積累歷史數(shù)據(jù):積累最新三個(gè)月數(shù)據(jù),為數(shù)據(jù)計(jì)算和模型驗(yàn)證提供基礎(chǔ)數(shù)據(jù)。模型配置優(yōu)化,模型效果評估:驗(yàn)證數(shù)據(jù)模型加工結(jié)果,反復(fù)調(diào)整模型參數(shù),優(yōu)化模型效果?!捕?yīng)用功能優(yōu)化選擇試點(diǎn)單位,推廣8類應(yīng)用需求。優(yōu)化應(yīng)用功能:根據(jù)試點(diǎn)單位試用結(jié)果,反復(fù)優(yōu)化、完善界面功能。項(xiàng)目投入估算本期項(xiàng)目建設(shè)需投入X86服務(wù)器、交換機(jī)以及配套設(shè)施,應(yīng)用軟件開發(fā)。硬件資源投入包括X86服務(wù)器、交換機(jī)以及配套設(shè)施。大數(shù)據(jù)機(jī)房及網(wǎng)絡(luò)環(huán)境選擇中國聯(lián)通貴安大數(shù)據(jù)基地。應(yīng)用軟件開發(fā)投入主要是聯(lián)通"大數(shù)據(jù)"公安情報(bào)應(yīng)用平臺建設(shè)。大數(shù)據(jù)平臺相關(guān)技術(shù)原理說明Hadoop基礎(chǔ)平臺HDFSHDFS概述HadoopDistributedFileSystem,簡稱HDFS。分布式文件系統(tǒng),設(shè)計(jì)之初用來存儲大文件,將大文件分散成很多塊存儲至多臺服務(wù)器。HDFS是整個(gè)Hadoop生態(tài)圈的基礎(chǔ)。技術(shù)原理HDFS的服務(wù)角色分為Namenode和Datanode。Namenode:主要負(fù)責(zé)存儲一些metadata信息,主要包括文件目錄、block和文件對應(yīng)關(guān)系,以及block和datanote的對應(yīng)關(guān)系。Datanode:負(fù)責(zé)存儲數(shù)據(jù)。Block:大文件的存儲會被分割為多個(gè)block進(jìn)行存儲。默認(rèn)為64MB,每一個(gè)block會在多個(gè)datanode上存儲多份副本,默認(rèn)為3份,多個(gè)副本避免硬件故障帶來的文件丟失。HDFS提供了一個(gè)高度容錯(cuò)性和高吞吐量的海量數(shù)據(jù)存儲解決方案。HDFS結(jié)構(gòu)圖:HDFS讀流程結(jié)構(gòu)圖:HDFS寫流程結(jié)構(gòu)圖:YarnYarn概述為了實(shí)現(xiàn)一個(gè)Hadoop集群的集群共享、可伸縮性和可靠性。設(shè)計(jì)人員采用了一種分層的集群框架方法。具體來講,特定于MapReduce的功能已替換為一組新的守護(hù)程序,將該框架向新的處理模型開放。
回想一下,由于限制了擴(kuò)展以及網(wǎng)絡(luò)開銷所導(dǎo)致的某些故障模式,MRv1JobTracker和TaskTracker方法曾是一個(gè)重要的缺陷。這些守護(hù)程序也是MapReduce處理模型所獨(dú)有的。為了消除這一限制,JobTracker和TaskTracker已從YARN中刪除,取而代之的是一組對應(yīng)用程序不可知的新守護(hù)程序。技術(shù)原理Yarn作為第二代計(jì)算架構(gòu),用ResourceManager將一代架構(gòu)JobTracker兩個(gè)主要的功能分離成單獨(dú)的組件,這兩個(gè)功能是資源管理和任務(wù)調(diào)度/監(jiān)控,即ApplicationManager和ResourceScheduler。ResourceManager負(fù)責(zé)作業(yè)與資源的調(diào)度。接收J(rèn)obSubmitter提交的作業(yè),按照作業(yè)的上下文<Context>信息,以及從NodeManager收集來的狀態(tài)信息,啟動調(diào)度過程,分配一個(gè)Container作為ApplicationMaster。NodeManager負(fù)責(zé)Container狀態(tài)的維護(hù),并向RM保持心跳。ApplicationMaster負(fù)責(zé)一個(gè)Job生命周期內(nèi)的所有工作。如果這里的Application是MapReduceApplication,那么這里的ApplicationMaster相當(dāng)于只負(fù)責(zé)一個(gè)Job的JobTracker。每一個(gè)應(yīng)用的ApplicationMaster是一個(gè)詳細(xì)的框架庫,它結(jié)合從ResourceManager獲得的資源和NodeManager協(xié)同工作來運(yùn)行和監(jiān)控任務(wù)。Container是YARN為了將來作資源隔離而提出的一個(gè)框架,NodeManager節(jié)點(diǎn)上的資源單位,用于支撐MapReduce子任務(wù)的執(zhí)行。ResourceManager對應(yīng)于NameNode。NodeManager對應(yīng)于DataNode。DataNode和NameNode是針對數(shù)據(jù)存放來而言的。ResourceManager和NodeManager是對于Yarn運(yùn)行而言的。Yarn架構(gòu)圖:ZookeeperZookepper概述ZooKeeper是一個(gè)分布式的,開放源碼的分布式應(yīng)用程序協(xié)調(diào)服務(wù),它包含一個(gè)簡單的原語集,分布式應(yīng)用程序可以基于它實(shí)現(xiàn)同步服務(wù),配置維護(hù)和命名服務(wù)等。Zookeeper是hadoop的一個(gè)子項(xiàng)目,其發(fā)展歷程無需贅述。在分布式應(yīng)用中,由于工程師不能很好地使用鎖機(jī)制,以及基于消息的協(xié)調(diào)機(jī)制不適合在某些應(yīng)用中使用,因此需要有一種可靠的、可擴(kuò)展的、分布式的、可配置的協(xié)調(diào)機(jī)制來統(tǒng)一系統(tǒng)的狀態(tài)。技術(shù)原理Zookeeper的核心是原子廣播,這個(gè)機(jī)制保證了各個(gè)Server之間的同步。實(shí)現(xiàn)這個(gè)機(jī)制的協(xié)議叫做Zab協(xié)議。Zab協(xié)議有兩種模式,它們分別是恢復(fù)模式〔選主和廣播模式〔同步。當(dāng)服務(wù)啟動或者在領(lǐng)導(dǎo)者崩潰后,Zab就進(jìn)入了恢復(fù)模式,當(dāng)領(lǐng)導(dǎo)者被選舉出來,且大多數(shù)Server完成了和leader的狀態(tài)同步以后,恢復(fù)模式就結(jié)束了。狀態(tài)同步保證了leader和Server具有相同的系統(tǒng)狀態(tài)。為了保證事務(wù)的順序一致性,zookeeper采用了遞增的事務(wù)id號〔zxid來標(biāo)識事務(wù)。所有的提議〔proposal都在被提出的時(shí)候加上了zxid。實(shí)現(xiàn)中zxid是一個(gè)64位的數(shù)字,它高32位是epoch用來標(biāo)識leader關(guān)系是否改變,每次一個(gè)leader被選出來,它都會有一個(gè)新的epoch,標(biāo)識當(dāng)前屬于那個(gè)leader的統(tǒng)治時(shí)期。低32位用于遞增計(jì)數(shù)。每個(gè)Server在工作過程中有三種狀態(tài):LOOKING:當(dāng)前Server不知道leader是誰,正在搜尋LEADING:當(dāng)前Server即為選舉出來的leaderFOLLOWING:leader已經(jīng)選舉出來,當(dāng)前Server與之同步Hbase高速即時(shí)查詢Hbase基礎(chǔ)組件Hbase概述HBase是一個(gè)分布式的、面向列的開源數(shù)據(jù)庫,該技術(shù)來源于FayChang所撰寫的Google論文"Bigtable:一個(gè)結(jié)構(gòu)化數(shù)據(jù)的分布式存儲系統(tǒng)"。就像Bigtable利用了Google文件系統(tǒng)〔FileSystem所提供的分布式數(shù)據(jù)存儲一樣,HBase在Hadoop之上提供了類似于Bigtable的能力。HBase是Apache的Hadoop項(xiàng)目的子項(xiàng)目。HBase不同于一般的關(guān)系數(shù)據(jù)庫,它是一個(gè)適合于非結(jié)構(gòu)化數(shù)據(jù)存儲的數(shù)據(jù)庫。另一個(gè)不同的是HBase基于列的而不是基于行的模式。技術(shù)原理Hbase是一個(gè)高可靠性、高性能、面向列、可伸縮的分布式存儲系統(tǒng),利用HBase技術(shù)可在廉價(jià)PCServer上搭建起大規(guī)模結(jié)構(gòu)化存儲集群。ZookeeperQuorum中除了存儲了-ROOT-表的地址和HMaster的地址,HRegionServer也會把自己以Ephemeral方式注冊到Zookeeper中,使得HMaster可以隨時(shí)感知到各個(gè)HRegionServer的健康狀態(tài)。此外,Zookeeper也避免了HMaster的單點(diǎn)問題。HMaster沒有單點(diǎn)問題,HBase中可以啟動多個(gè)HMaster,通過Zookeeper的MasterElection機(jī)制保證總有一個(gè)Master運(yùn)行,HMaster在功能上主要負(fù)責(zé)Table和Region的管理工作:1.管理用戶對Table的增、刪、改、查操作2.管理HRegionServer的負(fù)載均衡,調(diào)整Region分布3.在RegionSplit后,負(fù)責(zé)新Region的分配4.在HRegionServer停機(jī)后,負(fù)責(zé)失效HRegionServer上的Regions遷移HRegionServer主要負(fù)責(zé)響應(yīng)用戶I/O請求,向HDFS文件系統(tǒng)中讀寫數(shù)據(jù),是HBase中最核心的模塊。HRegionServer內(nèi)部管理了一系列HRegion對象,每個(gè)HRegion對應(yīng)了Table中的一個(gè)Region,HRegion中由多個(gè)HStore組成。每個(gè)HStore對應(yīng)了Table中的一個(gè)ColumnFamily的存儲,可以看出每個(gè)ColumnFamily其實(shí)就是一個(gè)集中的存儲單元,因此最好將具備共同IO特性的column放在一個(gè)ColumnFamily中,這樣最高效。HStore存儲是HBase存儲的核心了,其中由兩部分組成,一部分是MemStore,一部分是StoreFiles。MemStore是SortedMemoryBuffer,用戶寫入的數(shù)據(jù)首先會放入MemStore,當(dāng)MemStore滿了以后會Flush成一個(gè)StoreFile〔底層實(shí)現(xiàn)是HFile,當(dāng)StoreFile文件數(shù)量增長到一定閾值,會觸發(fā)Compact合并操作,將多個(gè)StoreFiles合并成一個(gè)StoreFile,合并過程中會進(jìn)行版本合并和數(shù)據(jù)刪除,因此可以看出HBase其實(shí)只有增加數(shù)據(jù),所有的更新和刪除操作都是在后續(xù)的compact過程中進(jìn)行的,這使得用戶的寫操作只要進(jìn)入內(nèi)存中就可以立即返回,保證了HBaseI/O的高性能。當(dāng)StoreFilesCompact后,會逐步形成越來越大的StoreFile,當(dāng)單個(gè)StoreFile大小超過一定閾值后,會觸發(fā)Split操作,同時(shí)把當(dāng)前RegionSplit成2個(gè)Region,父Region會下線,新Split出的2個(gè)孩子Region會被HMaster分配到相應(yīng)的HRegionServer上,使得原先1個(gè)Region的壓力得以分流到2個(gè)Region上。Hbase架構(gòu)圖:Hbase封裝組件概述Hbase有其強(qiáng)大之處,但用戶使用相當(dāng)不方便,沒有類似sql的接口可以操作。東方國信擁有跨庫高速查詢的U-cloud行云數(shù)據(jù)庫,完全滿足大數(shù)據(jù)量高速跨庫查詢分析。技術(shù)原理行云采用類似虛擬數(shù)據(jù)庫<VirtualDatabase–VDB>的技術(shù),來延伸用戶查詢數(shù)據(jù)進(jìn)行關(guān)連的物理范疇。在行云系統(tǒng)中,可以透過通過一致的API來將一個(gè)或多個(gè)異質(zhì)物理數(shù)據(jù)源組合起來以,這些組件用來集成不同數(shù)據(jù)源的數(shù)據(jù)。這些物理數(shù)據(jù)源包括:JDBC數(shù)據(jù)源、CSV文本文件、數(shù)據(jù)表,甚至可以是Webservices。用戶可透過類似DBLink的預(yù)先設(shè)定,將其他廠商的異質(zhì)數(shù)據(jù)庫〔如:Oracle、DB2,以JDBC/ODBC連線的方式,對異質(zhì)數(shù)據(jù)庫進(jìn)行系統(tǒng)元數(shù)據(jù)的訪問,并在行云系統(tǒng)元數(shù)據(jù)引擎內(nèi)建立與保存對應(yīng)的表格相關(guān)信息。當(dāng)用戶需要進(jìn)行跨數(shù)據(jù)庫的多表關(guān)連查詢時(shí),行云的SQL解析引擎會針對用戶發(fā)起的SQL語句中,識別并解析特定字符〔@DBXXX,進(jìn)一步在行云元數(shù)據(jù)引擎中找尋該異質(zhì)數(shù)據(jù)庫的虛擬表與字段定義。之后,在產(chǎn)生的分布式執(zhí)行計(jì)劃中,標(biāo)示以特定的連接方式進(jìn)行該虛擬表的掃瞄與過濾。再將過濾出的結(jié)果集,組裝成行云內(nèi)部的數(shù)據(jù)處理單元〔MDP,MemoryDataPack。轉(zhuǎn)換為MDB的異質(zhì)數(shù)據(jù)庫表結(jié)果集,將被行云的查詢執(zhí)行引擎〔QueryExecutor以一視XX的方式進(jìn)行處理,不論是關(guān)連操作、聚集操作或子查詢過濾,均與行云本地端的數(shù)據(jù)處理方式一致,直到最終結(jié)果集產(chǎn)生為止。透過針對異質(zhì)數(shù)據(jù)庫的遠(yuǎn)端接口,實(shí)現(xiàn)異質(zhì)數(shù)據(jù)庫的元數(shù)據(jù)掃瞄與行云虛擬表格元數(shù)據(jù)建立。透過行云數(shù)據(jù)處理單元〔MDP的定義,封裝與隔離異質(zhì)數(shù)據(jù)庫中表格數(shù)據(jù)與行云的差異。使得遠(yuǎn)端數(shù)據(jù)的讀取,與行云自有的數(shù)據(jù)無異,簡化行云查詢執(zhí)行引擎的數(shù)據(jù)處理復(fù)雜度。得以完全屏蔽SQL關(guān)連查詢時(shí),不同數(shù)據(jù)源所造成的特例處理與數(shù)據(jù)轉(zhuǎn)換干擾,發(fā)揮最佳的查詢執(zhí)行效率。Spark實(shí)時(shí)數(shù)據(jù)處理近線計(jì)算平臺采用Spark技術(shù),Spark是基于內(nèi)存的迭代計(jì)算框架,適用于需要多次操作特定數(shù)據(jù)集的應(yīng)用場合。Spark和ApacheHadoop協(xié)同并讓開發(fā)工作變得更加快速、容易。Spark可以讓大數(shù)據(jù)與快數(shù)據(jù)應(yīng)用結(jié)合在一起,可以通過流數(shù)據(jù)處理讓所有的數(shù)據(jù)進(jìn)行交互式分析。不同于MapReduce的是Job中間輸出和結(jié)果可以保存在內(nèi)存中,從
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 商鋪裝修合同樣本
- 水暖電消防承包合同范本
- 2025農(nóng)作物種子買賣合同范本
- 柴油運(yùn)輸合同范本年
- 演出化妝服務(wù)合同
- 范文二手房買賣定金合同
- 委托合同行紀(jì)合同居間合同
- 2025【合同范本】房屋土建施工合同范本
- 2024年中考物理(廣州卷)真題詳細(xì)解讀及評析
- 簡單的櫥柜合同范本
- 公眾聚集場所消防技術(shù)標(biāo)準(zhǔn)要點(diǎn)
- 幼兒園員工手冊與規(guī)章制度
- 社團(tuán)活動經(jīng)費(fèi)預(yù)算申請表
- 經(jīng)營范圍登記規(guī)范表述目錄(試行)(V1.0.2版)
- 2023年山東省威海市中考物理真題(附答案詳解)
- 第八講 發(fā)展全過程人民民主PPT習(xí)概論2023優(yōu)化版教學(xué)課件
- 王崧舟:學(xué)習(xí)任務(wù)群與課堂教學(xué)變革 2022版新課程標(biāo)準(zhǔn)解讀解析資料 57
- 招投標(biāo)現(xiàn)場項(xiàng)目經(jīng)理答辯(完整版)資料
- 運(yùn)動競賽學(xué)課件
- 2022年上海市初中畢業(yè)數(shù)學(xué)課程終結(jié)性評價(jià)指南
- 高考作文備考-議論文對比論證 課件14張
評論
0/150
提交評論