基于大數(shù)據(jù)分析的車(chē)輛畫(huà)像和特情檢測(cè)研究(文庫(kù))_第1頁(yè)
基于大數(shù)據(jù)分析的車(chē)輛畫(huà)像和特情檢測(cè)研究(文庫(kù))_第2頁(yè)
基于大數(shù)據(jù)分析的車(chē)輛畫(huà)像和特情檢測(cè)研究(文庫(kù))_第3頁(yè)
基于大數(shù)據(jù)分析的車(chē)輛畫(huà)像和特情檢測(cè)研究(文庫(kù))_第4頁(yè)
基于大數(shù)據(jù)分析的車(chē)輛畫(huà)像和特情檢測(cè)研究(文庫(kù))_第5頁(yè)
已閱讀5頁(yè),還剩46頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

***副局長(zhǎng)、博士、正高工基于大數(shù)據(jù)分析的車(chē)輛畫(huà)像和特情檢測(cè)方法研究匯報(bào)提綱11總體思路及研究?jī)?nèi)容1具體技術(shù)路線3創(chuàng)新點(diǎn)4社會(huì)經(jīng)濟(jì)效益562結(jié)語(yǔ)研究背景111.1選題背景

全國(guó)建立了龐大的高速公路收費(fèi)系統(tǒng),實(shí)現(xiàn)電子不停車(chē)聯(lián)網(wǎng)收費(fèi),形成了海量高速公路收費(fèi)數(shù)據(jù)庫(kù)。高速公路聯(lián)網(wǎng)監(jiān)控和路網(wǎng)監(jiān)測(cè)終端規(guī)??捎^。收費(fèi)系統(tǒng)數(shù)據(jù)信息是對(duì)聯(lián)網(wǎng)收費(fèi)最真實(shí)有效的記錄。目前的聯(lián)網(wǎng)收費(fèi)系統(tǒng)對(duì)于這些數(shù)據(jù)缺乏科學(xué)、有效的偵測(cè)分析預(yù)警能力,使這些攜帶著豐富信息的數(shù)據(jù)處于沉睡狀態(tài)。

1.2研究目標(biāo)采用技術(shù)手段對(duì)聯(lián)網(wǎng)收費(fèi)數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行分類(lèi)和深入挖掘分析,發(fā)現(xiàn)隱藏的異常事件,全面感知高速公路交通運(yùn)行狀況,及時(shí)發(fā)現(xiàn)硬件設(shè)備、軟件系統(tǒng)、通信網(wǎng)絡(luò)等的存在問(wèn)題,為進(jìn)一步排查及應(yīng)對(duì)處理提供依據(jù),進(jìn)而提高高速公路運(yùn)營(yíng)管理水平。結(jié)合現(xiàn)有高速公路機(jī)電系統(tǒng),利用數(shù)據(jù)挖掘、智能識(shí)別技術(shù)來(lái)研究異常事件檢測(cè)方法,彌補(bǔ)現(xiàn)有人工檢測(cè)的短板是大勢(shì)所趨。1.3國(guó)內(nèi)外研究現(xiàn)狀國(guó)外高速公路異常事件的識(shí)別與檢測(cè)已成為國(guó)外機(jī)器視覺(jué)和模式識(shí)別領(lǐng)域的一個(gè)突出目標(biāo),并在過(guò)去的十年得到顯著發(fā)展。近年來(lái)隨著數(shù)據(jù)融合、運(yùn)動(dòng)目標(biāo)軌跡分析等技術(shù)的成熟,也出現(xiàn)了一些新的異常事件檢測(cè)方法。領(lǐng)域均有較為廣泛應(yīng)用,在高速公路運(yùn)營(yíng)和狀態(tài)識(shí)別上也有一定應(yīng)用。Sadek等提出基于流動(dòng)梯度直方圖和統(tǒng)計(jì)邏輯回歸分析的新框架。Sheu提出一種新方法用于高速公路異常事件的實(shí)時(shí)檢測(cè)和表征。Jin等提出一種利用建設(shè)性概率神經(jīng)網(wǎng)絡(luò)進(jìn)行高速公路事件檢測(cè)的新技術(shù)Karl等提出一種雙指數(shù)平滑算法。1.3國(guó)內(nèi)外研究現(xiàn)狀在國(guó)內(nèi),高速公路通行異常事件檢測(cè)一直是高速公路機(jī)電系統(tǒng)的重點(diǎn)和難點(diǎn)問(wèn)題,一般主要是通過(guò)道路監(jiān)控系統(tǒng)事件檢測(cè)器來(lái)識(shí)別、人工巡查和公眾反饋等方式。反映主要是高速公路事故、擁堵、逆行、拋灑、行人橫穿、違停等路段上或行駛過(guò)程中的事件。隋靚等提出一種基于車(chē)輛運(yùn)動(dòng)軌跡的異常事件挖掘算法,這種異常事件檢測(cè)模型能夠有效檢測(cè)逆行、違停等異常車(chē)輛信息。巨永鋒等提出用于交通異常事件檢測(cè)的數(shù)據(jù)融合系統(tǒng)模型,應(yīng)用該技術(shù)的交通事件檢測(cè)系統(tǒng)能提高系統(tǒng)的有效性,得到最佳協(xié)同作用結(jié)果。

1.3現(xiàn)狀小結(jié)及研究方向在對(duì)高速公路機(jī)電系統(tǒng)、收費(fèi)站運(yùn)行狀態(tài)監(jiān)測(cè)和預(yù)警方面涉及不多,特別是對(duì)收費(fèi)系統(tǒng)軟件、硬件設(shè)備、通信網(wǎng)絡(luò)及路網(wǎng)運(yùn)行檢測(cè)中,數(shù)據(jù)挖掘的應(yīng)用幾乎處于空白階段。本項(xiàng)目在對(duì)機(jī)電系統(tǒng)已上傳數(shù)據(jù)和各傳感檢測(cè)設(shè)備的綜合診斷分析中引入數(shù)據(jù)挖掘技術(shù),建立依托機(jī)電系統(tǒng)等多元數(shù)據(jù)挖掘模型,實(shí)現(xiàn)異常事件檢測(cè)的自動(dòng)化、高效化。1.4研究意義

采用本研究提出的數(shù)據(jù)挖掘算法,對(duì)正常數(shù)據(jù)聚類(lèi)分析,對(duì)車(chē)輛、車(chē)主進(jìn)行畫(huà)像,分析車(chē)輛和司機(jī)行為,對(duì)其預(yù)測(cè),進(jìn)而可針對(duì)性地進(jìn)行管理服務(wù)及推薦。同時(shí)還可對(duì)異常數(shù)據(jù)進(jìn)行深挖細(xì)掘,采用“軟”方式實(shí)現(xiàn)異常事件檢測(cè),可為異常事件的實(shí)時(shí)檢測(cè)和精準(zhǔn)定位提供理論依據(jù)和數(shù)據(jù)支撐,對(duì)車(chē)輛通行狀況的整治提供數(shù)據(jù)支持,為機(jī)電系統(tǒng)維護(hù)提供指導(dǎo)意見(jiàn),促進(jìn)機(jī)電系統(tǒng)專(zhuān)項(xiàng)維護(hù)與運(yùn)營(yíng)管理的科學(xué)化。

主要作用:車(chē)輛畫(huà)像、收費(fèi)稽核、系統(tǒng)維護(hù)、擁堵疏導(dǎo)、異常車(chē)輛追蹤和路段管控提供科學(xué)依據(jù)和決策參考,有效節(jié)約異常事件排查成本,進(jìn)一步提升管理服務(wù)水平、異常事件處理能力和高速公路運(yùn)營(yíng)水平。

特點(diǎn):節(jié)約投資、便于操作、成本低廉,潛力巨大等。

顯著提升收費(fèi)公路運(yùn)營(yíng)管理水平,對(duì)收費(fèi)公路規(guī)劃、建設(shè)、管理、養(yǎng)護(hù)、運(yùn)營(yíng)、統(tǒng)計(jì)和決策具有重要意義。

2.1總體技術(shù)路線隨著科技水平不斷提高,可在獲取海量收費(fèi)數(shù)據(jù)的基礎(chǔ)上,利用數(shù)據(jù)挖掘和聚類(lèi)算法等多種數(shù)據(jù)融合方法,建立正常數(shù)據(jù)聚類(lèi)主題分析模型和異常事件檢測(cè)模型,并實(shí)現(xiàn)對(duì)各類(lèi)異常事件成因進(jìn)行粗略分類(lèi)及精準(zhǔn)識(shí)別。在對(duì)異常事件進(jìn)行初步粗略分類(lèi)的基礎(chǔ)上,進(jìn)一步結(jié)合關(guān)聯(lián)規(guī)則、排除算法,利用數(shù)據(jù)挖掘和自適應(yīng)聚類(lèi)來(lái)對(duì)各類(lèi)異常事件進(jìn)行一個(gè)高精度檢測(cè)識(shí)別,根據(jù)成因給出異常事件處理應(yīng)對(duì)措施,開(kāi)發(fā)一個(gè)以多源數(shù)據(jù)為輸入的高速公路異常事件實(shí)時(shí)檢測(cè)系統(tǒng)。2.1總體實(shí)現(xiàn)路徑

利用海量收費(fèi)數(shù)據(jù),提出了一種用于高速公路異常事件發(fā)現(xiàn)與分析的數(shù)據(jù)挖掘方法。選用高速公路收費(fèi)數(shù)據(jù)中一個(gè)月數(shù)據(jù),篩選出指定進(jìn)站及出站名稱(chēng)的數(shù)據(jù)并刪除部分字段,僅保留與此相關(guān)的內(nèi)容,建立數(shù)據(jù)倉(cāng)庫(kù)并完成數(shù)據(jù)清洗,利用車(chē)輛進(jìn)入收費(fèi)站時(shí)間和駛出收費(fèi)站的時(shí)間計(jì)算出其在該路段上行駛的總時(shí)長(zhǎng),對(duì)選擇好的數(shù)據(jù)使用改進(jìn)型快速峰值聚類(lèi)算法對(duì)通行時(shí)長(zhǎng)和車(chē)輛總重進(jìn)行聚類(lèi)分析。首先計(jì)算每條數(shù)據(jù)之間的距離,將距離矩陣作為該算法的輸入,然后輸出聚類(lèi)結(jié)果,得出明顯的異常數(shù)據(jù),接著針對(duì)這些異常數(shù)據(jù)進(jìn)行具體分析,采用逐項(xiàng)對(duì)比排查和其他數(shù)據(jù)驗(yàn)證法識(shí)別出異常事件發(fā)生最終原因。2.1總體技術(shù)路線總體技術(shù)路線圖2.2異常事件目標(biāo)分類(lèi)系統(tǒng)異常:軟件故障、硬件故障、網(wǎng)絡(luò)故障;路網(wǎng)異常:交通擁堵、交通事故、養(yǎng)護(hù)施工、交通管制、車(chē)輛拋錨等;駕駛異常:超速、低速、違停、長(zhǎng)時(shí)停留、車(chē)輛逆行、車(chē)輛超載、違規(guī)分合載等;其他異常:有入無(wú)出、無(wú)入有出、疑似逃費(fèi)、疑似聯(lián)合逃費(fèi)等。2.2主要研究?jī)?nèi)容(1)建立研發(fā)平臺(tái)和主題數(shù)據(jù)庫(kù)建立多源數(shù)據(jù)融合的異常事件監(jiān)測(cè)主題庫(kù),實(shí)現(xiàn)系統(tǒng)數(shù)據(jù)實(shí)時(shí)采集與更新。依托數(shù)據(jù)清洗進(jìn)行預(yù)處理,篩選出有缺失、錯(cuò)誤和超出正常值域的特征數(shù)據(jù),為異常事件的檢測(cè)提供數(shù)據(jù)準(zhǔn)備,同時(shí)將剩余數(shù)據(jù)作為正常數(shù)據(jù)建立專(zhuān)題數(shù)據(jù)庫(kù)。(2)研究提出異常事件粗略分類(lèi)聚類(lèi)算法以不同車(chē)型為基點(diǎn),從通行時(shí)長(zhǎng)、車(chē)輛總重、“出入不一”3個(gè)角度,利用聚類(lèi)分析的離群檢測(cè)功能,提出改進(jìn)型快速峰值聚類(lèi)法,初步挖掘出車(chē)牌不符、不合理超時(shí)、超速、超載等異常行為車(chē)輛,及其對(duì)應(yīng)的站點(diǎn)、車(chē)道、操作人員等信息,對(duì)異常事件所屬類(lèi)別進(jìn)行粗略分類(lèi):系統(tǒng)異常、路網(wǎng)異常、駕駛異常和其他異常等。2.2研究?jī)?nèi)容(3)建立異常事件精確篩查識(shí)別模型在粗略分類(lèi)基礎(chǔ)上,利用聚類(lèi)分析、多源數(shù)據(jù)校核、橫向比對(duì)、縱向比對(duì)、逐項(xiàng)排查等方法建立異常事件精準(zhǔn)檢測(cè)模型。結(jié)合其他多源數(shù)據(jù),建立異常事件特征代碼和原因列表,對(duì)異常事件的成因進(jìn)行精準(zhǔn)定位和識(shí)別,實(shí)時(shí)高效地將異常事件鎖定至具體站點(diǎn)、車(chē)道、車(chē)輛,甚至于機(jī)電系統(tǒng)具體的軟硬件設(shè)備等。(4)研發(fā)《收費(fèi)公路異常事件檢測(cè)系統(tǒng)》,對(duì)異常事件精準(zhǔn)識(shí)別。重點(diǎn)采集分析:收費(fèi)站點(diǎn)間的基礎(chǔ)數(shù)據(jù);近期該目標(biāo)段異常數(shù)據(jù);綜合監(jiān)控系統(tǒng)事故、計(jì)劃性施工、臨時(shí)性交通管制、惡劣天氣等事件數(shù)據(jù);綜合監(jiān)控系統(tǒng)外場(chǎng)設(shè)備狀態(tài)數(shù)據(jù)。(5)編制《收費(fèi)公路異常事件檢測(cè)及應(yīng)對(duì)措施》報(bào)告。3.1具體研究路線

數(shù)據(jù)字段對(duì)應(yīng)中文名稱(chēng)數(shù)據(jù)示例ID系統(tǒng)編號(hào)57

261

916CardNo卡號(hào)52

011

328

220

200

196

796ICCardNo用戶IC卡號(hào)52

011

328

220

200

196

796LastBalance消費(fèi)后余額2

887.00Credit消費(fèi)金額9.50OutTime出站時(shí)間2016/12/3100:00:00OutLoad出站荷載35OutStationName出站名稱(chēng)3InTime進(jìn)站時(shí)間2016/12/3023:42:48InLoad進(jìn)站時(shí)荷載35InStationName進(jìn)站名稱(chēng)2VehiclePlate車(chē)牌貴GP4820VerificationCode驗(yàn)證碼

CreateTime創(chuàng)建時(shí)間2016/12/3114:58:47SettlementTime清分時(shí)間

ShiftTime更新賬戶余額單位時(shí)間2016/12/3114:58:47State狀態(tài)0HandleTime連續(xù)性校驗(yàn)的時(shí)間2016/12/3000:00:00CardType卡類(lèi)型22OutBusiNo外部系統(tǒng)交易流水號(hào)

ExitType流水類(lèi)型

BitchNo批次號(hào)

VehicleType車(chē)型1VehiclePlateColor車(chē)牌顏色0TransferType消費(fèi)類(lèi)型0TransferState消費(fèi)狀態(tài)0TransferMoney消費(fèi)金額9.50TransferTime消費(fèi)時(shí)間表3.1數(shù)據(jù)字典

3.1.1數(shù)據(jù)特征表3.2收費(fèi)原始數(shù)據(jù)樣表

IDLastBalanceCreditOutTimeOutLoadOutStationNameInTimeInLoadInStationName509684762345.51092.506:25.401615:32.305509684772302.7542.7506:28.40152016/10/2609:46:50.00000:04016509684783645.0414.2557:14.150549:32.1004509684793635.549.510:58.8232016/10/2615:59:38.00000:0835509684803079.79555.7545:55.12112:48.8220509684811374.57432.2547:15.1292016/10/2702:35:54.00000:0124509684821452.741776.559:01.30341:48.12250968483303.241149.547:22.143152016/10/2617:01:28.00000:0303509684842407.2650.7538:20.461145:39.4410lastBalance:消費(fèi)后余額,

credit:消費(fèi)金額,

outTime:出站口時(shí)間,

outLoad:出站荷載,outStationName:出站名稱(chēng),

inTime:進(jìn)站時(shí)間,inLoad:進(jìn)站荷載,inStationName:進(jìn)站名稱(chēng),shiftTime:連續(xù)性校驗(yàn)的時(shí)間。內(nèi)容:檢測(cè)缺失數(shù)和異常值,缺失數(shù)相對(duì)而言較容易定位,其一般是收費(fèi)數(shù)據(jù)中未限制不可為空的數(shù)據(jù)為空,此類(lèi)數(shù)據(jù)經(jīng)過(guò)簡(jiǎn)單查詢(xún)即可快速檢索出來(lái),除此之外,主要研究數(shù)據(jù)異常值檢測(cè)。手段:找出并發(fā)現(xiàn)數(shù)據(jù)中存在的異常值,采用“歐氏距離”和“相似系數(shù)和”兩種方法對(duì)異常點(diǎn)進(jìn)行檢測(cè)。3.1.2收費(fèi)數(shù)據(jù)異常值檢測(cè)算法3.2.1基于歐氏距離的異常值檢測(cè)算法

此方法在檢測(cè)整體數(shù)據(jù)的異常值時(shí)有良好效果,而對(duì)于局部異常值檢測(cè)能力較弱。圖3.1孤立點(diǎn)檢測(cè)算法流程

此法適用于單維數(shù)據(jù)。3.2.2基于相似系數(shù)和的異常值檢測(cè)算法采用歐氏距離檢測(cè)法則會(huì)失去多維的收費(fèi)數(shù)據(jù)間的關(guān)聯(lián)性,不僅延長(zhǎng)運(yùn)算時(shí)間,還可能會(huì)產(chǎn)生清洗錯(cuò)誤,把本身正確的數(shù)據(jù)清洗掉,或漏掉異常數(shù)據(jù)。采用相似系數(shù)和的方式可有效解決此問(wèn)題。

圖3.2基于相似系數(shù)和的異常值檢測(cè)算法流程

計(jì)算相似系數(shù)矩陣中每行的和,該值越大,表明該對(duì)象與其他對(duì)象的距離越遠(yuǎn),越可能為異常值。

此法適用于多維數(shù)據(jù)。IDOutLoadOutStationNameInLoadInStationName50968476401630550968477401540165096847982383550968482303122509684844611441050968486151403509684874031515096848844746114916982138256149169822263265491698232652514916982442142149169826832372IDOutLoadOutStationNameIinLoadInStationName509684764016305509684774015401650968478150510045096847982383550968482303122509684844611441050968486151403509684874031515096848844746114916982138256149169822263265491698232652514916982442142149169826832372表3.3基于歐氏距離異常值檢測(cè)的數(shù)據(jù)樣本表3.4基于相似系數(shù)和異常值檢測(cè)的數(shù)據(jù)樣本ID:50968478在基于歐氏距離的異常數(shù)據(jù)檢測(cè)中被誤認(rèn)為是異常數(shù)據(jù),用基于相似系數(shù)和的算法時(shí)被正確識(shí)別。3.2.3清洗結(jié)果對(duì)比分析

3.2.3異常數(shù)據(jù)聚類(lèi)結(jié)果分析idoutLoad/100kgoutStationNameinLoad/100kginStationName50968476401630550968477401540165096847815051004509684798238355096848012182205096848112

124509684823031225096848310001530350968484461144105096848555140

50968486151403509684874031515096848844746114916982026038249169821382561491698222632654916982326525149169824421421491698253721149169826832372表3.5原始收費(fèi)數(shù)據(jù)樣本OutLoad屬性有個(gè)異常值1000,OutStationName屬性有個(gè)異常值0,InLoad屬性有個(gè)異常值1。數(shù)據(jù)集中還存在缺失值。3.2.3數(shù)據(jù)缺失情況表3.6收費(fèi)數(shù)據(jù)特征統(tǒng)計(jì)

SortOutLoadOutStationNameInLoadInStationNamecount866.00879.00869.00879.00mean39.4942264.76109239.3325664.541524std21.5662573.90371421.6392423.734380min10.0000001.00000010.0000001.00000025%25.0000002.00000025.0000002.00000050%35.0000003.00000035.0000003.00000075%46.0000007.00000046.0000006.000000max83.00000016.00000083.00000016.000000總共879個(gè)數(shù)據(jù),可看出OutLoad屬性866個(gè)、InLoad屬性869個(gè),均少于總數(shù)879,說(shuō)明這兩個(gè)屬性存在缺失值。3.2.4通行時(shí)長(zhǎng)和車(chē)輛總重?cái)?shù)據(jù)分布

圖3.3車(chē)輛通行時(shí)長(zhǎng)分布車(chē)輛超載通過(guò)異常值檢測(cè)算法以及圖2.14,可看出部分車(chē)輛的總重遠(yuǎn)大于平均值。說(shuō)明此類(lèi)車(chē)輛為重點(diǎn)稽查的對(duì)象。

圖3.4車(chē)輛總重分布3.2.4小結(jié)及下一步方向不同類(lèi)別和不同車(chē)型車(chē)輛的異常值是不相同的,不能以簡(jiǎn)單平均值進(jìn)行分析,需結(jié)合其所屬類(lèi)別綜合分析和檢測(cè),故單獨(dú)采用基于距離特征的屬性進(jìn)行分析,缺失值和錯(cuò)誤值篩選尚可,在做值域合理性分析時(shí)不夠精確,且檢測(cè)出的異常值較多。為解決此問(wèn)題,需引入一個(gè)更加科學(xué)的聚類(lèi)分析方法,本研究借鑒自然雜志提出的基于密度聚類(lèi)的方法進(jìn)行分析。實(shí)現(xiàn)流程數(shù)據(jù)聚類(lèi)算法分析傳統(tǒng)聚類(lèi)算法K-MeansDBSCAN快速峰值聚類(lèi)算法改進(jìn)型快速峰值聚類(lèi)算法K-Means算法收費(fèi)數(shù)據(jù)分析DBSCAN算法收費(fèi)數(shù)據(jù)分析快速峰值聚類(lèi)算法收費(fèi)數(shù)據(jù)分析改進(jìn)型快速峰值聚類(lèi)算法收費(fèi)數(shù)據(jù)分析基于改進(jìn)型快速峰值聚類(lèi)的高速公路通行情況分析基于改進(jìn)型快速峰值聚類(lèi)的高速公路異常事件檢測(cè)方法3.3.1基于改進(jìn)型快速峰值聚類(lèi)的事件檢測(cè)算法正常值進(jìn)行共性分析,異常值進(jìn)行個(gè)性和共性分析!圖3.8快速峰值聚類(lèi)法工作流程3.3.1傳統(tǒng)聚類(lèi)算法分析表3.7各類(lèi)聚類(lèi)算法對(duì)比

算法類(lèi)型優(yōu)點(diǎn)缺點(diǎn)適用范圍劃分聚類(lèi)對(duì)于大型數(shù)據(jù)簡(jiǎn)單高效、時(shí)間復(fù)雜度低

結(jié)果容易局部最優(yōu);不能解決非凸數(shù)據(jù);對(duì)噪聲和離群值非常敏感對(duì)大樣本數(shù)據(jù)進(jìn)行聚類(lèi)層次聚類(lèi)不限所處理數(shù)據(jù)的形狀和屬性;聚類(lèi)能力強(qiáng)計(jì)算復(fù)雜度高;大大延長(zhǎng)了算法的執(zhí)行時(shí)間,不能回溯處理對(duì)小樣本數(shù)據(jù)進(jìn)行聚類(lèi)基于密度的聚類(lèi)能有效處理異常數(shù)據(jù)聚類(lèi)結(jié)果與參數(shù)有很大的關(guān)系對(duì)空間數(shù)據(jù)和大樣本數(shù)據(jù)的聚類(lèi)基于網(wǎng)格的聚類(lèi)處理速度快;可處理任意類(lèi)型的數(shù)據(jù)參數(shù)敏感、無(wú)法處理不規(guī)則分布的數(shù)據(jù)、維數(shù)災(zāi)難對(duì)空間數(shù)據(jù)和大樣本、可伸縮數(shù)據(jù)的聚類(lèi)基于模型的聚類(lèi)對(duì)“類(lèi)”的劃分不那么“堅(jiān)硬”;各類(lèi)特征可用參數(shù)來(lái)表達(dá)對(duì)于分布復(fù)雜的數(shù)據(jù)執(zhí)行效率不高對(duì)中小樣本數(shù)據(jù)進(jìn)行聚類(lèi)圖論聚類(lèi)不需計(jì)算數(shù)據(jù)間相似性中心選擇和噪聲數(shù)據(jù)對(duì)結(jié)果影響大對(duì)中小樣本數(shù)據(jù)進(jìn)行聚類(lèi)聚類(lèi)中心的選擇3.3.2基于快速峰值聚類(lèi)算法收費(fèi)數(shù)據(jù)分析(1)算出各點(diǎn)與其他點(diǎn)之間的距離,生成距離矩陣;(2)選出該數(shù)據(jù)集的聚類(lèi)中心。根據(jù)所計(jì)算出的局部密度和與高密度點(diǎn)

距離將所有點(diǎn)進(jìn)行可視化輸出;(3)將所有點(diǎn)進(jìn)行逐一分配并優(yōu)化,標(biāo)識(shí)出異常點(diǎn)。聚類(lèi)中心的選擇3.3.2基于快速峰值聚類(lèi)算法收費(fèi)數(shù)據(jù)分析

聚類(lèi)中心的特點(diǎn)是比其相鄰點(diǎn)的密度更高,并且聚類(lèi)中心距離高密度點(diǎn)的距離較大。對(duì)于每一個(gè)數(shù)據(jù)點(diǎn),我們關(guān)注兩個(gè)量:

(1)

局部密度:其中x小于0時(shí),反之,。故的值等于與點(diǎn)i之間距離小于截止距離的點(diǎn)數(shù)。(2)與比該點(diǎn)密度高的點(diǎn)之間的距離:

對(duì)于密度最高的點(diǎn),取

聚類(lèi)中心的選擇如圖,點(diǎn)9和點(diǎn)10的ρi

值基本相同,點(diǎn)10是聚類(lèi)中心,而點(diǎn)9屬于點(diǎn)1所在的類(lèi),所以聚類(lèi)中心的確定不僅需要該點(diǎn)具有很高的密度,還要求這個(gè)點(diǎn)與高密度點(diǎn)的距離相對(duì)較大,即δi值較大。圖3.7基于密度的聚類(lèi)數(shù)據(jù)分布圖3.8ρ-δ

決策圖3.3.2基于快速峰值聚類(lèi)算法收費(fèi)數(shù)據(jù)分析非聚類(lèi)中心點(diǎn)的分配及優(yōu)化在找到聚類(lèi)中心之后,將每個(gè)剩余點(diǎn)分配到離它最近的高密度點(diǎn)所在的類(lèi)。本算法優(yōu)化方法是:(1)先找到每個(gè)類(lèi)的邊界區(qū)域,邊界區(qū)域是指分配給該類(lèi)的點(diǎn)距其他類(lèi)的點(diǎn)的距離小于。(2)找出邊界區(qū)域內(nèi)密度最高的點(diǎn),記該密度為。(3)將該類(lèi)簇中密度高于的點(diǎn)認(rèn)為是類(lèi)簇核心的一部分,其它點(diǎn)視為噪聲點(diǎn)。此法缺點(diǎn):需人工選取聚類(lèi)中心,選取不夠科學(xué)。3.3.2基于快速峰值聚類(lèi)算法收費(fèi)數(shù)據(jù)分析

自動(dòng)確定聚類(lèi)中心

針對(duì)快速峰值需要根據(jù)決策圖人工選取聚類(lèi)中心的這一缺點(diǎn),本節(jié)提出一種能夠自動(dòng)確定聚類(lèi)中心的改進(jìn)型快速峰值聚類(lèi)算法。快速峰值聚類(lèi)算法的聚類(lèi)中心是

,

兩個(gè)值都較大的點(diǎn),故引入:

較大的點(diǎn),就很有可能是聚類(lèi)中心。3.4.1改進(jìn)型快速峰值聚類(lèi)算法的收費(fèi)數(shù)據(jù)分析定義臨界點(diǎn)

,表示在圖3.13中

變化程度最大的點(diǎn),用

值降序排列圖3.13中的斜率來(lái)表示變化程度,則P滿足以下條件:

故:聚類(lèi)中心就可能存在于上式表示的范圍內(nèi),稱(chēng)這個(gè)范圍內(nèi)的點(diǎn)為偽中心。

找尋偽中心:3.4.1基于改進(jìn)型快速峰值聚類(lèi)算法的收費(fèi)數(shù)據(jù)分析圖3.13收費(fèi)數(shù)據(jù)

值降序排列

基于改進(jìn)型快速峰值聚類(lèi)的高速公路異常事件識(shí)別方法圖3.14收費(fèi)數(shù)據(jù)偽中心3.4.2改進(jìn)型快速峰值聚類(lèi)算法的驗(yàn)證

同一區(qū)域偽中心排除:

在快速峰值算法中,聚類(lèi)中心特征是具有較高的局部密度而且與高密度點(diǎn)的距離較大,因此,本文取同一區(qū)域中的第一個(gè)偽中心作為聚類(lèi)中心,判斷其他的偽中心到該點(diǎn)的距離,若小于截?cái)嗑嚯xdc則將其剔除,若大于dc則將其作為另一個(gè)類(lèi)簇的聚類(lèi)中心。其余后續(xù)算法與快速峰值聚類(lèi)法一致。3.4.1改進(jìn)型快速峰值聚類(lèi)算法圖3.11春節(jié)期間收費(fèi)數(shù)據(jù)改進(jìn)算法聚類(lèi)結(jié)果圖3.122月第4周收費(fèi)數(shù)據(jù)改進(jìn)算法聚類(lèi)結(jié)果3.4.2改進(jìn)型快速峰值聚類(lèi)算法

在收費(fèi)數(shù)據(jù)上的應(yīng)用圖3.15收費(fèi)數(shù)據(jù)聚類(lèi)中心圖3.16收費(fèi)數(shù)據(jù)聚類(lèi)結(jié)果圖中紅色與綠色的點(diǎn)為聚類(lèi)的核心點(diǎn),黑色點(diǎn)為噪聲點(diǎn),即異常數(shù)據(jù)點(diǎn),需重點(diǎn)關(guān)注!3.4.2改進(jìn)型快速峰值聚類(lèi)算法的驗(yàn)證

聚類(lèi)方法

2月第4周春節(jié)期間DBSCAN79.6%78.5%K-means82.1%77.9%快速峰值88.1%84.3%改進(jìn)型快速峰值90.1%86.9%表3.8四種聚類(lèi)方法準(zhǔn)確率對(duì)比3.4.2改進(jìn)型快速峰值聚類(lèi)算法高速公路通行異常事件主要包括交通事故和交通事件兩大類(lèi)。交通事故是指車(chē)輛在道路行駛過(guò)程中因撞人、撞車(chē)、撞設(shè)施、翻車(chē)等意外而造成人身或車(chē)輛設(shè)施不同程度損壞的交通事件;交通事件是指違停、車(chē)輛拋錨、長(zhǎng)時(shí)停車(chē)、車(chē)輛逆行、交通瓶頸(由于車(chē)速陡減、入口匝道、車(chē)輛擁擠等原因)、移動(dòng)瓶頸(大型低速車(chē)輛駛?cè)氲仍颍?、系統(tǒng)故障、設(shè)備故障、通行費(fèi)偷逃等通行異常情況。3.5高速公路通行異常事件定義及分類(lèi)3.5.1事件原因精確識(shí)別(1)通行時(shí)間過(guò)長(zhǎng)/過(guò)短:可能是由于交通擁堵、交通管制、車(chē)輛超速、事故、停車(chē)、時(shí)鐘不同步、網(wǎng)絡(luò)故障、記錄錯(cuò)誤和疑似逃費(fèi)等原因引起的。(2)車(chē)輛總重過(guò)高/過(guò)低:主要是貨車(chē)存在此類(lèi)問(wèn)題,可能是由于車(chē)輛超載、稱(chēng)重設(shè)備故障、車(chē)輛分合載、軟件錯(cuò)誤或疑似逃費(fèi)等原因引起的。(3)入出口信息不一:包括有入無(wú)出、有出無(wú)入、出入車(chē)輛信息不一等,主要是交通事故、施工車(chē)輛、疑似逃費(fèi)、聯(lián)合作弊等。具體原因應(yīng)結(jié)合橫向?qū)Ρ取⒖v向?qū)Ρ?、篩選排查、其他數(shù)據(jù)校驗(yàn)等方式來(lái)進(jìn)一步篩選排查,從而將不可能的原因進(jìn)一步排除,從而有效縮小事件成因的排查范圍甚至于準(zhǔn)確定位事件原因。

如在1月9-10日時(shí)間段內(nèi),同一入口或出口出現(xiàn)大量行駛時(shí)間長(zhǎng)度數(shù)據(jù)異常(平均值在1h),則說(shuō)明有可能是該站收費(fèi)系統(tǒng)網(wǎng)絡(luò)或車(chē)道計(jì)算機(jī)時(shí)鐘出現(xiàn)了問(wèn)題,需及時(shí)檢查維護(hù);又如下列5條數(shù)據(jù),同一車(chē)輛多條數(shù)據(jù)的通行時(shí)間均明顯低于正常值,則該車(chē)輛極有可能存在超速或逃費(fèi)行為,需對(duì)該車(chē)進(jìn)行專(zhuān)項(xiàng)核查。

3.5.2通行時(shí)長(zhǎng)過(guò)短樣例表3.9某車(chē)通行時(shí)間過(guò)短異常數(shù)據(jù)3.5.3典型異常事件原因精確識(shí)別流程(超時(shí)超重)5.社會(huì)經(jīng)濟(jì)效益

采用本研究提出的數(shù)據(jù)挖掘算法,對(duì)正常數(shù)據(jù)歸類(lèi)匯總,可給車(chē)輛進(jìn)行畫(huà)像,總結(jié)出車(chē)輛和人員共性特征,方便針對(duì)性開(kāi)展個(gè)性化服務(wù)。對(duì)異常數(shù)據(jù)進(jìn)行深挖細(xì)掘,采用“軟”方式實(shí)現(xiàn)異常事件檢測(cè),對(duì)異常車(chē)輛的高效追蹤,可為異常事件的實(shí)時(shí)檢測(cè)和精準(zhǔn)定位提供理論依據(jù)和數(shù)據(jù)支撐,有效節(jié)約異常事件排查成本。在路網(wǎng)監(jiān)測(cè)方面,可較快偵測(cè)到

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論