




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、基于Agent的數(shù)據(jù)挖掘技術在公共服務信譽檢測中的應用李春生大慶石油學院計算機與信息技術學院1、 摘要 隨著數(shù)據(jù)庫技術和網(wǎng)絡技術的成熟和應用,公共服務行業(yè)產(chǎn)生和收集了大量的數(shù)據(jù)。如何從不同層次的信息中發(fā)現(xiàn)潛在的有價值的規(guī)則以便在管理和經(jīng)營中迅速地做出正確的決策,這就要求新技術和工具的出現(xiàn)幫助管理人員將海量數(shù)據(jù)轉換成有用的信息和知識。我們設計了基于多Agent技術的數(shù)據(jù)挖掘模型來挖掘公共服務中的無信用行為,并根據(jù)發(fā)現(xiàn)的模式來對用戶進行信譽評估。作為模型的驗證,我們?yōu)榇髴c石油管理局供水公司建立了水費信用檢測系統(tǒng)。2、 引言數(shù)據(jù)挖掘技術是在數(shù)據(jù)庫中發(fā)現(xiàn)有用的知識。Agent技術在構建復雜軟件系統(tǒng)工作
2、中,為我們提供了一種令人興奮的方式。把多Agent技術引入到數(shù)據(jù)挖掘中,用agent實現(xiàn)數(shù)據(jù)挖掘過程的各個部分。利用多智能體實現(xiàn)數(shù)據(jù)的規(guī)約、準備,知識的自動抽取及根據(jù)所挖掘知識對數(shù)據(jù)的識別。使整個系統(tǒng)實現(xiàn)了知識性、智能性。3、 基于Agent的數(shù)據(jù)挖掘系統(tǒng)的建立 數(shù)據(jù)挖掘系統(tǒng)模型包括explore agent , data mining agent, and Human-Computer interface Agent evaluation agent .在數(shù)據(jù)的探索階段,采用了決策樹算法選擇和分類有關的屬性,并且去除了矛盾數(shù)據(jù)以免數(shù)據(jù)干擾,確定適合用于挖掘和訓練的數(shù)據(jù)集合??捎糜谕诰蚰P徒?/p>
3、的算法很多,可以根據(jù)調(diào)查,和綜合測評決定。本模型以神經(jīng)網(wǎng)絡BP算法為例論述了挖掘模型的建立。系統(tǒng)協(xié)作模型:在多Agent系統(tǒng)中,社會智能不但來源于個體組織的智能水平,還來源于群體的通信交互與協(xié)作。為了保證挖掘模式的動態(tài)學習,需要多Agent“社會”內(nèi)部各個Agent實體組織的協(xié)同工作,以實現(xiàn)信息間的交換,轉化和同步。協(xié)作意味著一個Agent在采取行動或作出決定定時,受其他同類或異類Agent的狀態(tài)、知識的影響,正因如此,系統(tǒng)中各Agent才能根據(jù)運行過程中所傳遞的消息來協(xié)調(diào)彼此行為,實現(xiàn)合作或消解沖突,完成問題并行求解。 Agent接收到任務后可以進一步分解,Agent能夠連續(xù)不斷的感知外界發(fā)
4、生的以及自身狀態(tài)的變化,并產(chǎn)生相應的動作。在本系統(tǒng)中,每個成員Agent僅有不完全的信息和問題求解能力,數(shù)據(jù)是分散或者分布的,計算是異步的。因此,Agent通過協(xié)同計算以完成挖掘和識別任務。Agent間的協(xié)作機制包含許多方面的內(nèi)容,本系統(tǒng)從三方面定義協(xié)作:消息協(xié)議,通信方式,交互協(xié)議。在系統(tǒng)實現(xiàn)中采取直接/被動合作模型。交互協(xié)議:根據(jù)合作模型交互協(xié)議涉及了三種通信行為有被動服務請求,直接被動服務允諾,和通信行為。基于這三種通信行為交互協(xié)議的描述為:一方主體i(服務請求方的角色)首先向另一方主體j(服務允諾放和服務提供方的角色)發(fā)出被動服務請求,要求服務提供方主體j為它提供服務;服務允諾方主體j
5、根據(jù)服務請求向服務請求方主體i做出直接被動服務允諾,被動的提供服務并通過通知通信行為將服務結果返回給服務請求主體i,服務被提供則意味著合作結束。通信方式:根據(jù)應用的特點,通信方式采取Agent之間建立信道的點對點消息傳遞通信方式,基于該通信信道進行雙向,對等的消息傳遞。消息協(xié)議:Agent通過消息協(xié)議可以互相理解和交換信息,并對消息做出處理。在本系統(tǒng)實現(xiàn)中,消息協(xié)議采用了基于KQML語言定義的面向數(shù)據(jù)挖掘的通信語言,它以KQML作為協(xié)同通訊的協(xié)議,對其進行擴充,采用XML來描述消息的內(nèi)容體,在此基礎上設計了一套比較完整的、可擴充的通訊語言(協(xié)議)。4、 Explore Agent原始數(shù)據(jù)經(jīng)清理
6、、集成、變換后存儲于數(shù)據(jù)倉庫中。但是由于數(shù)據(jù)倉庫中選擇數(shù)據(jù),數(shù)據(jù)集將非常龐大,使復雜的數(shù)據(jù)分析和挖掘需要很長的時間。這樣,分析會變得不現(xiàn)實或不可行2。因此,我們設計了Explore Agent來完成數(shù)據(jù)的維歸約。Explore Agent會始終詢問數(shù)據(jù)是否發(fā)生變化,當?shù)玫阶兓ㄖ?,則請求數(shù)據(jù)并根據(jù)更新的數(shù)據(jù)得到新的規(guī)約模型。并且通知挖掘Agent。挖掘Agent在得知模型更新后向Explore Agent查詢最新的模式。根據(jù)Explore Agent提供的知識完成樣本數(shù)據(jù)的選擇。用于分析的數(shù)據(jù)可能包含數(shù)以百計的屬性,其中有些是與挖掘任務相關的,有些是無關的。Explore Agent的任務就是
7、從原屬性集合中,尋找一個好的子集。使得數(shù)據(jù)類的概率盡量分布盡可能的接近使用原有屬性的原分布。由于決策樹具有可以清晰顯示重要屬性的優(yōu)點,我們選擇了用信息增益度量建立分類決策樹的方法完成屬性的估計度量。The design Explore agent : Explore agent的任務為利用已有業(yè)務數(shù)據(jù),通過決策樹算法逐層選擇對于客戶分類產(chǎn)生最大影響的客戶背景要素即可用于挖掘的相關屬性,然后計算該客戶所屬的客戶類別與該種客戶分類之間的關系,這樣依次擴展,最后形成一個完整的決策樹,不出現(xiàn)在樹中的所有屬性假定為不相關的,出現(xiàn)在樹中的屬性構成了歸約后的最佳子集。Explore Agent會始終詢問數(shù)據(jù)
8、是否發(fā)生變化,當?shù)玫阶兓ㄖ瑒t請求數(shù)據(jù)并根據(jù)更新的數(shù)據(jù)得到新的規(guī)約模型。 處理器歸納構造的決策樹模型類似于流程圖的結構。每個內(nèi)部節(jié)點(非樹葉)表示一個屬性上的測試,每個分支對應于測試的一個輸出,每個外部節(jié)點(樹葉)表示一個判定類。在每個節(jié)點上算法選擇“最好”的屬性,將數(shù)據(jù)劃分為類。一般來說,挖掘任務是分類,而確定屬性子集又選用了挖掘算法,可以達到更高的精確性2。屬性選取的流程如圖:Agent處理中心采用決策樹的經(jīng)典算法ID3算法來處理數(shù)據(jù),使用information gain度量來選擇測試屬性。關于ID3算法的詳細內(nèi)容可以參見資料。下面介紹Agent 處理中心的主要結構:1)數(shù)據(jù)預處理:首先
9、,對所有用戶進行類別劃分。確保每個客戶都具有正確的類別屬性,以便在模型訓練中起到正確的指導作用。其次,將原數(shù)據(jù)中數(shù)值型數(shù)據(jù),如:水費系統(tǒng)中的用戶單位時間內(nèi)應繳納費用進行離散化,生成單位時間內(nèi)應繳納費用字段編碼。2)算法實現(xiàn):核心算法由一個類來實現(xiàn),主要包括四個方法:數(shù)據(jù)前期處理方法(DataPrepare),算法生成方法(GenerateDecisionTree),模型存儲方法(ModelStore),模型顯示方法(ModelDisplay)。工作過程為由Dataprepare方法完成算法執(zhí)行前的數(shù)據(jù)預處理及前期初始化工作,處理完畢的數(shù)據(jù)進入GenerateDecisionTree方法運作得出
10、決策樹模型。此時,模型存儲方法將所生成的模型存儲于Agent的知識庫中,顯示方法以類似于流程圖的樹結構向用戶顯示所生成模型的結構。數(shù)據(jù)的存儲結構根據(jù)信息量的大小,Explore Agent根據(jù)知識庫中的模型提取節(jié)點的信息,選擇出和分類結果真正相關的數(shù)性集合。為挖掘模型選擇良好的訓練屬性集合。5、挖掘Agent:挖掘Agent接收到更新的決策樹模型,由于Explore Agent知識庫中的決策樹模型的數(shù)據(jù)結構存儲為樹,根據(jù)得到的知識Value Reduction Agent可以遍歷決策樹獲得不同模式的可信度。并通過連接數(shù)據(jù)庫,選取可信程度高的模式的樣本作為訓練樣本。樣本集的分布特征對網(wǎng)絡的訓練有
11、根大的影響。實際中許多問題由于樣本沒有經(jīng)過精心的篩選,致使在同一個訓練集中若干樣本出現(xiàn)矛盾現(xiàn)象即存在具有相近輸入向量的兩個或多個樣本的輸出相異。針對這一問題,我們利用決策樹的決策規(guī)則來完成了矛盾樣本的去除。試驗證明,該方法對于減少矛盾數(shù)據(jù)對網(wǎng)絡的影響有效。神經(jīng)網(wǎng)絡可以模仿人的頭腦,通過向一個訓練數(shù)據(jù)集學習和應用所學知識來生成分類和預測的模式。在數(shù)據(jù)是不定形的并且無法觀察到明顯的規(guī)則時,這種方法依然有效。在本模型中,采用了神經(jīng)網(wǎng)絡中附加動量因子技術的BP網(wǎng)絡訓練方法作為挖掘Agent的核心算法。BP網(wǎng)絡改進分析:多層神經(jīng)網(wǎng)絡是由輸入層、輸出層及它們之間一個或多個隱層構成 ,其BP算法包括前饋傳播
12、和誤差反向傳播兩個過程,首先輸入信號從輸入層經(jīng)隱層單元傳向輸出層,如果輸出層上不能得到期望結果,則轉入反向傳播,將誤差信號反向由輸出層傳向輸入層,通過修改各層神經(jīng)元的權值,使得誤差信號最小。在系統(tǒng)中,采用了雙隱層單元BP網(wǎng)絡。通過DecisionAgent知識庫中模型節(jié)點知識所提供的屬性集合確定網(wǎng)絡的輸入單元個數(shù)。 定義:Wij上一層單元到本層單元的連接權。單元的偏置。On單元的輸出。BP網(wǎng)絡的數(shù)學模型:1)提供訓練集,輸入數(shù)據(jù)向量為x1,x2,xn輸入層節(jié)點j的輸出為xj1=f (xj),為了使BP網(wǎng)絡隱含層的輸入規(guī)范化,f為歸一函數(shù):f=(X-Xmin)/(Xmax-Xmin)其中,Xmi
13、n為節(jié)點輸入的下限,Xmax為節(jié)點輸入的上限。2)隱含層及輸出層的輸入為:Ij=偏置用來充當閾值,改變單元的活性。3)將激活函數(shù)作用于輸入向量逐級計算輸出值。激活函數(shù)選用了S型函數(shù)對于節(jié)點J輸出為4)BP網(wǎng)絡的權值調(diào)整基于實際輸出與期望輸出的最小均方差即:E=C:輸出層單元數(shù);Tk:輸出層單元k的期望輸出; 5)為了使學習以盡可能減小誤差均方差的方式進行,因此,采用使E沿梯度方向下降的方式進行調(diào)整: ; 對于,中間隱層,則采用遞歸的方法從輸出節(jié)點K返回到中間隱層。6)權重,單元偏置的修改公式為:; 用步驟5)多次修改網(wǎng)絡權值,直到達到精度要求或網(wǎng)絡不收斂。傳統(tǒng)的BP算法在修正權值時只按照t時刻
14、負梯度方向進行修正而沒有考慮以前時刻的梯度方向,從而常常使訓練過程產(chǎn)生振蕩。為了解決以上問題,系統(tǒng)設計的修正權值方案為慣性系數(shù)指數(shù)增長法。即按設計比例加上前一次學習時校正量:; :本次校正量;:由梯度下降求出的校正量;:前次校正量。:權值的總數(shù)和限定學習次數(shù)的乘積。由上式可知:當前一次的校正量過調(diào)時,慣性項與本次誤差校正項符號相反,使得本次實際校正量減小,起到減小振蕩的作用;當前次校正量欠調(diào)時,慣性項與本次誤差校正項符號相同,起到加速校正的作用。另外,動量因子還可以防止學習過程在錯誤表面上的表層局部最小化時終止3。在系統(tǒng)設計的動量項指數(shù)增長方案中,慣性因子是一個變量,且隨校正過程不斷變化。當校
15、正方向為欠調(diào)時加大調(diào)整步伐,當校正方向為過調(diào)時減小調(diào)整步伐。從而更好的達到網(wǎng)絡收斂的效果。評估Agent為了獲得優(yōu)良的網(wǎng)絡性能,我們需要對建立的模型進行迭代估計。評估Agent通過對挖掘Agent發(fā)現(xiàn)的模式進行自動評估,來確定識別Agent所需要的識別模型。挖掘Agent通過處理器的工作抽取相關的變量得出學習的模式,該模式被告知評估Agent。評估Agent通過對模型的檢測給出性能評價,并將評價送入評價處理模塊。處理模塊采用平均方法對性能進行評價。由處理模塊統(tǒng)一處理,選擇有趣的挖掘模式。最終的模式被提交給識別Agent作為識別模型。識別Agent通過人機界面Agent與管理人員交互,完成對用戶
16、的識別。6、案例分析:目前,供水部門費用拖欠問題逐漸引起了行業(yè)的注意。對于飽受欠費之苦的供水部門建立健全長效的預警機制尤為必要。本節(jié)基于上述模型,介紹了水費行業(yè)用戶費用拖欠預警系統(tǒng)模型的建立,并對運行效果進行了描述。1) Explore Agent從數(shù)據(jù)集中選擇用于分析的數(shù)據(jù),將可用數(shù)據(jù)送入Explore Agent進行處理。Agent根據(jù)歷史數(shù)據(jù)決定可以完成正確分類任務的屬性集合。經(jīng)過數(shù)據(jù)處理可以得到以下決策樹:決策樹模型節(jié)點信息以樹形結構被存儲于知識庫,向挖掘Agent提供和類別相關聯(lián)的屬性集合。外購水總表、含稅狀況、結算單位、與預計水表差值、有無自備井、用水性質(zhì)、本月應交費用、用水地點屬
17、性集被選擇為挖掘?qū)傩裕琩ata mining Agent的預處理過程將對相應屬性內(nèi)容進行量化。數(shù)值型字段的分界值作為量化參考。數(shù)據(jù)挖掘模型的建立樣本的選則: 通過Explore Agent的信息可以得知可信度高的模式。在數(shù)據(jù)庫中查詢符合可信度高的模式的樣本進行訓練。減少學習樣本中,矛盾數(shù)據(jù)的出現(xiàn)。經(jīng)過測試我們比較了沒有經(jīng)過樣本選擇和經(jīng)過樣本選擇的結果:沒有經(jīng)過樣本選擇的收斂曲線 經(jīng)過樣本選擇的收斂曲線1、 參數(shù)確定:經(jīng)過決策樹Agent的工作,可以獲得和分類相關的屬性集和。我們將這些用戶因素經(jīng)過量化、歸一預處理后,轉換為數(shù)字信息作為網(wǎng)絡的輸入向量。經(jīng)過試驗,本設計采用兩個隱層每個隱層二十個節(jié)點
18、的網(wǎng)絡。網(wǎng)絡的輸出為對應與輸入因素的一個關于用戶欠費風險的判斷。訓練指導中,如果用戶欠費則風險置1,否則置0。網(wǎng)絡的學習因子為=0.3;慣性系數(shù)初始化為;。 2、訓練學習為了得到更好的訓練模型,我們抽取了200條樣本,分別對標準BP網(wǎng)絡,恒定慣性量BP網(wǎng)絡,和慣性系數(shù)指數(shù)增長的網(wǎng)絡性能作了測試,測試結果如下所示:Goal:0.1 Goal:0.1 Goal:0.1Epochs:601;Time:11 seconds Epochs:256;Time: 7 seconds Epochs:111;Time:2 secondsTypical BPA BPA with invariable momentum BPA with momentumincrease by exponentialGoal:0.01 Goal:0.01 Goal:0.01Epochs: 10914;Time: 11 seconds Epochs: 5446;Time: 46seconds Epochs: 854;Time: 17secondsTypical BPA BPA with invariable momentum BPA with momentumincrease by exponential系統(tǒng)評估:在系統(tǒng)中
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 文化產(chǎn)業(yè)中涂層的耐磨損性能研究考核試卷
- 工業(yè)設計中的產(chǎn)品生命周期管理考核試卷
- 信托公司業(yè)務流程標準化考核試卷
- 兔飼養(yǎng)繁殖技術的優(yōu)化考核試卷
- 新能源汽車充電設施規(guī)劃與布局優(yōu)化考核試卷
- 收購公司的合同范本
- 營業(yè)執(zhí)照合同范本
- 定制柜定金合同范本
- 木材板材加工合同范本
- 紗窗廠用工合同范本
- 北京市東城區(qū)2025年公開招考539名社區(qū)工作者高頻重點提升(共500題)附帶答案詳解
- 2025福建福州地鐵集團限公司運營分公司校園招聘高頻重點提升(共500題)附帶答案詳解
- 2025至2030年中國電子護眼臺燈數(shù)據(jù)監(jiān)測研究報告
- 兒童睡眠障礙治療
- 2025年浙江省溫州樂清市融媒體中心招聘4人歷年高頻重點提升(共500題)附帶答案詳解
- 2025夏季廣東廣州期貨交易所招聘高頻重點提升(共500題)附帶答案詳解
- 北京市豐臺區(qū)2024-2025學年高三上學期期末英語試題
- 2025上海市嘉定工業(yè)區(qū)農(nóng)村青年干部招聘22人歷年高頻重點提升(共500題)附帶答案詳解
- 《獸醫(yī)基礎》練習題及參考答案
- 2025年煤礦探放水證考試題庫
- 2024年度個人珠寶首飾分期購買合同范本3篇
評論
0/150
提交評論