版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
基于數(shù)據(jù)挖掘的審計(jì)數(shù)據(jù)分析[摘要]本文針對計(jì)算機(jī)審計(jì)的現(xiàn)狀,提出了基于數(shù)據(jù)挖掘的審計(jì)數(shù)據(jù)分析流程,以及應(yīng)用DBSCAN聚類算法查找審計(jì)證據(jù)的辦法。[核心詞]計(jì)算機(jī)審計(jì);數(shù)據(jù)挖掘;聚類算法;噪聲數(shù)據(jù)隨著經(jīng)濟(jì)和信息技術(shù)的不停發(fā)展,許多公司開始引入了ERP等系統(tǒng),這些系統(tǒng)使得公司的眾多活動(dòng)數(shù)據(jù)能夠?qū)崟r(shí)統(tǒng)計(jì),形成了大量有關(guān)公司經(jīng)營管理的數(shù)據(jù)倉庫。從這些海量數(shù)據(jù)中獲取有用的審計(jì)數(shù)據(jù)是現(xiàn)在計(jì)算機(jī)審計(jì)的一種應(yīng)用。對于審計(jì)人員來說,如何從被審計(jì)單位的海量數(shù)據(jù)中找出全方面、高質(zhì)量的審計(jì)數(shù)據(jù)從而找出審計(jì)證據(jù)是一種難題。本文運(yùn)用數(shù)據(jù)挖掘技術(shù)對此問題進(jìn)行了探討并提出理解決的辦法。數(shù)據(jù)挖掘(DataMining)指的是從大量的、不完全的、有噪聲的、含糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中提取出隱藏的、不為人知的卻潛在有用的信息和知識的過程[1]。事實(shí)上,實(shí)際應(yīng)用數(shù)據(jù)的質(zhì)量和存儲模式對于實(shí)施計(jì)算機(jī)審計(jì)并成功獲取審計(jì)證據(jù)非常重要。由于被審單位信息系統(tǒng)軟硬件平臺的異構(gòu)性和可能存在的人為故意隱瞞、造假等,為確保計(jì)算機(jī)審計(jì)工作順利進(jìn)行和審計(jì)結(jié)論的對的,對審計(jì)數(shù)據(jù)進(jìn)行采集時(shí)必須對數(shù)據(jù)進(jìn)行檢查、控制和分析。1審計(jì)數(shù)據(jù)采集審計(jì)數(shù)據(jù)采集指在開展計(jì)算機(jī)審計(jì)時(shí)從被審計(jì)單位的財(cái)務(wù)及業(yè)務(wù)信息系統(tǒng)及其它數(shù)據(jù)源獲得審計(jì)所需的電子數(shù)據(jù)并進(jìn)行適宜的格式轉(zhuǎn)換[3]。普通來說,計(jì)算機(jī)審計(jì)中數(shù)據(jù)采集的辦法重要涉及下列幾個(gè):(1)運(yùn)用被審單位信息系統(tǒng)的數(shù)據(jù)導(dǎo)出功效。大多數(shù)的信息管理系統(tǒng)都提供了數(shù)據(jù)導(dǎo)出的功效,審計(jì)人員直接能夠運(yùn)用該功效導(dǎo)出公司財(cái)務(wù)數(shù)據(jù)完畢數(shù)據(jù)的采集。(2)運(yùn)用通用的數(shù)據(jù)解決軟件完畢數(shù)據(jù)采集。如Access、SQLServer等都含有較強(qiáng)大的數(shù)據(jù)導(dǎo)入導(dǎo)出功效和數(shù)據(jù)轉(zhuǎn)換功效。審計(jì)人員能夠運(yùn)用這些軟件完畢數(shù)據(jù)的采集。如被審公司原始數(shù)據(jù)為文本格式能夠轉(zhuǎn)換為數(shù)據(jù)庫表格格式。(3)運(yùn)用審計(jì)軟件完畢數(shù)據(jù)采集。如國家從2002年開始建設(shè)的“金審工程”就以現(xiàn)場審計(jì)實(shí)施系統(tǒng)(AO)及審計(jì)辦公系統(tǒng)(OA)作為計(jì)算機(jī)輔助審計(jì)的工具。別外應(yīng)用國內(nèi)的公司財(cái)務(wù)審計(jì)軟件、審計(jì)數(shù)據(jù)采集分析軟件等都能夠完畢審計(jì)數(shù)據(jù)的采集。(4)運(yùn)用專用程序接口完畢數(shù)據(jù)采集。當(dāng)被審計(jì)單位提供的審計(jì)數(shù)據(jù)的數(shù)據(jù)構(gòu)造與已有的審計(jì)數(shù)據(jù)解決軟件系統(tǒng)的數(shù)據(jù)構(gòu)造差別較大時(shí),能夠在審計(jì)人員的協(xié)助下由專門的程序員開發(fā)接口程序,完畢數(shù)據(jù)的采集,但成本相對較高。2數(shù)據(jù)清洗運(yùn)用數(shù)據(jù)挖掘?qū)徲?jì)數(shù)據(jù)進(jìn)行解決分類時(shí),為了提高分類的精確性、高效性和可伸縮性,必須對數(shù)據(jù)庫進(jìn)行預(yù)解決,涉及:數(shù)據(jù)的清洗、有關(guān)性分析、數(shù)據(jù)轉(zhuǎn)換等。文獻(xiàn)[4]中給出數(shù)據(jù)清洗的定義為:發(fā)現(xiàn)和消除數(shù)據(jù)中的錯(cuò)誤和不一致來提高數(shù)據(jù)的質(zhì)量。普通而言,審計(jì)數(shù)據(jù)庫中數(shù)據(jù)采集于異質(zhì)操作數(shù)據(jù)庫,不可避免存在著數(shù)據(jù)的錯(cuò)誤或不一致等問題,如數(shù)據(jù)造假、數(shù)據(jù)重復(fù)、數(shù)據(jù)缺失等錯(cuò)誤。根據(jù)文獻(xiàn)[5]提出的審計(jì)數(shù)據(jù)質(zhì)量特性,必須要對采集的原始數(shù)據(jù)進(jìn)行清洗,即由“臟”變“干凈”,提高審計(jì)數(shù)據(jù)質(zhì)量,這是確保審計(jì)結(jié)論對的的核心。數(shù)據(jù)清洗的普通過程如圖2所示。(1)數(shù)據(jù)分析:為了清洗出干凈的數(shù)據(jù),必須對數(shù)據(jù)進(jìn)行詳盡的分析,涉及數(shù)據(jù)的格式類別等。例如采集來的財(cái)務(wù)數(shù)據(jù)的字段類型、寬度、含義等。(2)模式轉(zhuǎn)換:模式轉(zhuǎn)換重要是指將源數(shù)據(jù)映射成目的數(shù)據(jù)模型,如屬性的轉(zhuǎn)換,字段的約束條件和數(shù)據(jù)庫中各個(gè)數(shù)據(jù)集之間的映射和轉(zhuǎn)換等。有時(shí)需要將多個(gè)數(shù)據(jù)表合并成一種二維表格,有時(shí)卻要將一種數(shù)據(jù)表拆分成多個(gè)二維表格方便于問題的解決。(3)數(shù)據(jù)校驗(yàn):上一步的模式轉(zhuǎn)換可行否,需要進(jìn)行評定測試,通過重復(fù)分析、設(shè)計(jì)、計(jì)算、分析才干更加好地清洗數(shù)據(jù)。否則不通過數(shù)據(jù)校驗(yàn)可能有些錯(cuò)誤數(shù)據(jù)不是很明顯,不能被較好地篩選出來。例如模式轉(zhuǎn)換時(shí)將一種數(shù)據(jù)集分解成多個(gè)數(shù)據(jù)表的時(shí)候,造成父表的主核心字的值和子表外部核心字的值不一致,從而形成孤立統(tǒng)計(jì),影響審計(jì)人員審計(jì)證據(jù)的對的性,進(jìn)而影響審計(jì)結(jié)論的對的性。(4)數(shù)據(jù)回流:用“干凈”的數(shù)據(jù)替代原始數(shù)據(jù)源中的“臟”數(shù)據(jù),避免下次數(shù)據(jù)采集時(shí)重做數(shù)據(jù)的清洗。有時(shí)候數(shù)據(jù)的清洗需要重復(fù)進(jìn)行,審計(jì)人員需要對采集到的電子數(shù)據(jù)進(jìn)行多次清洗,這樣才干得到高質(zhì)量的審計(jì)數(shù)據(jù)。3數(shù)據(jù)挖掘?qū)崿F(xiàn)通過數(shù)據(jù)預(yù)解決后的審計(jì)數(shù)據(jù)庫包含了多個(gè)數(shù)據(jù)集,每個(gè)數(shù)據(jù)集又包含了若干數(shù)據(jù)統(tǒng)計(jì)或者稱為元組,如何從這些二維表格數(shù)據(jù)中挖掘出故意義的審計(jì)數(shù)據(jù)至關(guān)重要。本文介紹一種運(yùn)用聚類算法進(jìn)行審計(jì)數(shù)據(jù)挖掘的算法。3.1算法概述3.1.1聚類算法所謂聚類就是根據(jù)相似性對數(shù)據(jù)對象進(jìn)行分組,發(fā)現(xiàn)數(shù)據(jù)的分布特性,使得每個(gè)聚類中數(shù)據(jù)有非常高的相似性而不同聚類中的數(shù)據(jù)盡量不同[6]。它同分類的重要區(qū)別在于,分類事先懂得所根據(jù)的數(shù)據(jù)特性,而聚類是要找到這個(gè)數(shù)據(jù)特性。作為數(shù)據(jù)挖掘的功效,聚類分析能夠作為一種獲取數(shù)據(jù)分布狀況、觀察每個(gè)類的特性和對特定類進(jìn)行進(jìn)一步獨(dú)立分析的工具;聚類也能夠有效解決噪聲數(shù)據(jù),例如數(shù)據(jù)庫中普遍包含的孤立點(diǎn)、空缺或錯(cuò)誤數(shù)據(jù)等。聚類分析算法普通有5類[7]:①基于劃分的辦法,如CLARANS;②基于層次的辦法,如CURE和BIRCH;③基于密度的辦法,如DBSCAN、OPTICS、GDBSCAN和DBRS;④基于網(wǎng)格的辦法,如STING和WaveCluster;⑤基于模型的辦法,如COBWEB。其中DBSCAN算法含有較好的過濾噪聲數(shù)據(jù)的優(yōu)點(diǎn)。本文探討運(yùn)用DBSCAN算法對審計(jì)數(shù)據(jù)進(jìn)行解決,找出異常數(shù)據(jù),查找出審計(jì)證據(jù)。3.1.2DBSCAN算法DBSCAN算法的基本思想為[8]:對于同一種聚類中的每個(gè)對象,在給定的半徑d的鄰域中包含的對象不能少于某一種給定的最小數(shù)目MinPts(也稱密度)。為了生存一種聚類,DBSCAN算法首先從數(shù)據(jù)集DB中選擇任意一種對象p,并查找數(shù)據(jù)集DB中有關(guān)半徑d的全部鄰域?qū)ο?,如果這個(gè)鄰域?qū)ο蟮膫€(gè)數(shù)不大于最小數(shù)目MinPts,則p為噪聲數(shù)據(jù);否則p的鄰域?qū)ο笮纬梢环N初始聚類N,N中包含對象p及p直接密度可達(dá)的全部對象。然后擬定該類中的每一種對象q與否為核心對象,若是,就將q的d—鄰域內(nèi)尚未包含到N的全部對象追加到N中,并繼續(xù)鑒定新追加的對象與否為核心對象,如果是,重復(fù)上述追加過程,直到這個(gè)聚類不能再擴(kuò)大為止。然后DBSCAN算法再在數(shù)據(jù)集DB中另選一種沒有被標(biāo)記為某個(gè)聚類或者噪聲的對象,重復(fù)上面的操作,始終到數(shù)據(jù)集DB中的全部對象要么被標(biāo)記為某個(gè)聚類、要么被標(biāo)記為噪聲數(shù)據(jù)為止。DBSCAN算法進(jìn)行聚類的過程就是不停執(zhí)行數(shù)據(jù)集查詢比較的過程,最后產(chǎn)生的噪聲數(shù)據(jù)就是普通所說的異常數(shù)據(jù),對于協(xié)助審計(jì)人員進(jìn)行審計(jì)判斷非常有效。圖3表達(dá)了二維平面坐標(biāo)下的噪聲數(shù)據(jù)和若干聚類。3.2數(shù)據(jù)模式定義3.2.1項(xiàng)間的距離設(shè)Ri和Rj是數(shù)據(jù)集DB中的任意兩條統(tǒng)計(jì)即某兩個(gè)數(shù)據(jù)項(xiàng),它們之間的距離定義為:式中,Ri(Rix,Riy),Rj(Rjx,Rjy)表達(dá)數(shù)據(jù)集中兩個(gè)項(xiàng)Ri和Rj在二維空間的坐標(biāo)點(diǎn),因此dij表達(dá)Ri和Rj在二維空間坐標(biāo)的距離。如果dij不不大于給定的值d,則表達(dá)Ri和Rj不屬于同一種聚類分組。3.2.2審計(jì)數(shù)據(jù)預(yù)解決數(shù)據(jù)挖掘時(shí)數(shù)據(jù)的選擇是在二維平面上進(jìn)行的,首先選擇列(字段或?qū)傩裕?,再選擇行(統(tǒng)計(jì)或元組)。為了能夠獲得有效的審計(jì)證據(jù)得出對的的審計(jì)結(jié)論,有時(shí)候必須對源數(shù)據(jù)集進(jìn)行數(shù)據(jù)轉(zhuǎn)換。由于各個(gè)企事業(yè)單位的規(guī)模不同,財(cái)務(wù)數(shù)據(jù)的數(shù)量級或者數(shù)量單位可能不同,為了得到更加科學(xué)可靠的聚類分析成果,需要對財(cái)務(wù)數(shù)據(jù)進(jìn)行預(yù)解決,普通進(jìn)行比例變換。如將x軸定義為某公司某月營業(yè)收入與利潤總額的比值,將y軸定義為財(cái)務(wù)費(fèi)用與凈利潤的比值,這樣解決的數(shù)據(jù)能更加好地反映該公司的實(shí)際狀況。這里的財(cái)務(wù)數(shù)據(jù)預(yù)解決都是由顧客來定義的,能夠根據(jù)不同的審計(jì)規(guī)定和審計(jì)目的來定義。建立一種新的二維表格數(shù)據(jù)最少包含4個(gè)屬性項(xiàng):統(tǒng)計(jì)號,x軸數(shù)據(jù),y軸數(shù)據(jù),標(biāo)記。其中統(tǒng)計(jì)號保持對應(yīng)源數(shù)據(jù)集DB中的統(tǒng)計(jì)號,x坐標(biāo)和y坐標(biāo)即為通過比例變換后的數(shù)值,標(biāo)記字段初始內(nèi)容為空。3.3算法描述及流程圖給定一種計(jì)算機(jī)審計(jì)數(shù)據(jù)集,假設(shè)含有N個(gè)元組或者統(tǒng)計(jì),運(yùn)用DBSCAN算法思想構(gòu)造出L個(gè)分組(L<N),每個(gè)分組代表一種聚類。且L個(gè)分組必須滿足以下條件:(1)每個(gè)分組最少包含MinPts個(gè)元組。(2)每個(gè)分組中的任意兩個(gè)元組直接的距離不大于等于給定的距離d。(3)每個(gè)元組僅屬于一種分組。圖4為實(shí)現(xiàn)審計(jì)數(shù)據(jù)挖掘的算法(稱為AUDBSCAN)的流程圖。3.4聚類算法的實(shí)現(xiàn)算法:審計(jì)數(shù)據(jù)挖掘聚類算法(AUDBSCAN)輸入:根據(jù)數(shù)據(jù)集DB產(chǎn)生的二維表格數(shù)據(jù) //最少含有4個(gè)字段:rec統(tǒng)計(jì)號,rxx坐標(biāo)數(shù)據(jù),ryy坐標(biāo)數(shù)據(jù),rno標(biāo)記 半徑d//度量密度的距離 密度MinPts//簇中的數(shù)目輸出:噪聲數(shù)據(jù)統(tǒng)計(jì)AlgorithmAUDBSCAN(data,d,MinPts)ForeachrecordindatadoIfeachreccordindataismarkedOutputnoisereccord//輸出標(biāo)記為噪聲的數(shù)據(jù)ElseForeachreccordindataisnotmarkednoiseorclasserdoP←Rand(areccordisnotmarkednoiseorclasser)//隨機(jī)選用沒有被標(biāo)記的統(tǒng)計(jì)pL←Found(p,d,MinPts)//找到p有關(guān)d的MinPts密度可達(dá)統(tǒng)計(jì)Ifs=recount(L)<MinPtsPismarkednoiseElseN←Found(p,d,MinPts)EachreccordinNismarkedclasserForeachreccordinNdoq←onereccord Ifqisacenterrecord//q為核心統(tǒng)計(jì) N←found(q,d)EndifEndforEndifEndforEndifEndfor在AUDBSCAN算法中,運(yùn)用Rand()函數(shù)產(chǎn)生第一種隨機(jī)統(tǒng)計(jì)p,運(yùn)用Found()函數(shù)產(chǎn)生p有關(guān)d的MinPts密度可達(dá)統(tǒng)計(jì)。該算法最后的成果和隨機(jī)產(chǎn)生的第一條統(tǒng)計(jì)有關(guān),形成的聚類可能有不同,但得到的噪聲數(shù)據(jù)一致,因此對于審計(jì)證據(jù)的查找是有效的。4結(jié)論數(shù)據(jù)挖掘技術(shù)與海量數(shù)據(jù)下審計(jì)業(yè)務(wù)的有效結(jié)合是將來計(jì)算機(jī)審計(jì)的一種發(fā)展方向。本文重要介紹了審計(jì)數(shù)據(jù)的采集、數(shù)據(jù)的解決轉(zhuǎn)換和數(shù)據(jù)的挖掘3個(gè)方面,并且在數(shù)據(jù)的挖掘方面采用了基于聚類的DBSCAN算法來快速、精確、高效地輸出噪聲數(shù)據(jù)。該算法中涉及的二維平面x,y軸坐標(biāo)能夠根據(jù)實(shí)際審計(jì)需要由審計(jì)人員加以定義,因此能夠應(yīng)用到各類審計(jì)實(shí)踐中去。另外,能夠?qū)ⅲ模拢樱茫粒嗡惴〝U(kuò)展到三維空間上,只要再加上一種z軸數(shù)據(jù),固然z軸數(shù)據(jù)也應(yīng)當(dāng)是和x,y軸數(shù)據(jù)有關(guān)的一種比例數(shù)據(jù),此時(shí)聚類的成果將會(huì)變成一種不規(guī)則球體,從而能夠更加容易挖掘出未曾發(fā)現(xiàn)的知識,也更加容易發(fā)現(xiàn)數(shù)據(jù)間的潛在聯(lián)系。重要參考文獻(xiàn)[1][加]JiaweiH,MichellineK.?dāng)?shù)據(jù)挖掘概念與技術(shù)[M].范明,譯.北京:機(jī)械工業(yè)出版社,2004.[2]陳偉,張金城,RobinQiu.審計(jì)數(shù)據(jù)解決實(shí)驗(yàn)中的模擬數(shù)據(jù)生成系統(tǒng)[J].計(jì)算機(jī)工程,2007(19).[3]王琦峰,胡玲玲.基于AO的審計(jì)數(shù)據(jù)采集辦法[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2009(3).[4]米天勝,張金城.面對數(shù)據(jù)的計(jì)算機(jī)審計(jì)中數(shù)據(jù)質(zhì)量問題的探討[J].審計(jì)與經(jīng)濟(jì)研究,2006(1).[5]王昊,朱文明.審計(jì)數(shù)據(jù)質(zhì)量研究:從審計(jì)取證的視角[J].南京大學(xué)學(xué)報(bào):自然科學(xué)版,2007(1).[6]楊磊,李建軍,張志軍,孫翠娟.談數(shù)據(jù)挖掘中慣用的聚類算法[J].
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 建筑裝修勞務(wù)分包合同范本
- 2024年小吃檔口的承包合同協(xié)議書
- 代理配股繳款協(xié)議專業(yè)版
- 家庭住宅客戶專用
- 正式授權(quán)加工合同書
- 房產(chǎn)中介銷售代理合同范例
- 電臺合作協(xié)議范本新
- 委托投資合同協(xié)議書模板
- 長期出租協(xié)議
- 改進(jìn)版用工合同格式
- 醫(yī)學(xué)教程 膽囊癌診治課件
- 山西省運(yùn)城市2024-2025學(xué)年高二上學(xué)期10月月考英語試題
- 4.3《課間》 (教案)-2024-2025學(xué)年一年級上冊數(shù)學(xué)北師大版
- 【班主任工作】2024-2025學(xué)年秋季安全主題班會(huì)教育周記錄
- 2024-2030年街舞培訓(xùn)行業(yè)市場發(fā)展分析及發(fā)展趨勢前景預(yù)測報(bào)告
- 橡膠壩工程施工質(zhì)量驗(yàn)收評定表及填表說明
- 《2024版CSCO胰腺癌診療指南》更新要點(diǎn) 2
- +陜西省渭南市富平縣2023-2024學(xué)年九年級上學(xué)期摸底數(shù)學(xué)試卷
- 2023年法律職業(yè)資格《客觀題卷一》真題及答案
- 公司培訓(xùn)工作報(bào)告6篇
- 2024中國民航機(jī)場建設(shè)集團(tuán)限公司校園招聘304人高頻考題難、易錯(cuò)點(diǎn)模擬試題(共500題)附帶答案詳解
評論
0/150
提交評論