




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
基于數(shù)據(jù)挖掘的審計(jì)數(shù)據(jù)淺析0論文類別:
會(huì)計(jì)審計(jì)論文
>
審計(jì)論文
論文作者:
荊霞
上傳時(shí)間:2012-1-710:00:00[摘要]本文針對(duì)計(jì)算機(jī)審計(jì)的現(xiàn)狀,提出了基于數(shù)據(jù)挖掘的審計(jì)數(shù)據(jù)分析流程,以及應(yīng)用DBSCAN聚類算法查找審計(jì)證據(jù)的方法。
[關(guān)鍵詞]計(jì)算機(jī)審計(jì);數(shù)據(jù)挖掘;聚類算法;噪聲數(shù)據(jù)
隨著經(jīng)濟(jì)和信息技術(shù)的不斷發(fā)展,許多企業(yè)開始引入了ERP等系統(tǒng),這些系統(tǒng)使得企業(yè)的眾多活動(dòng)數(shù)據(jù)可以實(shí)時(shí)記錄,形成了大量有關(guān)企業(yè)經(jīng)營(yíng)管理的數(shù)據(jù)倉(cāng)庫(kù)。從這些海量數(shù)據(jù)中獲取有用的審計(jì)數(shù)據(jù)是目前計(jì)算機(jī)審計(jì)的一個(gè)應(yīng)用。對(duì)于審計(jì)人員來(lái)說(shuō),如何從被審計(jì)單位的海量數(shù)據(jù)中找出全面、高質(zhì)量的審計(jì)數(shù)據(jù)從而找出審計(jì)證據(jù)是一個(gè)難題。本文利用數(shù)據(jù)挖掘技術(shù)對(duì)此問(wèn)題進(jìn)行了探討并提出了解決的方法。
數(shù)據(jù)挖掘(DataMining)指的是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中提取出隱藏的、不為人知的卻潛在有用的信息和知識(shí)的過(guò)程[1]。事實(shí)上,實(shí)際應(yīng)用數(shù)據(jù)的質(zhì)量和存儲(chǔ)模式對(duì)于實(shí)施計(jì)算機(jī)審計(jì)并成功獲取審計(jì)證據(jù)非常重要。由于被審單位信息系統(tǒng)軟硬件平臺(tái)的異構(gòu)性和可能存在的人為故意隱瞞、造假等,為保證計(jì)算機(jī)審計(jì)工作順利進(jìn)行和審計(jì)結(jié)論的正確,對(duì)審計(jì)數(shù)據(jù)進(jìn)行采集時(shí)必須對(duì)數(shù)據(jù)進(jìn)行檢查、控制和分析。
1審計(jì)數(shù)據(jù)采集
審計(jì)數(shù)據(jù)采集指在開展計(jì)算機(jī)審計(jì)時(shí)從被審計(jì)單位的財(cái)務(wù)及業(yè)務(wù)信息系統(tǒng)及其他數(shù)據(jù)源獲得審計(jì)所需的電子數(shù)據(jù)并進(jìn)行適當(dāng)?shù)母袷睫D(zhuǎn)換[3]。一般來(lái)說(shuō),計(jì)算機(jī)審計(jì)中數(shù)據(jù)采集的方法主要包括以下幾種:
(1)利用被審單位信息系統(tǒng)的數(shù)據(jù)導(dǎo)出功能。大多數(shù)的信息管理系統(tǒng)都提供了數(shù)據(jù)導(dǎo)出的功能,審計(jì)人員直接可以利用該功能導(dǎo)出企業(yè)財(cái)務(wù)數(shù)據(jù)完成數(shù)據(jù)的采集。
(2)利用通用的數(shù)據(jù)處理軟件完成數(shù)據(jù)采集。如Access、SQLServer等都具有較強(qiáng)大的數(shù)據(jù)導(dǎo)入導(dǎo)出功能和數(shù)據(jù)轉(zhuǎn)換功能。審計(jì)人員可以利用這些軟件完成數(shù)據(jù)的采集。如被審企業(yè)原始數(shù)據(jù)為文本格式可以轉(zhuǎn)換為數(shù)據(jù)庫(kù)表格格式。
(3)利用審計(jì)軟件完成數(shù)據(jù)采集。如國(guó)家從2002年開始建設(shè)的“金審工程”就以現(xiàn)場(chǎng)審計(jì)實(shí)施系統(tǒng)(AO)及審計(jì)辦公系統(tǒng)(OA)作為計(jì)算機(jī)輔助審計(jì)的工具。別外應(yīng)用國(guó)內(nèi)的企業(yè)財(cái)務(wù)審計(jì)軟件、審計(jì)數(shù)據(jù)采集分析軟件等都可以完成審計(jì)數(shù)據(jù)的采集。
(4)利用專用程序接口完成數(shù)據(jù)采集。當(dāng)被審計(jì)單位提供的審計(jì)數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)與已有的審計(jì)數(shù)據(jù)處理軟件系統(tǒng)的數(shù)據(jù)結(jié)構(gòu)差異較大時(shí),可以在審計(jì)人員的協(xié)助下由專門的程序員開發(fā)接口程序,完成數(shù)據(jù)的采集,但成本相對(duì)較高。
2數(shù)據(jù)清洗
利用數(shù)據(jù)挖掘?qū)徲?jì)數(shù)據(jù)進(jìn)行處理分類時(shí),為了提高分類的準(zhǔn)確性、高效性和可伸縮性,必須對(duì)數(shù)據(jù)庫(kù)進(jìn)行預(yù)處理,包括:數(shù)據(jù)的清洗、相關(guān)性分析、數(shù)據(jù)轉(zhuǎn)換等。
文獻(xiàn)[4]中給出數(shù)據(jù)清洗的定義為:發(fā)現(xiàn)和消除數(shù)據(jù)中的錯(cuò)誤和不一致來(lái)提高數(shù)據(jù)的質(zhì)量。一般而言,審計(jì)數(shù)據(jù)庫(kù)中數(shù)據(jù)采集于異質(zhì)操作數(shù)據(jù)庫(kù),不可避免存在著數(shù)據(jù)的錯(cuò)誤或不一致等問(wèn)題,如數(shù)據(jù)造假、數(shù)據(jù)重復(fù)、數(shù)據(jù)缺失等錯(cuò)誤。根據(jù)文獻(xiàn)[5]提出的審計(jì)數(shù)據(jù)質(zhì)量特征,必須要對(duì)采集的原始數(shù)據(jù)進(jìn)行清洗,即由“臟”變“干凈”,提高審計(jì)數(shù)據(jù)質(zhì)量,這是保證審計(jì)結(jié)論正確的關(guān)鍵。
數(shù)據(jù)清洗的一般過(guò)程如圖2所示。
(1)數(shù)據(jù)分析:為了清洗出干凈的數(shù)據(jù),必須對(duì)數(shù)據(jù)進(jìn)行詳盡的分析,包括數(shù)據(jù)的格式類別等。比如采集來(lái)的財(cái)務(wù)數(shù)據(jù)的字段類型、寬度、含義等。
(2)模式轉(zhuǎn)換:模式轉(zhuǎn)換主要是指將源數(shù)據(jù)映射成目標(biāo)數(shù)據(jù)模型,如屬性的轉(zhuǎn)換,字段的約束條件和數(shù)據(jù)庫(kù)中各個(gè)數(shù)據(jù)集之間的映射和轉(zhuǎn)換等。有時(shí)需要將多個(gè)數(shù)據(jù)表合并成一個(gè)二維表格,有時(shí)卻要將一個(gè)數(shù)據(jù)表拆分成多個(gè)二維表格以便于問(wèn)題的解決。
(3)數(shù)據(jù)校驗(yàn):上一步的模式轉(zhuǎn)換可行否,需要進(jìn)行評(píng)估測(cè)試,經(jīng)過(guò)反復(fù)分析、設(shè)計(jì)、計(jì)算、分析才能更好地清洗數(shù)據(jù)。否則不經(jīng)過(guò)數(shù)據(jù)校驗(yàn)可能有些錯(cuò)誤數(shù)據(jù)不是很明顯,不能被很好地篩選出來(lái)。比如模式轉(zhuǎn)換時(shí)將一個(gè)數(shù)據(jù)集分解成多個(gè)3.3算法描述及流程圖
給定一個(gè)計(jì)算機(jī)審計(jì)數(shù)據(jù)集,假設(shè)具有N個(gè)元組或者記錄,利用DBSCAN算法思想構(gòu)造出L個(gè)分組(L<N),每個(gè)分組代表一個(gè)聚類。且L個(gè)分組必須滿足如下條件:
(1)每個(gè)分組至少包含MinPts個(gè)元組。
(2)每個(gè)分組中的任意兩個(gè)元組直接的距離小于等于給定的距離d。
(3)每個(gè)元組僅屬于一個(gè)分組。
圖4為實(shí)現(xiàn)審計(jì)數(shù)據(jù)挖掘的算法(稱為AUDBSCAN)的流程圖。
3.4聚類算法的實(shí)現(xiàn)
算法:審計(jì)數(shù)據(jù)挖掘聚類算法(AUDBSCAN)
輸入:根據(jù)數(shù)據(jù)集DB產(chǎn)生的二維表格數(shù)據(jù)
//至少含有4個(gè)字段:rec記錄號(hào),rxx坐標(biāo)數(shù)據(jù),ryy坐標(biāo)數(shù)據(jù),rno標(biāo)記
半徑d//度量密度的距離
密度MinPts//簇中的數(shù)目
輸出:噪聲數(shù)據(jù)記錄
AlgorithmAUDBSCAN(data,d,MinPts)
Foreachrecordindatado
Ifeachreccordindataismarked
Outputnoisereccord//輸出標(biāo)識(shí)為噪聲的數(shù)據(jù)
Else
Foreachreccordindataisnotmarkednoiseorclasserdo
P←Rand(areccordisnotmarkednoiseorclasser)//隨機(jī)選取沒(méi)有被標(biāo)記的記錄p
L←Found(p,d,MinPts)//找到p關(guān)于d的MinPts密度可達(dá)記錄
Ifs=recount(L)<MinPts
Pismarkednoise
Else
N←Found(p,d,MinPts)
EachreccordinNismarkedclasser
ForeachreccordinNdo
q←onereccord
Ifqisacenterrecord//q為核心記錄
N←found(q,d)
Endif
Endfor
Endif
Endfor
Endif
Endfor
在AUDBSCAN算法中,利用Rand()函數(shù)產(chǎn)生第一個(gè)隨機(jī)記錄p,利用Found()函數(shù)產(chǎn)生p關(guān)于d的MinPts密度可達(dá)記錄。該算法最后的結(jié)果和隨機(jī)產(chǎn)生的第一條記錄相關(guān),形成的聚類可能有不同,但得到的噪聲數(shù)據(jù)一致,因此對(duì)于審計(jì)證據(jù)的查找是有效的。
4結(jié)論
數(shù)據(jù)挖掘技術(shù)與海量數(shù)據(jù)下審計(jì)業(yè)務(wù)的有效結(jié)合是未來(lái)計(jì)算機(jī)審計(jì)的一個(gè)發(fā)展方向。本文主要介紹了審計(jì)數(shù)據(jù)的采集、數(shù)據(jù)的處理轉(zhuǎn)換和數(shù)據(jù)的挖掘3個(gè)方面,并且在數(shù)據(jù)的挖掘方面采用了基于聚類的DBSCAN算法來(lái)快速、準(zhǔn)確、高效地輸出噪聲數(shù)據(jù)。該算法中涉及的二維平面x,y軸坐標(biāo)可以根據(jù)實(shí)際審計(jì)需要由審計(jì)人員加以定義,因此可以應(yīng)用到各類審計(jì)實(shí)踐中去。另外,可以將DBSCAN算法擴(kuò)展到三維空間上,只要再加上一個(gè)z軸數(shù)據(jù),當(dāng)然z軸數(shù)據(jù)也應(yīng)該是和x,y軸數(shù)據(jù)相關(guān)的一個(gè)比例數(shù)據(jù),此時(shí)聚類的結(jié)果將會(huì)變成一個(gè)不規(guī)則球體,從而能夠更加容易挖掘出未曾發(fā)現(xiàn)的知識(shí),也更加容易發(fā)現(xiàn)數(shù)據(jù)間的潛在聯(lián)系。
主要參考文獻(xiàn)
[1][加]JiaweiH,MichellineK.?dāng)?shù)據(jù)挖掘概念與技術(shù)[M].范明,譯.北京:機(jī)械工業(yè)出版社,2004.
[2]陳偉,張金城,RobinQiu.審計(jì)數(shù)據(jù)處理實(shí)驗(yàn)中的模擬數(shù)據(jù)生成系統(tǒng)[J].計(jì)算機(jī)工程,2007(19).
[3]王琦峰,胡玲玲.基于AO的審計(jì)數(shù)據(jù)采集方法[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2009(3).
[4]米天勝,張金城.面向數(shù)據(jù)的計(jì)算機(jī)審計(jì)中數(shù)據(jù)質(zhì)量問(wèn)題的探討[J].審計(jì)與經(jīng)濟(jì)研究,2006(1).
[5]王昊,朱文明.審計(jì)數(shù)據(jù)質(zhì)量研究:從審計(jì)取證的視角[J].南京大學(xué)學(xué)報(bào):自然科學(xué)版,2007(1).
[6]楊磊,李建軍,張志軍,孫翠娟.談數(shù)據(jù)挖掘中常用的聚類算法[J].中國(guó)成人教育,2008(4).
[7]胡彩平,秦小麟.一種改進(jìn)的空間聚類算法[J].模式識(shí)別與人工智能,2007(3).
[8][美]MargaretHDunham.?dāng)?shù)據(jù)挖掘教程[M].郭崇慧,譯.北京:清華大學(xué)出版社
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 簡(jiǎn)單的競(jìng)標(biāo)合同范本
- 分包木工材料合同范本
- 中外合資經(jīng)營(yíng)企業(yè)合同
- 推拿治療學(xué)測(cè)試題(含答案)
- 熱工基礎(chǔ) 模擬練習(xí)題與答案
- 合伙公司讓合同范本
- 一年級(jí)語(yǔ)文影子公開課教案
- 協(xié)議附加合同范本
- 一學(xué)期工作結(jié)束總結(jié)
- 廈門分包合同范本
- 公對(duì)公打款合同
- 抗生素種類歸納分類
- 01-BUFR格式應(yīng)用指南(試用版)
- 體育測(cè)量與評(píng)價(jià)04心肺功能的測(cè)量與評(píng)價(jià)
- 提高意識(shí)風(fēng)險(xiǎn)防范化解能力體會(huì)發(fā)言
- 2023年度危險(xiǎn)作業(yè)安全監(jiān)護(hù)手冊(cè)
- 馬克思主義哲學(xué)十講
- 催化材料智慧樹知到答案章節(jié)測(cè)試2023年南開大學(xué)
- 中國(guó)故事英文版哪吒英文二篇
- GB/T 9846.1-2004膠合板第1部分:分類
- GB/T 32685-2016工業(yè)用精對(duì)苯二甲酸(PTA)
評(píng)論
0/150
提交評(píng)論