




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、大數(shù)據(jù)與云計算摘要:大數(shù)據(jù)(big data)這個概念近年來在越來越多的場合、被越來越多的人提及,并且經(jīng)常和云計算聯(lián)系在一起,云計算與大數(shù)據(jù)之間到底是什么關(guān)系成為熱點話題。本 專題報告包含以下四個方面內(nèi)容:1.大數(shù)據(jù)的價值;2.大數(shù)據(jù)帶來的挑戰(zhàn);3.大數(shù)據(jù)研究成果;4.云計算是大數(shù)據(jù)挖掘的主流方式。通過本報告闡述我們對大數(shù)據(jù)的理解,以及對大數(shù)據(jù)的價值的 認(rèn)識,探討大數(shù)據(jù)處理與挖掘技術(shù),大數(shù)據(jù)主要著眼于“數(shù)據(jù)”,提供數(shù)據(jù)采集、挖掘、分析的技 術(shù)和方法;云計算技術(shù)主要關(guān)注“計算”,提供tt解決方案。大數(shù)據(jù)、云計算技術(shù)可以促進持續(xù)審 計方式的發(fā)展、總體審計模式的應(yīng)用、審計成果的綜合應(yīng)用、相關(guān)關(guān)系證據(jù)
2、的應(yīng)用、高效數(shù)據(jù)審計 的發(fā)展和大數(shù)據(jù)審計師的發(fā)展。強化大數(shù)據(jù)、云計算技術(shù)審計應(yīng)用的措施包括制定長遠(yuǎn)發(fā)展戰(zhàn)略、 加快審計法規(guī)建設(shè)、建立行業(yè)平臺、加強研發(fā)和提高利用能力。關(guān)鍵詞:大數(shù)據(jù)云計算數(shù)據(jù)挖掘?qū)徲嬘绊懻呓ㄗh引言目前,大數(shù)據(jù)伴隨著云計算技術(shù)的發(fā)展,正在對全球經(jīng)濟社會生活產(chǎn)生巨大的影響。大數(shù)據(jù)、 云計算技術(shù)給現(xiàn)代審計提供了新的技術(shù)和方法,要求審計組織和審計人員把握大數(shù)據(jù)、云計算技術(shù) 的內(nèi)容與特征,促進現(xiàn)代審計技術(shù)和方法的進一步發(fā)展。一、大數(shù)據(jù)、云計算的涵義與特征隨著云計算技術(shù)的出現(xiàn),大數(shù)據(jù)吸引了全世界越來越多的關(guān)注。哈佛火學(xué)社會學(xué)教授加里金 (2012)說:“這是一場革命,龐大的數(shù)據(jù)資源使得
3、各個領(lǐng)域開始了量化進程,無論學(xué)術(shù)界、商界 還是政府,所有領(lǐng)域都將開始這種進程。”(一)大數(shù)據(jù)的涵義與特征“數(shù)據(jù)”(data)這個詞在拉丁文里是“己知”的意思,也可以理解為“事實”。2009年,“大 數(shù)據(jù)”概念才逐漸開始在社會上傳播。而“大數(shù)據(jù)”概念真正變得火爆,卻是因為美國奧巴馬政府 在2012年高調(diào)宣布了其“大數(shù)據(jù)研宄和開發(fā)計劃”。這標(biāo)志著“大數(shù)椐”時代真正開始進入社會經(jīng) 濟生活中來了?!按髷?shù)據(jù)”(big data),或稱巨量資料,指的是所涉及的數(shù)據(jù)量規(guī)模大到無法利 用現(xiàn)行主流軟件工具,在一定的時間內(nèi)實現(xiàn)收集、分析、處理或轉(zhuǎn)化成為幫助決策者決策的可用信 息。互聯(lián)網(wǎng)數(shù)據(jù)中心(idc)認(rèn)為“大數(shù)
4、據(jù)”是為了更經(jīng)濟、更有效地從高頻率、大容量、不同結(jié)構(gòu) 和類沏的數(shù)據(jù)屮獲取價值而設(shè)計的新一代架構(gòu)和技術(shù),用它來描述和定義信息爆炸時代產(chǎn)生的海量 數(shù)據(jù),并命名與之相關(guān)的技術(shù)發(fā)展與創(chuàng)新。大數(shù)據(jù)具有4個特點:第一,數(shù)據(jù)體m:巨大(volume), 從tb級別躍升到pb級別。第二,處理速度快(velocity),這與傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同。第三,數(shù)據(jù)種類多(variety),有圖片、地理位置信息、視頻、網(wǎng)絡(luò)日志等多種形式。第四, 價值密度低,商業(yè)價值高(value)。存在單一數(shù)據(jù)的價值并不大,但將相關(guān)數(shù)據(jù)聚集在一起,就會 有很高的商業(yè)價值(金良,2012)。大數(shù)據(jù)吋代,不僅改變了傳統(tǒng)的數(shù)據(jù)采集
5、、處理和應(yīng)用技術(shù)與 方法,還促使人們思維方式的改變。大數(shù)據(jù)的精髄在于促使人們在采集、處理和使用數(shù)據(jù)時思維的 轉(zhuǎn)變,這些轉(zhuǎn)變將改變?nèi)藗兝斫夂脱芯可鐣?jīng)濟現(xiàn)象的技術(shù)和方法。(1) 是在大數(shù)據(jù)時代,不依賴抽樣分析,而付以采集和處理事物整體的企部數(shù)據(jù)。19世紀(jì)以來, 當(dāng)面臨大的樣本量時,人們都主要依靠抽樣來分析總體。但是,抽樣技術(shù)是在數(shù)據(jù)缺乏和取得數(shù)據(jù) 受限制的條件下不得不采用的一種方法,這其實是一種人為的限制。過去,因為記錄、儲存和分析 數(shù)據(jù)的工具不夠科學(xué),只能收集少量數(shù)據(jù)進行分析。如今,科學(xué)技術(shù)條件已經(jīng)有了很大的提高,雖 然人類可以處理的數(shù)據(jù)依然是有限的,但是可以處理的數(shù)據(jù):kla經(jīng)大似增加,而且
6、未來會越來越多。 隨著大數(shù)據(jù)分析取代抽樣分析,社會科學(xué)不再單純依賴于抽樣調(diào)杏和分析實證數(shù)據(jù),現(xiàn)在川'以收集 過去無法收集到的數(shù)據(jù),更重要的是,現(xiàn)在可以不再依賴抽樣分析。(2) 是在大數(shù)據(jù)吋代,不再熱衷于追求數(shù)據(jù)的精確度,而是追求利用數(shù)據(jù)的效率。當(dāng)測量事物的 能力受限制時,關(guān)注的是獲取最精確的結(jié)果。但是,在火數(shù)據(jù)時代,追求精確度已經(jīng)既無必要乂不 可行,其至變得不受歡迎。大數(shù)據(jù)紛繁多樣,優(yōu)劣摻雜,精準(zhǔn)度己不再是分析事物總體的主要手段。 擁有了大數(shù)據(jù),不再耑要對一個事物的現(xiàn)象深究,只要掌握事物的大致發(fā)展趨勢即4,更重要的是 追求數(shù)據(jù)的及時性和使川效率。與依賴于小數(shù)據(jù)和精確性的時代相比較,大數(shù)
7、據(jù)更注重數(shù)據(jù)的完整 性和混雜性,幫助人們進一步認(rèn)識事物的全貌和真相。(3) 是在大數(shù)據(jù)時代,人們難以尋求事物直接的因果關(guān)系,而是深入認(rèn)識和利用事物的相關(guān)關(guān)系。 長期以來,尋找因果關(guān)系是人類發(fā)展過程屮形成的傳統(tǒng)習(xí)慣。尋求因果關(guān)系即使很困難且用途不大, 但人們無法擺脫認(rèn)識的傳統(tǒng)思維。在大數(shù)據(jù)時代,人們不必將主要精力放在事物之間因果關(guān)系的分 析上,而是將主要精力放在尋找事物之間的相關(guān)關(guān)系上。事物之間的相關(guān)關(guān)系可能不會準(zhǔn)確地告知 事物發(fā)生的內(nèi)在原因,但是它會提醒人們事情之間的相互聯(lián)系。人們可以通過找到一個事物的良好 相關(guān)關(guān)系,幫助其捕捉到事物的現(xiàn)仵和預(yù)測未來。(二) 云計算的涵義與特征“云計算”概念產(chǎn)
8、生于谷歌和ibm等大型互聯(lián)網(wǎng)公司處理海量數(shù)據(jù)的實踐。2006年8月9日, google首席執(zhí)行官埃里克施密特(eric schmidt)在搜索引擎大會首次提出“云計算”的概念。 2007年10月,google與ibm開始在美國大學(xué)校園推廣云計算技術(shù)的計劃,這項計劃希望能降低分 布式計算技術(shù)在學(xué)術(shù)研究方面的成本,并為這些大學(xué)提供相關(guān)的軟硬件設(shè)備及技術(shù)支持(michael mille, 2009)。目前全世界關(guān)于“云計算”的定義有很多。“云計算”是基于互聯(lián)網(wǎng)的相關(guān)服務(wù)的增加、使用和交付模式,是通過互聯(lián)網(wǎng)來提供動態(tài)易擴展且經(jīng)常是虛擬化的資源。美家標(biāo)準(zhǔn)技 術(shù)研宂院(nist) 2009年關(guān)于云計算的定
9、義是:“云計算是一種按使用量付費的模式,這種模式提 供可用的、便捷的、按需的網(wǎng)絡(luò)訪問,進入可配置的計算資源共亨池(資源包括網(wǎng)絡(luò)、服務(wù)器、存 儲、應(yīng)用軟件、服務(wù)等),這些資源能夠被快速提供,只需投入很少的管理工作,或與服務(wù)供應(yīng)商 進行很少的交互。”根據(jù)這一定義,云計算的特征主要表現(xiàn)為:首先,云計算是一種計算模式,具 有時間和網(wǎng)絡(luò)存儲的功能。其次,云計算是一條接入路徑,通過廣泛接入網(wǎng)絡(luò)以獲取計算能力,通 過標(biāo)準(zhǔn)機制進行訪問。第三,云計算是一個資源池,云計算服務(wù)提供商的計算資源,通過多租戶模 式為不同用戶提供服務(wù),并根據(jù)用戶的需求動態(tài)提供不同的物理的或虛擬的資源。第叫,云計算是 一系列伸縮技術(shù),在信
10、息化和互聯(lián)網(wǎng)環(huán)境下的計算規(guī)模可以快速擴人或縮小,計算能力可以快速、 彈性獲得。第五,云計算是一項可計的服務(wù),云計算資源的使用情況可以通過云計算系統(tǒng)檢測、 控制、計量,以自動控制和優(yōu)化資源使用。(三)大數(shù)據(jù)與云計算的關(guān)系從整體上看,大數(shù)據(jù)與云計算是相輔相成的。大數(shù)據(jù)主要專注實際業(yè)務(wù),著眼于“數(shù)據(jù)”,提 供數(shù)據(jù)采集、挖掘、分析的技術(shù)和方法,強調(diào)的是數(shù)據(jù)存儲能力。云計算主要關(guān)注“計算”,關(guān)注 1t架構(gòu),提供1t解決方案,強調(diào)的是計算能力,即數(shù)裾處理能力。如果沒有大數(shù)椐的數(shù)椐存儲, 那么云計算的計算能力再強大,也難以找到用武之地;如果沒有云計算的數(shù)據(jù)處理能力,則大數(shù)據(jù) 的數(shù)據(jù)存儲再豐富,也終究難以用于
11、實踐中去。從技術(shù)上看,大數(shù)據(jù)依賴于云計算。海量數(shù)據(jù)存儲技術(shù)、海量數(shù)據(jù)管理技術(shù)、mapreduce編程 模型都是云計算的關(guān)鍵技術(shù),也都是大數(shù)據(jù)的技術(shù)基礎(chǔ)。而數(shù)據(jù)之所以會變“大”,最重要的便是 云計算提供的技術(shù)平臺。數(shù)據(jù)被放到“云”上之后,打破了過去那種各自分割的數(shù)據(jù)存儲,更容易 被收集和獲得,大數(shù)據(jù)才能呈現(xiàn)在人們眼前。而巨量的數(shù)據(jù)也只能依靠云計算強大的數(shù)據(jù)處理能力, 才能夠“淘盡黃沙始得金”。從側(cè)重點看,大數(shù)據(jù)與云計算的側(cè)重點不同。大數(shù)據(jù)的側(cè)重點是各種數(shù)據(jù),廣泛、深入挖掘巨 量數(shù)據(jù),發(fā)現(xiàn)數(shù)據(jù)屮的價值,迫使企業(yè)從“業(yè)務(wù)驅(qū)動”轉(zhuǎn)變?yōu)椤皵?shù)據(jù)驅(qū)動”。而云計算主要通過互 聯(lián)網(wǎng)廣泛獲取、擴展和管理計算及存儲
12、資源和能力,其側(cè)重點是it資源、處理能力和各種應(yīng)用,以 幫助企業(yè)節(jié)省it部署成本。云計算使企業(yè)的it部門受益,而大數(shù)據(jù)使企業(yè)的業(yè)務(wù)管理部門受益。從結(jié)果看,大數(shù)據(jù)與云計算帶來不同的變化。大數(shù)據(jù)對社會經(jīng)濟帶來的變化是巨大的,涉及到 各個領(lǐng)域。大數(shù)據(jù)已經(jīng)與資本、人力一起作為生產(chǎn)的主要因素影響著社會經(jīng)濟的發(fā)展。數(shù)據(jù)創(chuàng)造價 值,而挖掘數(shù)據(jù)價值、利用數(shù)據(jù)的“推動力”就是云計算。云計算將信息存儲、分享和挖掘能力極 大提更經(jīng)濟、效地將巨鋱、速、多變的終端數(shù)據(jù)存儲下來,并隨時進行計算與分析。通過云計算對大數(shù)據(jù)進行分析、總結(jié)與預(yù)測,會使得決策更可靠,釋放出更多大數(shù)據(jù)的內(nèi)在價值。二、大數(shù)據(jù)、云計算技術(shù)對審計的影響分
13、析審計技術(shù)和方法的發(fā)展是隨著科學(xué)和管理技術(shù)的發(fā)展而發(fā)展的?,F(xiàn)代審計技術(shù)和方法體系是在 原始的查賬基礎(chǔ)上從低級向高級、從不完備到比較完備發(fā)展起來的。在業(yè)務(wù)和會計處理手工操作階 段,審計實施的是賬表導(dǎo)14的審計技術(shù)和方法;當(dāng)內(nèi)部控制理論和方法全而應(yīng)用于業(yè)務(wù)和會計處理 時,審計實施的是系統(tǒng)導(dǎo)向的審計技術(shù)和方法;當(dāng)風(fēng)險管理理論和方法企面應(yīng)用于業(yè)務(wù)和財務(wù)管理 時,審計實施的是風(fēng)險導(dǎo)向?qū)徲嫾夹g(shù)和方法;與風(fēng)險導(dǎo)向?qū)徲嫾夹g(shù)和方法并行的是,計算機技術(shù)廣 泛應(yīng)用于業(yè)務(wù)和會計處理吋,審計實施的是it審計技術(shù)和方法。0前,面對大數(shù)據(jù)、云計©技術(shù)的 產(chǎn)生和發(fā)展,審計人員需要應(yīng)時而變來適應(yīng)由此而帶來的變化,分析
14、大數(shù)據(jù)、云計算技術(shù)對審計方 式、審計抽樣技術(shù)、審計報告模式、審計證據(jù)搜集等技術(shù)和方法的影響。(一)大數(shù)據(jù)、云計算技術(shù)促進持續(xù)審計方式的發(fā)展傳統(tǒng)審計中,審計人員只是在被審計單位業(yè)務(wù)完成后才進行審計,而且審計過程中并不是審計 所有的數(shù)據(jù)和信息,只是抽取其中有的一部分進行審計。這種事后和有限的審計對被審計單位復(fù)雜 的生產(chǎn)經(jīng)營和管理系統(tǒng)來說很難及時做出正確的評價,而且對于評價日益頻繁和a雜的經(jīng)營管理活 動的真實性和合法性則顯得過于遲緩。隨著信息技術(shù)迅速發(fā)展,越來越多的審計組織對被審計單位 開始實施持續(xù)審計方式,以解決審計結(jié)果與經(jīng)濟活動的時差w題。但是,審計人員實施持續(xù)審計時, 往往受目前業(yè)務(wù)條件和信息
15、化手段的限制,取得的非結(jié)構(gòu)化數(shù)據(jù)無法數(shù)據(jù)化,或者無法取得相關(guān)的 明細(xì)數(shù)據(jù),致使對問題的判斷也難以進一步具體和深入。而大數(shù)據(jù)、云計算技術(shù)可以促進持續(xù)審計 方式的發(fā)展,使信息技術(shù)與大數(shù)據(jù)、云計算技術(shù)較好交叉融合,尤其對業(yè)務(wù)數(shù)據(jù)和風(fēng)險控制“實時 性”要求較島的特定行業(yè),如銀行、證券、保險等行業(yè),在這些行業(yè)屮實施持續(xù)審計迫在眉睫。如 審計組織對商業(yè)銀行的審計,實行與商業(yè)銀行建立業(yè)務(wù)和數(shù)據(jù)系統(tǒng)的接口,在開發(fā)的持續(xù)審計系統(tǒng) 中固化了非結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化和數(shù)據(jù)分析模塊,該模塊可以在海量貸款客戶中挖掘、分析出行業(yè)性 和區(qū)域性貸款風(fēng)險趨勢,實現(xiàn)在線的風(fēng)險預(yù)警,并將發(fā)現(xiàn)的風(fēng)險數(shù)據(jù)、超預(yù)警值指標(biāo)及問題登記為 疑點,并
16、建立實時審計工作底稿,按照重要程度進行歸類、核實或下發(fā)給現(xiàn)場審計人員進行現(xiàn)場核 實,以較好處理非結(jié)構(gòu)化數(shù)據(jù)的利用和數(shù)據(jù)的實時分析利用問題。(二)大數(shù)據(jù)、云計算技術(shù)促進總體審計模式的應(yīng)用現(xiàn)時的審計模式是在評價被審計單位風(fēng)險基礎(chǔ)上實施抽樣審計。在不可能收集和分析被審計單 位全部經(jīng)濟業(yè)務(wù)數(shù)據(jù)的情況下,現(xiàn)吋的審計模式主要依賴于審計抽樣,從局部入手推斷整體,即從 抽取的樣本著手進行審計,再據(jù)此推斷審計對象的整體情況。這種抽樣審計模式,由于抽取樣本的 有限性,而忽視了大:w:和具體的業(yè)務(wù)活動,使審計人員無法完全發(fā)現(xiàn)和揭示被審計單位的重大舞弊 行為,隱藏著重大的審計風(fēng)險。而大數(shù)據(jù)、云計算技術(shù)對審計人員而言,
17、不僅僅是一種可供采用的 技術(shù)手段,這些技術(shù)和方法將給審計人員提供實施總體審計模式的可行性。利用大數(shù)據(jù)、云計算技 術(shù),對數(shù)據(jù)的跨行業(yè)、跨企業(yè)搜集和分析,可以不用隨機抽樣方法,而采用搜集和分析被審計單位 所有數(shù)據(jù)的總體審計模式。利用大數(shù)據(jù)、云計算技術(shù)的總體審計模式是要分析與審計對象相關(guān)的所 有數(shù)據(jù),使得審計人員可以建立總體審計的思維模式,可以使現(xiàn)代審計獲得革命性的變化。審計人 員實施總體審計模式,付以規(guī)避審計抽樣風(fēng)險。如果能夠收集總體的所有數(shù)據(jù),就能看到更細(xì)微、 深入的信息,對數(shù)據(jù)進行多角度的深層次分析,從而發(fā)現(xiàn)隱藏在細(xì)節(jié)數(shù)據(jù)中的對審計問題更具價值 的信息。同吋,審計人員實施總體審計模式,能發(fā)現(xiàn)從
18、審計抽樣模式所不能發(fā)現(xiàn)的問題。大數(shù)據(jù)、 云計算技術(shù)給審計人員提供了一種能夠從總體把握審計對象的技術(shù)手段,從而幫助審計人員能從總 體的視角發(fā)現(xiàn)以前難以發(fā)現(xiàn)的問題。(三)大數(shù)據(jù)、云計算技術(shù)促進審計成果的綜合應(yīng)用目前,審計人員的審計成果主要是提供給被審計單位的審計報告,其格式固定,內(nèi)容單一,包 含的信息量較少。隨著大數(shù)據(jù)、云計算技術(shù)在審計中廣泛應(yīng)用,審計人員的審計成果除了審計報告 外,還有在審計過程屮采集、挖掘、分析和處理的大量的資料和數(shù)據(jù),可以提供給被審計單位用于 改進經(jīng)營管理,促進審計成果的綜合應(yīng)用,提島審計成果的綜合應(yīng)用效果。首先,審計人員通過對 審計中獲取的大量數(shù)據(jù)和相關(guān)情況資料的匯總、歸納
19、,從中找出財務(wù)、業(yè)務(wù)和經(jīng)營管理等方面的內(nèi) 在規(guī)律、共性問題和發(fā)展趨勢,通過匯總歸納宏觀性和綜合性較強的審計信息,力被審計單位投資 者和其他利益相關(guān)者提供數(shù)據(jù)證明、關(guān)聯(lián)分析和決策建議,從而促進被審計單位管理水平的提高。 其次,審計人員通過應(yīng)用大數(shù)據(jù)、云計算技術(shù),可以將同一問題歸入不同的類別進行分析和處理, 從不同的角度、不同的層而整合提煉以滿足不同層次的需求。再次,審計人員將審計成果進行智能 化留存,通過大數(shù)據(jù)、云計算技術(shù),將問題規(guī)則化并固化到系統(tǒng)中,以便于計算或判斷問題發(fā)展趨 勢,向被審計單位進行預(yù)警。最后。審計人員將審計成果、被審計單位與審計問題進行關(guān)聯(lián),并進 行信息化處理,在進行下次審計吋
20、,減少實地審計的吋間和工作量,提高審計工作的效率。(四)大數(shù)據(jù)、云計算技術(shù)促進相關(guān)關(guān)系證據(jù)的應(yīng)用審計人員在審計過程屮,應(yīng)根據(jù)充分、適當(dāng)?shù)膶徲嬜C據(jù)發(fā)表審計意見,出具審計報告。但是, 在大數(shù)據(jù)、云計算環(huán)境t,審計人員既面臨巨量數(shù)據(jù)篩選的考驗,又面臨搜集適當(dāng)審計證據(jù)的挑戰(zhàn)。 審計人員在搜集審計證據(jù)時,傳統(tǒng)的思維路徑都是基于因果關(guān)系來搜集審計證據(jù),而大數(shù)據(jù)分析將 會更多地運用相關(guān)關(guān)系分析來搜集和發(fā)現(xiàn)審計證據(jù)。但從審計證據(jù)發(fā)現(xiàn)的角度來看,由于大數(shù)據(jù)技 術(shù)提供了前所未有的跨領(lǐng)域、可供量化的維度,使得審計問題人量的相關(guān)信息能夠得以記錄和計算 分析。大數(shù)據(jù)、云計算技術(shù)沒有改變事物間的因果關(guān)系,但在大數(shù)據(jù)、云計
21、算技術(shù)屮對相關(guān)關(guān)系的 幵發(fā)和利用,使得數(shù)據(jù)分析對因果邏輯關(guān)系的依賴降低了,甚至更多地傾14于應(yīng)用基于相關(guān)關(guān)系的 數(shù)據(jù)分析,以相關(guān)關(guān)系分析為基礎(chǔ)的驗證是大數(shù)據(jù)、云計算技術(shù)的一項重要特征。在大數(shù)據(jù)、云計 算技術(shù)環(huán)境下,審計人員能搜集到的審計證據(jù)大多是電子證據(jù)(秦榮生,2013)。電子證據(jù)本身就 非常a雜,云計算技術(shù)使獲取有因果關(guān)系的證據(jù)更加困難。審計人員應(yīng)從長期依賴因果關(guān)系來搜集 和發(fā)現(xiàn)審計證據(jù),轉(zhuǎn)變成為利用相關(guān)關(guān)系來搜集和發(fā)現(xiàn)審計證據(jù)。(五)大數(shù)據(jù)、云計算技術(shù)促進高效數(shù)據(jù)審計的發(fā)展直到今天,審計人員的數(shù)字審計技術(shù)依然建立在精準(zhǔn)的基礎(chǔ)上。這種思維方式適用于掌握“小 數(shù)據(jù)量”的情況,因為需要分析的數(shù)
22、據(jù)很少,所以審計人員必須盡可能精準(zhǔn)地量化被審計單位的業(yè) 務(wù)。隨著大數(shù)裾、云計算技術(shù)成為日常生活中的一部分,審計人員應(yīng)開始從一個比以前更大、更全 而的角度來理解被審計單位,將“樣本=總體”植入審計人員的思維屮。相比依賴于小數(shù)據(jù)和精確 性的時代,大數(shù)據(jù)更強調(diào)數(shù)據(jù)的完整性和混雜性,幫助審計人員進一步接近事情的真相,“局部”和“精確”將不再是審計人員追求的目標(biāo),審計人員追求的是事物的“全貌”和“高效”。圍繞大 數(shù)據(jù),一批新興的數(shù)據(jù)挖掘、數(shù)據(jù)存儲、數(shù)據(jù)處理與分析技術(shù)將不斷涌現(xiàn)。在實施審計吋,審計人 員應(yīng)利用大數(shù)據(jù)、云計算技術(shù),使用分布式拓樸結(jié)構(gòu)、云數(shù)據(jù)庫、聯(lián)網(wǎng)審計、數(shù)據(jù)挖掘等新型的技 術(shù)手段和工具,以提
23、高審計的效率。(六)大數(shù)據(jù)、云計算技術(shù)促進大數(shù)據(jù)審計師的發(fā)展大數(shù)據(jù)、云計算時代,數(shù)據(jù)的真實、可靠是大數(shù)據(jù)發(fā)揮作用的前提。這客觀上要求專業(yè)人員來 對大數(shù)據(jù)的真實性、可靠性進行鑒證,審計人員可以扮演這種角色,或者稱為數(shù)據(jù)審計師。能對大 數(shù)據(jù)真實性、可靠性進行鑒證的數(shù)據(jù)審計師應(yīng)該是計算機科學(xué)、數(shù)學(xué)、統(tǒng)計學(xué)和審計學(xué)領(lǐng)域的專家, 他們應(yīng)有大數(shù)據(jù)分析和預(yù)測的評估能力。數(shù)據(jù)審計師應(yīng)恪守公正的立場和嚴(yán)守保密的原則,而對海 量的數(shù)據(jù)和紛繁復(fù)雜的相關(guān)關(guān)系,選取分析和預(yù)測工具,以及解讀數(shù)據(jù)及數(shù)據(jù)計算結(jié)果是否真實、 可靠。一旦出現(xiàn)爭議,數(shù)據(jù)審計師有權(quán)審查與分析結(jié)果相關(guān)的運算法則、統(tǒng)計方法以及數(shù)據(jù)采集、 挖掘和處理過程
24、。數(shù)據(jù)審計師的山現(xiàn)是為滿足以市場為導(dǎo)向來解決數(shù)據(jù)真實性、可靠性問題的需求, 這與20世紀(jì)初期為了處理財務(wù)信息虛假而出現(xiàn)的審計人員一樣,都是為了滿足新需求而出現(xiàn)的。三、大數(shù)據(jù)挖掘數(shù)據(jù)的價值只有通過數(shù)據(jù)挖掘才能從低價值密度的數(shù)據(jù)中發(fā)現(xiàn)其潛在價值,而大數(shù)據(jù)挖掘技術(shù) 的實現(xiàn)離不開云計算技術(shù)。在業(yè)界,全球著名的google、emc、惠普、ibm、微軟等互聯(lián)網(wǎng)公司都己 經(jīng)意識到大數(shù)據(jù)挖掘的重要意義。上述h巨頭們紛紛通過收購大數(shù)據(jù)分析公司,進行技術(shù)整合,希 望從人數(shù)據(jù)屮挖掘更多的商業(yè)價值。數(shù)據(jù)挖掘通常需要遍歷訓(xùn)練數(shù)據(jù)獲得相關(guān)的統(tǒng)計信息,用于求 解或優(yōu)化模型參數(shù),在大規(guī)模數(shù)據(jù)上進行頻繁的數(shù)據(jù)訪問需要耗費大鋱運
25、算時間。數(shù)據(jù)挖掘領(lǐng)域長 期受益于并行算法和架構(gòu)的使用,使得性能逐漸提升。過去15年來,效果尤其顯著。試閣將這些進 步結(jié)合起來,并且提煉。gpu平臺從并行上得到的性能提升十分顯著。這些gpu平臺巾于采用并行 架構(gòu),使用并行編程方法,使得計算能力呈幾何級數(shù)增長。即便是圖形處理、游戲編程是公認(rèn)的復(fù) 雜,它們也從并行化受益頗多。研究顯示數(shù)據(jù)挖掘、圖遍歷、有限狀態(tài)機是并行化未來的熱門方向。 mapreduce框架已經(jīng)被證明是提升gpu運行數(shù)據(jù)挖掘算法性能的重要工具。d. luo等提出一種非平 凡的策略用來并行一系列數(shù)據(jù)挖掘與數(shù)據(jù)挖掘問題,包括一類分類svm和兩類分類svm,非負(fù)最小二 乘問題,及l(fā)1正則
26、化回歸(lasso)問題。由此得到的乘法算法,可以被直截了當(dāng)?shù)卦谌鏼apreduce 和cuda的并行計算環(huán)境中實現(xiàn)q k. shim在mapreduce框架下,討論如何設(shè)計髙mapreduce算法, 對當(dāng)前一些基于mapreduce的數(shù)據(jù)挖掘和數(shù)據(jù)挖掘算法進行歸納總結(jié),以便進行人數(shù)據(jù)的分析。 junbo zhang等提出一種新的大數(shù)據(jù)挖掘技術(shù),即利用mapkedue實現(xiàn)并行的基于秈糙集的知識獲取 算法,還提出了下一步的研宂方向,即集中于用基于并行技術(shù)的粗糙集算法處理非結(jié)構(gòu)化數(shù)據(jù)。f. gao 提出y種新的近似算法使基于核的數(shù)據(jù)挖掘算法可以有效的處理大規(guī)模數(shù)據(jù)集。當(dāng)前的基于核的 數(shù)據(jù)挖掘算法由
27、于需要計算核矩陣ifif臨著可伸縮性問題,計算核矩陣需要0(n2 )的吋間和空間復(fù)雜 度來計算和存儲。該算法計算核矩陣時人幅度降低計算和內(nèi)存開銷,而且并沒有明影響結(jié)果的精 確度。此外,通過折屮結(jié)果的一些精度可以控制近似水平。它獨立于隨后使用的數(shù)據(jù)挖掘算法并且 nj以被它們使用。為了闡明近似算法的效果,在其上開發(fā)了一個變種的譜聚類算法,此外設(shè)計了一 個所提出算法的基于mapreduce的實現(xiàn)。在合成和真實數(shù)據(jù)集上的實驗結(jié)果顯示,所提出的算法可 以獲得顯著的吋間和空間節(jié)省。christian kaiser等還利用mapreduce框架分布式實現(xiàn)了訓(xùn)練一系 列核函數(shù)學(xué)習(xí)機,該方法適用于基于核的分類和
28、冋歸。christian kaiser還介紹了一種擴展版的區(qū) 域到點建模方法,來適應(yīng)來自空間區(qū)域的大數(shù)椐。yael ben-haim研究了三種mapreduce實現(xiàn)架 構(gòu)下并行決策樹分類算法的沒計,并在phoenix共享內(nèi)存架構(gòu)上對sprint算法進行了具體的并行 實現(xiàn)。f. yan考慮了潛在狄利克雷分配(lda)的兩種推理方法一一塌縮吉布斯采樣(collapsed gibbssampling, cgs)和塌縮變分貝葉斯推理(collapsedvariational bayesian, cvb)在gpu 上 的并行化問題。為解決gpu上的有限內(nèi)存限制問題,f. yan提出一種能有效降低內(nèi)存開銷
29、的新穎數(shù) 據(jù)劃分方案。這種劃分方案也能平衡多重處理器的計算幵銷,并能容易地避免內(nèi)存訪問沖突。他們 使用數(shù)據(jù)流來處理超大的數(shù)據(jù)集。大量實驗表明f. yan的并行推理方法得到的lda模型一貫地具有 與串行推理方法相同的預(yù)測能力:但在一個有30個多核處理器的gpu上,cgs方法得到了26倍的加 速,cvb方法得到了 196倍的加速。他們提出的劃分方案和數(shù)據(jù)流方式使他們的方法在有更多多重 處理器時可伸縮,而且可被作為通用技術(shù)來并行其它數(shù)據(jù)挖掘模型。bao-liang lu提出了一種并行 的支持l4:w:機,稱為最小最大模塊化網(wǎng)絡(luò)(m3),它是基“分而治之”的思想解決大規(guī)模問題的有效 的學(xué)習(xí)算法。針對異
30、構(gòu)云屮進行大數(shù)據(jù)分析服務(wù)的并行化問題g.jimg提出了最大覆蓋裝箱算法來決 定系統(tǒng)中多少節(jié)點、哪些節(jié)點應(yīng)該應(yīng)用于大數(shù)據(jù)分析的并行執(zhí)行。這種方法付以使大數(shù)據(jù)進行分配 使得各個計算節(jié)點可以同步的結(jié)束計算,并且使數(shù)據(jù)塊的傳輸可以和上一個塊的計算進行重疊來節(jié) 省時間。實驗表明,這種方法比其他的方法可以提高大約60%的性能。在分布式系統(tǒng)方面,cheng等 人提山一個而向大規(guī)??芍倏s數(shù)據(jù)分析的可伸縮的分布式系統(tǒng)一一glade。glade通過用戶自定義 聚合(uda)接口并且在輸入數(shù)據(jù)上有效地運行來進行數(shù)據(jù)分析。文章從兩個方面來論證了系統(tǒng)的有 效性。第一,文章展示了如何使用一系列分析功能來完成數(shù)據(jù)處理。第二
31、,文章將glade與兩種不 同類型的系統(tǒng)進行比較:一,個用uda進行改良的關(guān)系型數(shù)據(jù)庫(postgresql)和mapreduce (hadoop)。 然后從運行結(jié)果、伸縮性以及運行時間上對不同類型的系統(tǒng)進行了比較。四、總結(jié)大數(shù)據(jù)的超大容量自然需要矜量大,速度快,安全的存儲,滿足這種要求的存儲離不開云計算。 高速產(chǎn)生的大數(shù)據(jù)只有通過云計算的方式才能在可等待的時間內(nèi)對其進行處理。同時,云計算是提 高對大數(shù)據(jù)的分析與理解能力的一個可行方案。大數(shù)據(jù)的價值也只有通過數(shù)據(jù)挖掘才能從低價值密度的數(shù)據(jù)屮發(fā)現(xiàn)其潛仵價值,而大數(shù)據(jù)挖掘技術(shù)的實現(xiàn)離不開云計算技 術(shù)??傊朴嬎闶谴髷?shù)據(jù)處理的核心支撐技術(shù),是大數(shù)據(jù)
32、挖掘的主流方式。沒有互聯(lián)網(wǎng),就沒有 虛擬化技術(shù)為核心的云計算技術(shù),沒有云計算就沒有大數(shù)據(jù)處理的支撐技術(shù)。參考文獻秦榮生.大數(shù)據(jù)、云計算技術(shù)對審計的影響研宄何消.大數(shù)據(jù)與云計算張為民.云計算:深刻改變未來文峰.云計算與云審計關(guān)于未來審計的概念與框架的一些思考big data and cloud computingbig data (big data) in recent years, more and more occasions, the concept is mentioned moreand more people, and often, and cloud computing together, what is the relationship betweencloud computing and big data become a hot topic, this special report contains the followingfour aspects: 1. the value of big data; 2. big data challenge; 3. big
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度農(nóng)業(yè)土地經(jīng)營權(quán)抵押貸款合同
- 2025年度智能家居裝修合同付款范本
- 二零二五年度股權(quán)投資合作框架協(xié)議:生物制藥產(chǎn)業(yè)投資合作框架協(xié)議
- 二零二五年度凍貨冷鏈運輸與保險合同
- 二零二五年度無人機技術(shù)授權(quán)合同書
- 2025年度物流并購財務(wù)顧問服務(wù)協(xié)議
- 寶興縣興綠林業(yè)投資有限公司2025年度公開招聘工作人員(6人)筆試參考題庫附帶答案詳解
- 2025航空工業(yè)集團中航技校園招聘筆試參考題庫附帶答案詳解
- 陽臺水電知識培訓(xùn)課件
- 2025河北唐山人才發(fā)展集團有限責(zé)任公司為曹妃甸某大型國企招聘儲備外包員工50人筆試參考題庫附帶答案詳解
- 學(xué)院中層正副職民主測評表
- 不寧腿綜合征
- 華僑大學(xué)本??茖W(xué)生學(xué)生手冊
- 設(shè)備采購工程安裝進度計劃橫道圖
- 2023年黑龍江三江美術(shù)職業(yè)學(xué)院單招面試題庫及答案解析
- 2023年湖南中醫(yī)藥高等??茖W(xué)校單招考試職業(yè)技能考試模擬試題及答案解析
- 機房工程機房建設(shè)驗收報告
- GB/T 7735-2004鋼管渦流探傷檢驗方法
- GB/T 2951.21-2008電纜和光纜絕緣和護套材料通用試驗方法第21部分:彈性體混合料專用試驗方法-耐臭氧試驗-熱延伸試驗-浸礦物油試驗
- 2023年廊坊市財信投資集團有限公司招聘筆試模擬試題及答案解析
- 福建師范大學(xué)教師高級職務(wù)聘任簡明表
評論
0/150
提交評論