版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
審計(jì)知識(shí)圖譜的構(gòu)建與研究傳統(tǒng)的審計(jì)組織,一直在致力于構(gòu)建各種法規(guī)庫、知識(shí)庫、案例庫、代碼模型庫、程序庫等等,用現(xiàn)在比較流行的話,其實(shí)是在構(gòu)建知識(shí)圖譜。理想的應(yīng)用場(chǎng)景,應(yīng)該是輸入一個(gè)關(guān)鍵詞后,相關(guān)聯(lián)的信息都會(huì)浮現(xiàn)出來。比較low的就是一條條的關(guān)鍵詞,文章題目加關(guān)鍵字索引,像百度一樣,應(yīng)該很多組織都可以實(shí)現(xiàn)。文檔放在本地的話,google桌面也可以實(shí)現(xiàn)本地加互聯(lián)網(wǎng)的檢索。真正增值的部分,是通過數(shù)據(jù)化的手段,系統(tǒng)化的梳理各個(gè)知識(shí)之間的內(nèi)在聯(lián)系,通過圖形方式呈現(xiàn)出來。特別是一些比較模糊和踩腳的部分,讓審計(jì)人員在接觸一個(gè)陌生的項(xiàng)目的時(shí)候有著更加深刻的認(rèn)識(shí)。對(duì)一個(gè)大型審計(jì)組織,人員流動(dòng)較為頻繁,庫或者知識(shí)圖譜的意義不僅僅在于知識(shí)的沉淀,而在于將散落在各處的碎片化的知識(shí)組織在一起,形成一個(gè)不那么完整的碎片化的塊狀信息,呈現(xiàn)給審計(jì)人員。問題背景知識(shí)圖譜(KnowledgeGraph)的定義:顯示知識(shí)發(fā)展進(jìn)程與結(jié)構(gòu)關(guān)系的一系列各種不同的圖形,又被稱為知識(shí)域可視化或知識(shí)領(lǐng)域映射地圖,是用可視化技術(shù)描述知識(shí)資源及其載體,挖掘、分析、構(gòu)建、繪制和顯示知識(shí)及它們之間的相互聯(lián)系。隨著大數(shù)據(jù)技術(shù)的發(fā)展以及海量數(shù)據(jù)轉(zhuǎn)化為知識(shí)時(shí)代的到來,知識(shí)圖譜技術(shù)能夠從海量非結(jié)構(gòu)化數(shù)據(jù)(如文本和圖像)和結(jié)構(gòu)化數(shù)據(jù)中進(jìn)行知識(shí)獲取、知識(shí)共享,并在大數(shù)據(jù)時(shí)代進(jìn)行知識(shí)創(chuàng)新。知識(shí)圖譜可以高效、直觀地描繪出目標(biāo)對(duì)象(如企業(yè),事件等)之間的相關(guān)網(wǎng)絡(luò),并在多維視角實(shí)現(xiàn)對(duì)象的真實(shí)情況和錯(cuò)綜復(fù)雜的關(guān)系。在企業(yè)的實(shí)際業(yè)務(wù)中,面對(duì)海量繁多的財(cái)務(wù)會(huì)計(jì)憑證、賬簿、報(bào)表及電子數(shù)據(jù)等信息,審計(jì)人員常常通過抽查來發(fā)現(xiàn)問題。知識(shí)圖譜技術(shù)的出現(xiàn),提供了更高效的審計(jì),提高審計(jì)工作效率,可以作為經(jīng)典審計(jì)方法的補(bǔ)充,在理想情況下甚至可以做到全面排查總體,這樣不僅能避免審計(jì)抽樣的風(fēng)險(xiǎn),同時(shí)也降低了審計(jì)工作的復(fù)雜性和總體風(fēng)險(xiǎn)。本文基于百度問答的數(shù)據(jù),對(duì)審計(jì)領(lǐng)域的一些常見知識(shí)進(jìn)行了收集,基于多源異構(gòu)審計(jì)數(shù)據(jù),構(gòu)建了結(jié)構(gòu)化審計(jì)數(shù)據(jù)庫,并通過可視化工具,進(jìn)行初步的可視化分析產(chǎn)生可視化圖表,對(duì)審計(jì)信息進(jìn)行分析和使用,有助于審計(jì)信息使用者快速了解特定領(lǐng)域的審計(jì)知識(shí),為審計(jì)需求相關(guān)方的決策提供參考價(jià)值。對(duì)國內(nèi)外研究的分析和比較,可以看出知識(shí)圖譜及其可視化服務(wù)正在迅猛發(fā)展,并開始逐步應(yīng)用至各行各業(yè)。知識(shí)可視化的實(shí)質(zhì)是將內(nèi)容用圖形的方式表示,更符合人們對(duì)信息的感知與理解,從而進(jìn)行知識(shí)傳播(劉琦,2018)。在企業(yè)審計(jì)領(lǐng)域中,由于審計(jì)知識(shí)領(lǐng)域涉及范圍較廣,審計(jì)知識(shí)之間的關(guān)系紛繁復(fù)雜,存儲(chǔ)、組織和表達(dá)方式較為松散,缺乏有效的管理。另外,審計(jì)知識(shí)檢索的效率不高,無法進(jìn)行關(guān)聯(lián)知識(shí)的深度檢索。由此可見,將知識(shí)圖譜與可視化技術(shù)運(yùn)用至企業(yè)審計(jì)領(lǐng)域中,與檢索者產(chǎn)生交互,顯示地表達(dá)知識(shí)的整體性與關(guān)聯(lián)性,將對(duì)知識(shí)的傳播起到推動(dòng)作用。同時(shí),企業(yè)也可通過運(yùn)用審計(jì)知識(shí)圖譜,將傳統(tǒng)的業(yè)務(wù)推動(dòng)數(shù)據(jù)模式轉(zhuǎn)化為數(shù)據(jù)推動(dòng)業(yè)務(wù)模式,提高審計(jì)的效率,挖掘不易發(fā)現(xiàn)的審計(jì)數(shù)據(jù),為企業(yè)決策提供參考價(jià)值基于Neo4j圖數(shù)據(jù)庫構(gòu)建審計(jì)知識(shí)圖譜在審計(jì)領(lǐng)域中,由于審計(jì)知識(shí)領(lǐng)域涉及范圍較廣,審計(jì)知識(shí)之間的關(guān)系紛繁復(fù)雜,存儲(chǔ)、組織和表達(dá)方式較為松散,缺乏有效的管理(劉琦,2018)。另外,審計(jì)知識(shí)檢索的效率不高,無法進(jìn)行關(guān)聯(lián)知識(shí)的深度檢索。對(duì)此,Neo4j圖數(shù)據(jù)庫的存儲(chǔ)結(jié)構(gòu)與領(lǐng)域知識(shí)存儲(chǔ)與查詢功能,不僅能良好地支持知識(shí)庫中實(shí)體關(guān)系的管理,還能對(duì)知識(shí)進(jìn)行快速查詢和清晰展示(葉帥,2019)。為了實(shí)現(xiàn)審計(jì)數(shù)據(jù)的信息化,知識(shí)圖譜中的語義關(guān)聯(lián)可以有效地整合多元異構(gòu)審計(jì)數(shù)據(jù)。知識(shí)圖譜的數(shù)據(jù)通常以三元組(S,P,D)的形式來表示實(shí)體、關(guān)系、屬性之間的關(guān)系,因此,本文用Neo4j圖數(shù)據(jù)庫實(shí)現(xiàn)實(shí)體及實(shí)體關(guān)系的存儲(chǔ),構(gòu)建審計(jì)知識(shí)圖譜。Neo4j是一種圖形數(shù)據(jù)庫,是目前圖形數(shù)據(jù)庫中使用率最高的庫,Neo4j具備本地存儲(chǔ)和數(shù)據(jù)處理的功能,與一般的數(shù)據(jù)庫有顯著的區(qū)別,它能夠保證數(shù)據(jù)的完整性和高讀寫性。審計(jì)知識(shí)圖譜構(gòu)建的目的是將經(jīng)典的審計(jì)方法與知識(shí)圖譜可視化方法相結(jié)合,從大量的企業(yè)結(jié)構(gòu)化和非結(jié)構(gòu)化文本中自動(dòng)提取三元組,構(gòu)建審計(jì)的知識(shí)圖譜,方便審計(jì)信息使用者快速抓取信息,有助于審計(jì)決策的制定和實(shí)施。本文從以下幾個(gè)方面入手,具體探討審計(jì)知識(shí)圖譜的構(gòu)建過程。1.審計(jì)數(shù)據(jù)的獲取經(jīng)過對(duì)不同行業(yè)和領(lǐng)域?qū)徲?jì)需求的調(diào)研,發(fā)現(xiàn)存在兩類數(shù)據(jù),第一類是審計(jì)領(lǐng)域內(nèi)的直接數(shù)據(jù),第二類是與審計(jì)相關(guān)聯(lián)的通識(shí)數(shù)據(jù)。對(duì)于直接數(shù)據(jù),先從結(jié)構(gòu)化數(shù)據(jù)源的相應(yīng)本體模型出發(fā),定義概念之間的分層關(guān)系,然后從多個(gè)數(shù)據(jù)源所定義的概念出發(fā)添加實(shí)體和屬性。通過定義知識(shí)圖譜的本體模式,以確保知識(shí)層次結(jié)構(gòu)的正確性,然后再針對(duì)定義好的本體模式,對(duì)領(lǐng)域數(shù)據(jù)中的相關(guān)知識(shí)進(jìn)行抽取,通過知識(shí)融合、質(zhì)量評(píng)估等階段,篩選出滿足準(zhǔn)確率要求的三元組進(jìn)行企業(yè)審計(jì)知識(shí)圖譜的構(gòu)建,并將其存儲(chǔ)于MySQL數(shù)據(jù)庫進(jìn)行關(guān)聯(lián)。另外,由于非結(jié)構(gòu)化數(shù)據(jù)的知識(shí)可信度相對(duì)低,抽取的精度也是有限的,這使得它難以滿足可用性標(biāo)準(zhǔn)。因此,具有高可信度的半結(jié)構(gòu)化的通識(shí)知識(shí)數(shù)據(jù)將被用作構(gòu)建企業(yè)審計(jì)知識(shí)圖譜,作為構(gòu)建審計(jì)知識(shí)圖譜的另一個(gè)層次的數(shù)據(jù)源,與審計(jì)數(shù)據(jù)互補(bǔ)。對(duì)于通識(shí)知識(shí)數(shù)據(jù),將抽取百科頁面中的半結(jié)構(gòu)化數(shù)據(jù),作為關(guān)鍵性的知識(shí),轉(zhuǎn)換成三元組,然而,對(duì)于關(guān)鍵知識(shí)中部分冗余的信息仍然存在,例如,存在實(shí)體名稱不一樣,但實(shí)際對(duì)應(yīng)現(xiàn)實(shí)世界中的同一實(shí)體,需要對(duì)這些冗余的知識(shí)進(jìn)行知識(shí)融合,保證所構(gòu)建知識(shí)圖譜的準(zhǔn)確性。由于企業(yè)審計(jì)知識(shí)圖譜對(duì)準(zhǔn)確性的要求較高,關(guān)系到企業(yè)的利益,因此將采用已有的算法,對(duì)這些冗余的知識(shí)進(jìn)行篩選,然后再使用人工進(jìn)行評(píng)估。這些冗余的知識(shí),在百科數(shù)據(jù)中只是部分存在,而且比例很低,使用這種思路不會(huì)造成較高的人工成本,準(zhǔn)確度和效率都是可接受的。2.審計(jì)數(shù)據(jù)處理經(jīng)過知識(shí)清洗與數(shù)據(jù)預(yù)處理,得到了關(guān)于審計(jì)領(lǐng)域的知識(shí)三元組數(shù)據(jù),儲(chǔ)存在txt文檔中,以逗號(hào)分隔,然后將數(shù)據(jù)txt文檔格式轉(zhuǎn)為CSV文件格式。CSV是使用文本文檔形式存儲(chǔ)的數(shù)據(jù),文件內(nèi)每一行代表一條數(shù)據(jù),每條記錄包含了由逗號(hào)分隔的一個(gè)屬性值,其中A列中的數(shù)據(jù)代表Source節(jié)點(diǎn)類型,C列中的數(shù)據(jù)代表Target節(jié)點(diǎn)類型,B列中的數(shù)據(jù)代表關(guān)系(relation)。其數(shù)據(jù)格式如下圖所示。將上述數(shù)據(jù)導(dǎo)入Neo4j,其邏輯為:(node相關(guān):CSV文件首列為Source節(jié)點(diǎn),第三列為Target節(jié)點(diǎn),第二列為relation(關(guān)系)。消除完重復(fù)數(shù)據(jù)后,為每個(gè)節(jié)點(diǎn)生成唯一的id和name字段,方便查看節(jié)點(diǎn)的屬性。(2)relation相關(guān):每種關(guān)系單獨(dú)生成一個(gè)關(guān)系類型,這樣在進(jìn)行后續(xù)的查詢操作時(shí)可以針對(duì)某個(gè)關(guān)系或節(jié)點(diǎn)直接進(jìn)行查詢。關(guān)系兩端的node用生成的id進(jìn)行標(biāo)示。(3)數(shù)據(jù)導(dǎo)入生成知識(shí)圖譜:清空Neo4j現(xiàn)有的graph并重啟Neo4j程序。若啟動(dòng)Neo4j程序需要在cmd中輸入如指令,指令輸入完成后打開Neo4j,利用Neo4j的Cypher語句進(jìn)行查詢。3.審計(jì)數(shù)據(jù)的導(dǎo)入本文采用Python與Neo4j圖數(shù)據(jù)庫連接的方式,進(jìn)行數(shù)據(jù)導(dǎo)入工作。首先需要將已有的CSV格式的數(shù)據(jù)導(dǎo)入py2neo庫,需在Python中輸入如下代碼:frompy2neoimportGraph,Node,Relationship,Subgraph。隨后建立時(shí)間模塊與導(dǎo)入操作數(shù)據(jù)需要使用的模塊。下一步需要在Neo4j中運(yùn)用Cypher語句建立索引、提高查詢速度,輸入CREATE語句:CREATEINDEXFOR(n:Entity)ON()。之后需在Python中設(shè)置自己本地的url與Neo4j庫的用戶名與密碼,即可實(shí)現(xiàn)審計(jì)數(shù)據(jù)導(dǎo)入Neo4j,從而完成基于Neo4j圖數(shù)據(jù)庫的審計(jì)知識(shí)圖譜的構(gòu)建。審計(jì)知識(shí)圖譜的實(shí)現(xiàn)審計(jì)知識(shí)圖譜的實(shí)現(xiàn)主要是通過信息抽取、知識(shí)融合、圖譜的構(gòu)建與儲(chǔ)存等核心技術(shù)從大量的異構(gòu)數(shù)據(jù)源出發(fā),抽取其中的實(shí)體、屬性等關(guān)鍵知識(shí)及其相互關(guān)系,再完成實(shí)體對(duì)齊與實(shí)體消歧等數(shù)據(jù)融合工作,然后采用符合質(zhì)量要求的知識(shí)構(gòu)建圖譜,并利用MYSQL數(shù)據(jù)庫對(duì)構(gòu)建好的知識(shí)圖譜進(jìn)行儲(chǔ)存。在上一節(jié)中進(jìn)行了數(shù)據(jù)導(dǎo)入工作并在Neo4j圖數(shù)據(jù)庫中構(gòu)建了企業(yè)審計(jì)領(lǐng)域知識(shí)圖譜。Neo4j圖數(shù)據(jù)庫中,共設(shè)有兩種節(jié)點(diǎn)類型,分別是Source節(jié)點(diǎn)類型與Target節(jié)點(diǎn)類型。用戶可以根據(jù)自己的需求進(jìn)行查詢,進(jìn)而清晰明了地了解節(jié)點(diǎn)以及節(jié)點(diǎn)與節(jié)點(diǎn)之間的關(guān)系。比如,用戶需要在Neo4j中查詢某一個(gè)節(jié)點(diǎn)(node)并且節(jié)點(diǎn)類型屬于Source類型時(shí),以查詢“中國投資服務(wù)網(wǎng)”為例,用戶需輸入如下查詢語句:MATCH(n:Source{name:‘中國投資服務(wù)網(wǎng)’})returnn,點(diǎn)擊運(yùn)行后會(huì)顯示出節(jié)點(diǎn)‘中國投資服務(wù)網(wǎng)’,若用戶需要查詢節(jié)點(diǎn)類型為Target的節(jié)點(diǎn),只需把查詢語句中的Source改為Target即可進(jìn)行查詢。再比如,當(dāng)用戶需要在Neo4j中查詢關(guān)系(relation)時(shí),需要使用Match語言進(jìn)行查詢,以查詢“審計(jì)”關(guān)系為例,若想查詢圖數(shù)據(jù)庫中所有關(guān)于“審計(jì)”關(guān)系的節(jié)點(diǎn),查詢語句如下:MATCH(n:Source)-[:‘審計(jì)’]-(m:Target)returnn,mlimit20。這時(shí)圖數(shù)據(jù)庫會(huì)加載出所有以“審計(jì)”關(guān)系連接的節(jié)點(diǎn),(其中l(wèi)imit為控制節(jié)點(diǎn)顯示數(shù)量的參數(shù),可修改為任意數(shù)量),查詢結(jié)果如圖所示。對(duì)審計(jì)領(lǐng)域的知識(shí)獲得全局認(rèn)識(shí),亦可以借助知識(shí)圖譜的手段。審計(jì)知識(shí)圖譜的構(gòu)建,有助于人們通過節(jié)點(diǎn)—關(guān)系—節(jié)點(diǎn)的方式,方便快捷、清晰明了地獲取審計(jì)領(lǐng)域的相關(guān)知識(shí),完成審計(jì)知識(shí)的查詢和獲取。比如對(duì)于初次接觸審計(jì)領(lǐng)域知識(shí)的用戶而言,可以通過知識(shí)圖譜的方式查詢“審計(jì)”相關(guān)領(lǐng)域,例如查詢對(duì)于“審計(jì)(獨(dú)立性的經(jīng)濟(jì)監(jiān)督活動(dòng))”相應(yīng)知識(shí),查詢結(jié)果如圖所示,即可通過圖譜的方式獲得相應(yīng)審計(jì)知識(shí)的展示,方便用戶快速、系統(tǒng)、較為全面地獲得審計(jì)領(lǐng)域知識(shí)。另外,知識(shí)圖譜也提供了強(qiáng)大的模糊查詢的功能。當(dāng)用戶在搜索框內(nèi)輸入想要查詢的詞語,隨后會(huì)出現(xiàn)下拉框,用戶可通過點(diǎn)擊某一詞語或句子,這時(shí)會(huì)出現(xiàn)用戶搜索的詞語的網(wǎng)絡(luò)關(guān)系圖。以搜索“cpa”為例,頁面的搜索框下會(huì)出現(xiàn)所有包含cpa字段的詞語或語句,可通過點(diǎn)擊自己想要查詢的范圍來進(jìn)行查詢。例如,以選擇以“cpa[注冊(cè)會(huì)計(jì)師]”為例,用戶點(diǎn)擊此詞語,頁面會(huì)展示關(guān)于此詞語的知識(shí)圖譜,如圖所示。這種通過圖譜的形式展示出來的、區(qū)別于傳統(tǒng)的百度搜索查找審計(jì)領(lǐng)域知識(shí)的方式,是大數(shù)據(jù)審計(jì)、信息化審計(jì)和智能化審計(jì)發(fā)展到一定階段的產(chǎn)物,有助于用戶對(duì)審計(jì)知識(shí)的查詢、獲取和使用,提高了用戶的決策相關(guān)性。結(jié)語通過審計(jì)知識(shí)圖譜的構(gòu)建,相關(guān)人員可以快速準(zhǔn)確地了解到當(dāng)前環(huán)境下審計(jì)知識(shí)的現(xiàn)狀,精準(zhǔn)抓取審計(jì)行業(yè)面臨的問題等等。對(duì)于審計(jì)從業(yè)人員而言,需要不斷加強(qiáng)大數(shù)據(jù)審計(jì)和智能化審計(jì)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 醫(yī)用礦物鹽產(chǎn)品供應(yīng)鏈分析
- 醫(yī)用水床產(chǎn)品供應(yīng)鏈分析
- 復(fù)印傳真體機(jī)產(chǎn)業(yè)鏈招商引資的調(diào)研報(bào)告
- 電線項(xiàng)目運(yùn)營指導(dǎo)方案
- 醫(yī)用鼻咽拭子產(chǎn)品供應(yīng)鏈分析
- 廢物環(huán)境監(jiān)測(cè)行業(yè)市場(chǎng)調(diào)研分析報(bào)告
- 醫(yī)用超聲成像設(shè)備產(chǎn)業(yè)鏈招商引資的調(diào)研報(bào)告
- 醫(yī)用體育訓(xùn)練器械產(chǎn)業(yè)鏈招商引資的調(diào)研報(bào)告
- 上門驗(yàn)光服務(wù)行業(yè)市場(chǎng)調(diào)研分析報(bào)告
- 局域網(wǎng)服務(wù)器產(chǎn)業(yè)鏈招商引資的調(diào)研報(bào)告
- 遼寧省大連市中山區(qū)2024-2025學(xué)年九年級(jí)上學(xué)期期中化學(xué)試題
- 高速公路項(xiàng)目竣工決算審計(jì)服務(wù)投標(biāo)方案(技術(shù)方案)
- 天津市天津市紅橋區(qū)2024-2025學(xué)年八年級(jí)上學(xué)期10月期中英語試題
- 八年級(jí)物理上冊(cè) 第二章 二 物體的質(zhì)量及其測(cè)量說課稿 (新版)北師大版
- 部編版道德與法治三年級(jí)上冊(cè)第9課《心中的“110”》說課課件
- 2024-2030年中國運(yùn)動(dòng)服行業(yè)市場(chǎng)調(diào)研及發(fā)展策略研究報(bào)告
- 制氫技術(shù)與工藝 課件 第5章 電解水制氫
- 2024年執(zhí)業(yè)醫(yī)師考試-中醫(yī)執(zhí)業(yè)醫(yī)師考試近5年真題集錦(頻考類試題)帶答案
- 2024年云網(wǎng)安全應(yīng)知應(yīng)會(huì)考試題庫
- 湘教版(2024新版)七年級(jí)上冊(cè)數(shù)學(xué)期中考試模擬測(cè)試卷(含答案)
- 全國計(jì)算機(jī)一級(jí)考試題庫(附答案)
評(píng)論
0/150
提交評(píng)論