不良資產(chǎn)管理領域知識圖譜技術要求_第1頁
不良資產(chǎn)管理領域知識圖譜技術要求_第2頁
不良資產(chǎn)管理領域知識圖譜技術要求_第3頁
不良資產(chǎn)管理領域知識圖譜技術要求_第4頁
不良資產(chǎn)管理領域知識圖譜技術要求_第5頁
已閱讀5頁,還剩7頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

ICS35.240.40

CCSL67

T/CCUA

中國計算機用戶協(xié)會團體標準

T/CCUALX003—2020

不良資產(chǎn)管理領域知識圖譜技術要求

Knowledgegraphforassetmanagement------Technicalrequirement

(征求意見稿)

(本草案完成時間:2021年12月29日)

在提交反饋意見時,請將您知道的相關專利連同支持性文件一并附上。

XXXX-XX-XX發(fā)布XXXX-XX-XX實施

中國計算機用戶協(xié)會發(fā)布

T/CCUALX003—2020

目次

前言................................................................................II

引言.................................................................................III

1范圍.......................................................................................1

2規(guī)范性引用文件............................................................................1

3術語和定義................................................................................1

4縮略語....................................................................................2

5概況......................................................................................3

5.1領域相關特點.........................................................................3

5.9領域相關限制.........................................................................3

6知識圖譜技術架構.........................................................................3

7知識圖譜構建和應用.......................................................................4

71源數(shù)據(jù)................................................................................4

79數(shù)據(jù)處理..............................................................................4

7.3知識抽取..............................................................................4

74知識表示..............................................................................4

7.5知識融合..............................................................................5

7.6知識存儲..............................................................................5

77圖譜中心..............................................................................5

7.fl知識推理..............................................................................6

7.9知識圖譜應用.........................................................................6

8知識圖譜系統(tǒng)運維.........................................................................6

9安全......................................................................................7

參考文獻..............................................................................8

I

T/CCUALX003—2020

■■■1/■—A----

刖百

本文件按照GB/T1.1-2020《標準化工作導則第1部分:標準化文件的結構和起草規(guī)則》的規(guī)定

起草。

請注意本文件的相關內容不涉及專利。本文件的發(fā)布機構不承擔識別專利的賁任。

本文件由中國計算機用戶協(xié)會云應川分會和華融融通(北京)科技有限公司共同提出.

本文件由中國計算機用戶協(xié)會歸口。

本文件起草單位:中國計算機用戶協(xié)會云應用分會、中國華融資產(chǎn)管理股份有限公司,北京郵電大

學,北京航空航天大學,中國信達資產(chǎn)管理股份有限公司,華融融通(北京)科技有限公司,華鴻匯德

(北京)信息技術有限公司。

本文件主要起草人:唐常芳、傅湘玲、王寶會、彭雷、袁佳寧、張昕夏、黃笑童、趙蒙、鄭藝、萬

誼強、高高峰、王友軍、王茵、申楠楠、時國歡。

本文件為首次發(fā)布。

II

T/CCUALX003—2020

引言

不良資產(chǎn)管理領域涉及較多非標準業(yè)務,各類項目的操作方式靈活多樣,各業(yè)務條線維護和關注的

信息豐富繁雜。在項目進行的各個階段和盡職調查、方案審查、風險控制、資產(chǎn)處置和機會發(fā)現(xiàn)的各個

環(huán)節(jié),業(yè)務人員需要對項目相關市場參與主體的信息及擴展關聯(lián)數(shù)據(jù)有所了解和掌握,對企業(yè)經(jīng)營基本

狀況、企業(yè)集團、投資集中度、授信額度、項目協(xié)同意愿或利益沖突、美聯(lián)關系、擔保風險、輿情事件

等進行判斷,涉及的關系網(wǎng)絡不僅包括市場、監(jiān)管、產(chǎn)業(yè)鏈、企業(yè)、干系人等外部信息,同時包括業(yè)務

運轉過程中形成的項目、客戶、協(xié)同等內部信息,這些都構成了不良資產(chǎn)管理領域知識體系的一部分,

而知識圖譜在表示這些關聯(lián)知識和基于網(wǎng)絡關系進行分析方面具有天然的優(yōu)勢,并可以支持通過進一

步數(shù)據(jù)挖掘賦能業(yè)務創(chuàng)新,因此在不良資產(chǎn)管理領域有著廣泛的應用前景。本文件的制定,有利于指導

和幫助不良資產(chǎn)管理領域知識圖譜技術的具體實踐。

III

T/CCUALX003—2020

不良資產(chǎn)管理領域知識圖譜技術要求

1范圍

本文件確立了不良資產(chǎn)管理領域知識圖譜架構,規(guī)定了相關構建技術框架及流程、技術要求、數(shù)據(jù)

使用、安全要求,并界定了有關的術語、定義和縮略語。

本文件適用于不良資產(chǎn)管理行業(yè)使用知識圖譜支持業(yè)務場景過程中涉及的數(shù)據(jù)和知識的獲取、存

儲與處理,知識圖譜管理和計算,應用系統(tǒng)維護相關的技術,其他領域也可參照使用。

2規(guī)范性引用文件

下列文件中的內容通過文中的規(guī)范性引用而構成本文件必不可少的條款。其中,注日期的引用文件,

僅該日期對應的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本

文件。

本文件沒有規(guī)范性引用文件。

3術語和定義

下列術語和定義適用于本文件。

3.1不良資產(chǎn)管理領域

3.1.1

不良資產(chǎn)non-performingassets

企業(yè)尚未處理的資產(chǎn)凈損失和潛虧(資金)掛賬,以及按財務會計制度規(guī)定應提未提資產(chǎn)減值準備

的各類有問題資產(chǎn)預計損失金額。

3.1.2

干系人projectstakeholders

積極參與項目實施或者在項目完成后其利益可能受積極或消極影響的個人或組織。

示例:客戶、用戶、發(fā)起人、高層管理員、執(zhí)行組織、公眾或反對項目的人。

3.1.3

產(chǎn)業(yè)鏈industrychain

指各個產(chǎn)業(yè)部門之間基于一定的技術經(jīng)濟關聯(lián),并依據(jù)特定的邏輯關系和時空布局關系客觀形成

的鏈條式關聯(lián)關系形態(tài)。

3.2知識圖譜

3.2.1

知識圖譜knowledgegraph

知識圖譜是結構化的語義知識庫,用于以符號形式描述物理世界中的概念及其相互關系,其基本組

成單位是“實體-關系-實體”三元組,以及實體及其相關屬性-值對,實體間通過關系相互聯(lián)結,構成

網(wǎng)狀的知識結構。

3.2.2

知識(用于人工智能)knowIedge(inartificialinteIIigence)

事實、事件、信念以及規(guī)則的匯集,以便于系統(tǒng)地使用.

[來源:GB/T5271.28—200128.01.03]

3.2.3

對象(用于人工智能)object(inartificialintelligence)

具有一種或多種屬性的物理或概念實體。

3.2.4

本體ontology

1

T/CCUALX003—2020

在大數(shù)據(jù)語境下,約束后續(xù)各種不同層次邏輯模型的語義模型,是共享概念模型明確的形式化規(guī)范

說明。

注:本體,從本質上看,既可以是非常概括性的,也可以是極其專門化的。

[來源:GB/T35295—20172.1.54]

3.2.5

實體entity

機構名、地名、人名等專有名詞或其他有意義的名詞性短語。

3.2.6

關系relationship

實體之間的語義聯(lián)系。

注:關系包括隱含語義聯(lián)系。

3.2.7

屬性attribute

對實體的描述。

3.2.8

事件event

發(fā)牛在某個特定時間點或時間段、某個特定地域范圍內,由一個或者多個角色參與的一個或者多個

動作組成的事情或者狀態(tài)的改變。

3.2.9

節(jié)點node

在RDF協(xié)議框架下,指圖譜中三元組的主語或賓語,個別情況下也可是謂詞IRI。

3.2.10

標簽IabeI

節(jié)點的分類結果信息。

3.2.11

三元組triple

表示RDF中的一組關系,由主語(subject)>謂語(predicate)和賓語(object)三個部分組成。

3.2.12

實體鏈接entitylinking

為文本中提到的實體(如著名的個人、地點或公司)分配獨特身份的任務。

3.2.13

知識抽取knowledgeacquisition

查找、收集和精化知識,并將它轉換成一種形式的過程,該形式能被基于知識的系統(tǒng)志一步處理。

[來源:GB/T5271.28—200128.01.09]

3.2.14

知識表示knowledgerepresentation

將知識編碼并存入知識庫的過程或結果。

[來源:GB/T5271.28—200128.01.08]

3.2.15

知識融合knowledgefusion

知識組織與信息融合的交叉學科,獲取隱含的或有價值的新知識,優(yōu)化知識的結構和內涵,提供知

識服務。

注:面向需求和創(chuàng)新,通過對眾多分散、異構資源上知識的獲取、匹配、集成、挖掘等實現(xiàn)。

3.2.16

知識推理knowledgereasoning

按照某種策略,根據(jù)已有知識推出新知識的過程。

4縮略語

2

T/CCUALX003—2020

下列縮略語適用于本文件。

AMC:資產(chǎn)管理公司(AssetManagementCompanies)

IRI:國際化資源標識符(InternationalizedResourceIdentifier)

OWL:網(wǎng)絡本體語言(WebOntologyLanguage)

RDF:資源描述框架(ResourceDescriplionFramework)

NER:命名實體識別(NamedEntityRecognition)

5概況

5.1領域相關特點

不良資產(chǎn)管理領域使用知識圖譜,相關的領域特性有:

a)涉及的數(shù)據(jù)種類較為綜合和廣泛;

b)較為依賴行業(yè)或企業(yè)內部特有的非公開信息;

c)業(yè)務運轉天然形成網(wǎng)狀信息,易于用圖譜表示,同時應用也更依賴圖譜提供的能力。

5.9領域相關限制

不良資產(chǎn)管理領域使用知識圖譜,相關的領域限制有:

a)不良資產(chǎn)管理行'業(yè)信息科技化以及基于人工智能和大數(shù)據(jù)的知識圖譜技術應用仍在發(fā)展階段,

為保持技術路線穩(wěn)健,更關注經(jīng)過較為廣泛使用驗證和較為成熟的技術和方式;

b)不良資產(chǎn)管理屬于較為傳統(tǒng)的金融行業(yè),相對于底層技術,更關注知識圖譜的業(yè)務應用;

c)金融數(shù)據(jù)具有歧義多、噪聲大、碎片化的特點,知識圖譜所能吸收的高質量數(shù)據(jù)較為有限,知

識圖譜中的知識抽取、知識融合及知識計算等技術面臨較多困難與挑戰(zhàn);

d)不良資產(chǎn)管理領域知識圖譜包含多方數(shù)據(jù),對數(shù)據(jù)的加工和使用涉及到相關的金融安全考量。

6知識圖譜技術架構

不良資產(chǎn)管理領域知識圖譜技術架構見佟11:

應用搜索查詢

技術關聯(lián)發(fā)現(xiàn)

知識

搜索遍歷

圖譜知識儲存

企業(yè)和干系人圖譜輿情事件圖譜

中心

知識知識表示

實體抽取關系抽取屬性抽取

抽取

數(shù)據(jù)

數(shù)據(jù)載入數(shù)據(jù)抽取數(shù)據(jù)轉化

處理

結構化數(shù)據(jù)半結構化數(shù)據(jù)非結構化數(shù)據(jù)

數(shù)據(jù)

圖1不良資產(chǎn)管理領域知識圖譜技術架構

不良資產(chǎn)管理領域知識圖譜技術框架由源數(shù)據(jù)、數(shù)據(jù)處理、知識抽取及知識融合、圖譜中心、知識

推理、應用技術及業(yè)務場景等六個層次組成。知識表示及儲存貫穿整個知識圖譜技術架構,負責將前三

3

T/CCUALX003—2020

個層次獲取的知識按照統(tǒng)一規(guī)則保存在適當媒介內,并向后三個層次提供便利快速的知識使用、知識內

容更新和知識結構重組。

圖譜的源數(shù)據(jù)由結構化數(shù)據(jù)、半結構化數(shù)據(jù)和非結構化數(shù)據(jù)組成,包括但不限于市場和企業(yè)基礎數(shù)

據(jù)和關聯(lián)關系和屬性數(shù)據(jù),行業(yè)領域特色數(shù)據(jù),內部業(yè)務相關數(shù)據(jù)等。基于數(shù)據(jù)處理層的數(shù)據(jù)載入、數(shù)

據(jù)抽取、數(shù)據(jù)轉化技術,為數(shù)據(jù)向知識的轉換做好準備。

完成基本處理的數(shù)據(jù),通過知識抽取相關的技術如NER、關系抽取、事件抽取、屬性抽取等,結合

知識融合相關的方法如本體匹配、實體對齊等,形成包括企業(yè)圖譜、干系人圖譜、輿情事件圖譜、領域

業(yè)務圖譜和監(jiān)管和法規(guī)圖譜等在內的面向應用的圖譜數(shù)據(jù),匯集在圖譜中心。

基于圖譜中心數(shù)據(jù)進行搜索便利、路徑發(fā)現(xiàn)、社區(qū)聚類、子圖挖掘、實體鏈接和標簽傳播等知識推

理后,為探索查詢、關聯(lián)發(fā)現(xiàn)、知識問答等應用技術提供支撐,并應用于知識可視化、穿透杳詢、智能

客服、限額控制、風險預警、客戶畫像和機會發(fā)現(xiàn)等業(yè)務場景。

7知識圖譜構建和應用

71源數(shù)據(jù)

源數(shù)據(jù)和數(shù)據(jù)獲取符合以卜要求:

a)可利用現(xiàn)有通用知識圖譜、領域知識圖譜中的已有知識;

b)可從穩(wěn)定可靠的外部公開合法數(shù)據(jù)源或第三方合法數(shù)據(jù)源獲取權威信息、,包括但不限于企業(yè)

工商數(shù)據(jù)、司法訴訟數(shù)據(jù)等;

c)可從網(wǎng)絡公開渠道獲取用于進一步分析提取信息的數(shù)據(jù),包括但不限于輿情新聞、行業(yè)詞庫等;

d)可結合內部業(yè)務自有數(shù)據(jù)、領域專家知識和外部數(shù)據(jù)構造融合數(shù)據(jù)集合;

0)應優(yōu)先使用定義清晰的結構化數(shù)據(jù),以保證圖譜知識準確可靠;

f)對于分析處理獲得的非確定性參考信息,應與確定性信息進行區(qū)分。

7.2數(shù)據(jù)處理

數(shù)據(jù)處理符合以下要求:

a)應對存在噪聲的數(shù)據(jù)進行清洗操作;

b)應按照數(shù)據(jù)存儲方式的選擇將原始數(shù)據(jù)轉化為相應的格式;

c)可保留用于直接導入存儲的中間數(shù)據(jù);

d)可保留中間數(shù)據(jù)的多個版本,或對中間數(shù)據(jù)的增顯和差異進行記錄;

e)對于涉及到敏感信息的數(shù)據(jù),應符合第9章的安全要求。

7.3知識抽取

知識抽取符合以下要求:

a)可使用直接映射的方法進行結構化數(shù)據(jù)的知識抽取;

b)可使用模板解析的方法進行半結構化數(shù)據(jù)的知識抽取;

c)可主要使用基于領域專家構建的規(guī)則講行非結構化數(shù)據(jù)的知識抽?。?/p>

d)可使用實體抽取算法、關系抽取算法、屬性抽取算法和事件抽取算法進行非結構化數(shù)據(jù)的知識

抽取;

e)可保留用于知識抽取的映射、模板、規(guī)則以及人工智能模型的參數(shù)。

74知識表示

知識表示符合以下要求進行:

a)應對領域概念進行劃分,對實體、關系、屬性、事件等知識進行定義和格式化表示;

b)可依據(jù)行業(yè)慣例進行知識圖譜元素定義和邏輯結構構建;

c)應根據(jù)知識圖譜的數(shù)據(jù)規(guī)模、操作兔雜度、模型結構來選擇知識表示的方式:

d)對于基于語義網(wǎng)進行的知識表示,應遵循萬維網(wǎng)聯(lián)曹(W3C)發(fā)布的各項標準,使用唯一的IRI

表示資源,使用RDF框架對IRI進行描述,使用0匹本體語言對本體進行描述;

4

T/CCUALX003—2020

e)對于基于特征向量進行的知識表示,可使用平移距離模型、語義匹配模型或其他機器學習模型;

f)可使用三元組作為知識圖譜表示和數(shù)據(jù)交換的基本形式。

7.5知識融合

知識融合符合以下要求:

a)應對知識圖譜的概念層和數(shù)據(jù)層進行融合;

b)可使用基于術語的方法、基于結構的方法、基于本體中的實例的方法或三者綜合運用的方法進

行概念層的本體匹配;

c)可使用基于規(guī)則的方法、基于聚類的方法進行數(shù)據(jù)層的實體對齊;

d)內外部數(shù)據(jù)的融合,涉及通用類型的數(shù)據(jù)時,可使用統(tǒng)一標識進行匹配;

e)可構建不良資產(chǎn)管理行業(yè)術語、縮寫和別名對照、詞匯庫等用于輔助知識融合;

f)構建知識圖譜可使用自頂向下或自底向上的方法:

?使用自頂向下的方法構建知識圖譜時,應先確定知識圖譜的數(shù)據(jù)模型,再根據(jù)模型填充具

體數(shù)據(jù),最終形成知識圖譜;

?使用自底向上的方法構建知識圖譜時,應首先對實體進行歸納組織,形成底層概念,然后

逐步往上抽象,形成上層的概念;

g)知識概念的更新可通過領域專家人工審核。

7.6知識存儲

知識存儲符合以下要求進行:

a)不良資產(chǎn)管理領域的實體應定義和存儲為節(jié)點,例如企業(yè)、法人等;

b)不良資產(chǎn)管理領域實體間的關系應定義和存儲為節(jié)點間的邊,例如從屬、投資等:

c)可根據(jù)知識圖譜的數(shù)據(jù)規(guī)模、操作復雜度、模型結構來選擇知識存儲的方式;

d)可優(yōu)先使用圖數(shù)據(jù)庫用于知識圖譜的存儲,可使用關系型數(shù)據(jù)庫作為輔助存儲方式;

e)數(shù)據(jù)存儲可支持多副本,保證安全、可容災、高可用等性能要求;

f)可通過提高服務器硬件配置或服務器數(shù)量的方式來實現(xiàn)集群數(shù)據(jù)處理能力的提升:

?)可支持高效自動的知識圖譜數(shù)據(jù)更新策略。

77圖譜中心

7.7.1圖譜管理

圖譜管理符合以下要求:

a)應提供集中的方式管理圖譜;

b)可支持圖譜模型的統(tǒng)一管理:

c)可支持對圖譜整體和子圖的查看;

d)可支持圖譜的導入和導出,導入導出支持通用的標準格式;

e)可支持對圖譜中的實體、關系、屬性進行查看和管理等操作;

f)可支持圖譜查詢語句的統(tǒng)一管理;

g)可提供可視化的方式管理圖譜中心。

7.7.2領域圖譜

領域圖譜符合以下要求:

a)應以有效支撐業(yè)務的分析和決策需求為構建目標;

b)企業(yè)和干系人圖譜可包含不良資產(chǎn)管理領域業(yè)務參與企業(yè)、法人、自然人等實體及其屬性;

c)企業(yè)和干系人圖譜可支持實體之間的投資關系、組織關系、司法訴訟關系、經(jīng)營合作關系、基

于其他共同屬性的關系等關系及其屬性;

d)領域業(yè)務圖譜可包含不良資產(chǎn)管理領域業(yè)務參與方、業(yè)務標的、業(yè)務領域術語和規(guī)程等實體及

其屬性;

5

T/CCUALX003—2020

e)領域業(yè)務圖譜可支持業(yè)務參與方之間的組織關系、法律關系、經(jīng)營關系等關系及其屬性;

f)領域業(yè)務圖譜可支持業(yè)務標的之間的分解、組合、遷移、轉化等關系及其屬性;

g)監(jiān)管和法規(guī)圖譜可包含不良資產(chǎn)管理領域'業(yè)務參與實體、監(jiān)管機構涉及實體、法律法規(guī)涉及實

體等實體及其屬性;

h)監(jiān)管和法規(guī)圖譜可支持各實體之間與監(jiān)管和法律法規(guī)相關事件關聯(lián)的關系及其屬性;

i)輿情事件圖譜可包含不良資產(chǎn)管理領域廣泛的業(yè)務參與實體及其屬性;

j)輿情事件圖譜可支持各實體之間與動態(tài)事件關聯(lián)的關系及其屬性;

k)應支持領域圖譜的擴展。

7.7.3圖譜可視化

圖譜可視化符合以下要求:

a)應以直觀方式提供圖譜的可視化;

b)應對實體、關系、屬性進行區(qū)分;

c)以傳統(tǒng)的節(jié)點和連線方式表示圖譜時,應以節(jié)點表示實體,以連線表示關系;

d)應體現(xiàn)屬性與對應實體或關系的關聯(lián);

e)可對實體的屬性和關系的屬性進行區(qū)分;

f)可對圖譜中的實體進行鉆取顯示;

g)可支持對特定實體間的特定關系進行顯示;

h)可支持用實體的屬性對可視化內容進行篩選;

i)可支持用關系的屬性對可視化內容進行篩選;

j)可支持用關系的層數(shù)對可視化內容進行篩選;

k)在圖譜元素數(shù)量較多時,可支持對可視化方式進行優(yōu)化:

1)可支持不同圖譜之間的關聯(lián)。

7.8知識推理

知識推理符合以下要求:

a)可基于不同的關系構造相關子圖,用于對特定關系或事件進行查詢;

b)可支持對圖譜的搜索;

c)可支持對圖譜的遍歷;

d)可支持對圖譜的路徑發(fā)現(xiàn)計算:

e)可支持對圖譜的聚類計算;

f)可支持基于規(guī)則、統(tǒng)計、機器學習的知識推理。

7.9知識圖譜應用

知識圖譜應用符合以下要求:

a)應支持對實體、關系和屬性的查詢;

b)應支持對兩個或多個實體間關系、關系屬性的查詢:

c)可支持對基于特定關系的圖譜的查詢;

d)提供的圖譜信息應包括所有必要的實體和關系;

e)對于包含多層級關系的圖譜,可支持關系的逐級查詢和

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論