《電力人工智能模型場景化驗(yàn)證及評價(jià)體系構(gòu)建規(guī)范》_第1頁
《電力人工智能模型場景化驗(yàn)證及評價(jià)體系構(gòu)建規(guī)范》_第2頁
《電力人工智能模型場景化驗(yàn)證及評價(jià)體系構(gòu)建規(guī)范》_第3頁
《電力人工智能模型場景化驗(yàn)證及評價(jià)體系構(gòu)建規(guī)范》_第4頁
《電力人工智能模型場景化驗(yàn)證及評價(jià)體系構(gòu)建規(guī)范》_第5頁
已閱讀5頁,還剩10頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

ICS國際標(biāo)準(zhǔn)分類號

CCS中國標(biāo)準(zhǔn)文獻(xiàn)分類號

團(tuán)體標(biāo)準(zhǔn)

T/CESXXX-XXXX

電力人工智能模型場景化驗(yàn)證及評價(jià)體

系構(gòu)建規(guī)范

Ascenariomodelverificationandapplicationevaluationstandard

XXXX-XX-XX發(fā)布XXXX-XX-XX實(shí)施

中國電工技術(shù)學(xué)會發(fā)布

T/CESXXX—XXXX

電力人工智能模型場景化驗(yàn)證及評價(jià)標(biāo)準(zhǔn)

1范圍

本文件規(guī)定了電力人工智能場景化模型驗(yàn)證及評價(jià)體系構(gòu)建及評估目標(biāo)的確定、選擇評估指標(biāo)選

取、設(shè)定權(quán)重、收集數(shù)據(jù)以及分析數(shù)據(jù)。適用于電力負(fù)荷預(yù)測、電力市場價(jià)格預(yù)測、電力設(shè)備故障診斷、

電力系統(tǒng)優(yōu)化等預(yù)測診斷模型在性能、可靠性、準(zhǔn)確性等方面表現(xiàn)的好壞,幫助評估模型的優(yōu)劣并提高

模型的性能和應(yīng)用效果。

2規(guī)范性引用文件

下列文件對于本文件的應(yīng)用是必不可少的。凡是注日期的引用文件,僅注日期的版本適用于本文件。

凡是不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。

ISO9001質(zhì)量管理體系標(biāo)準(zhǔn)質(zhì)量管理框架

ISO14001環(huán)境管理體系標(biāo)準(zhǔn)環(huán)境管理體系

ISO50001能源管理體系標(biāo)準(zhǔn)

3術(shù)語和定義

下列術(shù)語和定義適用于本文件。

AHP(AnalyticHierarchyProcess)分析層次過程:

一種用于解決決策問題的系統(tǒng)性方法,通過對問題進(jìn)行結(jié)構(gòu)化分解,將復(fù)雜問題劃分為易于處理

的層次結(jié)構(gòu),然后對每個層次結(jié)構(gòu)進(jìn)行成對比較和計(jì)算來確定最佳決策方案。

3.1場景化模型Scenario-basedmodel:

將實(shí)際場景中的特定問題建模為可計(jì)算和可分析的數(shù)學(xué)模型,以支持決策制定和問題解決。

3.2驗(yàn)證verification:

利用統(tǒng)計(jì)方法和實(shí)驗(yàn)數(shù)據(jù),對模型的有效性和可靠性進(jìn)行確認(rèn)和核實(shí)。

3.3評價(jià)體系evaluationsystem:

對特定目標(biāo)、問題或場景進(jìn)行全面評價(jià)的框架和方法。

3.4權(quán)重分配weightallocation:

根據(jù)比較結(jié)果為每個因素分配相應(yīng)的權(quán)重值,以反映其對最終決策方案的重要性。

3.5層次結(jié)構(gòu)hierarchicalstructure:

將復(fù)雜問題分解為多個層次,從全局到局部逐步分析和解決問題的方法。

3.6比較矩陣Comparisonmatrix:

用于記錄因素之間的兩兩比較結(jié)果,以計(jì)算其相對權(quán)重的矩陣。

3.7最大特征值eigenvalueofmaximum:

比較矩陣的最大特征值用于確定權(quán)重向量,并衡量相對重要性。

3.8一致性比率(CR):

1

T/CESXXX—XXXX

對比較矩陣中的一致性進(jìn)行度量和評估的方法,其值應(yīng)小于0.1以保證一致性。

4符號、代號和縮略語

下列符號、代號和縮略語適用于本文件。

本文未定義符號、代號和縮略語。

5業(yè)務(wù)場景使用規(guī)范

AHP(層次分析法)是一種常見的多標(biāo)準(zhǔn)決策分析方法,它可以用于對復(fù)雜問題進(jìn)行結(jié)構(gòu)化、分

層和優(yōu)先級排序;它能夠?qū)?fù)雜的決策問題分解為一系列層級結(jié)構(gòu),在不同層次上分析決策因素的重

要程度,并最終得出決策結(jié)果。如在碳計(jì)量中常見的技術(shù)中有以下幾個場景使用到了AHP技術(shù):

(1)碳排放因子選擇:在碳計(jì)量中,計(jì)算碳排放量需要用到碳排放因子,而不同的排放因子對應(yīng)

不同種類的活動,因此需要對不同的碳排放因子進(jìn)行優(yōu)先級排序,以便選擇最適合特定活動的排放因

子。通過運(yùn)用AHP方法,可以根據(jù)多個因素如可靠性、數(shù)據(jù)可得性、地區(qū)和行業(yè)特點(diǎn)等來評估不同的

排放因子。

(2)能源消耗分析:對企業(yè)的能源消耗進(jìn)行分析,通過對能源消耗的分類和評估指標(biāo)的定義,將

不同形式的能源消耗轉(zhuǎn)化為統(tǒng)一的碳排放量表達(dá)方式,提高碳排放量的準(zhǔn)確度。在此過程中,AHP可

以被用于對各種能源消耗類型進(jìn)行排序和評估。

(3)碳減排方案比較:對企業(yè)實(shí)施減碳方案的選擇決策。AHP可以用于在參考多個因素(如經(jīng)濟(jì)

、技術(shù)可行性等)的情況下確定最佳方案。通過使用AHP方法,可以將各個因素權(quán)重進(jìn)行比較和歸一

化,確定最佳的減排方案和最佳的投資組合。

(4)供應(yīng)鏈碳足跡計(jì)算:一個清晰的供應(yīng)鏈碳足跡計(jì)算功能,需要對整條供應(yīng)鏈中的各個最小碳

排放環(huán)節(jié)進(jìn)行監(jiān)測和計(jì)算。AHP可以用于選擇最適合的監(jiān)測技術(shù)和方法,來提高精度和便利度。

在總體上,AHP可以用于許多應(yīng)用場景,如對碳排放數(shù)據(jù)的分析、碳減量方案的制定、企業(yè)能源管理

、供應(yīng)鏈管理等

6電力人工智能模型場景化驗(yàn)證及評價(jià)標(biāo)準(zhǔn)

6.1人工智能artificialintelligence

利用數(shù)字計(jì)算機(jī)或者由數(shù)字計(jì)算機(jī)控制的機(jī)器,模擬、延伸和擴(kuò)展人類的智能,感知環(huán)境、獲取知

識并使用知識獲得最佳結(jié)果的理論、方法、技術(shù)和應(yīng)用系統(tǒng)。

6.2人工智能模型artificialintelligencemodel

通過學(xué)習(xí)海量樣本數(shù)據(jù)中的內(nèi)在規(guī)律和表現(xiàn)層次,實(shí)現(xiàn)包括分類、回歸、聚類、目標(biāo)檢測、光學(xué)字

符識別、自然語言處理、語音識別等任務(wù)。

6.3分類模型classificationmodel

判斷一個新的觀察樣本所屬的類別的模型。

6.4回歸模型regressionmodel

預(yù)測一個新的觀察樣本的連續(xù)型目標(biāo)值的模型。

6.5聚類模型clusteringmodel

劃分無標(biāo)記的數(shù)據(jù)集為多個類別的模型。

6.6目標(biāo)檢測模型objectdetectionmodel

確定圖像上目標(biāo)類別和位置屬性信息的模型。

2

T/CESXXX—XXXX

6.7光學(xué)字符識別模型opticalcharacterrecognitionmodel

將圖片、照片上的文字內(nèi)容轉(zhuǎn)換為直接可編輯文字的模型。

6.8自然語言處理模型naturallanguageprocessingmodel

人與計(jì)算機(jī)之間用自然語言進(jìn)行有效通信的模型,用于人類與機(jī)器的交互。

6.9語音識別speechrecognition

將人類的聲音信號轉(zhuǎn)化為文字或者指令的過程。

6.10語音識別模型speechrecognitionmodel

將語音數(shù)據(jù)轉(zhuǎn)換為機(jī)器可讀數(shù)據(jù)(文本內(nèi)容、二進(jìn)制編碼、字符序列等)的模型。

6.11聲音檢測類sounddetectionandrecognition

主要以檢測連續(xù)或者孤立語流中的特定命令或關(guān)鍵詞為主要目的的任務(wù)。

6.12文字輸入類textinput

以文字錄入為主要目的,要求把語音轉(zhuǎn)化為文字的任務(wù)。

6.13訓(xùn)練數(shù)據(jù)集trainingset

模型構(gòu)建過程中使用的數(shù)據(jù)集合。

6.14測試數(shù)據(jù)集testingset

評估模型構(gòu)建質(zhì)量的數(shù)據(jù)集合。

6.15交并比intersectionoverunion

計(jì)算兩個矩形框交集與并集的比值,用于評價(jià)兩個矩形框的相似度。

6.16真正例truepositives

模型正確判定的正類樣本。

6.17假正例falsepositives

被模型判定為正類的負(fù)類樣本。

6.18真負(fù)例truenegative

模型正確判定的負(fù)類樣本。

6.19假負(fù)例falsenegative

被模型判定為負(fù)類的正類樣本。

6.20真正例率truepositiverate

模型正確判定的正類樣本占所有正類樣本的比例。

6.21假正例率falsepositiverate

被模型判定為正類的負(fù)類樣本占所有負(fù)類樣本的比例。

6.22正確率accuracy

模型判斷正確的樣本占所有樣本的比例。

3

T/CESXXX—XXXX

6.23精確率precision

模型正確判定的正類樣本占所有模型判定的正類樣本的比例。

6.24召回率recall

模型正確判定的正類樣本占所有正類樣本的比例。

6.25F1值F1-score

精確率和召回率的調(diào)和平均。

6.26對數(shù)損失logloss

模型決策所包含的信息量。

6.27P-R曲線precisionrecallcurve

以精確率為縱軸、召回率為橫軸作圖得到的曲線。

6.28平均精確率meanprecision

模型判定所有類別的精確率的均值。

6.29平均召回率meanrecall

模型判定的所有類別的召回率的均值。

6.30平均精度averageprecision

在P-R曲線下,召回率從0到1各個點(diǎn)的精確率的均值,即P-R曲線下的面積。

6.31平均精度均值meanaverageprecision

模型判定的所有類別的平均精度的均值。

6.32平均絕對誤差meanabsoluteerror

模型預(yù)測結(jié)果與目標(biāo)值的差的絕對值的平均值。

6.33均方誤差meansquareerror

模型預(yù)測結(jié)果與目標(biāo)值的差的平方的平均值。

6.34均方根誤差rootmeansquareerror

模型預(yù)測結(jié)果與目標(biāo)值的差的平方的平均值的根。

6.35決定系數(shù)r-squared

描述回歸方程與真實(shí)樣本輸出之間的相似程度。

6.36校正決定系數(shù)adjustedr-squared

描述回歸方程與真實(shí)樣本輸出之間的相似程度,基于決定系數(shù)的調(diào)整。

6.37蘭德系數(shù)randindex

模型劃分正確的樣本對數(shù)占所有樣本對數(shù)的比例。

6.38調(diào)整蘭德系數(shù)adjustedrandindex

蘭德系數(shù)的去均值歸一化。

4

T/CESXXX—XXXX

6.39互信息mutualinformation

描述兩個變量之間重疊的信息量。

6.40調(diào)整互信息adjustedmutualinformation

一種基于互信息的聚類效果評價(jià)方法。

6.41輪廓系數(shù)silhouettecoefficient

結(jié)合簇內(nèi)凝聚度和分離度的一種聚類效果評價(jià)方式。

6.42平均編輯距離averageeditdistance

模型識別的字符串變換到標(biāo)準(zhǔn)字符串進(jìn)行的插入、刪除、替換操作次數(shù)的均值。

6.43字符識別準(zhǔn)確率characterrecognitionaccuracy

模型正確識別字符數(shù)占所有識別字符數(shù)的比例。

6.44字符識別召回率characterrecognitionrecall

模型正確識別字符數(shù)占所有標(biāo)準(zhǔn)字符數(shù)的比例。

6.45文本行定位準(zhǔn)確率textlinepositioningaccuracy

模型正確定位的文本行數(shù)占所有文本行數(shù)的比例。

6.46文本行定位召回率textlinepositioningrecall

模型正確定位的文本行數(shù)占所有標(biāo)準(zhǔn)文本行數(shù)的比例。

6.47詞錯誤率worderrorrate

模型輸出詞序列與標(biāo)準(zhǔn)詞序列的標(biāo)準(zhǔn)編輯距離占標(biāo)準(zhǔn)詞序列中所有詞語的比例。

6.48字錯誤率charactererrorrate

模型輸出字序列與標(biāo)準(zhǔn)字序列的標(biāo)準(zhǔn)編輯距離占標(biāo)準(zhǔn)字序列中所有字的比例。

6.49句錯誤率sentenceerrorrate

模型輸出錯誤句子的個數(shù)占所有句子的比例。

6.50雙語評估替換bilingualevaluationunderstudy

用于評估自然語言處理領(lǐng)域生成類文本的質(zhì)量,簡稱BLEU。

6.51魯棒性robustness

描述擾動、異常和危險(xiǎn)情況下模型的工作能力。

6.52時間效率timeefficiency

模型對給定的數(shù)據(jù)進(jìn)行運(yùn)算并獲得結(jié)果所需要的時間。

6.53空間效率spaceefficiency

模型運(yùn)行過程中顯存最大占用率。

6.54完備性completeness

模型具有算法框架、開發(fā)語言、模型版本、運(yùn)行環(huán)境等完整信息以及模型文件及附屬源信息齊全等。

5

T/CESXXX—XXXX

6.55受試者特征曲線receiveroperatingcharacteristiccurve

以真正例率為縱軸、假正例率為橫軸作圖得到的曲線。

6.56受試者特征曲線下面積areaunderreceiveroperatingcharacteristiccurve

在ROC曲線下,假正例率從0到1各個點(diǎn)的真正例率的均值,即ROC曲線下的面積。

6.57KS曲線kolmogorov-smirnov

用于評估模型風(fēng)險(xiǎn)區(qū)分能力,指標(biāo)衡量的是好壞樣本累計(jì)分部之間的差值。

6.58黑盒攻擊blackboxattack

攻擊者未知攻擊模型的內(nèi)部結(jié)構(gòu),訓(xùn)練參數(shù),防御方法,通過一定規(guī)則構(gòu)造攻擊樣本以完成攻擊。

6.59白盒攻擊whiteboxattack

攻擊者已知攻擊模型的內(nèi)部結(jié)構(gòu),訓(xùn)練參數(shù),防御方法,構(gòu)造特定的攻擊樣本以完成攻擊。

6.60快速梯度符號法fastgradientsignmethod

基于模型梯度獲得攻擊樣本的一種白盒攻擊方法。

6.61投影梯度下降法projectgradientdescentmethod

基于模型梯度多次迭代獲得攻擊樣本的一種白盒攻擊方法。

7.評價(jià)指標(biāo)與計(jì)算

7.1功能性

被評價(jià)模型如涉及光學(xué)字符識別、自然語言處理、目標(biāo)檢測、語音識別相關(guān)功能,宜優(yōu)先選用本導(dǎo)

則中光學(xué)字符識別、自然語言處理、目標(biāo)檢測、語音識別模型功能性指標(biāo)進(jìn)行評價(jià)。

7.1.1分類模型功能性指標(biāo)

用于評價(jià)電力人工智能分類模型實(shí)現(xiàn)的功能是否滿足要求,宜包括下列內(nèi)容:

a)正確率Accuracy,按式(1)計(jì)算:

Accuracy=(TN+TP)(/TN++TPFP+FN)(1)

b)精確率Precision,按式(2)計(jì)算:

Precision=TP/(TP+FP)(2)

c)召回率Recall,按式(3)計(jì)算:

Recall=TP/(TP+FN)(3)

d)F1值,按式(4)計(jì)算:

F12=××(PrecisionRecall)/(Precision+Recall)(4)

e)對數(shù)損失(Logloss),按式(5)計(jì)算:

6

T/CESXXX—XXXX

1NM

(5)

Logloss=?∑∑yijlog(pij)

Nij=11=

其中,TP表示預(yù)測正確的正樣本,TN預(yù)測是正確的負(fù)樣本,F(xiàn)P表示預(yù)測是錯誤的正樣本,F(xiàn)N表示

預(yù)測是錯誤的負(fù)樣本,為實(shí)例總數(shù),為類別總數(shù),是一個二值指標(biāo),表示第個輸入實(shí)例是否是

NMyijij

類別(表示是,反之為否),為分類模型預(yù)測出的第個實(shí)例屬于類的概率。

yij=1pijij

f)AUC,按式(6)和(7)計(jì)算:

∑IP(,)正樣本P負(fù)樣本

AUC=MN*(6)

1,PP>

正樣本負(fù)樣本

IP(,P)=0.5,P正樣本=P負(fù)樣本

正樣本負(fù)樣本(7)

0,PP正樣本<負(fù)樣本

其中,P正樣本表示分類模型預(yù)測的正樣本的概率,P負(fù)樣本表示分類模型預(yù)測的負(fù)樣本的概率,M表

示測試集中正樣本數(shù)量,N表示測試集中負(fù)樣本數(shù)量。

7.1.2回歸模型功能性指標(biāo)

用于評價(jià)電力人工智能回歸模型實(shí)現(xiàn)的功能是否滿足要求,宜包括下列內(nèi)容:

a)平均絕對誤差MAE,按式(8)計(jì)算:

MAE=∑?|(y?y)|/n(8)

b)均方誤差MSE,按式(9)計(jì)算:

MSE=∑?(y?y)2/n(9)

c)均方根誤差RMSE,按式(10)計(jì)算:

RMSE=∑?(y?y)2/n(10)

2

d)決定系數(shù)R,按式(11)計(jì)算:

2

??

2∑()yy

R=1?2(11)

∑()yy?

其中,y表示真實(shí)值,y?預(yù)測值,y表示全部預(yù)測值的平均值。

e)校正決定系數(shù)R2_adjusted,按式(12)計(jì)算:

2

2(1??Rn)(1)

R_adjusted=1?np??1(12)

其中,式(8)-(12)中,y表示真實(shí)值,y?預(yù)測值,y表示全部預(yù)測值的平均值,n表示測試集

樣本數(shù)量,p表示特征數(shù)量。

7.1.3聚類模型性能指標(biāo)

用于評價(jià)電力人工智能聚類模型實(shí)現(xiàn)的功能是否滿足要求,宜包括下列內(nèi)容:

a)調(diào)整蘭德系數(shù)ARI,按式(13)計(jì)算:

ARI=(RI??E(RI))/(max(RI)E(RI))(13)

b)調(diào)整互信息AMI,按式(14)、(15)計(jì)算:

=MI?E()MI(14)

AMImax(HU(),HV())?EMI()

||UV||

=Pij(,)(15)

MI∑∑P(i,j)log(Pi(),P′(j))

ij=11=

7

T/CESXXX—XXXX

其中,U、V是N個樣本標(biāo)簽的兩種不同分配情況,注:表示U中類別為的樣本的概率,

Pi()Ui

即=||Ui,表示V中類別為的樣本的概率,即=||Vj,表示在U中類別為,在

Pi()NPj()VjPj()NPi(,j)Ui

V中類別為的樣本的概率,即。指的是數(shù)據(jù)集U的信息熵,

VjPi(,j)=|Uij∩V|/NHU()

||U

HU()=?∑Pi()log(Pi()),HV()指的是數(shù)據(jù)集V的信息熵。

i=1

c)輪廓系數(shù)SC,按式(16)計(jì)算:

b(j)?ai()

SC=max{ai(),b(j)}(16)

其中,a(i)=average(i),i表示向量到所有它屬于的簇中其它點(diǎn)的距離,計(jì)算b(j)=min(j),j

表示向量到某一不包含它的簇內(nèi)的所有點(diǎn)的平均距離

7.1.4目標(biāo)檢測模型性能指標(biāo)

用于評價(jià)目標(biāo)檢測模型的實(shí)現(xiàn)的功能是否滿足要求,宜包括下列內(nèi)容:

a)IoU大于或等于預(yù)設(shè)值,判斷為真正例;IoU小于預(yù)設(shè)值,判斷為真反例。IoU預(yù)設(shè)值推薦為

0.5。

b)平均精確率MP,按式(17)計(jì)算:

∑Precision

MP=N(17)

其中,N表示目標(biāo)類別數(shù),Precision表示每類目標(biāo)的精確率。

c)平均召回率MR,按式(18)計(jì)算:

∑Recall

MR=N(18)

d)平均精度AP,按式(19)計(jì)算:

1

AP=p()rdr(19)

∫0

其中,pr()表示模型的P-R曲線函數(shù)。

e)平均精度均值MAP,按式(20)計(jì)算:

∑AP

MAP=N(20)

其中,N表示目標(biāo)類別數(shù)。

7.1.5光學(xué)字符識別模型性能指標(biāo)

用于評價(jià)光學(xué)字符識別模型實(shí)現(xiàn)的功能是否滿足要求,宜包括下列內(nèi)容:

a)平均編輯距離AED可按式(21)計(jì)算:

∑insert(result,labeL)++delete(result,label)replace(result,label)

AED=N(21)

其中,N表示測試數(shù)據(jù)集中的文本行數(shù),result表示模型識別出的一行文本,label表示標(biāo)準(zhǔn)文本,

insert(result,)label表示將result編輯為label需要執(zhí)行的插入操作次數(shù),delete(result,)label表示

將result編輯為label需要執(zhí)行的刪除操作次數(shù),replace(result,)label表示將result編輯為label需

要執(zhí)行的替換操作次數(shù)。

b)字符識別準(zhǔn)確率CRA,按式(22)計(jì)算:

∑Cright

CRA=(22)

Call

其中,表示識別正確的字符數(shù),表示總識別出的字符數(shù)。

CrightCall

8

T/CESXXX—XXXX

c)字符識別召回率CRR,按式(23)計(jì)算:

∑Cright

CRR=Ctruth(23)

其中,表示識別正確的字符數(shù),表示標(biāo)準(zhǔn)字符數(shù)。

CrightCtruth

d)文本行定位準(zhǔn)確率TLPA,按式(24)計(jì)算:

∑Tright

TLPA=(24)

Tall

其中,表示定位正確的文本行數(shù),表示定位出的文本總行數(shù)。

TrightTall

e)文本行定位召回率TLPR,按式(25)計(jì)算:

∑Tright

TLPR=(25)

Ttruth

其中,表示定位正確的文本行數(shù),表示標(biāo)準(zhǔn)文本行數(shù)。

TrightTtruth

7.1.6語音識別模型功能性指標(biāo)

設(shè)正確文本字?jǐn)?shù)為N,識別結(jié)果文本字?jǐn)?shù)為M,按照識別結(jié)果文本與正確文本根據(jù)“最小代價(jià)匹配”

原則運(yùn)用動態(tài)規(guī)劃算法,得到正確識別字?jǐn)?shù)Mc、刪除錯誤字?jǐn)?shù)D、插入錯誤字?jǐn)?shù)I、替換錯誤字?jǐn)?shù)R、出

錯句子數(shù)S和句子總數(shù)Sn,則有:N=Mc+R+D,M=Mc+R+J。

定義以下性能指標(biāo):

a)字錯誤率CER,按式(26)計(jì)算:

CER=(I++RD)/N×100%(26)

b)句錯誤率SER,按式(27)計(jì)算:

(27)

SER=S/Sn×100%

c)字匹配率MCR,按式(28)計(jì)算:

(28)

MCR=Mc/N×100%

d)字準(zhǔn)確率WCR,按式(29)計(jì)算:

×(29)

WCR=(Mc-1)/N100%=-100%CER

(2)用于評價(jià)聲音檢測識別類語音識別模型實(shí)現(xiàn)的功能是否滿足要求,宜包括下列內(nèi)容:

該類型模型應(yīng)兼顧動作的可靠性問題,指標(biāo)定義如下:

假設(shè)關(guān)鍵詞表的詞匯量為KW(個),檢測語音長度為HR(小時),出現(xiàn)關(guān)鍵詞N(次),C為每小時。每個

關(guān)鍵詞最大容忍的誤報(bào)個數(shù)(一般取10),系統(tǒng)報(bào)出關(guān)鍵詞M(個),其中,正確FD(個),錯誤FA(個),F(xiàn)D+FA=M。

則:

a)誤報(bào)率Far,按式(31)計(jì)算:

Far=FA/(KW×HR××C)100%(30)

b)漏報(bào)率Frr,按式(32)計(jì)算:

Frr=(N?×FD)/N100%(31)

c)檢出率Fdr,按式(33)計(jì)算:

(32)

Fdr=FD/N×100%

等錯率EER:DET曲線上Far=Frr時,F(xiàn)ar或Frr的值。

質(zhì)量因數(shù)FOM:ROC曲線上Far=0%,10%,20%,40%,60%,80%,100%時,F(xiàn)dr的算術(shù)平

均值一般以EER或FOM值度量系統(tǒng)性能指標(biāo)。

(3)用于評價(jià)語音識別類模型響應(yīng)時間,宜包括下列內(nèi)容:

假設(shè)識別語音用時Tr,語音實(shí)際時常Ts,則:

語音識別模型響應(yīng)系數(shù)RF,按式(34)計(jì)算:

RFT(33)

=Trs

9

T/CESXXX—XXXX

7.1.7自然語言處理模型功能性指標(biāo)

(1)針對情感分析、詞義消歧、詞性標(biāo)注等分類任務(wù),可根據(jù)樣本的預(yù)測結(jié)果參照使用式(1)、

(3)、(4)對模型的精確率、召回率和F1值進(jìn)行評價(jià)。

(2)對于機(jī)器翻譯、摘要抽取等生成式任務(wù),還可以使用BLEU等相對指標(biāo)對模型性能進(jìn)行評估,

具體計(jì)算公式如下:

∑∑Countclip(n?gram)

∈?∈

bleu=ccandidatesngramc

n∑∑Count(n?gram')(34)

c'∈candidatesn?∈gram''c

其中,canditiate表示模型生成句子的集合,reference表示給定的標(biāo)準(zhǔn)譯文,n-gram表示長度為n的連

續(xù)單詞切片,對于分子,其第一個求和符號處理模型生成的所有句子,第二個求和符號處理生成句子中

的每個n-gram,()表示n-gram切片在reference中的個數(shù)。故分子的含義為在給定

句子中有多少出現(xiàn)在標(biāo)準(zhǔn)譯文中。分母的含義與分子相同,其統(tǒng)計(jì)了所有生成句子中的總

n-gram????????????????????????????????????n-gram

數(shù)。BLEU可根據(jù)????????????????????n-gram的不同劃分為多種評價(jià)指標(biāo),常見的有?????????????????????BLEU-1、BLEU-2、BLEU-3、BLEU-4四

種,其中BLEU-1衡量的是單詞級別的準(zhǔn)確性,更高階的BLEU可以衡量句子的流暢性。

7.2安全性

用于評價(jià)電力人工智能模型的安全程度,宜包括但不限于下列內(nèi)容:

a)通過黑盒攻擊算法構(gòu)建攻擊樣本數(shù)據(jù)集。

b)通過白盒攻擊算法構(gòu)建攻擊樣本數(shù)據(jù)集。

7.3魯棒性

用于評價(jià)電力人工智能模型是否在樣本變動時仍能維持性能,應(yīng)包括但不限于下列內(nèi)容:

a)圖像類樣本應(yīng)經(jīng)過旋轉(zhuǎn)、裁剪、平移、模糊、加噪、縮放構(gòu)建新的測試數(shù)據(jù)集,計(jì)算模型在新

測試數(shù)據(jù)集上的功能性指標(biāo)。

b)文本類樣本應(yīng)擴(kuò)展、插值、交換、刪除、分隔、詞匯替換構(gòu)建新的測試數(shù)據(jù)集,計(jì)算模型在新

測試數(shù)據(jù)集上的功能性指標(biāo)。

c)語音類樣本應(yīng)經(jīng)過擴(kuò)展、加噪構(gòu)建新的測試數(shù)據(jù)集,計(jì)算模型在新測試數(shù)據(jù)集上的功能性指標(biāo)。

d)目標(biāo)檢測類模型的魯棒性評價(jià)樣本應(yīng)包含光照或角度變化、相似物與遮擋物干擾。

e)光學(xué)字符識別模型宜包含字體變換,手寫與印刷字符變換等,可根據(jù)具體業(yè)務(wù)應(yīng)用。

f)自然語言處理模型魯棒性評價(jià)樣本應(yīng)包含同義詞、近義詞和反義詞干擾,停用詞干擾。

g)語音識別類模型的魯棒性評價(jià)樣本應(yīng)包含語速、語調(diào)、聲調(diào)、口音、表達(dá)方式變化。

7.4效率性

用于評價(jià)電力人工智能模型運(yùn)行效率是否滿足要求,宜包括但不限于下列內(nèi)容:

a)優(yōu)化算法:可以通過優(yōu)化算法來提高模型的算力效率。例如使用并行計(jì)算技術(shù),將計(jì)算任務(wù)分

配給多個處理器同時進(jìn)行計(jì)算。

b)硬件設(shè)備升級:對于計(jì)算資源有限的場景,可以考慮升級硬件設(shè)備。使用更快的CPU、更多的

內(nèi)存或更高效的GPU等。

c)數(shù)據(jù)處理優(yōu)化:考慮使用更高效的數(shù)據(jù)存儲和處理方法來優(yōu)化模型的計(jì)算效率,例如將數(shù)據(jù)存

儲在高速緩存中,采用分布式存儲和處理等。

d)資源合理規(guī)劃:如果遇到計(jì)算任務(wù)較多的場景,可以通過任務(wù)調(diào)度等方法來合理分配計(jì)算資源,

以保證計(jì)算效率最大化。

優(yōu)化算法、硬件設(shè)備升級、數(shù)據(jù)處理優(yōu)化、資源合理規(guī)劃等手段應(yīng)作為提高模型效率性的方法,具

體指標(biāo)需根據(jù)業(yè)務(wù)實(shí)際需求確定。

8.模型評價(jià)流程

10

T/CESXXX—XXXX

人工智能模型評價(jià)流程包括模型完備性評價(jià)、評價(jià)測試集選取、選擇模型評價(jià)指標(biāo)等五個步驟。

8.1模型完備性評價(jià)

圖1模型評價(jià)流程

具備完備性的人工智能模型應(yīng)具備以下條件:

a)模型應(yīng)有對應(yīng)的模型描述文件,具體應(yīng)包含模型名稱、模型用途、運(yùn)行模式、模型類型、模

型運(yùn)行環(huán)境、開發(fā)語言、開發(fā)框架、模型版本、模型提供單位、模型訓(xùn)練數(shù)據(jù)集規(guī)模等基本

描述信息;

b)模型宜提供模型源文件和模型相關(guān)附屬源文件等。

8.2評價(jià)測試數(shù)據(jù)集選取

a)測試數(shù)據(jù)集應(yīng)與訓(xùn)練數(shù)據(jù)集具有互斥性,即測試數(shù)據(jù)集與訓(xùn)練數(shù)據(jù)集不重合;

b)測試數(shù)據(jù)類型為圖像文件時,圖片宜為RGB三通道彩色圖像,圖片分辨率宜不低于500*500

像素,圖片格式宜為jpg、png、jpeg、bmp、tif等;

c)分類模型與聚類模型測試數(shù)據(jù)集中所有類別樣本數(shù)量比例建議相同,可根據(jù)具體業(yè)務(wù)需求進(jìn)

行調(diào)整;

d)目標(biāo)檢測模型測試數(shù)據(jù)集中包含目標(biāo)樣本與不包含目標(biāo)樣本比例建議為7:3,且每一個目標(biāo)

類別的樣本數(shù)量宜不少于500張;

e)測試數(shù)據(jù)集樣本標(biāo)注信息應(yīng)完備并準(zhǔn)確無誤,且應(yīng)避免被人為添加的惡意數(shù)據(jù)污染。

f)語音測試樣本格式宜為cpm、speex、speex-wb、mp3等,音頻采樣率宜不低于8kHz,音頻

長度宜不少于3秒且不超過180秒,語言種類包括中文、英文、地方方言等;

11

T/CESXXX—XXXX

g)自然語言處理模型的測試數(shù)據(jù),宜為UTF-8純文本格式文件,單次文本長度宜不超過5000

字符(一個漢字、英文字母、標(biāo)點(diǎn)符號,均記為一個字符),文件內(nèi)宜根據(jù)具體需求涵蓋單

句、段落、文章、詩詞等多種文學(xué)結(jié)構(gòu)的文本。

8.3選擇模型評價(jià)指標(biāo)

應(yīng)結(jié)合具體業(yè)務(wù)應(yīng)用場景和模型類型選擇模型評價(jià)指標(biāo)。具體選取規(guī)則如下:

a)模型評價(jià)宜包含功能性、安全性、魯棒性和效率性等內(nèi)容;

b)功能性評價(jià)至少應(yīng)包含目標(biāo)監(jiān)測模型性能指標(biāo)、光學(xué)字符識別模型性能指標(biāo)、語音識別功能

性指標(biāo)、自然語言處理模型功能性指標(biāo);

c)安全性評價(jià):基于模型安全測試樣本,計(jì)算功能性指標(biāo),觀察指標(biāo)變化評價(jià)模型安全性,

d)魯棒性評價(jià):基于模型魯棒性測試樣本,計(jì)算功能性指標(biāo),觀察指標(biāo)變化評價(jià)模型魯棒性。

8.4評估指標(biāo)確定

a)確定層次結(jié)構(gòu):將復(fù)雜的決策問題分解成若干層次,并明確每個因素的關(guān)系和作用

b)確定比較矩陣:將同一層次的因素兩兩進(jìn)行比較,構(gòu)建成一個比較矩陣。比較矩陣中的元素

代表比較兩個因素重要性的權(quán)重比例,通常用1-9的數(shù)字表示,其中1表示兩個因素同等重

要,9表示一個因素比另一個因素重要程度是極大的差異。如果兩個因素之間的重要性不能

確定,則取介于1和9之間的插值數(shù)。

c)計(jì)算權(quán)重向量:通過計(jì)算比較矩陣的特征向量,得到每個因素的權(quán)重向量。特征向量是指矩

陣中的一個向量,使該向量與矩陣相乘后,得到的向量與原向量具有相同的方向。特征向量

的長度是任意的,但是可以通過對其進(jìn)行歸一化來得到權(quán)重向量。

d)一致性檢驗(yàn):為了驗(yàn)證比較矩陣的一致性,需要計(jì)算一致性指標(biāo)和一致性比率。如果一致性

比率小于0.1,即認(rèn)為比較矩陣是一致的。

e)建立判斷矩陣:判斷矩陣是指對于層次結(jié)構(gòu)中的每一層,將各個因素兩兩比較得到的矩陣。

對于每個比較.判斷矩陣是AHP方法得以實(shí)現(xiàn)的基礎(chǔ)。

8.5權(quán)重分配方法

a)計(jì)算權(quán)重向量:通過計(jì)算判斷矩陣的特征向量和特征值,可以得到每個因素的權(quán)重向量。權(quán)

重值越高,該因素在決策中的作用越大。例如本標(biāo)準(zhǔn)可引用的指標(biāo)有:發(fā)電成本、負(fù)載穩(wěn)定

性、系統(tǒng)安全、能源供應(yīng)穩(wěn)定性、能源供需平衡。

b)一致性檢驗(yàn):AHP方法中的一致性檢驗(yàn)是為了驗(yàn)證判斷矩陣不出現(xiàn)矛盾信息的程度。利用計(jì)

算出的特征向量、特征值,計(jì)算一致性指標(biāo)和一致性比例。若一致性比例接近于1,即代表

該判斷矩陣在權(quán)重分配過程中是一致的。

c)敏感性分析:由于AHP方法中涉及到多個指標(biāo)的權(quán)值分配和影響力較大的因素之間的比較,

通常會運(yùn)用敏感性分析來分析權(quán)重選擇下的決策效果。

d)選擇最優(yōu)決策選取最優(yōu)決策方案:計(jì)算出每個因素的權(quán)重后,將各因素的結(jié)果進(jìn)行加權(quán)求

和,可以得到不同方案之間的比較結(jié)果,從而選出最優(yōu)決策方案。

9.模型功能性等級判定

9.1一般規(guī)則

a)本導(dǎo)則適用于模型部署應(yīng)用前的入網(wǎng)評價(jià)和部署應(yīng)用后的應(yīng)用效果評價(jià);

12

T/CESXXX—XXXX

b)本導(dǎo)則對模型的功能性進(jìn)行等級判定,實(shí)際應(yīng)用中應(yīng)考慮模型安全性、魯棒性、效率性等其他

因素。

c)本導(dǎo)則的模型等級是對業(yè)務(wù)應(yīng)用功能相近的模型進(jìn)行歸類,不對模型的可用性進(jìn)行定義,被測

模型最終評價(jià)結(jié)果宜參考具體業(yè)務(wù)場景的相關(guān)規(guī)范。

9.2分類模型等級判定

功能性評價(jià)評價(jià)等級參考以下規(guī)則:

表1分類模型評價(jià)值計(jì)算

指標(biāo)判定模型等級

準(zhǔn)確率≥95%,精確率≥95%,召回率≥95%,F(xiàn)1值≥0.95,對數(shù)損失≤0.7,

C1

AUC≤0.7

準(zhǔn)確率≥85%,精確率≥85%,召回率≥85%,F(xiàn)1值≥0.85,對數(shù)損失

C2

≤0.75,AUC≤0.75

準(zhǔn)確率≥80%、精確率≥80%,召回率≥80%,F(xiàn)1值≥0.8,對數(shù)損失

C3

≤0.8,AUC≤0.8

準(zhǔn)確率≥75%、精確率≥75%,召回率≥75%,F(xiàn)1值≥0.75,對數(shù)損失

C4

≤0.85,AUC≤0.85

準(zhǔn)確率≥70%、精確率≥70%,召回率≥70%,F(xiàn)1值≥0.7,對數(shù)損失

C5

≤0.95,AUC≤0.95

9.3回歸模型等級判定

功能性評價(jià)等級參考以下規(guī)則:

表2回歸模型評價(jià)值計(jì)算

指標(biāo)判定模型等級

決定系數(shù)≥0.90C1

決定系數(shù)≥0.85C2

決定系數(shù)≤0.80C3

決定系數(shù)≤0.75C4

決定系數(shù)≤0.7C5

9.4聚類模型等級判定

功能性評價(jià)等級參考以下規(guī)則:

表3聚類模型評價(jià)值計(jì)算

指標(biāo)判定模型等級

調(diào)整蘭德系數(shù)≥0.95,調(diào)整互信息≥0.95,輪廓系數(shù)≥0.95C1

調(diào)整蘭德系數(shù)≥0.85,調(diào)整互信息≥0.85,輪廓系數(shù)≥0.85C2

整蘭德系數(shù)≥0.8,調(diào)整互信息≥0.8,輪廓系數(shù)≥0.8C3

調(diào)整蘭德系數(shù)≥0.75,調(diào)整互信息≥0.75,輪廓系數(shù)≥0.75C4

調(diào)整蘭德系數(shù)≥0.7,調(diào)整互信息≥0.7,輪廓系數(shù)≥0.7C5

9.5光學(xué)字符識別模型等級判定

功能性評價(jià)等級參考以下規(guī)則:

表4光學(xué)字符識別模型評價(jià)值計(jì)算

指標(biāo)判定模型等級

13

T/CESXXX—XXXX

平均編輯距離,字符識別準(zhǔn)確率≥95%,字符識別召回率≥95%,文本定位

C1

準(zhǔn)確率≥95%,文本定位召回率≥95%

平均編輯距離,字符識別準(zhǔn)確率≥85%,字符識別召回率≥85%,文本定

C2

位準(zhǔn)確率≥85%,文本定位召回率≥85%

平均編輯距離,字符識別準(zhǔn)確率≤80%,字符識別召回率≥80%,文本定

C3

位準(zhǔn)確率≤80%,文本定位召回率≤80%

平均編輯距離,字符識別準(zhǔn)確率≥75%,字符識別召回率≥75%,文本定

C4

位準(zhǔn)確率≥75%,文本定位召回率≥75%

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論