版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
ICS國際標(biāo)準(zhǔn)分類號
CCS中國標(biāo)準(zhǔn)文獻(xiàn)分類號
團(tuán)體標(biāo)準(zhǔn)
T/CESXXX-XXXX
電力人工智能模型場景化驗(yàn)證及評價(jià)體
系構(gòu)建規(guī)范
Ascenariomodelverificationandapplicationevaluationstandard
XXXX-XX-XX發(fā)布XXXX-XX-XX實(shí)施
中國電工技術(shù)學(xué)會發(fā)布
T/CESXXX—XXXX
電力人工智能模型場景化驗(yàn)證及評價(jià)標(biāo)準(zhǔn)
1范圍
本文件規(guī)定了電力人工智能場景化模型驗(yàn)證及評價(jià)體系構(gòu)建及評估目標(biāo)的確定、選擇評估指標(biāo)選
取、設(shè)定權(quán)重、收集數(shù)據(jù)以及分析數(shù)據(jù)。適用于電力負(fù)荷預(yù)測、電力市場價(jià)格預(yù)測、電力設(shè)備故障診斷、
電力系統(tǒng)優(yōu)化等預(yù)測診斷模型在性能、可靠性、準(zhǔn)確性等方面表現(xiàn)的好壞,幫助評估模型的優(yōu)劣并提高
模型的性能和應(yīng)用效果。
2規(guī)范性引用文件
下列文件對于本文件的應(yīng)用是必不可少的。凡是注日期的引用文件,僅注日期的版本適用于本文件。
凡是不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。
ISO9001質(zhì)量管理體系標(biāo)準(zhǔn)質(zhì)量管理框架
ISO14001環(huán)境管理體系標(biāo)準(zhǔn)環(huán)境管理體系
ISO50001能源管理體系標(biāo)準(zhǔn)
3術(shù)語和定義
下列術(shù)語和定義適用于本文件。
AHP(AnalyticHierarchyProcess)分析層次過程:
一種用于解決決策問題的系統(tǒng)性方法,通過對問題進(jìn)行結(jié)構(gòu)化分解,將復(fù)雜問題劃分為易于處理
的層次結(jié)構(gòu),然后對每個層次結(jié)構(gòu)進(jìn)行成對比較和計(jì)算來確定最佳決策方案。
3.1場景化模型Scenario-basedmodel:
將實(shí)際場景中的特定問題建模為可計(jì)算和可分析的數(shù)學(xué)模型,以支持決策制定和問題解決。
3.2驗(yàn)證verification:
利用統(tǒng)計(jì)方法和實(shí)驗(yàn)數(shù)據(jù),對模型的有效性和可靠性進(jìn)行確認(rèn)和核實(shí)。
3.3評價(jià)體系evaluationsystem:
對特定目標(biāo)、問題或場景進(jìn)行全面評價(jià)的框架和方法。
3.4權(quán)重分配weightallocation:
根據(jù)比較結(jié)果為每個因素分配相應(yīng)的權(quán)重值,以反映其對最終決策方案的重要性。
3.5層次結(jié)構(gòu)hierarchicalstructure:
將復(fù)雜問題分解為多個層次,從全局到局部逐步分析和解決問題的方法。
3.6比較矩陣Comparisonmatrix:
用于記錄因素之間的兩兩比較結(jié)果,以計(jì)算其相對權(quán)重的矩陣。
3.7最大特征值eigenvalueofmaximum:
比較矩陣的最大特征值用于確定權(quán)重向量,并衡量相對重要性。
3.8一致性比率(CR):
1
T/CESXXX—XXXX
對比較矩陣中的一致性進(jìn)行度量和評估的方法,其值應(yīng)小于0.1以保證一致性。
4符號、代號和縮略語
下列符號、代號和縮略語適用于本文件。
本文未定義符號、代號和縮略語。
5業(yè)務(wù)場景使用規(guī)范
AHP(層次分析法)是一種常見的多標(biāo)準(zhǔn)決策分析方法,它可以用于對復(fù)雜問題進(jìn)行結(jié)構(gòu)化、分
層和優(yōu)先級排序;它能夠?qū)?fù)雜的決策問題分解為一系列層級結(jié)構(gòu),在不同層次上分析決策因素的重
要程度,并最終得出決策結(jié)果。如在碳計(jì)量中常見的技術(shù)中有以下幾個場景使用到了AHP技術(shù):
(1)碳排放因子選擇:在碳計(jì)量中,計(jì)算碳排放量需要用到碳排放因子,而不同的排放因子對應(yīng)
不同種類的活動,因此需要對不同的碳排放因子進(jìn)行優(yōu)先級排序,以便選擇最適合特定活動的排放因
子。通過運(yùn)用AHP方法,可以根據(jù)多個因素如可靠性、數(shù)據(jù)可得性、地區(qū)和行業(yè)特點(diǎn)等來評估不同的
排放因子。
(2)能源消耗分析:對企業(yè)的能源消耗進(jìn)行分析,通過對能源消耗的分類和評估指標(biāo)的定義,將
不同形式的能源消耗轉(zhuǎn)化為統(tǒng)一的碳排放量表達(dá)方式,提高碳排放量的準(zhǔn)確度。在此過程中,AHP可
以被用于對各種能源消耗類型進(jìn)行排序和評估。
(3)碳減排方案比較:對企業(yè)實(shí)施減碳方案的選擇決策。AHP可以用于在參考多個因素(如經(jīng)濟(jì)
、技術(shù)可行性等)的情況下確定最佳方案。通過使用AHP方法,可以將各個因素權(quán)重進(jìn)行比較和歸一
化,確定最佳的減排方案和最佳的投資組合。
(4)供應(yīng)鏈碳足跡計(jì)算:一個清晰的供應(yīng)鏈碳足跡計(jì)算功能,需要對整條供應(yīng)鏈中的各個最小碳
排放環(huán)節(jié)進(jìn)行監(jiān)測和計(jì)算。AHP可以用于選擇最適合的監(jiān)測技術(shù)和方法,來提高精度和便利度。
在總體上,AHP可以用于許多應(yīng)用場景,如對碳排放數(shù)據(jù)的分析、碳減量方案的制定、企業(yè)能源管理
、供應(yīng)鏈管理等
6電力人工智能模型場景化驗(yàn)證及評價(jià)標(biāo)準(zhǔn)
6.1人工智能artificialintelligence
利用數(shù)字計(jì)算機(jī)或者由數(shù)字計(jì)算機(jī)控制的機(jī)器,模擬、延伸和擴(kuò)展人類的智能,感知環(huán)境、獲取知
識并使用知識獲得最佳結(jié)果的理論、方法、技術(shù)和應(yīng)用系統(tǒng)。
6.2人工智能模型artificialintelligencemodel
通過學(xué)習(xí)海量樣本數(shù)據(jù)中的內(nèi)在規(guī)律和表現(xiàn)層次,實(shí)現(xiàn)包括分類、回歸、聚類、目標(biāo)檢測、光學(xué)字
符識別、自然語言處理、語音識別等任務(wù)。
6.3分類模型classificationmodel
判斷一個新的觀察樣本所屬的類別的模型。
6.4回歸模型regressionmodel
預(yù)測一個新的觀察樣本的連續(xù)型目標(biāo)值的模型。
6.5聚類模型clusteringmodel
劃分無標(biāo)記的數(shù)據(jù)集為多個類別的模型。
6.6目標(biāo)檢測模型objectdetectionmodel
確定圖像上目標(biāo)類別和位置屬性信息的模型。
2
T/CESXXX—XXXX
6.7光學(xué)字符識別模型opticalcharacterrecognitionmodel
將圖片、照片上的文字內(nèi)容轉(zhuǎn)換為直接可編輯文字的模型。
6.8自然語言處理模型naturallanguageprocessingmodel
人與計(jì)算機(jī)之間用自然語言進(jìn)行有效通信的模型,用于人類與機(jī)器的交互。
6.9語音識別speechrecognition
將人類的聲音信號轉(zhuǎn)化為文字或者指令的過程。
6.10語音識別模型speechrecognitionmodel
將語音數(shù)據(jù)轉(zhuǎn)換為機(jī)器可讀數(shù)據(jù)(文本內(nèi)容、二進(jìn)制編碼、字符序列等)的模型。
6.11聲音檢測類sounddetectionandrecognition
主要以檢測連續(xù)或者孤立語流中的特定命令或關(guān)鍵詞為主要目的的任務(wù)。
6.12文字輸入類textinput
以文字錄入為主要目的,要求把語音轉(zhuǎn)化為文字的任務(wù)。
6.13訓(xùn)練數(shù)據(jù)集trainingset
模型構(gòu)建過程中使用的數(shù)據(jù)集合。
6.14測試數(shù)據(jù)集testingset
評估模型構(gòu)建質(zhì)量的數(shù)據(jù)集合。
6.15交并比intersectionoverunion
計(jì)算兩個矩形框交集與并集的比值,用于評價(jià)兩個矩形框的相似度。
6.16真正例truepositives
模型正確判定的正類樣本。
6.17假正例falsepositives
被模型判定為正類的負(fù)類樣本。
6.18真負(fù)例truenegative
模型正確判定的負(fù)類樣本。
6.19假負(fù)例falsenegative
被模型判定為負(fù)類的正類樣本。
6.20真正例率truepositiverate
模型正確判定的正類樣本占所有正類樣本的比例。
6.21假正例率falsepositiverate
被模型判定為正類的負(fù)類樣本占所有負(fù)類樣本的比例。
6.22正確率accuracy
模型判斷正確的樣本占所有樣本的比例。
3
T/CESXXX—XXXX
6.23精確率precision
模型正確判定的正類樣本占所有模型判定的正類樣本的比例。
6.24召回率recall
模型正確判定的正類樣本占所有正類樣本的比例。
6.25F1值F1-score
精確率和召回率的調(diào)和平均。
6.26對數(shù)損失logloss
模型決策所包含的信息量。
6.27P-R曲線precisionrecallcurve
以精確率為縱軸、召回率為橫軸作圖得到的曲線。
6.28平均精確率meanprecision
模型判定所有類別的精確率的均值。
6.29平均召回率meanrecall
模型判定的所有類別的召回率的均值。
6.30平均精度averageprecision
在P-R曲線下,召回率從0到1各個點(diǎn)的精確率的均值,即P-R曲線下的面積。
6.31平均精度均值meanaverageprecision
模型判定的所有類別的平均精度的均值。
6.32平均絕對誤差meanabsoluteerror
模型預(yù)測結(jié)果與目標(biāo)值的差的絕對值的平均值。
6.33均方誤差meansquareerror
模型預(yù)測結(jié)果與目標(biāo)值的差的平方的平均值。
6.34均方根誤差rootmeansquareerror
模型預(yù)測結(jié)果與目標(biāo)值的差的平方的平均值的根。
6.35決定系數(shù)r-squared
描述回歸方程與真實(shí)樣本輸出之間的相似程度。
6.36校正決定系數(shù)adjustedr-squared
描述回歸方程與真實(shí)樣本輸出之間的相似程度,基于決定系數(shù)的調(diào)整。
6.37蘭德系數(shù)randindex
模型劃分正確的樣本對數(shù)占所有樣本對數(shù)的比例。
6.38調(diào)整蘭德系數(shù)adjustedrandindex
蘭德系數(shù)的去均值歸一化。
4
T/CESXXX—XXXX
6.39互信息mutualinformation
描述兩個變量之間重疊的信息量。
6.40調(diào)整互信息adjustedmutualinformation
一種基于互信息的聚類效果評價(jià)方法。
6.41輪廓系數(shù)silhouettecoefficient
結(jié)合簇內(nèi)凝聚度和分離度的一種聚類效果評價(jià)方式。
6.42平均編輯距離averageeditdistance
模型識別的字符串變換到標(biāo)準(zhǔn)字符串進(jìn)行的插入、刪除、替換操作次數(shù)的均值。
6.43字符識別準(zhǔn)確率characterrecognitionaccuracy
模型正確識別字符數(shù)占所有識別字符數(shù)的比例。
6.44字符識別召回率characterrecognitionrecall
模型正確識別字符數(shù)占所有標(biāo)準(zhǔn)字符數(shù)的比例。
6.45文本行定位準(zhǔn)確率textlinepositioningaccuracy
模型正確定位的文本行數(shù)占所有文本行數(shù)的比例。
6.46文本行定位召回率textlinepositioningrecall
模型正確定位的文本行數(shù)占所有標(biāo)準(zhǔn)文本行數(shù)的比例。
6.47詞錯誤率worderrorrate
模型輸出詞序列與標(biāo)準(zhǔn)詞序列的標(biāo)準(zhǔn)編輯距離占標(biāo)準(zhǔn)詞序列中所有詞語的比例。
6.48字錯誤率charactererrorrate
模型輸出字序列與標(biāo)準(zhǔn)字序列的標(biāo)準(zhǔn)編輯距離占標(biāo)準(zhǔn)字序列中所有字的比例。
6.49句錯誤率sentenceerrorrate
模型輸出錯誤句子的個數(shù)占所有句子的比例。
6.50雙語評估替換bilingualevaluationunderstudy
用于評估自然語言處理領(lǐng)域生成類文本的質(zhì)量,簡稱BLEU。
6.51魯棒性robustness
描述擾動、異常和危險(xiǎn)情況下模型的工作能力。
6.52時間效率timeefficiency
模型對給定的數(shù)據(jù)進(jìn)行運(yùn)算并獲得結(jié)果所需要的時間。
6.53空間效率spaceefficiency
模型運(yùn)行過程中顯存最大占用率。
6.54完備性completeness
模型具有算法框架、開發(fā)語言、模型版本、運(yùn)行環(huán)境等完整信息以及模型文件及附屬源信息齊全等。
5
T/CESXXX—XXXX
6.55受試者特征曲線receiveroperatingcharacteristiccurve
以真正例率為縱軸、假正例率為橫軸作圖得到的曲線。
6.56受試者特征曲線下面積areaunderreceiveroperatingcharacteristiccurve
在ROC曲線下,假正例率從0到1各個點(diǎn)的真正例率的均值,即ROC曲線下的面積。
6.57KS曲線kolmogorov-smirnov
用于評估模型風(fēng)險(xiǎn)區(qū)分能力,指標(biāo)衡量的是好壞樣本累計(jì)分部之間的差值。
6.58黑盒攻擊blackboxattack
攻擊者未知攻擊模型的內(nèi)部結(jié)構(gòu),訓(xùn)練參數(shù),防御方法,通過一定規(guī)則構(gòu)造攻擊樣本以完成攻擊。
6.59白盒攻擊whiteboxattack
攻擊者已知攻擊模型的內(nèi)部結(jié)構(gòu),訓(xùn)練參數(shù),防御方法,構(gòu)造特定的攻擊樣本以完成攻擊。
6.60快速梯度符號法fastgradientsignmethod
基于模型梯度獲得攻擊樣本的一種白盒攻擊方法。
6.61投影梯度下降法projectgradientdescentmethod
基于模型梯度多次迭代獲得攻擊樣本的一種白盒攻擊方法。
7.評價(jià)指標(biāo)與計(jì)算
7.1功能性
被評價(jià)模型如涉及光學(xué)字符識別、自然語言處理、目標(biāo)檢測、語音識別相關(guān)功能,宜優(yōu)先選用本導(dǎo)
則中光學(xué)字符識別、自然語言處理、目標(biāo)檢測、語音識別模型功能性指標(biāo)進(jìn)行評價(jià)。
7.1.1分類模型功能性指標(biāo)
用于評價(jià)電力人工智能分類模型實(shí)現(xiàn)的功能是否滿足要求,宜包括下列內(nèi)容:
a)正確率Accuracy,按式(1)計(jì)算:
Accuracy=(TN+TP)(/TN++TPFP+FN)(1)
b)精確率Precision,按式(2)計(jì)算:
Precision=TP/(TP+FP)(2)
c)召回率Recall,按式(3)計(jì)算:
Recall=TP/(TP+FN)(3)
d)F1值,按式(4)計(jì)算:
F12=××(PrecisionRecall)/(Precision+Recall)(4)
e)對數(shù)損失(Logloss),按式(5)計(jì)算:
6
T/CESXXX—XXXX
1NM
(5)
Logloss=?∑∑yijlog(pij)
Nij=11=
其中,TP表示預(yù)測正確的正樣本,TN預(yù)測是正確的負(fù)樣本,F(xiàn)P表示預(yù)測是錯誤的正樣本,F(xiàn)N表示
預(yù)測是錯誤的負(fù)樣本,為實(shí)例總數(shù),為類別總數(shù),是一個二值指標(biāo),表示第個輸入實(shí)例是否是
NMyijij
類別(表示是,反之為否),為分類模型預(yù)測出的第個實(shí)例屬于類的概率。
yij=1pijij
f)AUC,按式(6)和(7)計(jì)算:
∑IP(,)正樣本P負(fù)樣本
AUC=MN*(6)
1,PP>
正樣本負(fù)樣本
IP(,P)=0.5,P正樣本=P負(fù)樣本
正樣本負(fù)樣本(7)
0,PP正樣本<負(fù)樣本
其中,P正樣本表示分類模型預(yù)測的正樣本的概率,P負(fù)樣本表示分類模型預(yù)測的負(fù)樣本的概率,M表
示測試集中正樣本數(shù)量,N表示測試集中負(fù)樣本數(shù)量。
7.1.2回歸模型功能性指標(biāo)
用于評價(jià)電力人工智能回歸模型實(shí)現(xiàn)的功能是否滿足要求,宜包括下列內(nèi)容:
a)平均絕對誤差MAE,按式(8)計(jì)算:
MAE=∑?|(y?y)|/n(8)
b)均方誤差MSE,按式(9)計(jì)算:
MSE=∑?(y?y)2/n(9)
c)均方根誤差RMSE,按式(10)計(jì)算:
RMSE=∑?(y?y)2/n(10)
2
d)決定系數(shù)R,按式(11)計(jì)算:
2
??
2∑()yy
R=1?2(11)
∑()yy?
其中,y表示真實(shí)值,y?預(yù)測值,y表示全部預(yù)測值的平均值。
e)校正決定系數(shù)R2_adjusted,按式(12)計(jì)算:
2
2(1??Rn)(1)
R_adjusted=1?np??1(12)
其中,式(8)-(12)中,y表示真實(shí)值,y?預(yù)測值,y表示全部預(yù)測值的平均值,n表示測試集
樣本數(shù)量,p表示特征數(shù)量。
7.1.3聚類模型性能指標(biāo)
用于評價(jià)電力人工智能聚類模型實(shí)現(xiàn)的功能是否滿足要求,宜包括下列內(nèi)容:
a)調(diào)整蘭德系數(shù)ARI,按式(13)計(jì)算:
ARI=(RI??E(RI))/(max(RI)E(RI))(13)
b)調(diào)整互信息AMI,按式(14)、(15)計(jì)算:
=MI?E()MI(14)
AMImax(HU(),HV())?EMI()
||UV||
=Pij(,)(15)
MI∑∑P(i,j)log(Pi(),P′(j))
ij=11=
7
T/CESXXX—XXXX
其中,U、V是N個樣本標(biāo)簽的兩種不同分配情況,注:表示U中類別為的樣本的概率,
Pi()Ui
即=||Ui,表示V中類別為的樣本的概率,即=||Vj,表示在U中類別為,在
Pi()NPj()VjPj()NPi(,j)Ui
V中類別為的樣本的概率,即。指的是數(shù)據(jù)集U的信息熵,
VjPi(,j)=|Uij∩V|/NHU()
||U
HU()=?∑Pi()log(Pi()),HV()指的是數(shù)據(jù)集V的信息熵。
i=1
c)輪廓系數(shù)SC,按式(16)計(jì)算:
b(j)?ai()
SC=max{ai(),b(j)}(16)
其中,a(i)=average(i),i表示向量到所有它屬于的簇中其它點(diǎn)的距離,計(jì)算b(j)=min(j),j
表示向量到某一不包含它的簇內(nèi)的所有點(diǎn)的平均距離
7.1.4目標(biāo)檢測模型性能指標(biāo)
用于評價(jià)目標(biāo)檢測模型的實(shí)現(xiàn)的功能是否滿足要求,宜包括下列內(nèi)容:
a)IoU大于或等于預(yù)設(shè)值,判斷為真正例;IoU小于預(yù)設(shè)值,判斷為真反例。IoU預(yù)設(shè)值推薦為
0.5。
b)平均精確率MP,按式(17)計(jì)算:
∑Precision
MP=N(17)
其中,N表示目標(biāo)類別數(shù),Precision表示每類目標(biāo)的精確率。
c)平均召回率MR,按式(18)計(jì)算:
∑Recall
MR=N(18)
d)平均精度AP,按式(19)計(jì)算:
1
AP=p()rdr(19)
∫0
其中,pr()表示模型的P-R曲線函數(shù)。
e)平均精度均值MAP,按式(20)計(jì)算:
∑AP
MAP=N(20)
其中,N表示目標(biāo)類別數(shù)。
7.1.5光學(xué)字符識別模型性能指標(biāo)
用于評價(jià)光學(xué)字符識別模型實(shí)現(xiàn)的功能是否滿足要求,宜包括下列內(nèi)容:
a)平均編輯距離AED可按式(21)計(jì)算:
∑insert(result,labeL)++delete(result,label)replace(result,label)
AED=N(21)
其中,N表示測試數(shù)據(jù)集中的文本行數(shù),result表示模型識別出的一行文本,label表示標(biāo)準(zhǔn)文本,
insert(result,)label表示將result編輯為label需要執(zhí)行的插入操作次數(shù),delete(result,)label表示
將result編輯為label需要執(zhí)行的刪除操作次數(shù),replace(result,)label表示將result編輯為label需
要執(zhí)行的替換操作次數(shù)。
b)字符識別準(zhǔn)確率CRA,按式(22)計(jì)算:
∑Cright
CRA=(22)
Call
其中,表示識別正確的字符數(shù),表示總識別出的字符數(shù)。
CrightCall
8
T/CESXXX—XXXX
c)字符識別召回率CRR,按式(23)計(jì)算:
∑Cright
CRR=Ctruth(23)
其中,表示識別正確的字符數(shù),表示標(biāo)準(zhǔn)字符數(shù)。
CrightCtruth
d)文本行定位準(zhǔn)確率TLPA,按式(24)計(jì)算:
∑Tright
TLPA=(24)
Tall
其中,表示定位正確的文本行數(shù),表示定位出的文本總行數(shù)。
TrightTall
e)文本行定位召回率TLPR,按式(25)計(jì)算:
∑Tright
TLPR=(25)
Ttruth
其中,表示定位正確的文本行數(shù),表示標(biāo)準(zhǔn)文本行數(shù)。
TrightTtruth
7.1.6語音識別模型功能性指標(biāo)
設(shè)正確文本字?jǐn)?shù)為N,識別結(jié)果文本字?jǐn)?shù)為M,按照識別結(jié)果文本與正確文本根據(jù)“最小代價(jià)匹配”
原則運(yùn)用動態(tài)規(guī)劃算法,得到正確識別字?jǐn)?shù)Mc、刪除錯誤字?jǐn)?shù)D、插入錯誤字?jǐn)?shù)I、替換錯誤字?jǐn)?shù)R、出
錯句子數(shù)S和句子總數(shù)Sn,則有:N=Mc+R+D,M=Mc+R+J。
定義以下性能指標(biāo):
a)字錯誤率CER,按式(26)計(jì)算:
CER=(I++RD)/N×100%(26)
b)句錯誤率SER,按式(27)計(jì)算:
(27)
SER=S/Sn×100%
c)字匹配率MCR,按式(28)計(jì)算:
(28)
MCR=Mc/N×100%
d)字準(zhǔn)確率WCR,按式(29)計(jì)算:
×(29)
WCR=(Mc-1)/N100%=-100%CER
(2)用于評價(jià)聲音檢測識別類語音識別模型實(shí)現(xiàn)的功能是否滿足要求,宜包括下列內(nèi)容:
該類型模型應(yīng)兼顧動作的可靠性問題,指標(biāo)定義如下:
假設(shè)關(guān)鍵詞表的詞匯量為KW(個),檢測語音長度為HR(小時),出現(xiàn)關(guān)鍵詞N(次),C為每小時。每個
關(guān)鍵詞最大容忍的誤報(bào)個數(shù)(一般取10),系統(tǒng)報(bào)出關(guān)鍵詞M(個),其中,正確FD(個),錯誤FA(個),F(xiàn)D+FA=M。
則:
a)誤報(bào)率Far,按式(31)計(jì)算:
Far=FA/(KW×HR××C)100%(30)
b)漏報(bào)率Frr,按式(32)計(jì)算:
Frr=(N?×FD)/N100%(31)
c)檢出率Fdr,按式(33)計(jì)算:
(32)
Fdr=FD/N×100%
等錯率EER:DET曲線上Far=Frr時,F(xiàn)ar或Frr的值。
質(zhì)量因數(shù)FOM:ROC曲線上Far=0%,10%,20%,40%,60%,80%,100%時,F(xiàn)dr的算術(shù)平
均值一般以EER或FOM值度量系統(tǒng)性能指標(biāo)。
(3)用于評價(jià)語音識別類模型響應(yīng)時間,宜包括下列內(nèi)容:
假設(shè)識別語音用時Tr,語音實(shí)際時常Ts,則:
語音識別模型響應(yīng)系數(shù)RF,按式(34)計(jì)算:
RFT(33)
=Trs
9
T/CESXXX—XXXX
7.1.7自然語言處理模型功能性指標(biāo)
(1)針對情感分析、詞義消歧、詞性標(biāo)注等分類任務(wù),可根據(jù)樣本的預(yù)測結(jié)果參照使用式(1)、
(3)、(4)對模型的精確率、召回率和F1值進(jìn)行評價(jià)。
(2)對于機(jī)器翻譯、摘要抽取等生成式任務(wù),還可以使用BLEU等相對指標(biāo)對模型性能進(jìn)行評估,
具體計(jì)算公式如下:
∑∑Countclip(n?gram)
∈?∈
bleu=ccandidatesngramc
n∑∑Count(n?gram')(34)
c'∈candidatesn?∈gram''c
其中,canditiate表示模型生成句子的集合,reference表示給定的標(biāo)準(zhǔn)譯文,n-gram表示長度為n的連
續(xù)單詞切片,對于分子,其第一個求和符號處理模型生成的所有句子,第二個求和符號處理生成句子中
的每個n-gram,()表示n-gram切片在reference中的個數(shù)。故分子的含義為在給定
句子中有多少出現(xiàn)在標(biāo)準(zhǔn)譯文中。分母的含義與分子相同,其統(tǒng)計(jì)了所有生成句子中的總
n-gram????????????????????????????????????n-gram
數(shù)。BLEU可根據(jù)????????????????????n-gram的不同劃分為多種評價(jià)指標(biāo),常見的有?????????????????????BLEU-1、BLEU-2、BLEU-3、BLEU-4四
種,其中BLEU-1衡量的是單詞級別的準(zhǔn)確性,更高階的BLEU可以衡量句子的流暢性。
7.2安全性
用于評價(jià)電力人工智能模型的安全程度,宜包括但不限于下列內(nèi)容:
a)通過黑盒攻擊算法構(gòu)建攻擊樣本數(shù)據(jù)集。
b)通過白盒攻擊算法構(gòu)建攻擊樣本數(shù)據(jù)集。
7.3魯棒性
用于評價(jià)電力人工智能模型是否在樣本變動時仍能維持性能,應(yīng)包括但不限于下列內(nèi)容:
a)圖像類樣本應(yīng)經(jīng)過旋轉(zhuǎn)、裁剪、平移、模糊、加噪、縮放構(gòu)建新的測試數(shù)據(jù)集,計(jì)算模型在新
測試數(shù)據(jù)集上的功能性指標(biāo)。
b)文本類樣本應(yīng)擴(kuò)展、插值、交換、刪除、分隔、詞匯替換構(gòu)建新的測試數(shù)據(jù)集,計(jì)算模型在新
測試數(shù)據(jù)集上的功能性指標(biāo)。
c)語音類樣本應(yīng)經(jīng)過擴(kuò)展、加噪構(gòu)建新的測試數(shù)據(jù)集,計(jì)算模型在新測試數(shù)據(jù)集上的功能性指標(biāo)。
d)目標(biāo)檢測類模型的魯棒性評價(jià)樣本應(yīng)包含光照或角度變化、相似物與遮擋物干擾。
e)光學(xué)字符識別模型宜包含字體變換,手寫與印刷字符變換等,可根據(jù)具體業(yè)務(wù)應(yīng)用。
f)自然語言處理模型魯棒性評價(jià)樣本應(yīng)包含同義詞、近義詞和反義詞干擾,停用詞干擾。
g)語音識別類模型的魯棒性評價(jià)樣本應(yīng)包含語速、語調(diào)、聲調(diào)、口音、表達(dá)方式變化。
7.4效率性
用于評價(jià)電力人工智能模型運(yùn)行效率是否滿足要求,宜包括但不限于下列內(nèi)容:
a)優(yōu)化算法:可以通過優(yōu)化算法來提高模型的算力效率。例如使用并行計(jì)算技術(shù),將計(jì)算任務(wù)分
配給多個處理器同時進(jìn)行計(jì)算。
b)硬件設(shè)備升級:對于計(jì)算資源有限的場景,可以考慮升級硬件設(shè)備。使用更快的CPU、更多的
內(nèi)存或更高效的GPU等。
c)數(shù)據(jù)處理優(yōu)化:考慮使用更高效的數(shù)據(jù)存儲和處理方法來優(yōu)化模型的計(jì)算效率,例如將數(shù)據(jù)存
儲在高速緩存中,采用分布式存儲和處理等。
d)資源合理規(guī)劃:如果遇到計(jì)算任務(wù)較多的場景,可以通過任務(wù)調(diào)度等方法來合理分配計(jì)算資源,
以保證計(jì)算效率最大化。
優(yōu)化算法、硬件設(shè)備升級、數(shù)據(jù)處理優(yōu)化、資源合理規(guī)劃等手段應(yīng)作為提高模型效率性的方法,具
體指標(biāo)需根據(jù)業(yè)務(wù)實(shí)際需求確定。
8.模型評價(jià)流程
10
T/CESXXX—XXXX
人工智能模型評價(jià)流程包括模型完備性評價(jià)、評價(jià)測試集選取、選擇模型評價(jià)指標(biāo)等五個步驟。
8.1模型完備性評價(jià)
圖1模型評價(jià)流程
具備完備性的人工智能模型應(yīng)具備以下條件:
a)模型應(yīng)有對應(yīng)的模型描述文件,具體應(yīng)包含模型名稱、模型用途、運(yùn)行模式、模型類型、模
型運(yùn)行環(huán)境、開發(fā)語言、開發(fā)框架、模型版本、模型提供單位、模型訓(xùn)練數(shù)據(jù)集規(guī)模等基本
描述信息;
b)模型宜提供模型源文件和模型相關(guān)附屬源文件等。
8.2評價(jià)測試數(shù)據(jù)集選取
a)測試數(shù)據(jù)集應(yīng)與訓(xùn)練數(shù)據(jù)集具有互斥性,即測試數(shù)據(jù)集與訓(xùn)練數(shù)據(jù)集不重合;
b)測試數(shù)據(jù)類型為圖像文件時,圖片宜為RGB三通道彩色圖像,圖片分辨率宜不低于500*500
像素,圖片格式宜為jpg、png、jpeg、bmp、tif等;
c)分類模型與聚類模型測試數(shù)據(jù)集中所有類別樣本數(shù)量比例建議相同,可根據(jù)具體業(yè)務(wù)需求進(jìn)
行調(diào)整;
d)目標(biāo)檢測模型測試數(shù)據(jù)集中包含目標(biāo)樣本與不包含目標(biāo)樣本比例建議為7:3,且每一個目標(biāo)
類別的樣本數(shù)量宜不少于500張;
e)測試數(shù)據(jù)集樣本標(biāo)注信息應(yīng)完備并準(zhǔn)確無誤,且應(yīng)避免被人為添加的惡意數(shù)據(jù)污染。
f)語音測試樣本格式宜為cpm、speex、speex-wb、mp3等,音頻采樣率宜不低于8kHz,音頻
長度宜不少于3秒且不超過180秒,語言種類包括中文、英文、地方方言等;
11
T/CESXXX—XXXX
g)自然語言處理模型的測試數(shù)據(jù),宜為UTF-8純文本格式文件,單次文本長度宜不超過5000
字符(一個漢字、英文字母、標(biāo)點(diǎn)符號,均記為一個字符),文件內(nèi)宜根據(jù)具體需求涵蓋單
句、段落、文章、詩詞等多種文學(xué)結(jié)構(gòu)的文本。
8.3選擇模型評價(jià)指標(biāo)
應(yīng)結(jié)合具體業(yè)務(wù)應(yīng)用場景和模型類型選擇模型評價(jià)指標(biāo)。具體選取規(guī)則如下:
a)模型評價(jià)宜包含功能性、安全性、魯棒性和效率性等內(nèi)容;
b)功能性評價(jià)至少應(yīng)包含目標(biāo)監(jiān)測模型性能指標(biāo)、光學(xué)字符識別模型性能指標(biāo)、語音識別功能
性指標(biāo)、自然語言處理模型功能性指標(biāo);
c)安全性評價(jià):基于模型安全測試樣本,計(jì)算功能性指標(biāo),觀察指標(biāo)變化評價(jià)模型安全性,
d)魯棒性評價(jià):基于模型魯棒性測試樣本,計(jì)算功能性指標(biāo),觀察指標(biāo)變化評價(jià)模型魯棒性。
8.4評估指標(biāo)確定
a)確定層次結(jié)構(gòu):將復(fù)雜的決策問題分解成若干層次,并明確每個因素的關(guān)系和作用
b)確定比較矩陣:將同一層次的因素兩兩進(jìn)行比較,構(gòu)建成一個比較矩陣。比較矩陣中的元素
代表比較兩個因素重要性的權(quán)重比例,通常用1-9的數(shù)字表示,其中1表示兩個因素同等重
要,9表示一個因素比另一個因素重要程度是極大的差異。如果兩個因素之間的重要性不能
確定,則取介于1和9之間的插值數(shù)。
c)計(jì)算權(quán)重向量:通過計(jì)算比較矩陣的特征向量,得到每個因素的權(quán)重向量。特征向量是指矩
陣中的一個向量,使該向量與矩陣相乘后,得到的向量與原向量具有相同的方向。特征向量
的長度是任意的,但是可以通過對其進(jìn)行歸一化來得到權(quán)重向量。
d)一致性檢驗(yàn):為了驗(yàn)證比較矩陣的一致性,需要計(jì)算一致性指標(biāo)和一致性比率。如果一致性
比率小于0.1,即認(rèn)為比較矩陣是一致的。
e)建立判斷矩陣:判斷矩陣是指對于層次結(jié)構(gòu)中的每一層,將各個因素兩兩比較得到的矩陣。
對于每個比較.判斷矩陣是AHP方法得以實(shí)現(xiàn)的基礎(chǔ)。
8.5權(quán)重分配方法
a)計(jì)算權(quán)重向量:通過計(jì)算判斷矩陣的特征向量和特征值,可以得到每個因素的權(quán)重向量。權(quán)
重值越高,該因素在決策中的作用越大。例如本標(biāo)準(zhǔn)可引用的指標(biāo)有:發(fā)電成本、負(fù)載穩(wěn)定
性、系統(tǒng)安全、能源供應(yīng)穩(wěn)定性、能源供需平衡。
b)一致性檢驗(yàn):AHP方法中的一致性檢驗(yàn)是為了驗(yàn)證判斷矩陣不出現(xiàn)矛盾信息的程度。利用計(jì)
算出的特征向量、特征值,計(jì)算一致性指標(biāo)和一致性比例。若一致性比例接近于1,即代表
該判斷矩陣在權(quán)重分配過程中是一致的。
c)敏感性分析:由于AHP方法中涉及到多個指標(biāo)的權(quán)值分配和影響力較大的因素之間的比較,
通常會運(yùn)用敏感性分析來分析權(quán)重選擇下的決策效果。
d)選擇最優(yōu)決策選取最優(yōu)決策方案:計(jì)算出每個因素的權(quán)重后,將各因素的結(jié)果進(jìn)行加權(quán)求
和,可以得到不同方案之間的比較結(jié)果,從而選出最優(yōu)決策方案。
9.模型功能性等級判定
9.1一般規(guī)則
a)本導(dǎo)則適用于模型部署應(yīng)用前的入網(wǎng)評價(jià)和部署應(yīng)用后的應(yīng)用效果評價(jià);
12
T/CESXXX—XXXX
b)本導(dǎo)則對模型的功能性進(jìn)行等級判定,實(shí)際應(yīng)用中應(yīng)考慮模型安全性、魯棒性、效率性等其他
因素。
c)本導(dǎo)則的模型等級是對業(yè)務(wù)應(yīng)用功能相近的模型進(jìn)行歸類,不對模型的可用性進(jìn)行定義,被測
模型最終評價(jià)結(jié)果宜參考具體業(yè)務(wù)場景的相關(guān)規(guī)范。
9.2分類模型等級判定
功能性評價(jià)評價(jià)等級參考以下規(guī)則:
表1分類模型評價(jià)值計(jì)算
指標(biāo)判定模型等級
準(zhǔn)確率≥95%,精確率≥95%,召回率≥95%,F(xiàn)1值≥0.95,對數(shù)損失≤0.7,
C1
AUC≤0.7
準(zhǔn)確率≥85%,精確率≥85%,召回率≥85%,F(xiàn)1值≥0.85,對數(shù)損失
C2
≤0.75,AUC≤0.75
準(zhǔn)確率≥80%、精確率≥80%,召回率≥80%,F(xiàn)1值≥0.8,對數(shù)損失
C3
≤0.8,AUC≤0.8
準(zhǔn)確率≥75%、精確率≥75%,召回率≥75%,F(xiàn)1值≥0.75,對數(shù)損失
C4
≤0.85,AUC≤0.85
準(zhǔn)確率≥70%、精確率≥70%,召回率≥70%,F(xiàn)1值≥0.7,對數(shù)損失
C5
≤0.95,AUC≤0.95
9.3回歸模型等級判定
功能性評價(jià)等級參考以下規(guī)則:
表2回歸模型評價(jià)值計(jì)算
指標(biāo)判定模型等級
決定系數(shù)≥0.90C1
決定系數(shù)≥0.85C2
決定系數(shù)≤0.80C3
決定系數(shù)≤0.75C4
決定系數(shù)≤0.7C5
9.4聚類模型等級判定
功能性評價(jià)等級參考以下規(guī)則:
表3聚類模型評價(jià)值計(jì)算
指標(biāo)判定模型等級
調(diào)整蘭德系數(shù)≥0.95,調(diào)整互信息≥0.95,輪廓系數(shù)≥0.95C1
調(diào)整蘭德系數(shù)≥0.85,調(diào)整互信息≥0.85,輪廓系數(shù)≥0.85C2
整蘭德系數(shù)≥0.8,調(diào)整互信息≥0.8,輪廓系數(shù)≥0.8C3
調(diào)整蘭德系數(shù)≥0.75,調(diào)整互信息≥0.75,輪廓系數(shù)≥0.75C4
調(diào)整蘭德系數(shù)≥0.7,調(diào)整互信息≥0.7,輪廓系數(shù)≥0.7C5
9.5光學(xué)字符識別模型等級判定
功能性評價(jià)等級參考以下規(guī)則:
表4光學(xué)字符識別模型評價(jià)值計(jì)算
指標(biāo)判定模型等級
13
T/CESXXX—XXXX
平均編輯距離,字符識別準(zhǔn)確率≥95%,字符識別召回率≥95%,文本定位
C1
準(zhǔn)確率≥95%,文本定位召回率≥95%
平均編輯距離,字符識別準(zhǔn)確率≥85%,字符識別召回率≥85%,文本定
C2
位準(zhǔn)確率≥85%,文本定位召回率≥85%
平均編輯距離,字符識別準(zhǔn)確率≤80%,字符識別召回率≥80%,文本定
C3
位準(zhǔn)確率≤80%,文本定位召回率≤80%
平均編輯距離,字符識別準(zhǔn)確率≥75%,字符識別召回率≥75%,文本定
C4
位準(zhǔn)確率≥75%,文本定位召回率≥75%
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年對外貿(mào)易協(xié)議簽訂流程及注意事項(xiàng)版B版
- 2024年標(biāo)準(zhǔn)代銷業(yè)務(wù)協(xié)議示例版B版
- 漯河職業(yè)技術(shù)學(xué)院《地籍管理》2023-2024學(xué)年第一學(xué)期期末試卷
- 2025年吉林道路貨運(yùn)從業(yè)資格證模擬考試
- 2024年商業(yè)物業(yè)管理與社區(qū)安全防范體系建設(shè)合同3篇
- 2024年模具生產(chǎn)服務(wù)協(xié)議標(biāo)準(zhǔn)文本版B版
- 單位人事管理制度展示選集
- 2025出租車半股轉(zhuǎn)讓合同
- 鄉(xiāng)村水廠建設(shè)與運(yùn)營合作協(xié)議
- 環(huán)保工程總包施工合同
- 多金屬廢料高效綜合回收利用產(chǎn)業(yè)升級項(xiàng)目環(huán)評報(bào)告書
- 石方開挖的環(huán)保措施
- 商洛市商州區(qū)金礦煤礦礦山地質(zhì)環(huán)境保護(hù)與土地復(fù)墾方案
- 中國鐵塔股份有限公司代維交接指南(2017年)
- 常用藥物皮試配制法和藥物過敏反應(yīng)的急救措施
- 醫(yī)學(xué)微生物學(xué)知到章節(jié)答案智慧樹2023年山東第一醫(yī)科大學(xué)
- 印刷通用質(zhì)量檢驗(yàn)標(biāo)準(zhǔn)
- 電子測量技術(shù)基礎(chǔ)課后答案
- 大興調(diào)查研究研討發(fā)言材料學(xué)習(xí)心得體會中心組3篇
- 培訓(xùn)學(xué)?;馂?zāi)應(yīng)急預(yù)案
- 面試評分表完整版
評論
0/150
提交評論