《電力人工智能自然語言處理模型評價規(guī)范》

上傳人：搬*** IP屬地：浙江上傳時間：2024-12-22 格式：PDF 頁數(shù)：16 大?。?25.16KB 積分：11 舉報 版權申訴

已閱讀5頁，還剩11頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

ICS國際標準分類號

CCS中國標準文獻分類號

團體標準

T/CESXXX-XXXX

電力人工智能自然語言處理模型評價規(guī)

范

Specificationforevaluationofnatural

languageprocessingmodelofelectric

powerartificialintelligence

（征求意見稿）

XXXX-XX-XX發(fā)布XXXX-XX-XX實施

中國電工技術學會發(fā)布

T/CESXXX—XXXX

電力人工智能自然語言處理模型評價規(guī)范

1范圍

本文件規(guī)定了電力人工智能自然語言處理模型的評價指標和計算方法，以及評價流程和方法。

該規(guī)范文件適用于對電力人工智能模型在自然語言處理方面的性能評估、效率評估、魯棒性評估。

2規(guī)范性引用文件

下列文件中的內容通過文中的規(guī)范性引用而構成本文件必不可少的條款。其中，注日期的引用文件，

僅該日期對應的版本適用于本文件;不注日期的引用文件，其最新版本(包括所有的修改單)適用于本文

件。

GB/T5271.28信息技術詞匯第28部分：人工智能基本概念與專家系統(tǒng)

3術語和定義

下列術語和定義適用于本文件。

人工智能自然語言處理模型

指利用人工智能技術來處理和理解自然語言文本的模型。這些模型可以用于實現(xiàn)多種自然語言處

理任務，如文本分類、命名實體識別、情感分析、機器翻譯、問答系統(tǒng)等型。

4符號、代號和縮略語

下列縮略語適用于本文件。

ARI：調整蘭德系數(shù)(adjustedrandindex)

AP：平均精度(averageprecision)

AUC：曲線下面積(areaundercurve)

BLEU-1：雙語評價替換(bilingualevaluationunderstudy)

CS：余弦相似度(cosinesimilarity)

KES：知識抽取速度(knowledgeextractionspeed)

LAS：帶標簽依存關系準確率(labeledattachmentscore)

MAP：平均精度均值(meanaverageprecision)

MIOU：平均交并比(meanintersectionoverunion)

MP：平均精確率(meanprecision)

MR：平均召回率(meanrecall)

RI：蘭德系數(shù)（randindex）

ROUGE：基于召回率的文本摘要評價（recallorientedunderstudyforgistingevaluation）

RPS：檢索吞吐量(retrievalpersecond)

RRT：檢索響應時間(retrieveresponsetime)

RT：響應時間(responsetime)

TP：真正例(truepositive)

TN：真負例(truenegative)

UAS：無標簽依存關系準確率(unlabeledattachmentscore)

WP：詞語相似度準確率(wordprecision)

T/CESXXX—XXXX

5.模型基礎信息

5.1模型描述信息

應包括模型開發(fā)者、開發(fā)語言、開發(fā)框架、模型版本、模型類型、模型用途、運行環(huán)境、訓練數(shù)據(jù)

集信息，要求如下：

a)模型開發(fā)者：模型開發(fā)者信息，如模型開發(fā)人員信息、開發(fā)單位信息；

b)開發(fā)語言：模型的開發(fā)語言與版本，如Python3.7；

c)開發(fā)框架：包含開發(fā)框架和框架版本信息，如TensorFlow-V2.1.0；

d)模型版本：模型的版本信息，如絕緣子破損識別模型V1.1；

e)模型類型：主要包括電力專用模型、通用組件模型；

f)模型用途：描述模型應用場景與任務；

g)運行環(huán)境：描述模型運行的軟硬件環(huán)境及資源要求；

h)訓練數(shù)據(jù)集信息：描述模型訓練階段使用的樣本規(guī)模、訓練樣本分布情況；

5.2模型文件

應包括模型源文件、配置文件、運行腳本文件，或包含模型服務程序或鏡像文件。

6.評價指標與計算方法

6.1性能指標

電力人工智能自然語言處理模型評價性能指標如下表所示。

表1自然語言處理模型評價-性能指標表

序號指標名稱評價要素計算方法

模型分類結果正確的樣本數(shù)量占總樣本數(shù)見附錄A.1.1

量的比例；

1正確率

表征模型分類正確水平，正確率越高，模型

分類越正確。

模型分類結果正確的正樣本數(shù)量占分類結見附錄A.1.2

果中所有正樣本數(shù)量的比例；

2準確率

表征模型分類正樣本查準水平，準確率越

高，模型正樣本分類越準確。

模型分類結果正確的正樣本數(shù)量占測試集見附錄A.1.3

中所有正樣本數(shù)量的比例；

3召回率

表征模型分類正樣本查全水平，召回率越

高，模型分類正樣本識別越完整。

以準確率為縱軸、召回率為橫軸繪制的曲線見附錄A.1.4

下面積；

4平均精度

表征模型查準和查全的綜合水平，平均精度

越高，模型查準和查全的綜合性能越好。

T/CESXXX—XXXX

評價模型執(zhí)行多標簽分類任務的性能；見附錄A.1.5

模型分類結果中各分類正確的樣本數(shù)量占

5平均正確率該類樣本總數(shù)量的比例均值；

表征模型分類的平均正確水平，平均正確率

越高，模型分類越正確。

評價模型執(zhí)行多標簽分類任務的性能；見附錄A.1.6

模型分類結果中各分類正確的正樣本數(shù)量

6平均精確率占分類結果中該類正樣本數(shù)量的比例均值；

表征模型分類的平均查準水平，平均準確率

越高，模型正樣本分類越準確。

評價模型執(zhí)行多標簽分類任務的性能；見附錄A.1.7

模型分類結果中各類分類正確的正樣本數(shù)

7平均召回率量占測試集中該類正樣本數(shù)量的比例均值；

表征模型分類的平均查全水平，平均召回率

越高，模型正樣本識別越完整。

評價模型執(zhí)行多標簽分類任務的性能；見附錄A.1.8

模型分類結果中各類標簽平均精度均值；

8平均精度均值表征模型分類查準和查全的綜合水平，平均

精度均值越高，模型在查準和查全的綜合性

能越好。

評價模型執(zhí)行圖像分割任務的性能；見附錄A.1.9

圖像分割結果中各預測區(qū)域和標準區(qū)域交

9平均交并比并比的平均值；

表征圖像分割的準確程度，平均交并比越

高，模型對圖像分割越準確。

評價模型執(zhí)行單目標跟蹤任務的性能；見附錄A.1.10

以模型準確率為縱軸，1減去準確率的值為

橫軸，繪制成功率曲線，計算曲線下面積；

評價模型將正樣本判斷為正樣本的可能性

10曲線下面積

大于判斷為負樣本的可能性的概率；

表征模型對正樣本分類正確的概率，成功率

曲線下面積越大，模型對正樣本分類正確的

概率越高。

評價模型執(zhí)行數(shù)值回歸任務的性能；見附錄A.1.11

模型預測結果中標準值和平均預測值之差

的平方和為回歸平方和；

模型預測結果中標準值和預測值之差的平

方和為總偏差平方和；

11決定系數(shù)

決定系數(shù)為1減去回歸平方和與總偏差平方

和的比值；

表征模型在數(shù)值回歸任務中解釋因變量變

化的能力，決定系數(shù)越高，因變量變化通過

模型能被自變量解釋的比例越高。

評價模型執(zhí)行數(shù)值聚類任務的性能；見附錄A.1.12

評價模型聚類結果中和標準集一致的數(shù)據(jù)

對的數(shù)量與聚類結果數(shù)據(jù)對總數(shù)的比例；

12蘭德系數(shù)

表征模型在數(shù)值聚類任務中聚類結果的匹

配水平，蘭德系數(shù)越高，模型的聚類結果越

匹配。

T/CESXXX—XXXX

評價模型執(zhí)行數(shù)值聚類任務的性能；見附錄A.1.13

模型聚類結果中，蘭德系數(shù)和期望蘭德系數(shù)

之差與最大期望蘭德系數(shù)和期望蘭德系數(shù)

13調整蘭德系數(shù)之差的比例；

表征模型在標準集和聚類結果中分類隨機

分布的條件下聚類結果的匹配水平，調整蘭

德系數(shù)越高，模型的聚類結果越匹配。

模型分類結果中準確率的倒數(shù)和召回率的見附錄A.1.14

倒數(shù)的平均值；

14F1值

表征模型準確率和召回率同等重要、且均達

到最高值的平衡狀態(tài)。

評價模型執(zhí)行詞向量表示任務的性能；見附錄A.1.15

模型表示結果中輸出向量和標準向量點積

15余弦相似度與輸出向量和標準向量范數(shù)乘積的比例；

表征模型詞向量預測的準確率，余弦相似度

越高，模型詞向量表示越準確。

評價模型執(zhí)行詞義相似度任務的性能；見附錄A.1.16

模型預測結果中相似度預測準確的詞語對

16詞語相似度準確率數(shù)量與詞語對總數(shù)的比例；

表征模型詞義相似度的正確程度，詞語相似

度準確率越高，模型詞義相似度越正確。

評價模型執(zhí)行語言模型任務的性能；見附錄A.1.17

語言模型預測結果中每一個單詞是標準單

17困惑度詞的概率的幾何平均；

表征模型判斷句子是否為正常句子的準確

率，困惑度越低，模型預測的句子越準確。

評價模型執(zhí)行依存句法分析任務的性能；見附錄A.1.18

模型預測結果中依存關系正確且關系標簽

正確的關系數(shù)量與標準依存關系數(shù)量的比

帶標簽依存關系準確

18例；

率

表征模型依存關系預測準確率與分類準確

率，帶標簽依存關系準確率越高，模型依存

句法分析越準確。

評價模型執(zhí)行依存句法分析任務的性能；見附錄A.1.19

模型預測結果中依存關系正確的關系數(shù)量

無標簽依存關系準確與標準依存關系數(shù)量的比例；

率表征模型依存關系預測準確率，無標簽依

存關系準確率越高，模型依存句法分析越準

確。

評價模型執(zhí)行文章摘要任務的性能；見附錄A.1.20

模型預測結果中和參考摘要共有的單詞數(shù)

20ROUGE-1值量與參考摘要單詞總數(shù)的比例；

表征模型預測的摘要與參考摘要的相似程

度，ROUGE-1值越高，模型文章摘要越準確。

評價模型執(zhí)行語義相似度任務的性能；見附錄A.1.21

模型預測結果中相似度預測準確的短文本

21短文本相似度準確率對數(shù)量與短文本對總數(shù)的比例；

表征模型短文本相似度預測的正確程度，短

文本相似度準確率越高，模型相似度越正

T/CESXXX—XXXX

確。

評價模型執(zhí)行機器翻譯任務的性能；見附錄A.1.22

模型預測結果中翻譯正確的單詞數(shù)量與模

22BLEU-1值型預測結果中單詞總數(shù)的比例；

表征模型單詞翻譯的查準水平，BLEU-1值越

高，模型單詞翻譯越準確。

評價模型執(zhí)行知識存儲任務的性能；見附錄A.1.23

知識存儲任務中，批量寫入的三元組數(shù)與知

識寫入結束時間和知識寫入開始時間之差

23知識寫入速度

的比值，單位為組/秒；

c)表征知識寫入的時間效率，知識寫入速度

越快，模型知識寫入時間效率越好。

評價模型執(zhí)行知識存儲任務的性能；見附錄A.1.24

知識存儲結果中檢索任務結束時間和檢索

任務開始時間之差與該時間段內完成的檢

24檢索響應時間

索次數(shù)的比值，單位為秒/次；

表征知識檢索的時間效率，檢索響應時間越

小，模型知識檢索時間效率越好。

評價模型執(zhí)行知識獲取任務的性能；見附錄A.1.35

知識抽取任務中，批量抽取的三元組數(shù)與知

識抽取結束時間和知識抽取開始時間的差

25知識抽取速度值的比值，單位為組/秒；

表征知識圖譜工具的知識抽取時間效率，知

識抽取速度越高，模型知識抽取時間效率越

好。

評價模型執(zhí)行知識應用任務的性能；見附錄A.1.26

知識應用任務中，完成的知識搜索任務次數(shù)

與搜索任務結束時間和搜索任務開始時間

26檢索吞吐量

的差值的比值，單位為次/秒；

表征知識搜索應用的時間性能，搜索吞吐量

越大，模型知識搜索應用時間性能越好。

6.2效率性指標

效率性指標如下表所示。

表2自然語言處理模型評價-效率指標表

序號指標名稱評價要素計算方法

評價模型判定后占用的磁盤存儲量增加的見附錄A.2.1

比例；

1磁盤占用膨脹率

表征模型判定過程附加的存儲消耗量，磁盤

占用膨脹率越小，模型存儲空間占用越少。

T/CESXXX—XXXX

評價模型開銷的內存量占內存總量的比例；見附錄A.2.2

2內存使用率表征模型的內存開銷量，內存使用率越小，

模型內存使用越少。

在給定的軟硬件環(huán)境下，模型對給定的數(shù)據(jù)見附錄A.2.3

進行運算并獲得結果所需要的時間；

3響應時間

表征模型解決任務所消耗的時間，模型響應

時間越小，模型響應越快。

6.3魯棒性指標

魯棒性指標如下表所示。

表3自然語言處理模型評價-魯棒性指標表

序號指標名稱評價要素計算方法

評價模型在存在信號干擾或特征規(guī)律發(fā)生見附錄A.3

變化的測試數(shù)據(jù)集的性能指標，性能指標選

取規(guī)則見附錄C；

3魯棒性

表征模型對新樣本的維持性能穩(wěn)定的能力，

魯棒性指標越高，模型維持性能穩(wěn)定的能力

越好。

7.評價流程與方法

7.1評價流程

評價流程應包含模型信息完備性評價、確定模型分類和模型任務、選擇評價指標、選擇測試數(shù)

據(jù)集、單項評價指標量化、評價結果匯總等6個關鍵步驟，詳見圖1。

確

單

模定選

選項評

型模擇

開擇評價評

完型測

始評價結價

備分試

評價指果結

性類數(shù)

價指標匯束

評和據(jù)

標量總

價任集

化

務

圖1模型評價流程

7.2評價方法

7.2.1模型基礎信息完備性評價

所提供的模型的描述信息、模型文件應完整、正確。

T/CESXXX—XXXX

7.2.2確定模型分類和模型任務

確定模型分類和模型任務要求如下：

a)對于電力專用模型，確定模型任務，包括圖像分類、目標檢測、圖像分割、視頻分類、行為檢

測、單目標跟蹤、多目標跟蹤、數(shù)值分類、數(shù)值回歸、數(shù)值聚類；

b)對于通用組件模型，確定模型任務，詳見資料性附錄B.2。

7.2.3選擇評價指標

選擇評價指標要求如下：

a)根據(jù)模型任務類型確定相應的模型性能指標，電網(wǎng)專用模型性能指標選取規(guī)則見規(guī)范性附錄

C.1、通用組件性能指標選取規(guī)則見規(guī)范性附錄C.2，根據(jù)6.2章節(jié)評價模型效率性指標，根據(jù)

6.3章節(jié)評價模型魯棒性指標，根據(jù)6.4章節(jié)評價模型兼容性指標。

b)模型研發(fā)、入網(wǎng)、在運等各環(huán)節(jié)宜采用相同的評價指標。

7.2.4選擇測試數(shù)據(jù)集

測試數(shù)據(jù)集選擇要求如下：

a)測試數(shù)據(jù)集應與訓練數(shù)據(jù)集具有互斥性；

b)測試數(shù)據(jù)集樣本格式參照《人工智能樣本基本要求和標注規(guī)范》；

c)測試數(shù)據(jù)集、魯棒性測試數(shù)據(jù)集、訓練數(shù)據(jù)集的比例宜為2：2：8；

d)魯棒性測試數(shù)據(jù)集樣本類別要求如下：

1)NLP模型魯棒性測試集應包含但不限于近義詞、反義詞，停用詞樣本；

2)知識圖譜模型魯棒性測試集應包含但不限于多領域知識、多源知識、異構數(shù)據(jù)或知識庫。

e)測試數(shù)據(jù)集、魯棒性數(shù)據(jù)集樣本包含的各類別的樣本數(shù)量宜相同。

T/CESXXX—XXXX附錄A

（規(guī)范性附錄）

人工智能自然語言處理模型評價指標計算方法

A.1性能指標

A.1.1正確率

正確率的計算方式見公式（A.1）：

=（+）/(+++)（A.1）

式中：????????????????????????????????????????????????????????????????????????????

——正確率；

——模型分類正確的正樣本數(shù)量；

????——模型分類成正類的負樣本數(shù)量；

????????

????——模型分類正確的負樣本數(shù)量；

????????

????——模型分類成負類的正樣本數(shù)量。

????????

????

????????

A.1.2????準確率

準確率的計算方式見公式（A.2）：

=/(+)（A.2）

式中：

????????????????????????????????????????

——準確率；

——模型分類正確的正樣本數(shù)量；

????——模型分類成正類的負樣本數(shù)量。

????????

????

????????

A.1.3????召回率

召回率的計算方式見公式（A.3）：

=/(+)（A.3）

式中：

????????????????????????????????????????

——召回率；

——模型分類正確的正樣本數(shù)量；

????——模型分類成負類的正樣本數(shù)量。

????????

????

????????

A.1.4????平均精度

平均精度的計算方式見公式（A.4）：

=()（A.4）

式中：????????????∫0????????????????

——平均精度；

()——以準確率為縱軸、召回率為橫軸繪制的曲線函數(shù)。

????????

????

????????

A.1.5平均正確率

平均正確率的計算方式見公式（A.5）：

=(1/)（+）/+++（A.5）

式中：????

????????????????∑????=1??????????????????????????????????????????????????????????????????????????????????????????????????

——平均正確率；

——第i類分類結果中正確的正樣本數(shù)量；

????????

????——第i類分類結果中正確的負樣本數(shù)量；

????????????????

????????????

8????

——第i類分類結果中錯誤的正樣本數(shù)量；

——第i類分類結果中錯誤的負樣本數(shù)量；

????????????

????——類別總數(shù)。

????????????

????T/CESXXX—XXXX

????

A.1.6平均精確率

平均準確率的計算方式見公式（A.6）：

=(1/)/+（A.6）

式中：????

????????????????∑????=1??????????????????????????????????????????????????

——平均準確率；

——第i類分類結果中正確的正樣本數(shù)量；

????????

????——第i類分類結果中錯誤的正樣本數(shù)量；

????????????

????——類別總數(shù)。

????????????

????

A.1.7平均召回率

平均召回率的計算方式見公式（A.7）：

=(1/)/+（A.7）

式中：????

????????????????∑????=1??????????????????????????????????????????????????

——平均召回率；

——第i類分類結果中正確的正樣本數(shù)量；

????????

????——第i類分類結果中錯誤的負樣本數(shù)量；

????????????

????——類別總數(shù)。

????????????

????

A.1.8平均精度均值

平均精度均值的計算方式見公式（A.8）：

=(1/)（A.8）

式中：????

????????????????????∑????=1????????????????

——平均精度均值；

——第i類的平均精度；

????????????

????——類別總數(shù)。

????????????

????

A.1.9平均交并比

平均交并比的計算方式見公式（A.9）：

1Mc

=ii（A.9）

VMIOU∑MM

M+1I=0c+?cc

∑∑jj=00ij=jiii

式中：

——平均交并比；

——類別總數(shù)；

????????????????

????——屬于第類，且被預測為第類的樣本數(shù)量。

????

????????

????????????

A.1.10曲線下面積

成功率曲線下面積的計算方式見公式（A.12）：

×()

ins

=?????????1（A.12）

∑????∈?????????????????????????????????????????????????????????????????????????????????????2

式中：????????????????????????

——成功率曲線下面積；

——第i條視頻的輸出置信度排序序號；

????????????????

——正樣本數(shù)量；

????????????????????????????????

????

——負樣本數(shù)量；

ins——正樣本序號的序號。

????

T/CESXXX????∈????????????—XXXX????????????????????????????????????????

A.1.11決定系數(shù)

決定系數(shù)的計算方式見公式（A.18）：

(?)

=1????2（A.18）

∑????=1(?????????????????????????????????????)

?????????????????????????

2????2

????∑????=1?????????????????????????????????????

式中：?????????????????????????

——平均絕對誤差值；

——2樣本總數(shù)；

????

????——模型輸出的第i個樣本的預測值；

????

?——????第i個樣本的標準值；

????????????????????????????????

——所有預測值的平均值。

????????????????????????

????????????????????????????????

A.1.12蘭德系數(shù)

蘭德系數(shù)的計算方式見公式（A.19）：

=(+)/(+++)(A.19)

式中：

????????????????????????????????????????????????????????????????????????????????????

——蘭德系數(shù)；

——在聚類結果中屬于同一類別，且在標準情況下也為同一類別的數(shù)據(jù)對的數(shù)量；

????????

????——在聚類結果中屬于不同類別，且在標準情況下也為不同類別的數(shù)據(jù)對的數(shù)量；

????????

????——在聚類結果中屬于同一類別，但標準情況下為不同類別的數(shù)據(jù)對的數(shù)量；

????????

????——在聚類結果中屬于不同類別，但在標準情況下為同一類別的數(shù)據(jù)對的數(shù)量。

????????

????

????????????

A.1.13調整蘭德系數(shù)

調整蘭德系數(shù)的計算方式見公式（A.20）：

=(())/(（A.20）

式中：

?????????????????????????????????????????????????????????????????????????????

——調整蘭德系數(shù)；

——蘭德系數(shù)；

????????????

????()——蘭德系數(shù)均值；

????????

????——蘭德系數(shù)最大值。

????????

????????????????????????

A.1.14F1值

F1值的計算方式見公式（A.21）：

=(2××)/(+)（A.21）

式中：

????1????????????????

——F1值；

——精確率；

????——召回率。

????

A.1.15余弦相似度

余弦相似度的計算方式見公式（A.22）：

=（?）/||||||||（A.22）

式中：???????????????????????????????????????????????????????????????????????????????????????????????2????????????????????????????????2?

——余弦相似度；

——模型預測出的詞向量；

????????????

?——標準詞向量；

?????????????????????????

????????????????????????????????

??——兩個向量的點積；

||||——向量的范數(shù)。

????????????????????????????

?????????????????????????????

2T/CESXXX—XXXX

A.1.16?詞語相似度準確率

詞語相似度準確率的計算方式見公式（A.23）：

=__/__（A.23）

式中：

????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????

——詞語相似度準確率；

——模型預測正確的詞語對數(shù)量；

????????__

????——詞語對總數(shù)。

????????????????????????????_????_????????????????????????????

????

????????????????????????????????????????????

A.1.17????困惑度

困惑度的計算方式見公式（A.24）：

=1/((|,...,))（A.24）

????

式中：????

?????????????????????????????????????????∏????=1????????????????1?????????1

——困惑度；

——測試數(shù)據(jù)集中的單詞總數(shù)；

????????????????????????????????????

????——第i個單詞；

????(|,...,)——模型預測出的第i個單詞的置信度。

????

????1?????1

A.1.18????????帶標簽依存關系準確率????????

帶標簽依存關系準確率的計算方式見公式（A.25）：

=_/_（A.25）

式中：

????????????????????????????????????????????????????????????????????????

——帶標簽依存關系準確率；

——模型預測結果中依存關系正確且關系種類標簽正確的數(shù)量；

????????????_

????——標準依存關系數(shù)量。

????????_????????

????

????????????????????????????????????

A.1.19無標簽依存關系準確率

無標簽依存關系準確率的計算方式見公式（A.26）：

=/_（A.26）

式中：

????????????????????????????????????????????????????????????????

——無標簽依存關系準確率；

——模型預測結果中依存關系正確的數(shù)量；

????????????

????——標準依存關系數(shù)量。

????????_

????

????????????????????????????????????

A.1.20ROUGE-1值

ROUGE-1值的計算方式見公式（A.27）：

∑∑∈∈Countatmch(n?gram)

uUV?u

V=reference1gram（A.27）

ROUGE1

∑∑∈∈′fVCount(n?gram)

uUreferenceV1?gramu

式中：

——ROUGE-1值；

——標準摘要；

????????????????????1

????——單詞；

????????????????????????????????????

????——模型預測結果中與參考摘要共有的單詞數(shù)量；

1??????????????????

????——參考摘要單詞總數(shù)。

????????????????????????????????????1?????????????????

??????????

?????????????????????????????1??????????????????

A.1.21短文本相似度準確率

短文本相似度準確率的計算方式見公式（A.28）：

_=__/__（A.28）

式中：

T/CESXXX—XXXX????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????

_——短文本相似度準確率；

——模型預測正確的短文本對數(shù)量；

????????????????????????????????_????????????????????_

????——短文本對總數(shù)。

????????????????????????????__????????????????????????????????

????

????????????????????????????????????????????

A.1.22????BLEU-1值

BLEU-1值的計算方式見公式（A.29）：

∑∑uU∈∈VuCountref(n?gram)

V=candidates1?gram（A.29）

bleu1

fV′

∑∑′′∈∈Countall(n?gram)

uUcandidatesV1?gram'u

式中：

——雙語評價替換；

——模型生成句子的集合；

????????????????1

????——單詞；

????????????????????????????????????????

????——所有生成句子中的單詞在標準譯文中出現(xiàn)的次數(shù)；

????1?????????????????

——所有生成句子中的單詞總數(shù)。

?????????????????????????????????????????1??????????????????

????????????????????????????????1?????????????????

??????????

A.1.23知識寫入速度

知識寫入速度的計算方式見公式（A.42）：

=/()（A.42）

式中：

?????????????????????????????????????????????????????????????????

——知識寫入速度；

——批量寫入的三元組數(shù)；

????????

????——知識寫入開始時間；

????????????????????????

????——知識寫入結束時間。

????????

????

????????????

A.1.24檢索響應時間

檢索響應時間的計算方式見公式（A.43）：

=()/（A.43）

式中：

?????????????????????????????????????????????????????????????????????????????

——檢索響應時間；

——周期內完成檢索次數(shù)；

????????????

????——檢索開始時間；

????????????????????????????????

????——檢索結束時間。

????????

????

????????????

A.1.25知識抽取速度

知識抽取速度的計算方式見公式（A.44）：

=/()（A.44）

式中：

?????????????????????????????????????????????????????????????

——知識抽取速度；

——知識抽取數(shù)量；

????????????

????——知識抽取開始時間；

????????

????——知識抽取結束時間。

????????????

????

????????????????

A.1.26檢索吞吐量

檢索吞吐量的計算方式見公式（A.45）：

=/()（A.45）

T/CESXXX—XXXX

式中：

?????????????????????????????????????????????????????????????

——搜索吞吐量；

——周期完成的搜索任務次數(shù)；

????????????

????——搜索任務開始時間；

????????????????

????——搜索任務結束時間。

????????

????

????????????

A.2效率性指標

A.2.1磁盤占用膨脹率

磁盤占用膨脹率的計算方式見公式（A.46）：

_=()/（A.46）

式中：

????????????????????????????????????2?????1????2

_——磁盤占用膨脹率；

——磁盤空間初始占用量；

????????????????????????????

????——模型判定后磁盤空間占用量。

????

????2

A.2.2內存使用率

內存使用率的計算方式見公式（A.47）：

_=/（A.47）

式中：

????????????????????????????????????????????????????????????????????

_——內存使用率；

——模型內存空間使用量；

????????????????????????

????——內存空間總量。

????????????

????

????????????????????????

A.2.3響應時間

響應時間的計算方式見公式（A.48）：

=（A

人人文庫> 全部分類> 辦公材料 > 辦公文檔

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

《電力人工智能自然語言處理模型評價規(guī)范》

文檔簡介

溫馨提示

最新文檔

評論

《電力人工智能自然語言處理模型評價規(guī)范》

文檔簡介

溫馨提示

最新文檔

評論

相關文檔