《基于大模型的政務(wù)咨詢系統(tǒng)技術(shù)要求與評(píng)估方法》

上傳人：1*** IP屬地：浙江上傳時(shí)間：2024-12-31 格式：PDF 頁(yè)數(shù)：9 大?。?.19MB 積分：11 舉報(bào) 版權(quán)申訴

《基于大模型的政務(wù)咨詢系統(tǒng)技術(shù)要求與評(píng)估方法》_第2頁(yè)

《基于大模型的政務(wù)咨詢系統(tǒng)技術(shù)要求與評(píng)估方法》_第3頁(yè)

《基于大模型的政務(wù)咨詢系統(tǒng)技術(shù)要求與評(píng)估方法》_第4頁(yè)

《基于大模型的政務(wù)咨詢系統(tǒng)技術(shù)要求與評(píng)估方法》_第5頁(yè)

已閱讀5頁(yè)，還剩4頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

ICS

CCST/GDEIIA

團(tuán)體標(biāo)準(zhǔn)

T/GDEIIA

基于大模型的政務(wù)咨詢系統(tǒng)技術(shù)要求

與評(píng)估方法

Technicalrequirementsandevaluationmethodsforgovernment

consultationsystembasedonlargemodel

（征求意見(jiàn)稿）

2023-xx-xx發(fā)布2023-xx-xx實(shí)施

廣東省電子信息行業(yè)協(xié)會(huì)發(fā)布

基于大模型的政務(wù)咨詢系統(tǒng)技術(shù)要求與評(píng)估方法

1范圍

本文件面向以大規(guī)模與訓(xùn)練模型為技術(shù)底座，能夠提供智能問(wèn)答、政務(wù)咨詢、知識(shí)搜索等功能的基

于大模型的政務(wù)咨詢系統(tǒng)。

本文件規(guī)定了基于大模型的政務(wù)咨詢系統(tǒng)的功能、性能要求和評(píng)估方法，主要包括大模型基礎(chǔ)能力、

政務(wù)咨詢業(yè)務(wù)能力、系統(tǒng)安全應(yīng)用能力及指標(biāo)評(píng)估方法四個(gè)部分。

本文件適用于基于大模型的政務(wù)咨詢系統(tǒng)及同類產(chǎn)品的的研發(fā)、評(píng)估和驗(yàn)收等工作。

2規(guī)范性引用文件

下列文件對(duì)于本文件的應(yīng)用是必不可少的。凡是注日期的引用文件，僅所注日期的版本適用于本文

件。凡是不注日期的引用文件，其最新版本（包括所有的修改單）適用于本文件。

GB/T35282-2023信息安全技術(shù)電子政務(wù)移動(dòng)辦公系統(tǒng)安全技術(shù)規(guī)范

GB/T31506-2022信息安全技術(shù)政務(wù)網(wǎng)站系統(tǒng)安全指南

3術(shù)語(yǔ)和定義

3.1

大模型largemodel

一種基于海量通用數(shù)據(jù)訓(xùn)練得到的大規(guī)模預(yù)訓(xùn)練模型，具備多個(gè)領(lǐng)域的任務(wù)能力且通用性較高，但

在實(shí)際應(yīng)用場(chǎng)景中仍需結(jié)合生產(chǎn)數(shù)據(jù)進(jìn)行二次開(kāi)發(fā)。

4縮略語(yǔ)

下列縮略語(yǔ)適用于本文件。

ROUGE：面向召回率的評(píng)價(jià)方法(Recall-OrientedUnderstudyforGistingEvaluation)

LCS：最長(zhǎng)公共子序列(Longestcommonsubsequence)

5指標(biāo)要求及評(píng)估方法概述

5.1評(píng)估方法概述

針對(duì)模型能力部分的評(píng)估方法包括檢查和測(cè)試兩類測(cè)評(píng)方法，具體為：

a)檢查：檢查是通過(guò)對(duì)測(cè)評(píng)對(duì)象進(jìn)行觀察、查驗(yàn)、分析以幫助測(cè)評(píng)人員理解、澄清或取得證據(jù)的

過(guò)程。檢查主要有評(píng)審、核查、審查、觀察、研究和分析等，檢查對(duì)象是文檔等；

b)測(cè)試：測(cè)試是指使用預(yù)定的方法/工具使測(cè)評(píng)對(duì)象產(chǎn)生特定的結(jié)果，將運(yùn)行結(jié)果與預(yù)期的結(jié)果

進(jìn)行比對(duì)的過(guò)程，主要包括人工評(píng)測(cè)、工具測(cè)試等測(cè)試操作。

5.2指標(biāo)要求及評(píng)估方式概述

表1指標(biāo)項(xiàng)與評(píng)估方式對(duì)照表

指標(biāo)維度指標(biāo)項(xiàng)評(píng)估方式

模型能力模型信息披露檢查

指標(biāo)維度指標(biāo)項(xiàng)評(píng)估方式

文本分類測(cè)試

語(yǔ)義理解測(cè)試

澄清反問(wèn)測(cè)試

情感分析測(cè)試

信息摘要測(cè)試

內(nèi)容生成測(cè)試

信息檢索檢查

智能對(duì)話檢查

系統(tǒng)功能政務(wù)咨詢檢查

文件解讀檢查

智能填表檢查

準(zhǔn)確性測(cè)試

完整性測(cè)試

友好性測(cè)試

系統(tǒng)性能

穩(wěn)定性測(cè)試

實(shí)效性測(cè)試

響應(yīng)時(shí)間測(cè)試

內(nèi)容安全檢驗(yàn)、測(cè)試

數(shù)據(jù)安全檢查

系統(tǒng)安全可用

應(yīng)用安全檢查

服務(wù)可靠性檢查

6指標(biāo)要求及評(píng)估方式詳述

6.1模型能力

6.1.1模型信息披露

指標(biāo)要求：系統(tǒng)提供方應(yīng)向系統(tǒng)使用方披露模型基本信息。

評(píng)估目的：收集模型基本信息以作為模型能力評(píng)估及模型成本投入的參考信息。

評(píng)估方法：模型參數(shù)、訓(xùn)練數(shù)據(jù)、訓(xùn)練框架、時(shí)間成本及算力需求信息披露，具體如下：

a)披露參測(cè)預(yù)訓(xùn)練模型的模型參數(shù)。對(duì)于單流結(jié)構(gòu)模型，披露模型需要存儲(chǔ)的參數(shù)量；對(duì)

于雙流或多流結(jié)構(gòu)模型，分別統(tǒng)計(jì)各模型需要存儲(chǔ)的參數(shù)量，披露模型需要存儲(chǔ)的參數(shù)

量總和。

b)披露參測(cè)預(yù)訓(xùn)練模型的訓(xùn)練階段的數(shù)據(jù)集大小。

c)披露參測(cè)預(yù)訓(xùn)練模型依賴的訓(xùn)練框架類別。

d)估算預(yù)訓(xùn)練模型訓(xùn)練全程各節(jié)點(diǎn)的時(shí)間消耗總和，基于訓(xùn)練使用的設(shè)備信息，將訓(xùn)練設(shè)

備對(duì)標(biāo)到基準(zhǔn)設(shè)備下，計(jì)算模型訓(xùn)練時(shí)使用設(shè)備與基準(zhǔn)設(shè)備的性能比值，換算出參測(cè)預(yù)

訓(xùn)練模型在基準(zhǔn)設(shè)備下的總訓(xùn)練時(shí)長(zhǎng)。

e)估算預(yù)訓(xùn)練模型訓(xùn)練全程各節(jié)點(diǎn)的時(shí)間消耗總和，基于訓(xùn)練使用的設(shè)備信息，將訓(xùn)練設(shè)

備對(duì)標(biāo)到基準(zhǔn)設(shè)備下，計(jì)算模型訓(xùn)練時(shí)使用設(shè)備與基準(zhǔn)設(shè)備的性能比值，換算出參測(cè)預(yù)

訓(xùn)練模型在基準(zhǔn)設(shè)備下的總訓(xùn)練時(shí)長(zhǎng)。

6.1.2文本分類

指標(biāo)要求：模型應(yīng)具備通用領(lǐng)域、政務(wù)領(lǐng)域、及政務(wù)業(yè)務(wù)領(lǐng)域文本分類能力。

評(píng)估目的：評(píng)估大模型對(duì)文本分類任務(wù)的性能。

評(píng)估方法：評(píng)估大模型對(duì)通用領(lǐng)域、政務(wù)領(lǐng)域、及政務(wù)業(yè)務(wù)領(lǐng)域文本進(jìn)行分類的準(zhǔn)確率，計(jì)算方法

見(jiàn)公式：

PC=×100%

式中：P

——文本分類準(zhǔn)確率；

PC——分類正確的文本數(shù)；

P1——待分類的總文本數(shù)；

6.1.3語(yǔ)義理P解

指標(biāo)要求：模型應(yīng)具備語(yǔ)義理解能力，包括意圖理解、政務(wù)專有名詞理解等。

評(píng)估目的：評(píng)估大模型對(duì)語(yǔ)義理解任務(wù)的性能。

評(píng)估方法：評(píng)估對(duì)用戶咨詢?cè)捫g(shù)中語(yǔ)義理解能力，包括意圖理解、政務(wù)專有名詞理解等，具體如下：

a)意圖理解性能評(píng)估方法：評(píng)估大模型對(duì)用戶咨詢?cè)捫g(shù)中單意圖、多意圖的理解準(zhǔn)確率，

計(jì)算方法見(jiàn)公式

PF=×100%

式中：F

PF——意圖識(shí)別準(zhǔn)確率；

F1——正確識(shí)別意圖的總句數(shù)；

F——意圖識(shí)別數(shù)據(jù)總句數(shù)；

b)政務(wù)專有名詞理解性能評(píng)估方法：評(píng)估大模型對(duì)政務(wù)專業(yè)名詞解釋的準(zhǔn)確率，計(jì)算方法

見(jiàn)公式：

P?=×100%

式中：F

——政務(wù)專有名詞理解準(zhǔn)確率；

PC——政務(wù)專有名詞正確解釋的總句數(shù)；

PF1——政務(wù)專有名詞解釋的總句數(shù)；

6.1.4信息摘要

指標(biāo)要求：模型應(yīng)具備信息摘要能力，以支持用戶在政策、法規(guī)、辦事指南、通知等文件中快速獲

取關(guān)鍵信息。

評(píng)估目的：評(píng)估大模型信息摘要的性能。

評(píng)估方式：評(píng)估大模型完成信息摘要任務(wù)的客觀指標(biāo)ROUGE-L-f值，計(jì)算方法見(jiàn)公式：

???(?,?)

R???=

len(Y)

???(?,?)

P???=

len(Y)

(1+?)????P???

式中：F???=2

????+?P???

X——參考摘要；

Y——生成摘要；

LCS(X,Y)——X和Y的最大公共子字符串(LCS)的長(zhǎng)度；

β——超參數(shù)；

6.1.5內(nèi)容生成

指標(biāo)要求：模型應(yīng)具備內(nèi)容生成能力，可針對(duì)用戶咨詢問(wèn)題生成可讀易懂的回復(fù)內(nèi)容。

評(píng)估目的：評(píng)估大模型生成內(nèi)容的質(zhì)量。

評(píng)估方法：采用人工評(píng)價(jià)法，對(duì)生成內(nèi)容進(jìn)行流暢性、連貫性主觀評(píng)價(jià)，具體評(píng)分要求參考下表：

表2內(nèi)容生成評(píng)分準(zhǔn)則

評(píng)分準(zhǔn)則

評(píng)分

流暢性連貫性

1分文本不具備可讀性；文本和前文邏輯矛盾；

文本具有可讀性，但存在大量搭配不當(dāng)?shù)日Z(yǔ)法

分文本和前文存在少量邏輯矛盾；

2錯(cuò)誤；

文本和前文無(wú)明顯邏輯矛盾，但和前文轉(zhuǎn)折不

分文本基本流暢，存在少碰語(yǔ)法錯(cuò)誤；

3夠流暢；

4分文本流暢，存在少量搭配不當(dāng)；文本和前文無(wú)邏輯矛盾，且和前文轉(zhuǎn)折流暢；

5分文本十分流暢，無(wú)任何語(yǔ)法錯(cuò)誤；文本和前文無(wú)邏輯矛盾，且和前文連貫一致。

6.2系統(tǒng)功能

6.2.1信息檢索

指標(biāo)要求：系統(tǒng)應(yīng)具備信息檢索能力，在信息庫(kù)中快速檢索出用戶詢問(wèn)或搜索的對(duì)應(yīng)內(nèi)容。

評(píng)估目的：檢驗(yàn)系統(tǒng)是否具備政務(wù)信息檢索功能。

評(píng)估方法：

a)材料調(diào)研：

1)材料中簡(jiǎn)述實(shí)現(xiàn)信息檢索功能的技術(shù)方法；

2)材料中簡(jiǎn)述信息檢索功能實(shí)現(xiàn)情況（如信息源、檢索維度、檢索方式等）。

b)模擬演示

1)依照材料中信息檢索功能實(shí)現(xiàn)情況進(jìn)行系統(tǒng)操作演示；

2)記錄系統(tǒng)演示效果。

6.2.2政務(wù)咨詢

指標(biāo)要求：系統(tǒng)應(yīng)具備政務(wù)咨詢能力，可針對(duì)用戶咨詢的政務(wù)相關(guān)問(wèn)題做出回答。

評(píng)估目的：檢驗(yàn)系統(tǒng)是否具備政務(wù)咨詢功能。

評(píng)估方法：

a)材料調(diào)研：

1)材料中簡(jiǎn)述實(shí)現(xiàn)政務(wù)咨詢功能的技術(shù)方法；

2)材料中簡(jiǎn)述信息政務(wù)咨詢能力范圍（如咨詢內(nèi)容覆蓋度、咨詢方式、轉(zhuǎn)人工邏輯等）。

b)模擬演示

1)演示材料中提到的信息檢索能力；

2)記錄系統(tǒng)演示效果。

6.2.3智能對(duì)話

指標(biāo)要求：

a)應(yīng)具備單輪對(duì)話能力；

b)應(yīng)具備多輪對(duì)話能力；

c)應(yīng)具備多類型智能對(duì)話能力，如任務(wù)式對(duì)話、閑聊式對(duì)話等；

d)宜具備多語(yǔ)種對(duì)話能力。

評(píng)估目的：評(píng)估系統(tǒng)是否具備智能對(duì)話多項(xiàng)能力。

評(píng)估方法：

a)材料調(diào)研：

1)材料中簡(jiǎn)述系統(tǒng)具備哪些智能對(duì)話能力；

2)材料中簡(jiǎn)述系統(tǒng)智能對(duì)話優(yōu)化方式。

b)模擬演示

1)演示材料中提到的智能對(duì)話能力；

2)記錄系統(tǒng)演示效果。

6.2.4政策解讀

指標(biāo)要求：系統(tǒng)宜具備政策解讀能力，以輔助工作人員快速了解各類政府文件中的內(nèi)容。

評(píng)估目的：檢驗(yàn)系統(tǒng)是否具備政策解讀功能。

評(píng)估方法：

a)材料調(diào)研：

1)材料中簡(jiǎn)述實(shí)現(xiàn)政策解讀功能的使用方法；

2)材料中簡(jiǎn)述信息政策解讀能力范圍（如內(nèi)容顆粒度、解讀內(nèi)容呈現(xiàn)等）。

b)模擬演示

1)演示材料中提到的政策解讀能力；

2)記錄系統(tǒng)演示效果。

6.2.5智能填表

指標(biāo)要求：系統(tǒng)宜具備智能填表能力，以輔助工作人員及用戶快速填制相關(guān)表格。

評(píng)估目的：檢驗(yàn)系統(tǒng)是否具備智能填表功能。

評(píng)估方法：

a)材料調(diào)研：

1)材料中簡(jiǎn)述實(shí)現(xiàn)智能填表功能的使用方法；

2)材料中簡(jiǎn)述信息智能填表能力范圍（如表單類型、可填內(nèi)容等）。

b)模擬演示

1)演示材料中提到的智能填表能力；

2)記錄系統(tǒng)演示效果。

6.3服務(wù)性能

6.3.1準(zhǔn)確性

指標(biāo)要求：系統(tǒng)政務(wù)問(wèn)詢能力應(yīng)具備準(zhǔn)確性，回復(fù)內(nèi)容應(yīng)包含問(wèn)題中提到的關(guān)鍵知識(shí)點(diǎn)，并且可對(duì)

用戶意圖進(jìn)行準(zhǔn)確理解，模糊意圖問(wèn)題進(jìn)行澄清和反問(wèn)等能力。

評(píng)估目的：評(píng)估政務(wù)問(wèn)詢回答準(zhǔn)確性。

評(píng)估方法：采用人工評(píng)價(jià)法，對(duì)問(wèn)詢答案進(jìn)行準(zhǔn)確性主觀評(píng)價(jià)，具體評(píng)分要求參考下表：

表3政務(wù)咨詢準(zhǔn)確性評(píng)分準(zhǔn)則

評(píng)分準(zhǔn)則

評(píng)分

準(zhǔn)確性

1分用戶意圖完全識(shí)別錯(cuò)誤，答非所問(wèn)；

2分用戶意圖未完全理解，關(guān)鍵知識(shí)點(diǎn)回答存在小部分錯(cuò)誤或遺漏；

3分用戶意圖理解全面且準(zhǔn)確，關(guān)鍵知識(shí)點(diǎn)回答存在小部分錯(cuò)誤或遺漏；

用戶意圖理解全面且準(zhǔn)確，關(guān)鍵知識(shí)點(diǎn)全部正確回答，但是答案中包含與

4分

其他意圖相關(guān)的信息；

用戶意圖理解全面且準(zhǔn)確，關(guān)鍵知識(shí)點(diǎn)全部正確回答，并且語(yǔ)句描述自然

5分

易懂，沒(méi)有其他意圖相關(guān)的冗余信息。

6.3.2完整性

指標(biāo)要求：系統(tǒng)政務(wù)問(wèn)詢能力應(yīng)具備完整性，回復(fù)內(nèi)容應(yīng)確保答案內(nèi)容全面、完整、無(wú)重要信息遺

漏，并提供關(guān)聯(lián)知識(shí)參考。

評(píng)估目的：評(píng)估政務(wù)問(wèn)詢回答完整性。

評(píng)估方法：采用人工評(píng)價(jià)法，對(duì)問(wèn)詢答案進(jìn)行完整性主觀評(píng)價(jià)，具體評(píng)分要求參考下表：

表4政務(wù)咨詢完整性評(píng)分準(zhǔn)則

評(píng)分準(zhǔn)則

評(píng)分

完整性

答案不完整，缺少所有關(guān)鍵細(xì)節(jié)和解釋，無(wú)多知識(shí)點(diǎn)整合能力，無(wú)知識(shí)依

1分

據(jù)來(lái)源或知識(shí)依據(jù)來(lái)源錯(cuò)誤；

答案不完整，缺少部分關(guān)鍵細(xì)節(jié)和解釋，對(duì)多知識(shí)點(diǎn)整合完整不完整，知

2分

識(shí)依據(jù)來(lái)源清晰；

答案基本完整，但一些關(guān)鍵細(xì)節(jié)的解釋但不夠完整和詳細(xì)，對(duì)多知識(shí)點(diǎn)整

3分

合略有遺漏，知識(shí)依據(jù)來(lái)源清晰；

答案完整，包含了大部分的關(guān)鍵細(xì)節(jié)和解釋，但有一些細(xì)微的不完整之處，

4分

對(duì)多知識(shí)點(diǎn)整合完整，知識(shí)依據(jù)來(lái)源清晰；

答案完整，答案包含了所有的關(guān)鍵細(xì)節(jié)和解釋，對(duì)多知識(shí)點(diǎn)整合完整，沒(méi)

5分

有任何遺漏，知識(shí)依據(jù)來(lái)源清晰。

6.3.3友好性

指標(biāo)要求：系統(tǒng)政務(wù)問(wèn)詢能力應(yīng)具備友好性，應(yīng)確保系統(tǒng)回答的內(nèi)容易于理解和接受，符合用戶的

語(yǔ)言習(xí)慣和心理預(yù)期，盡可能用通俗易懂便于理解的形式回答問(wèn)題，提高用戶的滿意度和體驗(yàn)感。

評(píng)估目的：評(píng)估政務(wù)問(wèn)詢回答友好性。

評(píng)估方法：采用人工評(píng)價(jià)法，對(duì)問(wèn)詢答案進(jìn)行完整性主觀評(píng)價(jià)，具體評(píng)分要求參考下表：

表5政務(wù)咨詢友好性評(píng)分準(zhǔn)則

評(píng)分準(zhǔn)則

評(píng)分

友好性

1分答案的表達(dá)方式晦澀難懂，對(duì)負(fù)面情緒有不友好回答；

答案表達(dá)方式不夠清晰或不夠易于理解，出現(xiàn)大量難懂政策詞匯，對(duì)負(fù)面

2分

情緒無(wú)友好性回答；

3分答案表達(dá)方式清晰但缺乏一些深入的解釋，對(duì)負(fù)面情緒無(wú)友好性回答；

答案表達(dá)方式清晰且易理解，具備邏輯性及總結(jié)能力，對(duì)負(fù)面情緒無(wú)友好

4分

性回答；

答案表達(dá)方式非常清晰易于理解，具備邏輯性及總結(jié)能力，對(duì)負(fù)面情緒能

5分

做出安撫性回答。

6.3.4時(shí)效性

指標(biāo)要求：系統(tǒng)政務(wù)問(wèn)詢能力應(yīng)具備時(shí)效性，確保輸出輸出的時(shí)效性，輸出內(nèi)容在有效期內(nèi)，能夠

識(shí)別并過(guò)濾過(guò)期內(nèi)容。

人人文庫(kù)> 全部分類> 專業(yè)文獻(xiàn) > 工程機(jī)械

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

《基于大模型的政務(wù)咨詢系統(tǒng)技術(shù)要求與評(píng)估方法》

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

《基于大模型的政務(wù)咨詢系統(tǒng)技術(shù)要求與評(píng)估方法》

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔