




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
4基于大模型的政務(wù)咨詢系統(tǒng)技術(shù)要求與評估方法本文件面向以大規(guī)模與訓(xùn)練模型為技術(shù)底座,能夠提供智能問答、政務(wù)咨詢、知識搜索等功能的基于大模型的政務(wù)咨詢系統(tǒng)。本文件規(guī)定了基于大模型的政務(wù)咨詢系統(tǒng)的功能、性能要求和評估方法,主要包括大模型基礎(chǔ)能力、政務(wù)咨詢業(yè)務(wù)能力、系統(tǒng)安全應(yīng)用能力及指標評估方法四個部分。本文件適用于基于大模型的政務(wù)咨詢系統(tǒng)及同類產(chǎn)品的的研發(fā)、評估和驗收等工作。2規(guī)范性引用文件下列文件對于本文件的應(yīng)用是必不可少的。凡是注日期的引用文件,僅所注日期的版本適用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。GB/T35282-2023信息安全技術(shù)電子政務(wù)移動辦公系統(tǒng)安全技術(shù)規(guī)范GB/T31506-2022信息安全技術(shù)政務(wù)網(wǎng)站系統(tǒng)安全指南3術(shù)語和定義3.1大模型largemodel一種基于海量通用數(shù)據(jù)訓(xùn)練得到的大規(guī)模預(yù)訓(xùn)練模型,具備多個領(lǐng)域的任務(wù)能力且通用性較高,但在實際應(yīng)用場景中仍需結(jié)合生產(chǎn)數(shù)據(jù)進行二次開發(fā)。4縮略語下列縮略語適用于本文件。ROUGE:面向召回率的評價方法(Recall-OrientedUnderstudyforGistingEvaluation)LCS:最長公共子序列(Longestcommonsubsequence)5指標要求及評估方法概述5.1評估方法概述針對模型能力部分的評估方法包括檢查和測試兩類測評方法,具體為:a)檢查:檢查是通過對測評對象進行觀察、查驗、分析以幫助測評人員理解、澄清或取得證據(jù)的過程。檢查主要有評審、核查、審查、觀察、研究和分析等,檢查對象是文檔等;b)測試:測試是指使用預(yù)定的方法/工具使測評對象產(chǎn)生特定的結(jié)果,將運行結(jié)果與預(yù)期的結(jié)果進行比對的過程,主要包括人工評測、工具測試等測試操作。5.2指標要求及評估方式概述表1指標項與評估方式對照表指標維度指標項評估方式模型能力模型信息披露檢查5指標維度指標項評估方式文本分類測試語義理解測試澄清反問測試情感分析測試信息摘要測試內(nèi)容生成測試系統(tǒng)功能信息檢索檢查智能對話檢查政務(wù)咨詢檢查文件解讀檢查智能填表檢查系統(tǒng)性能準確性測試完整性測試友好性測試穩(wěn)定性測試實效性測試響應(yīng)時間測試系統(tǒng)安全可用內(nèi)容安全檢驗、測試數(shù)據(jù)安全檢查應(yīng)用安全檢查服務(wù)可靠性檢查6指標要求及評估方式詳述6.1模型能力6.1.1模型信息披露指標要求:系統(tǒng)提供方應(yīng)向系統(tǒng)使用方披露模型基本信息。評估目的:收集模型基本信息以作為模型能力評估及模型成本投入的參考信息。評估方法:模型參數(shù)、訓(xùn)練數(shù)據(jù)、訓(xùn)練框架、時間成本及算力需求信息披露,具體如下:a)披露參測預(yù)訓(xùn)練模型的模型參數(shù)。對于單流結(jié)構(gòu)模型,披露模型需要存儲的參數(shù)量;對于雙流或多流結(jié)構(gòu)模型,分別統(tǒng)計各模型需要存儲的參數(shù)量,披露模型需要存儲的參數(shù)量總和。b)披露參測預(yù)訓(xùn)練模型的訓(xùn)練階段的數(shù)據(jù)集大小。c)披露參測預(yù)訓(xùn)練模型依賴的訓(xùn)練框架類別。d)估算預(yù)訓(xùn)練模型訓(xùn)練全程各節(jié)點的時間消耗總和,基于訓(xùn)練使用的設(shè)備信息,將訓(xùn)練設(shè)備對標到基準設(shè)備下,計算模型訓(xùn)練時使用設(shè)備與基準設(shè)備的性能比值,換算出參測預(yù)訓(xùn)練模型在基準設(shè)備下的總訓(xùn)練時長。e)估算預(yù)訓(xùn)練模型訓(xùn)練全程各節(jié)點的時間消耗總和,基于訓(xùn)練使用的設(shè)備信息,將訓(xùn)練設(shè)備對標到基準設(shè)備下,計算模型訓(xùn)練時使用設(shè)備與基準設(shè)備的性能比值,換算出參測預(yù)訓(xùn)練模型在基準設(shè)備下的總訓(xùn)練時長。66.1.2文本分類指標要求:模型應(yīng)具備通用領(lǐng)域、政務(wù)領(lǐng)域、及政務(wù)業(yè)務(wù)領(lǐng)域文本分類能力。評估目的:評估大模型對文本分類任務(wù)的性能。評估方法:評估大模型對通用領(lǐng)域、政務(wù)領(lǐng)域、及政務(wù)業(yè)務(wù)領(lǐng)域文本進行分類的準確率,計算方法見公式:式中:PC——文本分類準確率;P1——分類正確的文本數(shù);P——待分類的總文本數(shù);6.1.3語義理解指標要求:模型應(yīng)具備語義理解能力,包括意圖理解、政務(wù)專有名詞理解等。評估目的:評估大模型對語義理解任務(wù)的性能。評估方法:評估對用戶咨詢話術(shù)中語義理解能力,包括意圖理解、政務(wù)專有名詞理解等,具體如下:a)意圖理解性能評估方法:評估大模型對用戶咨詢話術(shù)中單意圖、多意圖的理解準確率,計算方法見公式式中:PF——意圖識別準確率;F1——正確識別意圖的總句數(shù);F——意圖識別數(shù)據(jù)總句數(shù);b)政務(wù)專有名詞理解性能評估方法:評估大模型對政務(wù)專業(yè)名詞解釋的準確率,計算方法見公式:式中:PC——政務(wù)專有名詞理解準確率;P1——政務(wù)專有名詞正確解釋的總句數(shù);F——政務(wù)專有名詞解釋的總句數(shù);6.1.4信息摘要指標要求:模型應(yīng)具備信息摘要能力,以支持用戶在政策、法規(guī)、辦事指南、通知等文件中快速獲取關(guān)鍵信息。評估目的:評估大模型信息摘要的性能。評估方式:評估大模型完成信息摘要任務(wù)的客觀指標ROUGE-L-f值,計算方法見公式:7LCS(X,Y)RLCS=len(Y)LCS(X,Y)PLCS=len(Y)RLCS+β2PLCS(1RLCS+β2PLCSFlcs=式中:X——參考摘要;Y——生成摘要;LCS(X,Y)——X和Y的最大公共子字符串(LCS)的長度;β——超參數(shù);6.1.5內(nèi)容生成指標要求:模型應(yīng)具備內(nèi)容生成能力,可針對用戶咨詢問題生成可讀易懂的回復(fù)內(nèi)容。評估目的:評估大模型生成內(nèi)容的質(zhì)量。評估方法:采用人工評價法,對生成內(nèi)容進行流暢性、連貫性主觀評價,具體評分要求參考下表:表2內(nèi)容生成評分準則文本和前文無明顯邏輯矛盾,但和前文轉(zhuǎn)折不6.2系統(tǒng)功能6.2.1信息檢索指標要求:系統(tǒng)應(yīng)具備信息檢索能力,在信息庫中快速檢索出用戶詢問或搜索的對應(yīng)內(nèi)容。評估目的:檢驗系統(tǒng)是否具備政務(wù)信息檢索功能。評估方法:a)材料調(diào)研:1)材料中簡述實現(xiàn)信息檢索功能的技術(shù)方法;2)材料中簡述信息檢索功能實現(xiàn)情況(如信息源、檢索維度、檢索方式等)。b)模擬演示1)依照材料中信息檢索功能實現(xiàn)情況進行系統(tǒng)操作演示;2)記錄系統(tǒng)演示效果。6.2.2政務(wù)咨詢指標要求:系統(tǒng)應(yīng)具備政務(wù)咨詢能力,可針對用戶咨詢的政務(wù)相關(guān)問題做出回答。評估目的:檢驗系統(tǒng)是否具備政務(wù)咨詢功能。評估方法:8a)材料調(diào)研:1)材料中簡述實現(xiàn)政務(wù)咨詢功能的技術(shù)方法;2)材料中簡述信息政務(wù)咨詢能力范圍(如咨詢內(nèi)容覆蓋度、咨詢方式、轉(zhuǎn)人工邏輯等)。b)模擬演示1)演示材料中提到的信息檢索能力;2)記錄系統(tǒng)演示效果。6.2.3智能對話指標要求:a)應(yīng)具備單輪對話能力;b)應(yīng)具備多輪對話能力;c)應(yīng)具備多類型智能對話能力,如任務(wù)式對話、閑聊式對話等;d)宜具備多語種對話能力。評估目的:評估系統(tǒng)是否具備智能對話多項能力。評估方法:a)材料調(diào)研:1)材料中簡述系統(tǒng)具備哪些智能對話能力;2)材料中簡述系統(tǒng)智能對話優(yōu)化方式。b)模擬演示1)演示材料中提到的智能對話能力;2)記錄系統(tǒng)演示效果。6.2.4政策解讀指標要求:系統(tǒng)宜具備政策解讀能力,以輔助工作人員快速了解各類政府文件中的內(nèi)容。評估目的:檢驗系統(tǒng)是否具備政策解讀功能。評估方法:a)材料調(diào)研:1)材料中簡述實現(xiàn)政策解讀功能的使用方法;2)材料中簡述信息政策解讀能力范圍(如內(nèi)容顆粒度、解讀內(nèi)容呈現(xiàn)等)。b)模擬演示1)演示材料中提到的政策解讀能力;2)記錄系統(tǒng)演示效果。6.2.5智能填表指標要求:系統(tǒng)宜具備智能填表能力,以輔助工作人員及用戶快速填制相關(guān)表格。評估目的:檢驗系統(tǒng)是否具備智能填表功能。評估方法:a)材料調(diào)研:1)材料中簡述實現(xiàn)智能填表功能的使用方法;2)材料中簡述信息智能填表能力范圍(如表單類型、可填內(nèi)容等)。b)模擬演示91)演示材料中提到的智能填表能力;2)記錄系統(tǒng)演示效果。6.3服務(wù)性能6.3.1準確性指標要求:系統(tǒng)政務(wù)問詢能力應(yīng)具備準確性,回復(fù)內(nèi)容應(yīng)包含問題中提到的關(guān)鍵知識點,并且可對用戶意圖進行準確理解,模糊意圖問題進行澄清和反問等能力。評估目的:評估政務(wù)問詢回答準確性。評估方法:采用人工評價法,對問詢答案進行準確性主觀評價,具體評分要求參考下表:表3政務(wù)咨詢準確性評分準則用戶意圖理解全面且準確,關(guān)鍵知識點回答存6.3.2完整性指標要求:系統(tǒng)政務(wù)問詢能力應(yīng)具備完整性,回復(fù)內(nèi)容應(yīng)確保答案內(nèi)容全面、完整、無重要信息遺漏,并提供關(guān)聯(lián)知識參考。評估目的:評估政務(wù)問詢回答完整性。評估方法:采用人工評價法,對問詢答案進行完整性主觀評價,具體評分要求參考下表:表4政務(wù)咨詢完整性評分準則6.3.3友好性指標要求:系統(tǒng)政務(wù)問詢能力應(yīng)具備友好性,應(yīng)確保系統(tǒng)回答的內(nèi)容易于理解和接受,符合用戶的語言習慣和心理預(yù)期,盡可能用通俗易懂便于理解的形式回答問題,提高用戶的滿意度和體驗感。評估目的:評估政務(wù)問詢回答友好性。評估方法:采用人工評價法,對問詢答案進行完整性主觀評價,具體評分要求參考下表:表5政務(wù)咨詢友好性評分準則答案表達方式清晰但缺乏一些深入的解釋,對負面6.3.4時效性指標要求:系統(tǒng)政務(wù)問詢能力應(yīng)具備時效性,確保輸出輸出的時效性,輸出內(nèi)容在有效期內(nèi),能夠識別并過濾過期內(nèi)容。評估目的:評估政務(wù)問詢回答友好性。評估方法:采用人工評價法,對問詢答案進行完整性主觀評價,具體評分要求參考下表:表6政務(wù)咨詢時效性評分準則答案內(nèi)容存在有部分不合時宜,信息不會對6.4系統(tǒng)安全可用6.4.1內(nèi)容安全指標要求:a)應(yīng)具備意識形態(tài)安全性,b)應(yīng)不涉及違法及倫理道德內(nèi)容。評估目的:評估系統(tǒng)輸出內(nèi)容安全性。評估方法:技術(shù)測試和專家攻擊等。6.4.2數(shù)據(jù)安全指標要求:系統(tǒng)應(yīng)參照GB/T35282-2023中9.5的要求。評估目的:評估系統(tǒng)是否滿足GB/T35282-2023中9.5的要求。評估方法:應(yīng)參照GB/T35282-2023中11.1.2.3的測試方法。6.4.3應(yīng)用安全指
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 農(nóng)村門臉出售合同標準文本
- 加工花茶售賣合同范例
- 修魚塘合同范例
- 會展策劃施工合同標準文本
- 以車抵債合同范例
- 買賣教室課桌合同標準文本
- 基于問題的學習方式與學生動力提升
- 2025安康紫陽縣農(nóng)村供水管理有限公司招聘(21人)筆試參考題庫附帶答案詳解
- 跨區(qū)域合作機制下的人才教育與培養(yǎng)模式
- 信息安全與社會責任擔當
- 人教版 數(shù)學一年級下冊 第三單元 100以內(nèi)數(shù)的認識綜合素養(yǎng)評價(含答案)
- 河南省鄭州市東區(qū)2024-2025學年九年級下學期第一次數(shù)學試題試卷(卷后帶解析)
- 2025年公共衛(wèi)生相關(guān)試題及答案
- 13《萬卡》(精美課件)【知識精研】六年級語文下冊(統(tǒng)編版五四制2024)
- 2025年陜西省咸陽市秦都區(qū)啟迪中學九年級中考一模數(shù)學試題(原卷版+解析版)
- 嘉德委托拍賣合同范本
- 2025年合肥經(jīng)濟技術(shù)職業(yè)學院單招職業(yè)技能測試題庫含答案
- 2025年河南應(yīng)用技術(shù)職業(yè)學院單招職業(yè)技能測試題庫新版
- 2025年河南藝術(shù)職業(yè)學院單招職業(yè)技能測試題庫及參考答案
- 2025年吉林鐵道職業(yè)技術(shù)學院單招職業(yè)傾向性測試題庫必考題
- 實驗室試劑及儀器采購合同書
評論
0/150
提交評論