




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
4基于大模型的政務咨詢系統(tǒng)技術要求與評估方法本文件面向以大規(guī)模與訓練模型為技術底座,能夠提供智能問答、政務咨詢、知識搜索等功能的基于大模型的政務咨詢系統(tǒng)。本文件規(guī)定了基于大模型的政務咨詢系統(tǒng)的功能、性能要求和評估方法,主要包括大模型基礎能力、政務咨詢業(yè)務能力、系統(tǒng)安全應用能力及指標評估方法四個部分。本文件適用于基于大模型的政務咨詢系統(tǒng)及同類產(chǎn)品的的研發(fā)、評估和驗收等工作。2規(guī)范性引用文件下列文件對于本文件的應用是必不可少的。凡是注日期的引用文件,僅所注日期的版本適用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。GB/T35282-2023信息安全技術電子政務移動辦公系統(tǒng)安全技術規(guī)范GB/T31506-2022信息安全技術政務網(wǎng)站系統(tǒng)安全指南3術語和定義3.1大模型largemodel一種基于海量通用數(shù)據(jù)訓練得到的大規(guī)模預訓練模型,具備多個領域的任務能力且通用性較高,但在實際應用場景中仍需結合生產(chǎn)數(shù)據(jù)進行二次開發(fā)。4縮略語下列縮略語適用于本文件。ROUGE:面向召回率的評價方法(Recall-OrientedUnderstudyforGistingEvaluation)LCS:最長公共子序列(Longestcommonsubsequence)5指標要求及評估方法概述5.1評估方法概述針對模型能力部分的評估方法包括檢查和測試兩類測評方法,具體為:a)檢查:檢查是通過對測評對象進行觀察、查驗、分析以幫助測評人員理解、澄清或取得證據(jù)的過程。檢查主要有評審、核查、審查、觀察、研究和分析等,檢查對象是文檔等;b)測試:測試是指使用預定的方法/工具使測評對象產(chǎn)生特定的結果,將運行結果與預期的結果進行比對的過程,主要包括人工評測、工具測試等測試操作。5.2指標要求及評估方式概述表1指標項與評估方式對照表指標維度指標項評估方式模型能力模型信息披露檢查5指標維度指標項評估方式文本分類測試語義理解測試澄清反問測試情感分析測試信息摘要測試內容生成測試系統(tǒng)功能信息檢索檢查智能對話檢查政務咨詢檢查文件解讀檢查智能填表檢查系統(tǒng)性能準確性測試完整性測試友好性測試穩(wěn)定性測試實效性測試響應時間測試系統(tǒng)安全可用內容安全檢驗、測試數(shù)據(jù)安全檢查應用安全檢查服務可靠性檢查6指標要求及評估方式詳述6.1模型能力6.1.1模型信息披露指標要求:系統(tǒng)提供方應向系統(tǒng)使用方披露模型基本信息。評估目的:收集模型基本信息以作為模型能力評估及模型成本投入的參考信息。評估方法:模型參數(shù)、訓練數(shù)據(jù)、訓練框架、時間成本及算力需求信息披露,具體如下:a)披露參測預訓練模型的模型參數(shù)。對于單流結構模型,披露模型需要存儲的參數(shù)量;對于雙流或多流結構模型,分別統(tǒng)計各模型需要存儲的參數(shù)量,披露模型需要存儲的參數(shù)量總和。b)披露參測預訓練模型的訓練階段的數(shù)據(jù)集大小。c)披露參測預訓練模型依賴的訓練框架類別。d)估算預訓練模型訓練全程各節(jié)點的時間消耗總和,基于訓練使用的設備信息,將訓練設備對標到基準設備下,計算模型訓練時使用設備與基準設備的性能比值,換算出參測預訓練模型在基準設備下的總訓練時長。e)估算預訓練模型訓練全程各節(jié)點的時間消耗總和,基于訓練使用的設備信息,將訓練設備對標到基準設備下,計算模型訓練時使用設備與基準設備的性能比值,換算出參測預訓練模型在基準設備下的總訓練時長。66.1.2文本分類指標要求:模型應具備通用領域、政務領域、及政務業(yè)務領域文本分類能力。評估目的:評估大模型對文本分類任務的性能。評估方法:評估大模型對通用領域、政務領域、及政務業(yè)務領域文本進行分類的準確率,計算方法見公式:式中:PC——文本分類準確率;P1——分類正確的文本數(shù);P——待分類的總文本數(shù);6.1.3語義理解指標要求:模型應具備語義理解能力,包括意圖理解、政務專有名詞理解等。評估目的:評估大模型對語義理解任務的性能。評估方法:評估對用戶咨詢話術中語義理解能力,包括意圖理解、政務專有名詞理解等,具體如下:a)意圖理解性能評估方法:評估大模型對用戶咨詢話術中單意圖、多意圖的理解準確率,計算方法見公式式中:PF——意圖識別準確率;F1——正確識別意圖的總句數(shù);F——意圖識別數(shù)據(jù)總句數(shù);b)政務專有名詞理解性能評估方法:評估大模型對政務專業(yè)名詞解釋的準確率,計算方法見公式:式中:PC——政務專有名詞理解準確率;P1——政務專有名詞正確解釋的總句數(shù);F——政務專有名詞解釋的總句數(shù);6.1.4信息摘要指標要求:模型應具備信息摘要能力,以支持用戶在政策、法規(guī)、辦事指南、通知等文件中快速獲取關鍵信息。評估目的:評估大模型信息摘要的性能。評估方式:評估大模型完成信息摘要任務的客觀指標ROUGE-L-f值,計算方法見公式:7LCS(X,Y)RLCS=len(Y)LCS(X,Y)PLCS=len(Y)RLCS+β2PLCS(1RLCS+β2PLCSFlcs=式中:X——參考摘要;Y——生成摘要;LCS(X,Y)——X和Y的最大公共子字符串(LCS)的長度;β——超參數(shù);6.1.5內容生成指標要求:模型應具備內容生成能力,可針對用戶咨詢問題生成可讀易懂的回復內容。評估目的:評估大模型生成內容的質量。評估方法:采用人工評價法,對生成內容進行流暢性、連貫性主觀評價,具體評分要求參考下表:表2內容生成評分準則文本和前文無明顯邏輯矛盾,但和前文轉折不6.2系統(tǒng)功能6.2.1信息檢索指標要求:系統(tǒng)應具備信息檢索能力,在信息庫中快速檢索出用戶詢問或搜索的對應內容。評估目的:檢驗系統(tǒng)是否具備政務信息檢索功能。評估方法:a)材料調研:1)材料中簡述實現(xiàn)信息檢索功能的技術方法;2)材料中簡述信息檢索功能實現(xiàn)情況(如信息源、檢索維度、檢索方式等)。b)模擬演示1)依照材料中信息檢索功能實現(xiàn)情況進行系統(tǒng)操作演示;2)記錄系統(tǒng)演示效果。6.2.2政務咨詢指標要求:系統(tǒng)應具備政務咨詢能力,可針對用戶咨詢的政務相關問題做出回答。評估目的:檢驗系統(tǒng)是否具備政務咨詢功能。評估方法:8a)材料調研:1)材料中簡述實現(xiàn)政務咨詢功能的技術方法;2)材料中簡述信息政務咨詢能力范圍(如咨詢內容覆蓋度、咨詢方式、轉人工邏輯等)。b)模擬演示1)演示材料中提到的信息檢索能力;2)記錄系統(tǒng)演示效果。6.2.3智能對話指標要求:a)應具備單輪對話能力;b)應具備多輪對話能力;c)應具備多類型智能對話能力,如任務式對話、閑聊式對話等;d)宜具備多語種對話能力。評估目的:評估系統(tǒng)是否具備智能對話多項能力。評估方法:a)材料調研:1)材料中簡述系統(tǒng)具備哪些智能對話能力;2)材料中簡述系統(tǒng)智能對話優(yōu)化方式。b)模擬演示1)演示材料中提到的智能對話能力;2)記錄系統(tǒng)演示效果。6.2.4政策解讀指標要求:系統(tǒng)宜具備政策解讀能力,以輔助工作人員快速了解各類政府文件中的內容。評估目的:檢驗系統(tǒng)是否具備政策解讀功能。評估方法:a)材料調研:1)材料中簡述實現(xiàn)政策解讀功能的使用方法;2)材料中簡述信息政策解讀能力范圍(如內容顆粒度、解讀內容呈現(xiàn)等)。b)模擬演示1)演示材料中提到的政策解讀能力;2)記錄系統(tǒng)演示效果。6.2.5智能填表指標要求:系統(tǒng)宜具備智能填表能力,以輔助工作人員及用戶快速填制相關表格。評估目的:檢驗系統(tǒng)是否具備智能填表功能。評估方法:a)材料調研:1)材料中簡述實現(xiàn)智能填表功能的使用方法;2)材料中簡述信息智能填表能力范圍(如表單類型、可填內容等)。b)模擬演示91)演示材料中提到的智能填表能力;2)記錄系統(tǒng)演示效果。6.3服務性能6.3.1準確性指標要求:系統(tǒng)政務問詢能力應具備準確性,回復內容應包含問題中提到的關鍵知識點,并且可對用戶意圖進行準確理解,模糊意圖問題進行澄清和反問等能力。評估目的:評估政務問詢回答準確性。評估方法:采用人工評價法,對問詢答案進行準確性主觀評價,具體評分要求參考下表:表3政務咨詢準確性評分準則用戶意圖理解全面且準確,關鍵知識點回答存6.3.2完整性指標要求:系統(tǒng)政務問詢能力應具備完整性,回復內容應確保答案內容全面、完整、無重要信息遺漏,并提供關聯(lián)知識參考。評估目的:評估政務問詢回答完整性。評估方法:采用人工評價法,對問詢答案進行完整性主觀評價,具體評分要求參考下表:表4政務咨詢完整性評分準則6.3.3友好性指標要求:系統(tǒng)政務問詢能力應具備友好性,應確保系統(tǒng)回答的內容易于理解和接受,符合用戶的語言習慣和心理預期,盡可能用通俗易懂便于理解的形式回答問題,提高用戶的滿意度和體驗感。評估目的:評估政務問詢回答友好性。評估方法:采用人工評價法,對問詢答案進行完整性主觀評價,具體評分要求參考下表:表5政務咨詢友好性評分準則答案表達方式清晰但缺乏一些深入的解釋,對負面6.3.4時效性指標要求:系統(tǒng)政務問詢能力應具備時效性,確保輸出輸出的時效性,輸出內容在有效期內,能夠識別并過濾過期內容。評估目的:評估政務問詢回答友好性。評估方法:采用人工評價法,對問詢答案進行完整性主觀評價,具體評分要求參考下表:表6政務咨詢時效性評分準則答案內容存在有部分不合時宜,信息不會對6.4系統(tǒng)安全可用6.4.1內容安全指標要求:a)應具備意識形態(tài)安全性,b)應不涉及違法及倫理道德內容。評估目的:評估系統(tǒng)輸出內容安全性。評估方法:技術測試和專家攻擊等。6.4.2數(shù)據(jù)安全指標要求:系統(tǒng)應參照GB/T35282-2023中9.5的要求。評估目的:評估系統(tǒng)是否滿足GB/T35282-2023中9.5的要求。評估方法:應參照GB/T35282-2023中11.1.2.3的測試方法。6.4.3應用安全指
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024 CFA考試參考書目試題及答案
- 特許金融分析師考試自測題庫試題及答案
- 小學語文唐詩教學
- 2024年特許金融分析師考試備考試題及答案
- CFA備考階段須知試題及答案
- 2024年特許金融分析師復習卡片
- 解析CFA考試的高頻試題及答案
- 考試心得2024年特許金融分析師考試試題及答案
- 風電施工安全教育
- 小主持人培訓:站姿篇
- 人教版 數(shù)學一年級下冊 第三單元 100以內數(shù)的認識綜合素養(yǎng)評價(含答案)
- 河南省鄭州市東區(qū)2024-2025學年九年級下學期第一次數(shù)學試題試卷(卷后帶解析)
- 2025年公共衛(wèi)生相關試題及答案
- 2025年陜西省咸陽市秦都區(qū)啟迪中學九年級中考一模數(shù)學試題(原卷版+解析版)
- 嘉德委托拍賣合同范本
- 2025年合肥經(jīng)濟技術職業(yè)學院單招職業(yè)技能測試題庫含答案
- 房屋市政工程生產(chǎn)安全重大事故隱患判定標準(2024版)宣傳畫冊
- 2024年秋兒童發(fā)展問題的咨詢與輔導終考期末大作業(yè)案例分析1-5答案
- 奧特林豪斯離合器 簡版樣本中文_圖文
- 元素周期表中英文讀音(共3頁)
- 康復評定技術第三章
評論
0/150
提交評論