




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
4基于大模型的政務(wù)咨詢系統(tǒng)技術(shù)要求與評估方法本文件面向以大規(guī)模與訓(xùn)練模型為技術(shù)底座,能夠提供智能問答、政務(wù)咨詢、知識搜索等功能的基于大模型的政務(wù)咨詢系統(tǒng)。本文件規(guī)定了基于大模型的政務(wù)咨詢系統(tǒng)的功能、性能要求和評估方法,主要包括大模型基礎(chǔ)能力、政務(wù)咨詢業(yè)務(wù)能力、系統(tǒng)安全應(yīng)用能力及指標(biāo)評估方法四個(gè)部分。本文件適用于基于大模型的政務(wù)咨詢系統(tǒng)及同類產(chǎn)品的的研發(fā)、評估和驗(yàn)收等工作。2規(guī)范性引用文件下列文件對于本文件的應(yīng)用是必不可少的。凡是注日期的引用文件,僅所注日期的版本適用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。GB/T35282-2023信息安全技術(shù)電子政務(wù)移動(dòng)辦公系統(tǒng)安全技術(shù)規(guī)范GB/T31506-2022信息安全技術(shù)政務(wù)網(wǎng)站系統(tǒng)安全指南3術(shù)語和定義3.1大模型largemodel一種基于海量通用數(shù)據(jù)訓(xùn)練得到的大規(guī)模預(yù)訓(xùn)練模型,具備多個(gè)領(lǐng)域的任務(wù)能力且通用性較高,但在實(shí)際應(yīng)用場景中仍需結(jié)合生產(chǎn)數(shù)據(jù)進(jìn)行二次開發(fā)。4縮略語下列縮略語適用于本文件。ROUGE:面向召回率的評價(jià)方法(Recall-OrientedUnderstudyforGistingEvaluation)LCS:最長公共子序列(Longestcommonsubsequence)5指標(biāo)要求及評估方法概述5.1評估方法概述針對模型能力部分的評估方法包括檢查和測試兩類測評方法,具體為:a)檢查:檢查是通過對測評對象進(jìn)行觀察、查驗(yàn)、分析以幫助測評人員理解、澄清或取得證據(jù)的過程。檢查主要有評審、核查、審查、觀察、研究和分析等,檢查對象是文檔等;b)測試:測試是指使用預(yù)定的方法/工具使測評對象產(chǎn)生特定的結(jié)果,將運(yùn)行結(jié)果與預(yù)期的結(jié)果進(jìn)行比對的過程,主要包括人工評測、工具測試等測試操作。5.2指標(biāo)要求及評估方式概述表1指標(biāo)項(xiàng)與評估方式對照表指標(biāo)維度指標(biāo)項(xiàng)評估方式模型能力模型信息披露檢查5指標(biāo)維度指標(biāo)項(xiàng)評估方式文本分類測試語義理解測試澄清反問測試情感分析測試信息摘要測試內(nèi)容生成測試系統(tǒng)功能信息檢索檢查智能對話檢查政務(wù)咨詢檢查文件解讀檢查智能填表檢查系統(tǒng)性能準(zhǔn)確性測試完整性測試友好性測試穩(wěn)定性測試實(shí)效性測試響應(yīng)時(shí)間測試系統(tǒng)安全可用內(nèi)容安全檢驗(yàn)、測試數(shù)據(jù)安全檢查應(yīng)用安全檢查服務(wù)可靠性檢查6指標(biāo)要求及評估方式詳述6.1模型能力6.1.1模型信息披露指標(biāo)要求:系統(tǒng)提供方應(yīng)向系統(tǒng)使用方披露模型基本信息。評估目的:收集模型基本信息以作為模型能力評估及模型成本投入的參考信息。評估方法:模型參數(shù)、訓(xùn)練數(shù)據(jù)、訓(xùn)練框架、時(shí)間成本及算力需求信息披露,具體如下:a)披露參測預(yù)訓(xùn)練模型的模型參數(shù)。對于單流結(jié)構(gòu)模型,披露模型需要存儲(chǔ)的參數(shù)量;對于雙流或多流結(jié)構(gòu)模型,分別統(tǒng)計(jì)各模型需要存儲(chǔ)的參數(shù)量,披露模型需要存儲(chǔ)的參數(shù)量總和。b)披露參測預(yù)訓(xùn)練模型的訓(xùn)練階段的數(shù)據(jù)集大小。c)披露參測預(yù)訓(xùn)練模型依賴的訓(xùn)練框架類別。d)估算預(yù)訓(xùn)練模型訓(xùn)練全程各節(jié)點(diǎn)的時(shí)間消耗總和,基于訓(xùn)練使用的設(shè)備信息,將訓(xùn)練設(shè)備對標(biāo)到基準(zhǔn)設(shè)備下,計(jì)算模型訓(xùn)練時(shí)使用設(shè)備與基準(zhǔn)設(shè)備的性能比值,換算出參測預(yù)訓(xùn)練模型在基準(zhǔn)設(shè)備下的總訓(xùn)練時(shí)長。e)估算預(yù)訓(xùn)練模型訓(xùn)練全程各節(jié)點(diǎn)的時(shí)間消耗總和,基于訓(xùn)練使用的設(shè)備信息,將訓(xùn)練設(shè)備對標(biāo)到基準(zhǔn)設(shè)備下,計(jì)算模型訓(xùn)練時(shí)使用設(shè)備與基準(zhǔn)設(shè)備的性能比值,換算出參測預(yù)訓(xùn)練模型在基準(zhǔn)設(shè)備下的總訓(xùn)練時(shí)長。66.1.2文本分類指標(biāo)要求:模型應(yīng)具備通用領(lǐng)域、政務(wù)領(lǐng)域、及政務(wù)業(yè)務(wù)領(lǐng)域文本分類能力。評估目的:評估大模型對文本分類任務(wù)的性能。評估方法:評估大模型對通用領(lǐng)域、政務(wù)領(lǐng)域、及政務(wù)業(yè)務(wù)領(lǐng)域文本進(jìn)行分類的準(zhǔn)確率,計(jì)算方法見公式:式中:PC——文本分類準(zhǔn)確率;P1——分類正確的文本數(shù);P——待分類的總文本數(shù);6.1.3語義理解指標(biāo)要求:模型應(yīng)具備語義理解能力,包括意圖理解、政務(wù)專有名詞理解等。評估目的:評估大模型對語義理解任務(wù)的性能。評估方法:評估對用戶咨詢話術(shù)中語義理解能力,包括意圖理解、政務(wù)專有名詞理解等,具體如下:a)意圖理解性能評估方法:評估大模型對用戶咨詢話術(shù)中單意圖、多意圖的理解準(zhǔn)確率,計(jì)算方法見公式式中:PF——意圖識別準(zhǔn)確率;F1——正確識別意圖的總句數(shù);F——意圖識別數(shù)據(jù)總句數(shù);b)政務(wù)專有名詞理解性能評估方法:評估大模型對政務(wù)專業(yè)名詞解釋的準(zhǔn)確率,計(jì)算方法見公式:式中:PC——政務(wù)專有名詞理解準(zhǔn)確率;P1——政務(wù)專有名詞正確解釋的總句數(shù);F——政務(wù)專有名詞解釋的總句數(shù);6.1.4信息摘要指標(biāo)要求:模型應(yīng)具備信息摘要能力,以支持用戶在政策、法規(guī)、辦事指南、通知等文件中快速獲取關(guān)鍵信息。評估目的:評估大模型信息摘要的性能。評估方式:評估大模型完成信息摘要任務(wù)的客觀指標(biāo)ROUGE-L-f值,計(jì)算方法見公式:7LCS(X,Y)RLCS=len(Y)LCS(X,Y)PLCS=len(Y)RLCS+β2PLCS(1RLCS+β2PLCSFlcs=式中:X——參考摘要;Y——生成摘要;LCS(X,Y)——X和Y的最大公共子字符串(LCS)的長度;β——超參數(shù);6.1.5內(nèi)容生成指標(biāo)要求:模型應(yīng)具備內(nèi)容生成能力,可針對用戶咨詢問題生成可讀易懂的回復(fù)內(nèi)容。評估目的:評估大模型生成內(nèi)容的質(zhì)量。評估方法:采用人工評價(jià)法,對生成內(nèi)容進(jìn)行流暢性、連貫性主觀評價(jià),具體評分要求參考下表:表2內(nèi)容生成評分準(zhǔn)則文本和前文無明顯邏輯矛盾,但和前文轉(zhuǎn)折不6.2系統(tǒng)功能6.2.1信息檢索指標(biāo)要求:系統(tǒng)應(yīng)具備信息檢索能力,在信息庫中快速檢索出用戶詢問或搜索的對應(yīng)內(nèi)容。評估目的:檢驗(yàn)系統(tǒng)是否具備政務(wù)信息檢索功能。評估方法:a)材料調(diào)研:1)材料中簡述實(shí)現(xiàn)信息檢索功能的技術(shù)方法;2)材料中簡述信息檢索功能實(shí)現(xiàn)情況(如信息源、檢索維度、檢索方式等)。b)模擬演示1)依照材料中信息檢索功能實(shí)現(xiàn)情況進(jìn)行系統(tǒng)操作演示;2)記錄系統(tǒng)演示效果。6.2.2政務(wù)咨詢指標(biāo)要求:系統(tǒng)應(yīng)具備政務(wù)咨詢能力,可針對用戶咨詢的政務(wù)相關(guān)問題做出回答。評估目的:檢驗(yàn)系統(tǒng)是否具備政務(wù)咨詢功能。評估方法:8a)材料調(diào)研:1)材料中簡述實(shí)現(xiàn)政務(wù)咨詢功能的技術(shù)方法;2)材料中簡述信息政務(wù)咨詢能力范圍(如咨詢內(nèi)容覆蓋度、咨詢方式、轉(zhuǎn)人工邏輯等)。b)模擬演示1)演示材料中提到的信息檢索能力;2)記錄系統(tǒng)演示效果。6.2.3智能對話指標(biāo)要求:a)應(yīng)具備單輪對話能力;b)應(yīng)具備多輪對話能力;c)應(yīng)具備多類型智能對話能力,如任務(wù)式對話、閑聊式對話等;d)宜具備多語種對話能力。評估目的:評估系統(tǒng)是否具備智能對話多項(xiàng)能力。評估方法:a)材料調(diào)研:1)材料中簡述系統(tǒng)具備哪些智能對話能力;2)材料中簡述系統(tǒng)智能對話優(yōu)化方式。b)模擬演示1)演示材料中提到的智能對話能力;2)記錄系統(tǒng)演示效果。6.2.4政策解讀指標(biāo)要求:系統(tǒng)宜具備政策解讀能力,以輔助工作人員快速了解各類政府文件中的內(nèi)容。評估目的:檢驗(yàn)系統(tǒng)是否具備政策解讀功能。評估方法:a)材料調(diào)研:1)材料中簡述實(shí)現(xiàn)政策解讀功能的使用方法;2)材料中簡述信息政策解讀能力范圍(如內(nèi)容顆粒度、解讀內(nèi)容呈現(xiàn)等)。b)模擬演示1)演示材料中提到的政策解讀能力;2)記錄系統(tǒng)演示效果。6.2.5智能填表指標(biāo)要求:系統(tǒng)宜具備智能填表能力,以輔助工作人員及用戶快速填制相關(guān)表格。評估目的:檢驗(yàn)系統(tǒng)是否具備智能填表功能。評估方法:a)材料調(diào)研:1)材料中簡述實(shí)現(xiàn)智能填表功能的使用方法;2)材料中簡述信息智能填表能力范圍(如表單類型、可填內(nèi)容等)。b)模擬演示91)演示材料中提到的智能填表能力;2)記錄系統(tǒng)演示效果。6.3服務(wù)性能6.3.1準(zhǔn)確性指標(biāo)要求:系統(tǒng)政務(wù)問詢能力應(yīng)具備準(zhǔn)確性,回復(fù)內(nèi)容應(yīng)包含問題中提到的關(guān)鍵知識點(diǎn),并且可對用戶意圖進(jìn)行準(zhǔn)確理解,模糊意圖問題進(jìn)行澄清和反問等能力。評估目的:評估政務(wù)問詢回答準(zhǔn)確性。評估方法:采用人工評價(jià)法,對問詢答案進(jìn)行準(zhǔn)確性主觀評價(jià),具體評分要求參考下表:表3政務(wù)咨詢準(zhǔn)確性評分準(zhǔn)則用戶意圖理解全面且準(zhǔn)確,關(guān)鍵知識點(diǎn)回答存6.3.2完整性指標(biāo)要求:系統(tǒng)政務(wù)問詢能力應(yīng)具備完整性,回復(fù)內(nèi)容應(yīng)確保答案內(nèi)容全面、完整、無重要信息遺漏,并提供關(guān)聯(lián)知識參考。評估目的:評估政務(wù)問詢回答完整性。評估方法:采用人工評價(jià)法,對問詢答案進(jìn)行完整性主觀評價(jià),具體評分要求參考下表:表4政務(wù)咨詢完整性評分準(zhǔn)則6.3.3友好性指標(biāo)要求:系統(tǒng)政務(wù)問詢能力應(yīng)具備友好性,應(yīng)確保系統(tǒng)回答的內(nèi)容易于理解和接受,符合用戶的語言習(xí)慣和心理預(yù)期,盡可能用通俗易懂便于理解的形式回答問題,提高用戶的滿意度和體驗(yàn)感。評估目的:評估政務(wù)問詢回答友好性。評估方法:采用人工評價(jià)法,對問詢答案進(jìn)行完整性主觀評價(jià),具體評分要求參考下表:表5政務(wù)咨詢友好性評分準(zhǔn)則答案表達(dá)方式清晰但缺乏一些深入的解釋,對負(fù)面6.3.4時(shí)效性指標(biāo)要求:系統(tǒng)政務(wù)問詢能力應(yīng)具備時(shí)效性,確保輸出輸出的時(shí)效性,輸出內(nèi)容在有效期內(nèi),能夠識別并過濾過期內(nèi)容。評估目的:評估政務(wù)問詢回答友好性。評估方法:采用人工評價(jià)法,對問詢答案進(jìn)行完整性主觀評價(jià),具體評分要求參考下表:表6政務(wù)咨詢時(shí)效性評分準(zhǔn)則答案內(nèi)容存在有部分不合時(shí)宜,信息不會(huì)對6.4系統(tǒng)安全可用6.4.1內(nèi)容安全指標(biāo)要求:a)應(yīng)具備意識形態(tài)安全性,b)應(yīng)不涉及違法及倫理道德內(nèi)容。評估目的:評估系統(tǒng)輸出內(nèi)容安全性。評估方法:技術(shù)測試和專家攻擊等。6.4.2數(shù)據(jù)安全指標(biāo)要求:系統(tǒng)應(yīng)參照GB/T35282-2023中9.5的要求。評估目的:評估系統(tǒng)是否滿足GB/T35282-2023中9.5的要求。評估方法:應(yīng)參照GB/T35282-2023中11.1.2.3的測試方法。6.4.3應(yīng)用安全指
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 云南省普洱市孟連縣第一中學(xué)2025屆高三適應(yīng)性調(diào)研考試化學(xué)試題含解析
- 幼兒預(yù)防交通安全活動(dòng)
- 北京市東城五中2025屆高考化學(xué)必刷試卷含解析
- 三年級數(shù)學(xué)計(jì)算題專項(xiàng)練習(xí)及答案
- 陜西郵電職業(yè)技術(shù)學(xué)院《大型數(shù)據(jù)庫技術(shù)》2023-2024學(xué)年第二學(xué)期期末試卷
- 陜西青年職業(yè)學(xué)院《藥物色譜分析方法開發(fā)》2023-2024學(xué)年第二學(xué)期期末試卷
- 雅安市2024-2025學(xué)年三年級數(shù)學(xué)第二學(xué)期期末學(xué)業(yè)水平測試試題含解析
- 青島工學(xué)院《幼兒社會(huì)活動(dòng)設(shè)計(jì)》2023-2024學(xué)年第一學(xué)期期末試卷
- 青島幼兒師范高等??茖W(xué)校《現(xiàn)當(dāng)代文學(xué)》2023-2024學(xué)年第二學(xué)期期末試卷
- 青島理工大學(xué)《DSTUDO:產(chǎn)品功能設(shè)計(jì)》2023-2024學(xué)年第二學(xué)期期末試卷
- 上海市2024年中考英語試題及答案
- 房屋市政工程生產(chǎn)安全重大事故隱患判定標(biāo)準(zhǔn)(2024版)宣傳畫冊
- 湖北省黃岡八模2025屆高三第一次模擬考試數(shù)學(xué)試卷含解析
- 2024-2030年中國建筑垃圾處理行業(yè)發(fā)展分析及投資規(guī)劃研究報(bào)告
- DB11∕T 1842-2021 市政基礎(chǔ)設(shè)施工程門式和橋式起重機(jī)安全應(yīng)用技術(shù)規(guī)程
- 2025年湖北省武漢市高考數(shù)學(xué)模擬試卷附答案解析
- 部編版五年級語文上冊快樂讀書吧測試題及答案
- 心肺復(fù)蘇考試題及答案
- TSG ZF001-2006《安全閥安全技術(shù)監(jiān)察規(guī)程》
- 臨床試驗(yàn)數(shù)據(jù)管理
- 2024年深圳技能大賽-鴻蒙移動(dòng)應(yīng)用開發(fā)(計(jì)算機(jī)程序設(shè)計(jì)員)職業(yè)技能競賽初賽理論知識
評論
0/150
提交評論