付一韜:RAG在辦公領(lǐng)域中的探索與實(shí)踐_第1頁
付一韜:RAG在辦公領(lǐng)域中的探索與實(shí)踐_第2頁
付一韜:RAG在辦公領(lǐng)域中的探索與實(shí)踐_第3頁
付一韜:RAG在辦公領(lǐng)域中的探索與實(shí)踐_第4頁
付一韜:RAG在辦公領(lǐng)域中的探索與實(shí)踐_第5頁
已閱讀5頁,還剩57頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

DataFunSummit#2024RAG(RetrievalAugmentedGeneration即檢索增強(qiáng)生成。它通過結(jié)合檢索系統(tǒng)和生成模型來提高語言生成的準(zhǔn)確性和相關(guān)性。RAGRAG系統(tǒng)的組成RAG不是單一的一個(gè)組件,是由多個(gè)組件組llRAG的優(yōu)勢(shì)在于它能夠在生成響應(yīng)時(shí)引入外部知識(shí),提供更符合上下文語境的回答。l與預(yù)訓(xùn)練模型不同,RAG的內(nèi)部知識(shí)可以很容易地修改甚至l相比于微調(diào)技術(shù),RAG具備可觀測(cè)性、可解釋性等優(yōu)勢(shì),還):):):檢索:通過文檔解析、Query改寫以及混合檢索的方式,快速檢索出一批可能相關(guān)的候選文檔,以保證檢索回來的相關(guān)文檔——“搜的更全”排序:通過粗排序、精排序和知識(shí)過濾的方式,在這些候選文檔中找出最相關(guān)的文檔,并將它們按相關(guān)性排序,以保證這些文檔的排序——“排的更好”生成:通過知識(shí)排版,再結(jié)合用戶提問+Prompt模板組成提示詞輸入到大模型中,進(jìn)而保證針對(duì)用戶提問的回答——“回答的更準(zhǔn)”!文檔解析離線離線在線用戶提問!文檔解析離線離線在線用戶提問文檔解析RAG仍有兩點(diǎn)優(yōu)勢(shì)是短時(shí)間內(nèi)無法被替代:1.版式多樣的文檔數(shù)據(jù):針對(duì)版式各異的文檔數(shù)據(jù),解析出邏輯區(qū)塊并進(jìn)2.答案溯源:幫助用戶快速從原文中驗(yàn)證答案的基于這兩點(diǎn)優(yōu)勢(shì)的發(fā)揮,都需要依賴一個(gè)強(qiáng)大的文檔解析流程。解析文檔基于RAGFlow的DeepDoc模塊進(jìn)行二的文檔智能處理,對(duì)多種不同格式文檔的深度解析。在中國移動(dòng)內(nèi)部,文檔數(shù)據(jù)更多是PDF和Word文檔,所以Pdf:版面元素恢復(fù)(標(biāo)題/段落/圖片表格分別調(diào)用文本分詞和向量模型對(duì)文本塊進(jìn)行處理,寫入索引信息補(bǔ)全指代消歧對(duì)于指代消岐類,先是識(shí)別指代詞“它”,同時(shí)識(shí)別出上下文中的關(guān)鍵補(bǔ)全信息識(shí)別插入位置預(yù)測(cè)技術(shù)方案將多輪Query改寫轉(zhuǎn)換為關(guān)系抽取任務(wù),指代消歧和信息補(bǔ)全看作關(guān)系,指代實(shí)體/指代詞/補(bǔ)全信息/插入位置看作實(shí)體,采用TPLinker模型構(gòu)建?;旌蠙z索優(yōu)勢(shì)全文檢索優(yōu)勢(shì)全文檢索優(yōu)勢(shì)果,提供更多的選擇和信息,滿足不同的用戶查詢開源分詞模型對(duì)比開源分詞模型對(duì)比jieba關(guān)鍵時(shí)期/,/全面/建設(shè)/社會(huì)主義/現(xiàn)代關(guān)鍵/時(shí)期/,/全面/建設(shè)/社會(huì)主義/現(xiàn)代化關(guān)鍵時(shí)期/,/全面建設(shè)社會(huì)主義現(xiàn)代化國家關(guān)鍵時(shí)期/,/全面/建設(shè)/社會(huì)主義/現(xiàn)代模型相關(guān)性?支持超過100種語言的語義表示及檢索XX.X%(faq)、通用QA等場(chǎng)景的語料XX.X%?使用場(chǎng)景主要是中文,少量英文的情況?支持中英雙語的文本相似度計(jì)算和文本XX.X%?從效果來說,多數(shù)任務(wù)上表現(xiàn)不錯(cuò)XX.X%采用bge-m3和bce-base-v1模型雙向量模型檢索,以達(dá)?jieba和lac采用bge-m3和bce-base-v1模型雙向量模型檢索,以達(dá)?texmsart分詞粒度太粗!文檔解析離線離線在線用戶提問區(qū)區(qū) 區(qū)區(qū) 混合檢索粗排序粗排序ReciprocalRankFusion(RRF)RRF(ReciprocalRankFusi賴于搜索引擎分配的絕對(duì)分?jǐn)?shù),而是依賴于相對(duì)排名,因此結(jié)合具有不同分?jǐn)?shù)尺度或分布的結(jié)果變得實(shí)際。它用于兩個(gè)或多個(gè)查詢1AB2BC3CA2.適合多路召回,通過RRF選取topn后再進(jìn)行重排序,這樣有助于ColBERT:延遲交互模型(LateInteractionModel)?計(jì)算方法如下:對(duì)于每個(gè)查詢Token的向量都要與所有文檔Token對(duì)應(yīng)的向量進(jìn)行相似度計(jì)算,并跟蹤每個(gè)查詢Token的最大得分。向量檢索和Reranker模型之間的差異Token級(jí)低高優(yōu)化召回結(jié)果質(zhì)量《有道QAnything背后的故事---關(guān)于RAG的一點(diǎn)經(jīng)驗(yàn)分享》《有道QAnything背后的故事---關(guān)于RAG的一點(diǎn)經(jīng)驗(yàn)分享》簡單權(quán)重加權(quán)融合,完全按照各路召回的排名進(jìn)行打快強(qiáng)大的重排序算法,能夠?qū)γ恳粚?duì)查詢和文好慢任務(wù)來評(píng)估檢索到的知識(shí)與問題的相關(guān)性,排除不相關(guān)信假設(shè)"[知識(shí)]包含可靠的答案,有助于回答[問題]"。你!文檔解析離線離線在線用戶提問在線用戶提問排序的知識(shí)文本塊排序的知識(shí)文本塊{knowledge}較小的chunk:更精準(zhǔn)的檢索能力較大的chunk:更完整豐富的語義期望:既能提供足夠的文本嵌入以便有效精準(zhǔn)的執(zhí)行檢第十三條一一方當(dāng)事人的合同所必需,(三)為履行法定職責(zé)或者法定義務(wù)所必需;(五)為公共利益實(shí)施新聞報(bào)道、輿論監(jiān)督等行為,在合理的范圍內(nèi)處理個(gè)人信息;(七)法律、行政法規(guī)規(guī)定的其他情形。第十三條一一方當(dāng)事人的合同所必需,(三)為履行法定職責(zé)或者法定義務(wù)所必需;(五)為公共利益實(shí)施新聞報(bào)道、輿論監(jiān)督等行為,在合理的范圍內(nèi)處理個(gè)人信息;(七)法律、行政法規(guī)規(guī)定的其他情形。符合下列情形之一的,個(gè)人信息處理者方可處理個(gè)人信息:()取得個(gè)人的同意;(二)為訂立、履行個(gè)人作為或者按照依法制定的勞動(dòng)規(guī)章制度和依法簽訂的集體合同實(shí)施人力資源管理所必需;(四)為應(yīng)對(duì)突發(fā)公共衛(wèi)生事件,或者緊急情況下為保護(hù)自然人的生命健康和財(cái)產(chǎn)安全所必(六)依照本法規(guī)定在合理的范圍內(nèi)處理個(gè)人自行公開或者其他已經(jīng)合法公開的個(gè)人信息;依照本法其他有關(guān)規(guī)定,處理個(gè)人信息應(yīng)當(dāng)取得個(gè)人同意,但是有前款第二項(xiàng)至第七項(xiàng)規(guī)定情形的,不需取得個(gè)人同意。第十四條基于個(gè)人同意處理個(gè)人信息的,該同意應(yīng)當(dāng)由個(gè)人在充分知情的前提下自愿、明確作出。法律、行政法規(guī)規(guī)定處理個(gè)人信息應(yīng)當(dāng)取得個(gè)人單獨(dú)同意或者書面同意的,從其規(guī)定。個(gè)人信息的處理目的、處理方式和處理的個(gè)人信息種類發(fā)生變更的,應(yīng)當(dāng)重新取得個(gè)人同意。第十五條基于個(gè)人同意處理個(gè)人信息的,個(gè)人有權(quán)撤回其同意。個(gè)人信息處理者應(yīng)當(dāng)提供便捷的撤回同意的方式。個(gè)人撤回同意,不影響撤回前基于個(gè)人同意已進(jìn)行的個(gè)人信息處理活動(dòng)的效力。存在問題?事實(shí)性不足:現(xiàn)有系統(tǒng)生成的答案中只有大約一半的陳述能夠完全得到檢索到的參?清晰邏輯的缺失:長篇問答(Long-formQuestionAnswering)任務(wù)中理想的答案往往需要多方面組織和整合信息,但現(xiàn)有的開源方解決方案大綱增強(qiáng)生成器(Outline-EnhancedGenerat):在此階段,生成器首先使用提綱模板,根據(jù)用戶查詢和上下文生成答案的提綱。提綱模板引導(dǎo)大織模式最適合當(dāng)前問題,例如“因果關(guān)系”或“比較對(duì)比”。然后,LLM根據(jù)選):基于前一階段生成的提綱,LLM擴(kuò)展每個(gè)要點(diǎn),構(gòu)###示例輸出1###【結(jié)構(gòu)】:總分總【提綱】:1.首套房商業(yè)貸款利率(僅使用[2]回答)###示例輸出1###【結(jié)構(gòu)】:總分總【提綱】:1.首套房商業(yè)貸款利率(僅使用[2]回答)2.二套房商業(yè)貸款利率(僅使用[2]回答)3.公積金貸款利率(僅使用[1]回答)【回答】:西安的房貸市場(chǎng)在2023年呈現(xiàn)了一定的調(diào)整趨勢(shì),特別是在商業(yè)貸款和公積金貸款利率方面。針對(duì)不同的貸款年限,首套和二套住房的貸款利率有所不同。下面是具體的利率情況和銀行對(duì)房貸利率的調(diào)整概述。###首套房商業(yè)貸款利率首套住房商業(yè)貸款利率集中在4%左右,較LPR下浮0.2%。###二套房商業(yè)貸款利率二套房商業(yè)貸款利率基本維持在4.9%左右。###公積金貸款利率公積金貸款利率5年(含)以下為2.6%,5年以上為3.1%。西安的房貸市場(chǎng)在2023年經(jīng)歷了積極的調(diào)整,尤其是首套房貸款利率的下降,為購房者帶來了更為優(yōu)惠的借款條件。與此同時(shí),公積金貸款的低利率也為有資格的借款人提供了額外的經(jīng)濟(jì)支持。這些調(diào)整對(duì)于穩(wěn)定房地產(chǎn)市場(chǎng)、支持合理住房需求有著重要的作用。###示例輸出2###【結(jié)構(gòu)】:并列【提綱】:1.西安商業(yè)貸款固定利率(僅使用[1]回答)2.西安公積金貸款利率(僅使用[1]回答)3.首套與二套房貸款利率最新變化(僅使用[4]回答)【回答】:2023年西安的房貸利率最新消息如下:商業(yè)貸款固定利率:-1年以內(nèi)(含)的利率為4.35%-5年(含)以下的利率為4.75%-5年以上的利率為4.9%公積金貸款利率:-5年(含)以下為2.6%-5年以上為3.1%據(jù)報(bào)道,7月20日,雖然LPR沒有變動(dòng),但西安首套房貸款利率已經(jīng)低至4%,低于2009年房貸利率打七折后的4.156%,二套房貸利率同步下行,維持在4.9%。在6月LPR下調(diào)后,西安各大銀行相繼落實(shí)首套房貸利率政策動(dòng)態(tài)調(diào)整機(jī)制,進(jìn)行利率調(diào)整。下面是你要回答的問題和相應(yīng)的資料,請(qǐng)根據(jù)上述要求、格式和示例進(jìn)行輸出:###問題###{query}###資料###{doc}###任務(wù)###根據(jù)資料回答問題。###要求###第一步:根據(jù)問題和資料生成回答提綱。1.決定回答結(jié)構(gòu),從總分總、遞進(jìn)、對(duì)比、因果、并列、時(shí)序等結(jié)構(gòu)中選擇合適的來組織回答。2.根據(jù)回答結(jié)構(gòu),在提綱中要完整地列出答案中需要包括的要點(diǎn)。3.要點(diǎn)之間可以是并列、對(duì)照、遞進(jìn)等關(guān)系,不可以是重復(fù)或者包含關(guān)系。4.要點(diǎn)要保持精煉,至少有1點(diǎn),不能多于5點(diǎn),5.每個(gè)要點(diǎn)僅可參考1段資料,并在提綱中標(biāo)注資料編號(hào)。第二步:根據(jù)資料和提綱對(duì)問題進(jìn)行回答。1.回答要以提綱為藍(lán)本,對(duì)問題進(jìn)行詳細(xì)的回答。2.回答中可以采用編號(hào)或項(xiàng)目列表、小標(biāo)題、latex公式等格式。3.回答中減少使用“首先”、“其次”、“再者”等簡單的連接詞。4.回答中不要生成重復(fù)內(nèi)容。5.回答中不要標(biāo)注資料來源。6.回答應(yīng)當(dāng)嚴(yán)格依據(jù)資料,不采用不在資料中的內(nèi)容。###格式###【結(jié)構(gòu)】:<回答的組織結(jié)構(gòu)>【提綱】:<分點(diǎn)介紹回答思路>【回答】:<根據(jù)資料和提綱回答問題>下面是1個(gè)示例輸入和2個(gè)滿足要求的示例輸出:###示例輸入######問題###2023年西安房貸利率最新消息###資料###[1]一、西安商業(yè)貸款固定利率1年以內(nèi)(含)——4.35%5年(含)以下——4.75%5年以上——4.9%貸款市場(chǎng)報(bào)價(jià)利率LPR:目前1年期LPR為3.45%,5年期LPR為4.2%首套住房商業(yè)性個(gè)人住房貸款利率下限為不低于相應(yīng)期限LPR減20個(gè)基點(diǎn)。二套住房商業(yè)性個(gè)人住房貸款利率下限為不低于相應(yīng)期限貸款市場(chǎng)報(bào)價(jià)LPR利率加20個(gè)基點(diǎn)。二、西安公積金貸款利率5年(含)以下——2.6%5年以上——3.1%[2]目前西安主流銀行的首套房利率集中在4%左右,二套房利率差基本維持在4.9%。[3]首先,雖然LPR在7月沒有變動(dòng),但西安首套房貸款利率已經(jīng)低至4%,并且低于2009年房貸利率打七折后的4.156%!這點(diǎn)也恰恰和樓市走訪到的信息不謀而合,據(jù)了解,西安目前多數(shù)銀行首套房貸利率主要集中于4%,二套房貸利率基本在4.9%左右。[4]7月20日,中國人民銀行授權(quán)全國銀行間同業(yè)拆借中心公布了最新一期貸款市場(chǎng)報(bào)價(jià)利率(LPR):1年期LPR為3.55%,5年期以上LPR為4.20%,均與上個(gè)月持平。但西安房貸利率較上月小幅下行,西安多家銀行首套房貸利率從4.1%降至4%。今年6月,LPR時(shí)隔10個(gè)月迎來下調(diào),1年期和5年期以上LPR均跟隨政策利率下調(diào)10個(gè)基點(diǎn)。記者了解到,從6月下旬開始,西安各大銀行相繼落實(shí)首套房貸利率政策動(dòng)態(tài)調(diào)整機(jī)制,進(jìn)行利率調(diào)整。目前,西安地區(qū)六大行及招商銀行、寧夏銀行、北京銀行、西安銀行等十余家銀行首套房貸利率降至4%,較LPR下浮0.2%。二套房貸利率同步下行,跌破5%大關(guān),維持在4.9%。l分享總結(jié)?介紹了我們?cè)谵k公領(lǐng)域RAG構(gòu)建過程中在構(gòu)建系統(tǒng)、構(gòu)建算法兩個(gè)方面的實(shí)踐經(jīng)驗(yàn)。?在檢索方面,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論