版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
INTRODUCTIONOFKWAIYII-LLMANDINTRODUCTIONOFKWAIYII-LLMAND2022年底,OpenAI的ChatGPT驚艷了世界,預示著通往AGI(ArtificialGeneralIntelligence)的可能性,開啟AI技術(shù)突破的新篇章INTRODUCTIONOFKWAIYII-LLMAND作為一家以AI技術(shù)驅(qū)動的公司,快手制定新的AI戰(zhàn)略,于2023年初啟動快意大模短視頻短視頻直播直播電商電商數(shù)字營銷場景用戶數(shù)字營銷本地生活本地生活20E20Eflops高帶寬高利用率3.94億400億3000萬INTRODUCTIONOFKWAIYII-LLMAND快手業(yè)務及生態(tài)應用快手業(yè)務及生態(tài)應用標準化API應用定制平臺多領(lǐng)域模型加強深度AI開發(fā)平臺基座大模型大模型引擎大模型訓練框架大模型引擎大模型訓練框架INTRODUCTIONOFKWAIYII-LLMANDINTRODUCTIONOFKWAIYII-LLMANDChatGPTGLM-130BLLAMA-65BLLAMA2-70B全科13.9K個單選題清華&上交54.454.4444450.150.1(%全科11.5K個單選題MBZUAI&上交&微軟亞研院55.5155.51//39.839.8//(%英文全科14K個單選題國外大學與研究所70.044.863.468.9英文小學數(shù)學8.5K個多步計算題OpenAI英文代碼與算法168道編程題OpenAI/50.956.848.1/23.729.9InternLMInternLM-104B62.7/67.262.9/快意大模型-66B73.771.167.260.9業(yè)界同等規(guī)模大模型在權(quán)威benchmark上的評測結(jié)果INTRODUCTIONOFKWAIYII-LLMAND54.543254.543INTRODUCTIONOFKWAIYII-LLMANDINTRODUCTIONOFKWAIYII-LLMANDINTRODUCTIONOFKWAIYII-LLMAND語言模型?語言是人類完成深度推理的重!!SFT&RLHF?ChatGPT/GPT4能夠穩(wěn)定理解問題、遵循指令;INTRODUCTIONOFKWAIYII-LLMAND數(shù)據(jù)數(shù)據(jù)I算法評測InfraI算法評測……INTRODUCTIONOFKWAIYII-LLMANDPre-trainingPost-trainingPartC/D3.Scaffold-BPE詞表學習方法改進4.MoE路由錯誤自適應檢測與Loss優(yōu)化2.SFT答案質(zhì)量3.SFT負反饋機制INTRODUCTIONOFKWAIYII-LLMAND驗證大模型訓練過程在時序上的可預測性;提供在大模型上直接使用少量數(shù)據(jù)訓練,并通測進行超參搜索的有效路徑;也為洞察大模型訓練的內(nèi)在機制提供?數(shù)據(jù)配比、學習率、權(quán)重衰減、dropout等?μP等工作?傳統(tǒng)冪率關(guān)系預測誤差大INTRODUCTIONOFKWAIYII-LLMAND?每個tokenposition的loss服從動態(tài)倒數(shù)關(guān)系INTRODUCTIONOFKWAIYII-LLMAND?動態(tài)倒數(shù)關(guān)系的參數(shù)隨訓練步數(shù)改變,且可通過函數(shù)擬合INTRODUCTIONOFKWAIYII-LLMAND?建模第一段函數(shù),結(jié)合收斂點約束條件,建模第二段,并預測最終loss?實驗結(jié)果(I)?顯著降低預測誤差(27.8%->4.1%,30.5%->2.0%)INTRODUCTIONOFKWAIYII-LLMAND?實驗結(jié)果(II)?可低成本地直接在大模型上做超參搜索,有效提升模型效果(e.g.,數(shù)據(jù)配比)?理論證明無需對不同position的token進行加權(quán),并獲得實驗驗證INTRODUCTIONOFKWAIYII-LLMAND?CE=?log(pt!)傳統(tǒng)交叉熵損失(CrossEntropyLoss)pjpj)ylogpt!?IL=?(1?∑)ylogpt!INTRODUCTIONOFKWAIYII-LLMANDTherelativefrequencyoftokenscontaining“age”0.00%2.00%4.00%6.00%8.00%Therelativefrequencyoftokenscontaining“zona”0.00%18.00%36.00%54.00%72.00%90.0imagepackTherelativefrequencyoftokenscontaining“age”0.00%2.00%4.00%6.00%8.00%Therelativefrequencyoftokenscontaining“zona”0.00%18.00%36.00%54.00%72.00%90.0imagepackage pagelanguagemessageaverageArizonazonaTokenFrequencyScaffoldAri29421Truezona5346Trueadata5407Truemate44057FalseArizona43599FalseTokenFrequencyScaffoldAri73020Falsezona48945Falseadata5407Truemate44057FalseAri,zonaAri一ffAri←fAri,zonazona←ffmergeExpandedVocabulary"setScaffoldtoTruefAri<fifArizonainS,thenScaffold←Falseandcontinuefzona<ft=FalseelseappendtoEt=TrueTokenFrequencyScaffoldAri29421Falsezona5346Falseadata5407Truemate44057FalseArizona43599FalsebackTokenPairFrequency↓43598(can,cel)43597(Inter,facebackTokenPairFrequency↓43598(can,cel)43597(Inter,face)43595(Arizona,to)763(lead,Arizona)TokenPairFrequency↓43598(can,cel)43597(Inter,face)43595(A,ri)29421(zon,a)5346popmergefArizonaPriorityQueueQTextCorpusupdatetokenpairs···Ari/zona······Arizona···TokenPairFrequency↓(Ari,zona)4359943598(can,cel)43597(Inter,face)43595(Prov,ider)43586(l,oyal)43576IterationNINTRODUCTIONOFKWAIYII-LLMAND?有效消除“偽高頻”token,提升詞表壓縮率?有效提升大模型的學習效果,且可遷移到機器翻譯等其他任務29000300002900030000310003200TokenRankoriginalBPEscaffold-BPE8x12x14x105050505INTRODUCTIONOFKWAIYII-LLMAND提出基于token梯度分布的路由錯誤自適應檢測與相應的Loss優(yōu)化方法,以提升路由模塊的預測準確性,(a)路由錯誤自適應檢測:n:nFromExpertNtoAnotherExpert(e.g.:nisaconflictingtoken :n’:nNINTRODUCTIONOFKWAIYII-LLMAND針對模型漏洞擴展訓練集合針對模型漏洞擴展訓練集合按類目采樣 精選子集一大規(guī)模推理&漏洞檢測質(zhì)量提升困難質(zhì)量提升困難按來源采樣RM\按來源采樣RM\RMref訓練資源挑戰(zhàn)訓練噪聲魯棒訓練資源挑戰(zhàn)訓練噪聲魯棒優(yōu)質(zhì)答案采樣困難類型覆蓋度高按質(zhì)量采樣后驗采樣——迭代式漏洞檢測-數(shù)據(jù)擴充按質(zhì)量采樣后驗采樣——迭代式漏洞檢測-數(shù)據(jù)擴充組合策略組合策略持續(xù)提升訓練數(shù)據(jù)量持續(xù)提升訓練數(shù)據(jù)量?INTRODUCTIONOFKWAIYII-LLMAND題)和部分數(shù)學計算錯誤(高階數(shù)學尤甚)、少量指令遵循漏洞和統(tǒng)計意義上的答案 低質(zhì)數(shù)據(jù)答案校驗策略 低質(zhì)數(shù)據(jù)答案校驗策略明顯錯誤明顯錯誤事實性錯誤人工校驗編輯靈事實性錯誤人工校驗編輯靈活,能夠發(fā)現(xiàn)預定義之外的問題;效率較低,代碼、困難問題無法檢測,難以支持中期370萬訓練數(shù)據(jù)的審核;答案篩選RM可檢測出明顯問題(如拒答),提高訓練數(shù)據(jù)質(zhì)量;存在長度偏置,事實類、計算類錯誤無法檢出;計算推理錯誤計算推理錯誤指令遵循漏洞多答案校驗指令遵循漏洞多答案校驗RMref事實類、數(shù)學類等判別準確率高部分指令遵循如字數(shù)遵循檢測仍存在問題答案偏置(統(tǒng)計意義)Rejection答案偏置(統(tǒng)計意義)Rejectionsampling基于模型本身能力,篩選出比GPT4更好的訓練數(shù)據(jù)INTRODUCTIONOFKWAIYII-LLMAND框架——HaluAgent。7-13B等百億規(guī)模模型錯誤檢測能力與GPT4等模型持平,更INTRODUCTIONOFKWAIYII-LLMAND框架——HaluAgent。7-13B等百億規(guī)模模型錯誤檢測能力與GPT4等模型持平,更INTRODUCTIONOFKWAIYII-LLMAND標準答案模型答案將判斷問題轉(zhuǎn)化為一致性對比問題,顯著降低任務難度;有效檢出事實類、計算類錯誤以及有歧義的問題。模型答案歧義問題檢出?例[question]標準答案模型答案將判斷問題轉(zhuǎn)化為一致性對比問題,顯著降低任務難度;有效檢出事實類、計算類錯誤以及有歧義的問題。模型答案歧義問題檢出?例[question]長方形寬3cm長10cm按1:3擴大后面積是多少?[reference]3x(10*3)=90[answer](3*3)x(10*3)=270與參考答案相比,AI助手計算結(jié)果存在嚴重的數(shù)學錯誤。Rating:[[1]]".[Instruction]請基于給定的參考答案,為AI助手答案進行1-10評分…[question]圓錐體積公式[reference][answer]V=mp2h=v=shAI助手的回答是錯誤的。它沒有提供正確地應用圓錐的體積公式。正確的公式是:圓錐的體積=(1/3)*π*r2*h因此,與參考答案相比,AI助手的在嚴重的數(shù)學錯誤。Rating:[[1]]".快意答案快意快意答案快意答案INTRODUCTIONOFKWAIYII-LLMAND題)和部分數(shù)學計算錯誤(高階數(shù)學尤甚)、少量指令遵循漏洞和統(tǒng)計意義上的答案1 林黛玉是中國古典名著《紅樓夢》中的主要人物之一,她以才情和柔弱著稱,是小說中極具文學價值和美學特質(zhì)的形象。在《紅樓夢》中,并沒有描述林黛玉有倒拔垂楊柳這樣力大無窮的情節(jié)。倒拔垂楊柳是《水滸傳》中魯智深的標志性動作,用來展示他的非凡力氣和豪邁性格。林黛玉和魯智深屬于兩個不同文學作品中的角色,他們的形象和性格特征有著天壤之別。林黛玉以詩詞才華和敏感多情聞名,而魯智深則是以力大無窮和豪放不羈著稱。因此,林黛玉不可能做出倒拔垂楊柳這樣的行為。林黛玉是中國古典名著《紅樓夢》中的主要人物之一,以其才情和柔弱多病著稱。在原著中,并沒有描述林黛玉具有倒拔垂楊柳的超凡力氣。2這個描述更常見于小說中的英雄人物,如《水滸傳》中的魯智深。魯智深是一位以力氣大、性格豪爽、不拘小節(jié)而著稱的人物,小說中就有他倒拔垂楊柳的著名情節(jié)。2因此,林黛玉倒拔垂楊柳不符合她在《紅樓夢》中的形象和性格特點。這樣的描述很可能是將不同文學作品中的角色特點混合了,屬于一種文學想象或戲仿。GPT4答案GPT4答案"倒拔垂楊柳"一般用于形容某人的力量大,手段高,可以逆向操作事物。這句話出自《紅樓夢》中的一段描寫,原文是:“只見那僧一手托起那樹,似有千斤,然遍身難疼,便縱身一跳,倒拔垂楊柳?!边@里的“倒拔垂楊柳”是指賈寶玉在夢中見到一個和尚舉起大樹,自己也同時身受巨痛,這時他就像和尚那樣,一個跳躍就倒拔了垂楊柳。至于林黛玉能否做到“倒拔垂楊柳”,在書中并沒有相關(guān)的描繪。從她的身體狀況和性格來看,傾向于認為她做不到。林黛玉身體病弱,且性格敏感細膩,不太可能做出這樣的舉動。當然,如果拋開實際情況,按照“倒拔垂楊柳”的象征意義——表示極大的力量和手段,還是有可能的。在《紅樓夢》中,林黛玉雖然身體病弱,但她的智謀和才情卻很出眾,這在一定程度上也可以被理解為一種“倒拔垂楊柳”的能力。RM得分0.85RM得分0.77RM得分0.46可獲取更優(yōu)質(zhì)答案;輸出;自身采樣出訓練數(shù)據(jù),訓練出幻覺更少;INTRODUCTIONOFKWAIYII-LLMAND傳統(tǒng)SFT僅使用正例數(shù)據(jù)訓練,難以解決重復生成、身份認知出錯等問題。通過引入負反饋機制,"logπ(yw"logπ(yw|x)?αx,y-&Ilog1?pθyt?αx,y-&Ilog1?pθytx,y<tpθytx,y<tyt∈y(INTRODUCTIONOFKWAIYII-LLMANDINTRODUCTIONOFKWAIYII-LLMANDINTRODUCTIONOFKWAIYII-LLMAND?傳統(tǒng)RLHF算法的rewardmodel?使用判別式模型?對整個答案進行打分outputs:A.…A.…Billsoldclipsto48ofherfriendsinApril.SothatBillsold24/2=12clipsinAprB.…B.…Billsoldclipsto48ofherfriendsinApril.SothatBillsoldPreferencePreferenceRM?RLMEC使用的rewardmodel?使用生成式模型…Billsold…Billsoldclipsto48ofherfriendsinApril.SothatBillsold24/2=12clipsinApril…RewardsintokensRewardsintokens:outputs:RewrittenSolutions:Step1:ErrorlocatingfromFindFindfirsterror...24/2=1248clipsinApril...Step2:ErroneousSolutionRewrit...48clipsinApril...RefineRefinethe...24/2=12...INTRODUCTIONOFKWAIYII-LLMAND?使用token級別的RM進行PPO訓練INTRODUCTIONOFKWAIYII-LLMAND??大模型通常輸出置信度極高,有很多詞的輸出概率接近于1。大模型不是提供了無限的解碼結(jié)果,而是在預訓練過程中進行深度剪枝,只保留了正確結(jié)果。?多個連續(xù)的輸出概率接近于1的詞有被并行解碼出來的潛力,稱之為Lexicalunit。模型:快意-66B-dev中國大學中國大學top10排名由于排名由于排名標準和評價體系會隨時間而發(fā)生變化,這里提供一個近期的中國大學排名參考。請注意,排名可能存在一定的爭議,因此建議查閱多個來源以獲取更全面的了解。以下是根據(jù)多個排名榜單整理的2021年部分中國大學排名:1.北京大學(PekingUniversity)2.清華大學(TsinghuaUniversity)3.浙江大學(ZhejiangUniversity)4.上海交通大學(ShanghaiJiaoTongUniversity)5.南京大學(NanjingUniversity)6.武漢大學(WuhanUniversity)7.中國科學技術(shù)大學(UniversityofScienceandTechnologyofChina)8.中山大學(SunYat-senUniversity)9.同濟大學(TongjiUniversity)10.四川大學(SichuanUniversity)這個排名僅供參考,實際排名可能有所不同。如需了解更多信息,請查閱權(quán)威排名機構(gòu)的最新報告。INTRODUCTIONOFKWAIYII-LLMAND文本生成平均可無損文本生成平均可無損加速30%+INTRODUCTIONOFKWAIYII-LLMAND向2向2知識預訓練Post-trainingINTRODUCTIONOFKWAIYII-LLMAND?基于「快意」大模型孵化的?基于「快意」大模型孵化的?在快手評論區(qū)、私信等場景上線?強大的多模態(tài)理解和人格化?廣泛關(guān)注和喜愛(上線6個月)?粉絲1kw+INTRODUCTIONOFKWAIYII-LLMAND如何做好多模態(tài)視頻內(nèi)容理解如何讓大模型更加有趣、有溫度如何和用戶保持長多輪互動如何整合站內(nèi)外各種資源和工具INTRODUCTIONOFKWAIYII-LLMAND快意多模態(tài)大模型提供densecaptioning等能力,引入和構(gòu)建多維度結(jié)構(gòu)化信息輔助內(nèi)容理解is,thatwouldbeanexcitingcoincidence!I'msorry,thevideodoesnotLargeLanguageModel這是一張聚餐的照片,桌子上擺放著各種中式菜肴,包括蒸餃、燒雞、紅燒肉 ,營造出了濃厚的節(jié)日或慶典氛圍。這可能是在慶祝某個重要的日子或活動。我們看到其中一位身穿休閑服裝的年輕人,他似乎在桌旁,表情可能是愉悅和放松網(wǎng)紅小楊哥在社交平臺上更新了一條動態(tài),開心炫上迅速成為熱門話題。小楊哥之前曾多次對外表示自己是周星馳的粉絲,從小爺?shù)碾娪伴L大的,希望有機會能和星爺見面,這次和星爺一起吃飯,也算是圓夢了!triptoHongKong,andtheyevenhadThepersoninthemiddleisishavingamealwithXiaoYINTRODUCTIONOFKWAIYII-LLMAND表>里INTRODUCTIONOFKWAIYII-LLMANDINTRODUCTIONOFKWAIYII-LLMAND),替迭代,將「快意」情感陪伴模型長互動能力從20+輪次提升到200+初始化迭代1迭代2…迭代N交互訓練交互訓練交互訓練交互訓練數(shù)據(jù)~50輪對話INTRODUCTIONOFKWAIYII-LLMAND鏈接復雜用戶query和站內(nèi)外工具的核心是FunctionCalling能力INTRODUCTIONOFKWAIYII-LLMANDINTRODUCTIONOF
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025版食堂原材料供應與質(zhì)量保證合同3篇
- 二零二五年度個人住房貸款擔保合同范本3篇
- 家居建材行業(yè)廣告總結(jié)
- 二零二五年度戶外運動裝備售后維修服務協(xié)議3篇
- 二零二五版?zhèn)€人住宅二手房居住權(quán)買賣與室內(nèi)空氣質(zhì)量檢測合同4篇
- 2025年度個人二手房交易貸款服務協(xié)議2篇
- 2025版租賃合同提前終止及解除后物業(yè)管理責任及費用承擔協(xié)議3篇
- 二零二五年字畫藝術(shù)品私人定制合同范本3篇
- 二零二五年度公共安全系統(tǒng)購銷協(xié)議3篇
- 食品配送衛(wèi)生安全規(guī)范
- 《個體防護裝備安全管理規(guī)范AQ 6111-2023》知識培訓
- 商品退換貨申請表模板
- 實習單位鑒定表(模板)
- 六西格瑪(6Sigma)詳解及實際案例分析
- 機械制造技術(shù)-成都工業(yè)學院中國大學mooc課后章節(jié)答案期末考試題庫2023年
- 數(shù)字媒體應用技術(shù)專業(yè)調(diào)研方案
- 2023年常州市新課結(jié)束考試九年級數(shù)學試卷(含答案)
- 正常分娩 分娩機制 助產(chǎn)學課件
- 廣東縣級農(nóng)商銀行聯(lián)社高管候選人公開競聘筆試有關(guān)事項上岸提分題庫3套【500題帶答案含詳解】
- 中國成人住院患者高血糖管理目標專家共識課件
- 射頻技術(shù)在疼痛的應用課件
評論
0/150
提交評論