盤古多語(yǔ)言大模型-華為+商恒超-_第1頁(yè)
盤古多語(yǔ)言大模型-華為+商恒超-_第2頁(yè)
盤古多語(yǔ)言大模型-華為+商恒超-_第3頁(yè)
盤古多語(yǔ)言大模型-華為+商恒超-_第4頁(yè)
盤古多語(yǔ)言大模型-華為+商恒超-_第5頁(yè)
已閱讀5頁(yè),還剩87頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

盤古多語(yǔ)言大模型業(yè)務(wù)落地探索華為2012文本機(jī)器翻譯實(shí)驗(yàn)室/商恒超提綱的實(shí)現(xiàn)的實(shí)現(xiàn)機(jī)器翻譯Lab業(yè)務(wù)與動(dòng)機(jī)傳統(tǒng)模型時(shí)代:●支撐內(nèi)部(華為云、終端、資料)翻譯訴求大模型時(shí)代:泰語(yǔ)&阿語(yǔ)大模型現(xiàn)狀泰語(yǔ)&阿語(yǔ)大模型現(xiàn)狀●2022年OpenAIChatGPT的出現(xiàn),率先展現(xiàn)出大模型的無(wú)限潛力,掀起了Decode-Only架構(gòu)大模型的研究浪潮心punishmetstoteachrk泰語(yǔ)&阿語(yǔ)大模型現(xiàn)狀●目前的大模型主要以英文、中文為主,對(duì)中低資源語(yǔ)種的支持較少●目前支持泰語(yǔ)的大模型●●ChatGPT/GPT-4、LLama3.1· ·支持阿語(yǔ)的大模型:泰語(yǔ)&阿語(yǔ)大模型現(xiàn)狀●泰語(yǔ)、阿語(yǔ)(低資源語(yǔ)種)大模型需求與發(fā)展的矛盾Percent0.07%0.06%0.04%0.04%0.03%0.03%Percent0.07%0.06%0.04%0.04%0.03%0.03%0.03%0.03%0.03%0.03%0.02%0.02%0.01%0.01%LanguageunknownfrSVes89.70%8.38%0.17%0.16%0.15%0.13%0.13%0.13%0.12%0.11%0.10%0.09%0.09%0.08%PercentLanguagecaaTable10:Languagedistributioninpretrainingdatawithpercentage>=0.005%.MostdataisinEnglish,meaningthatLLAMA2willperformbestforEnglish-languageusecases.Thelargeunknowncategoryispartiallymadeupofprogrammingcodedata.5法語(yǔ)印歐語(yǔ)系-羅曼語(yǔ)族7730萬(wàn)1.993億32.766億56阿拉伯語(yǔ)亞非語(yǔ)系-閃米特語(yǔ)族2.74億7孟加拉語(yǔ)印歐語(yǔ)系-印度-雅利安語(yǔ)支2.285億53680萬(wàn)2.652億7埃及阿拉伯語(yǔ)亞非語(yǔ)系-6830萬(wàn)20意大利語(yǔ)羅曼語(yǔ)族6460萬(wàn)310萬(wàn)6770萬(wàn)[21泰語(yǔ)壯侗語(yǔ)系2070萬(wàn)4000萬(wàn)6070萬(wàn)[22古吉拉特語(yǔ)印度-雅利安語(yǔ)支5650萬(wàn)420萬(wàn)6070萬(wàn)231泰語(yǔ)&阿語(yǔ)大模型現(xiàn)狀●泰語(yǔ)、阿語(yǔ)(低資源語(yǔ)種)大模型需求與發(fā)展的矛盾●單語(yǔ)數(shù)據(jù)稀缺,訓(xùn)練資源昂貴●對(duì)話數(shù)據(jù)稀缺,尤其是多輪對(duì)話●人類偏好數(shù)據(jù)稀缺,RLHF訓(xùn)練繁瑣●如何直接將高資源語(yǔ)言知識(shí)遷移至低資源語(yǔ)言?(泰語(yǔ)為例)●機(jī)器翻譯橋接--最樸素(NoTraining)●機(jī)器翻譯+高資源語(yǔ)種大模型泰英翻譯泰英翻譯英泰翻譯英泰翻譯Typhoon-7BTyphoon-7BSeaLLM-7B-ChatSEA-LION-7BChatGPTOpenThaiGPT-beta-7BWangChanGLM40··0ONETICTGATTPAT-1●只用泰語(yǔ)數(shù)據(jù)?英文知識(shí)會(huì)被遺忘,等同重訓(xùn)●英文+泰語(yǔ)的混合注入泰語(yǔ)知識(shí)的同時(shí),緩解災(zāi)難性遺忘●基于Base模型做適配?泰語(yǔ)對(duì)話能力需要重新構(gòu)建強(qiáng)英文對(duì)話能力可以服務(wù)于泰語(yǔ)●再次思考“翻譯橋接”●把機(jī)器翻譯做到LLM中,變成一種思維鏈(CoT)●Step1:LLM將泰語(yǔ)問(wèn)題翻譯為英文問(wèn)題·Step2:LLM·給出英文回答將英文答案翻譯為泰語(yǔ)答案Introduce?uliuiuaamnzu??uliuiuaamnzu?alwaj√實(shí)現(xiàn)泰語(yǔ)英語(yǔ)知識(shí)更好的對(duì)齊 模型結(jié)構(gòu)與適配策略:●必要時(shí)擴(kuò)展詞表●使用LoRA減少對(duì)基礎(chǔ)模型的擾動(dòng)●多階段訓(xùn)練,任務(wù)拆解LORAModulesExtendedInputEmbedding●階段1:擴(kuò)展泰語(yǔ)詞表,泰語(yǔ)數(shù)據(jù)CPT ·階段2:英泰雙向翻譯+英文單語(yǔ)CPTSentSent_TH<EN>Sent_EN,Sent_EN<TH>Sent_TH MTMT-COT:Query_TH<EN>Query_EN<RESPONSE>Response_EN<TH>Response_TH·EN-THMT:Translationprompt(En,TH)(翻譯能力激活)·MT-COT的訓(xùn)練配置√BaseLLM:Pangu13B-Instruct、Llama2/3√訓(xùn)練平臺(tái):華為云ModelArt+D910B*512將是11利息,即11×11×5泰銖=575泰銖,利息575泰銖x3年=1725泰銖的利率。·SFT:有2個(gè)月,共28天:二月。和十一月 ·CoT-MT:閏年沒有一個(gè)月有28天。常規(guī)日歷格式一年有365天,常規(guī)日歷格式閏年有366天。有28天的月份是二月。●實(shí)驗(yàn)結(jié)果 ●對(duì)話能力:?jiǎn)屋?多輪●翻譯能力Ntw/Tie(R=33%)Table2:AgreementbetweenGPT-4andhumans."R="denotestheexpectagreementbetweenrandomjudges.tENresultsarefromZhengetal.(2024).vs.ModelWinurn(%)WinTurn(%Llama-2ChatGPTLlama-3ChatGPT ·5個(gè)不同數(shù)據(jù)集上的單輪對(duì)話問(wèn)題ModelHelpful-BaseVicunaAllNLLB-bridge·高質(zhì)量多輪對(duì)話測(cè)試集:8大類別2.202.602.903.206.003.103.102.902.90 MathCodingExtractionSTEM|HumanitiesAllChatGPTChatGPTArabicGPT4ALLArabicGPT4ALL8.9/8.38.2/7.392%/88%writing9/8.69.2/7.7roleplay8.8/8.18.7/6.1reasoning8.5/7.57.7/6.7math9.1/7.29.3/8.77.1/7.2extraction8.3/8.47.5/7.89/8.79.5/8.5humanities9.1/98.6/9.0ThaiGPT4ALL7.9/7.38.2/7.4writing8.3/7.48.4/6.7roleplay7.6/7.3reasoning7.2/3.76.5/5.1math8.0/3.59.2/6.38.1/6.28.3/8.7extraction8.5/8.29.1/8humanities9.2/9 ModelMT-BenchFirstTurnMT-BenchSecondTurnw/oThaipre-trainw/omixtrainingw/orecoveryKDw/oLoRA第一輪:評(píng)價(jià)兩款智能手機(jī)的提綱,少于200字ChatGPT重復(fù)第一輪答案:A?57lun515:2aNallanausJǔoWLnNGuqninlrilLOnn1JiOursOurs成功改寫為打油詩(shī):aallaAJNaUaJW?nLU16TNJllaiolauSure!Here'salimerickaboutthetwosmartphonesbeingcompared:Thereonceweretwosmartphonessofine,TheirTheircamerastookpicturessodear,Withfeaturesthatmadethemtrulydivine.Theirdisplayswerebrightandclear,模型語(yǔ)項(xiàng)英-泰英-泰盤古大模型英-泰模型語(yǔ)項(xiàng)泰-英泰-英盤古大模型泰-英ModelBypass(%)ChatGPTOursw/odistillationALLALLwritingroleplayreasoningmathhumanitiesALLALLwritingroleplayreasoningmathhumanities●聯(lián)合訓(xùn)練提升了顯式能力?●語(yǔ)言Code-Switch:對(duì)話中Code-Switch的增強(qiáng)●泰國(guó)金融客戶:通過(guò)大模型更好的整理客戶Onebox,Sharepoint,Excel,andetc①①ContactContactCenterAgent(Manualcustomer2customer2多路召回多路召回排序&后處理問(wèn)答安全排序前過(guò)濾排序后過(guò)濾重排關(guān)鍵詞檢排序前過(guò)濾排序后過(guò)濾重排關(guān)鍵詞檢索語(yǔ)義向量)檢索模型排序問(wèn)題向量化盤古LLM盤古LLM大模型知識(shí)圖譜向量數(shù)據(jù)庫(kù)搜索語(yǔ)義模型向量數(shù)據(jù)庫(kù)Database●Query分類(2分類:業(yè)務(wù)QA+閑聊QA):F10.99(問(wèn)題解決率):人工評(píng)測(cè)90%,可基本滿足業(yè)務(wù)需要(多輪能力):人工評(píng)測(cè)達(dá)GPT-4的80分位客戶需求>個(gè)性化商家推薦商家精確信息查詢方案拆解:讓大模型做擅長(zhǎng)的事情DBSQL用戶輸入LM(NLU個(gè)性化排序后處理輸出需求接入層中間層需求接入層中間層基礎(chǔ)層36+用戶563+對(duì)接應(yīng)用ALA會(huì)OMRPCloudDragon瀏覽器welink應(yīng)用市場(chǎng)快譯視頻年翻譯字符數(shù)2000億+,穩(wěn)定增長(zhǎng)中年翻譯字符3000億+,快速增長(zhǎng)中通用翻譯領(lǐng)域翻譯低資源翻譯算法RNNSearchMTMTAl算力Al數(shù)據(jù)Al算力Al數(shù)據(jù)180億+多語(yǔ)言語(yǔ)料庫(kù)ICT專業(yè)術(shù)語(yǔ)庫(kù)/記憶庫(kù)180億+多語(yǔ)言語(yǔ)料庫(kù)ICT專業(yè)術(shù)語(yǔ)庫(kù)/記憶庫(kù)D910,D910bMindSpore文本機(jī)器翻譯Lab-研究創(chuàng)新華為翻譯中心3篇論文入選自然語(yǔ)言處理領(lǐng)域頂級(jí)會(huì)議ACL2023HWTSCHWTSC2023-05-0918:29Toronto,CanadaJuly9-14,20232023年5月2日,自然語(yǔ)言處理領(lǐng)域頂級(jí)會(huì)議ACL2023錄用結(jié)果公布,華為翻譯中心共3篇論文入選,其中論文“TextStyleTransferBack-Translation”被主會(huì)議錄用,論文“LexicalTranslationInconsistency-AwareDocument-LevelTranslationRepair”被子刊Findings錄用,論文“CollectiveHumanOpinionsinSemanticTextualSimilarity”被期刊TACL錄用并邀請(qǐng)至主華為翻譯中心兩篇論文入選語(yǔ)音技術(shù)領(lǐng)域頂級(jí)會(huì)議ICASSP2023華為翻譯中心HWTSC2023-05-1916:00ICASSP2023將于2023年6月4號(hào)至6月10號(hào)在涵蓋語(yǔ)音識(shí)別、語(yǔ)音合成、語(yǔ)音增強(qiáng)、自然語(yǔ)言處理、機(jī)器學(xué)習(xí)等多個(gè)領(lǐng)域。華為翻譯中心的兩篇論文被大會(huì)主會(huì)錄用。華為翻譯中心HWTSC2023年10月17日09:172023年10月6日,自然語(yǔ)言處理領(lǐng)域頂級(jí)會(huì)議EMNLP2023論文入選結(jié)果公布,華為翻譯中心共有3篇論文入選,其中1篇被主會(huì)錄用并受邀參加主會(huì)分享,另外2篇被Findings錄用。主會(huì)錄用論文:"ImprovedPseudoDataforMachineTranslationQualityEstimationwithConstrainedBeamSearch"Findings錄用論文:"SMARTSPANNER:MakingSPANNERRobustinLowResourceScenarios°和"INarlG:lterativeNon-autoregressiveInstructGenerationModelForWord-LevelAutoCompletion"文本機(jī)器翻譯Lab-學(xué)術(shù)競(jìng)賽華為翻譯中心在ACL2024IWSLT語(yǔ)音翻譯競(jìng)賽5個(gè)大項(xiàng)中斬獲冠軍HWTSCHWTSC2024年08月14日11:35IWSLT(InternationalConferenceonSpokenLanguageTranslation,國(guó)際口語(yǔ)機(jī)器翻譯比賽)是國(guó)際上最具影響力的

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論