2024年人工智能行業(yè)專題報告:從Kimi展望國產(chǎn)大模型和應用-“月之暗面”的背后是星辰大海_第1頁
2024年人工智能行業(yè)專題報告:從Kimi展望國產(chǎn)大模型和應用-“月之暗面”的背后是星辰大海_第2頁
2024年人工智能行業(yè)專題報告:從Kimi展望國產(chǎn)大模型和應用-“月之暗面”的背后是星辰大海_第3頁
2024年人工智能行業(yè)專題報告:從Kimi展望國產(chǎn)大模型和應用-“月之暗面”的背后是星辰大海_第4頁
2024年人工智能行業(yè)專題報告:從Kimi展望國產(chǎn)大模型和應用-“月之暗面”的背后是星辰大海_第5頁
已閱讀5頁,還剩27頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

2024年人工智能行業(yè)專題報告:從Kimi展望國產(chǎn)大模型和應用_“月之暗面”的背后是星辰大海1.緊抓痛點+局部技術領先,帶來Kimi的高速增長月之暗面(MoonshotAI)創(chuàng)立于2023年3月,致力于尋求將能源轉(zhuǎn)化為智能的最優(yōu)解,通過產(chǎn)品與用戶共創(chuàng)智能,2023年10月推出全球首個支持輸入20萬漢字的智能助手產(chǎn)品Kimi。創(chuàng)始團隊核心成員參與了GoogleGemini、GoogleBard、盤古NLP、悟道等多個大模型的研發(fā),多項核心技術被GooglePaLM、MetaLLaMa、StableDiffusion等主流產(chǎn)品采用。根據(jù)21世紀經(jīng)濟報道官方百家號,月之暗面團隊成立不到2個月就獲得了紅杉中國、今日資本、真格基金、礪思資本等知名VC投資,目前團隊人數(shù)已超80人。創(chuàng)始人楊植麟被多家頭部VC寄予厚望飽受期待。楊植麟是Transformer-XL與XLNet等熱門論文的第一作者,兩者均為大語言模型領域的核心技術。同時也是中國35歲以下NLP領域引用最高的研究者;另外兩位聯(lián)合創(chuàng)始人周昕宇和吳育昕,則有超過10000+的GoogleScholar引用。根據(jù)月之暗面官微,Monolith礪思資本創(chuàng)始合伙人曹曦表示:“楊植麟是全球大模型領域里最被認可的華人技術專家,其團隊在人工智能技術,特別是大語言模型LLM領域擁有深厚的技術積累,并已在國際上獲得了廣泛認可”。真格基金合伙人戴雨森也表示:“楊植麟作為XLNet等多項知名科研工作的第一作者,具備相當豐富的科研和實踐經(jīng)驗,多年來他一直堅信通過大模型實現(xiàn)對高維數(shù)據(jù)的壓縮是人工智能發(fā)展的必經(jīng)之路,也團結(jié)了一支人才密度超高,配合默契,又充滿挑戰(zhàn)巨頭搖滾精神的創(chuàng)業(yè)團隊。”月之暗面在多模態(tài)相關技術上多有儲備,團隊成員曾發(fā)明了包括基于對比學習的視覺預訓練范式MoCo、最高效的視覺網(wǎng)絡結(jié)構之一ShuffleNet等,也有團隊成員主導開發(fā)了detectron2,后者是一個被廣泛使用的視覺開源項目,曾被集成到Meta全線VR/AR產(chǎn)品中。創(chuàng)始人楊植麟畢業(yè)于清華大學,師從唐杰教授;之后獲得卡內(nèi)基梅隆大學計算機博士學位,師從蘋果公司人工智能負責人RuslanSalakhutdinov?!霸轮得妗边@個名字,來源于搖滾樂隊PinkFloyd的著名專輯《TheDarkSideoftheMoon》(月之暗面)。據(jù)創(chuàng)始人楊植麟介紹,這個名字象征著神秘與未知,與公司在人工智能領域的探索精神相契合,此外公司成立的日期正好是這張專輯發(fā)行的50周年。根據(jù)鈦媒體AGI官微,融資方面,成立不到一年內(nèi),月之暗面就已完成兩筆融資,總額超過13億美元,投資方包括紅杉中國、真格基金、小紅書、美團、阿里等。2024年2月的一筆融資成為國內(nèi)AI大模型公司迄今獲得的單輪最大金額融資。兩輪投資后,目前,月之暗面公司估值或達25億美元。技術產(chǎn)品層面,成立至今,月之暗面已完成從通用大模型到上層應用的布局。其中,大模型基礎層,月之暗面已訓練千億級別的自研通用大模型,并獲得了國內(nèi)大模型備案審批。而在應用層,2023年10月10日,月之暗面發(fā)布了首個支持輸入20萬漢字的智能助手產(chǎn)品KimiChat。(注:KimiChat后改名為Kimi智能助手,下文KimiChat、Kimi、Kimi智能助手均指同一產(chǎn)品)根據(jù)月之暗面官微的口徑,20萬漢字是當時(2023年10月10日)全球市場上能夠產(chǎn)品化使用的大模型服務中所能支持的最長上下文輸入長度,標志著月之暗面在“長文本”這一重要技術上取得了世界領先水平。從技術視角看,參數(shù)量決定了大模型支持多復雜的“計算”,而能夠接收多少文本輸入(即長文本技術)則決定了大模型有多大的“內(nèi)存”,兩者共同決定模型的應用效果。支持更長的上下文意味著大模型擁有更大的“內(nèi)存”,從而使得大模型的應用更加深入和廣泛:比如通過多篇財報進行市場分析、處理超長的法務合同、快速梳理多篇文章或多個網(wǎng)頁的關鍵信息、基于長篇小說設定進行角色扮演等等,都可以在超長文本技術的加持下,成為人們工作和生活的一部分。相比當前市面上以英文為基礎訓練的大模型服務,KimiChat具備較強的多語言能力。例如,KimiChat在中文上具備顯著優(yōu)勢,實際使用效果能夠支持約20萬漢字的上下文,2.5倍于Anthropic公司的Claude-100k(實測約8萬字),8倍于OpenAI公司的GPT-4-32k(實測約2.5萬字)。同時,KimiChat通過創(chuàng)新的網(wǎng)絡結(jié)構和工程優(yōu)化,在千億參數(shù)下實現(xiàn)了無損的長程注意力機制,不依賴于滑動窗口、降采樣、小模型等對性能損害較大的“捷徑”方案。在月之暗面公司看來,當前大模型輸入長度普遍較低的現(xiàn)狀對其技術落地產(chǎn)生了很大制約。例如:目前大火的虛擬角色場景中,由于長文本能力不足,虛擬角色會輕易忘記重要信息,例如在CharacterAI的社區(qū)中用戶經(jīng)常抱怨“因為角色在多輪對話后忘記了自己的身份,所以不得不重新開啟新的對話”。對于大模型開發(fā)者來說,輸入prompt長度的限制約束了大模型應用的場景和能力的發(fā)揮,比如基于大模型開發(fā)劇本殺類游戲時,往往需要將數(shù)萬字甚至超過十萬字的劇情設定以及游戲規(guī)則作為prompt加入應用,如果模型輸入長度不夠,則只能削減規(guī)則和設定,從而無法達到預期游戲效果。在另一個大模型應用的主要方向——Agent中,由于Agent運行需要自動進行多輪規(guī)劃和決策,且每次行動都需要參考歷史記憶信息才能完成,這會帶來了模型輸入的快速增加,同時也意味著不能處理更長上下文的模型將因為無法全面準確的基于歷史信息進行新的規(guī)劃和決策從而降低Agent運行成功的概率。在使用大模型作為工作助理完成任務的過程中,幾乎每個深度用戶都遇到過輸入長度超出限制的情況。尤其是律師、分析師、咨詢師等職業(yè)的用戶,由于常常需要分析處理較長的文本內(nèi)容,使用大模型時受挫的情況發(fā)生頻率很高。而上述所有的問題在大模型擁有足夠長的上下文輸入后都將會迎刃而解。Kimi可以快速總結(jié)分析公眾號長文;Kimi可以快速完成上市公司財報關鍵信息分析;Kimi可以快速整理多份發(fā)票中所需要的信息;發(fā)現(xiàn)了新的算法論文時,Kimi能夠直接幫你根據(jù)論文復現(xiàn)代碼;Kimi可以理解網(wǎng)頁內(nèi)容;Kimi還可以快速閱讀理解整本圖書。當模型可以處理的上下文變得更長后,大模型的能力能夠覆蓋到更多使用場景,真正在人們的工作、生活、學習中發(fā)揮作用,而且由于可以直接基于全文理解進行問答和信息處理,大模型生成的“幻覺”問題也可以得到很大程度的解決。其實長文本技術的開發(fā),存在一些對效果損害很大的“捷徑”,主要包含以下幾個方面:“金魚”模型,特點是容易“健忘”。通過滑動窗口等方式主動拋棄上文,只保留對最新輸入的注意力機制。模型無法對全文進行完整理解,無法處理跨文檔的比較和長文本的綜合理解(例如,無法從一篇10萬字的用戶訪談錄音轉(zhuǎn)寫中提取最有價值的10個觀點)?!懊鄯洹蹦P停攸c是只關注局部,忽略整體。通過對上下文的降采樣或者RAG(檢索增強的生成),只保留對部分輸入的注意力機制。模型同樣無法對全文進行完整理解(例如,無法從50個簡歷中對候選人的畫像進行歸納和總結(jié))?!膀蝌健蹦P?,特點是模型能力尚未發(fā)育完整。通過減少參數(shù)量(例如減少到百億參數(shù))來提升上下文長度,這種方法會降低模型本身的能力,雖然能支持更長上下文,但是大量任務無法勝任。月之暗面公司認為,走這些捷徑無法達到理想的產(chǎn)品化效果。為了真正做出可用、好用的產(chǎn)品,就應該直面挑戰(zhàn)。具體來看。訓練層面,想訓練得到一個支持足夠長上下文能力的模型,不可避免地要面對如下困難:如何讓模型能在幾十萬的上下文窗口中,準確的Attend到所需要的內(nèi)容,不降低其原有的基礎能力?已有的類似滑動窗口和長度外推等技術對模型性能的損害比較大,在很多場景下無法實現(xiàn)真正的上下文。在千億參數(shù)級別訓練長上下文模型,帶來了更高的算力需求和嚴重的顯存壓力,傳統(tǒng)的3D并行方案已經(jīng)難以無法滿足訓練需求。缺乏充足的高質(zhì)量長序列數(shù)據(jù),如何提供更多的有效數(shù)據(jù)給模型訓練?推理層面,在獲得了支持超長上下文的模型后,如何讓模型能服務眾多用戶,同樣要面臨艱巨挑戰(zhàn):Transformer模型中自注意力機制(SelfAttention)的計算量會隨著上下文長度的增加呈平方級增長,比如上下文增加32倍時,計算量實際會增長1000倍,這意味著如果只是用樸素的方式實現(xiàn),用戶需要等待相當長的時間才能獲得反饋。超長上下文導致顯存需求進一步增長:以1750億參數(shù)的GPT-3為例,目前最高單機配置(80GiB*8)最多只能支持64k上下文長度的推理,超長文本對顯存的要求可見一斑。顯著的顯存帶寬壓力:英偉達A800或H800的顯存帶寬高達2-3TiB/s,但面對如此長的上下文,樸素方法的生成速度只能達到2~5tokens/s,使用的體驗相當卡頓。在過去Kimi發(fā)布前半年多的時間里,月之暗面的技術團隊進行了極致的算法和工程優(yōu)化,克服上述重重困難,終于完成了大內(nèi)存模型的產(chǎn)品化,帶來了首個支持20萬字輸入的千億參數(shù)LLM產(chǎn)品。月之暗面創(chuàng)始人楊植麟此前在接受采訪時曾表示,無論是文字、語音還是視頻,對海量數(shù)據(jù)的無損壓縮可以實現(xiàn)高程度的智能。無損壓縮的進展曾深度依賴「參數(shù)為王」模式,該模式下壓縮比直接與參數(shù)量相關,這大大增加了模型的訓練成本和應用門檻,而月之暗面認為:大模型的能力上限(即無損壓縮比)是由單步能力和執(zhí)行的步驟數(shù)共同決定的。單步能力與參數(shù)量正相關,而執(zhí)行步驟數(shù)即上下文長度。月之暗面相信,更長的上下文長度可以為大模型應用帶來全新的篇章,促使大模型從LLM時代進入LongLLM(LLLM)時代:每個人都可以擁有一個具備終身記憶的虛擬伴侶,它可以在生命的長河中記住與你交互的所有細節(jié),建立長期的情感連接。每個人都可以擁有一個在工作環(huán)境與你共生(co-inhabit)的助手,它知曉公域(互聯(lián)網(wǎng))和私域(企業(yè)內(nèi)部文檔)的所有知識,并基于此幫助你完成OKR。每個人都可以擁有一個無所不知的學習向?qū)?,不僅能夠準確的給你提供知識,更能夠引導你跨越學科間的壁壘,更加自由的探索與創(chuàng)新。當然,更長的上下文長度只是月之暗面在下一代大模型技術上邁出的第一步。月之暗面計劃憑借該領域的領先技術,加速大模型技術的創(chuàng)新和應用落地,不斷取得更多突破。Kimi智能助手初次亮相后,憑借約20萬漢字的無損上下文能力,幫助用戶解鎖了很多新的使用場景,包括專業(yè)學術論文的翻譯和理解、輔助分析法律問題、一次性整理幾十張發(fā)票、快速理解API開發(fā)文檔等,獲得了良好的用戶口碑和用戶量的快速增長。根據(jù)AI產(chǎn)品榜統(tǒng)計,Kimi的2月上榜訪問量已經(jīng)達到305萬,僅次于阿里通義千問的365萬和百度文心一言的1006萬,排名國內(nèi)總榜第三。與此同時,Kimi訪問量增速也在國內(nèi)超百萬月上榜訪問量的AI產(chǎn)品中位居第一,2月達到107.60%的環(huán)比增速,遠超同級別產(chǎn)品。而在全球增速榜中,Kimi的上榜訪問量增速依然排名第一。根據(jù)鈦媒體AGI官微,月之暗面工程副總裁許欣然更是表示,目前Kimi平均每個月可能都有100%以上的增速。2024年3月18日,月之暗面宣布Kimi智能助手在長上下文窗口技術上再次取得突破,無損上下文長度提升了一個數(shù)量級到200萬字。與此同時,支持200萬字上下文的Kimi已啟動“內(nèi)測”。對大模型超長無損上下文能力有需求的用戶,可到Kimi智能助手網(wǎng)頁版kimi.ai首頁申請搶先體驗。從20萬字到200萬字,由于沒有采用常規(guī)的漸進式提升路線,月之暗面團隊遇到的技術難度也是指數(shù)級增加的。為了達到更好的長窗口無損壓縮性能,月之暗面的研發(fā)和技術團隊從模型預訓練到對齊、推理環(huán)節(jié)均進行了原生的重新設計和開發(fā),不走“滑動窗口”、“降采樣”等技術捷徑,攻克了很多底層技術難點。月之暗面相信,大模型無損上下文長度的數(shù)量級提升,也會進一步幫助大家打開對AI應用場景的想象力,包括完整代碼庫的分析理解、可以自主幫人類完成多步驟復雜任務的智能體Agent、不會遺忘關鍵信息的終身助理、真正統(tǒng)一架構的多模態(tài)模型等等。月之暗面也放出了幾個超長無損上下文的使用場景示例:用戶上傳幾十萬字的經(jīng)典德州撲克長篇教程后,讓Kimi扮演德?lián)鋵<覟樽约禾峁┏雠撇呗缘闹笇?;上傳一份完整的近百萬字中醫(yī)診療手冊,讓Kimi針對用戶的問題給出診療建議;上傳英偉達過去幾年的完整財報,讓Kimi成為英偉達財務研究專家,幫用戶分析總結(jié)英偉達歷史上的重要發(fā)展節(jié)點;上傳一個代碼倉庫里的源代碼,可以詢問Kimi關于代碼庫的所有細節(jié),即便是毫無注釋的陳年老代碼也能幫助你快速梳理出代碼的結(jié)構。根據(jù)月之暗面的口徑,過去要10000小時才能成為專家的領域,現(xiàn)在只需要10分鐘,Kimi就能接近任何一個新領域的初級專家水平。用戶可以跟Kimi探討這個領域的問題,讓Kimi幫助自己練習專業(yè)技能,或者啟發(fā)新的想法。有了支持200萬字無損上下文的Kimi,快速學習任何一個新領域都會變得更加輕松。快速整理大量的資料是很多用戶在工作中經(jīng)常遇到的挑戰(zhàn)?,F(xiàn)在Kimi能夠一口氣精讀500個,甚至更多數(shù)量的文件,幫助用戶快速分析所有文件的內(nèi)容,并且支持通過自然語言進行信息查詢和篩選,大大提高了信息處理效率。例如,公司HR可以基于業(yè)務需求,快速從最近的500份簡歷中,讓Kimi快速找出有某個行業(yè)從業(yè)經(jīng)歷,同時從計算機類專業(yè)畢業(yè)的求職者,更加高效地篩選和識別合適的候選人。從長篇小說、故事或劇本中,重新發(fā)現(xiàn)值得玩味的蛛絲馬跡,進行深層細節(jié)的挖掘,是很多影視娛樂IP的愛好者熱衷的事情。如果將甄嬛傳全集幾十萬字的劇本傳給Kimi,Kimi能在不同時間段、各個場景的故事情節(jié)中,深入挖掘甄嬛、果郡王的情感線以及和他們孩子的真相?!巴ㄍㄓ萌斯ぶ悄埽ˋGI)的話,無損的長上下文將會是一個很關鍵的基礎技術。從word2vec到RNN、LSTM,再到Transformer,歷史上所有的模型架構演進,本質(zhì)上都是在提升有效的、無損的上下文長度?!痹轮得鎰?chuàng)始人楊植麟博士此前在接受采訪時表示,“上下文長度可能存在摩爾定律,但需要同時優(yōu)化長度和無損壓縮水平兩個指標,才是有意義的規(guī)?;!睆暮芏郖imi智能助手用戶的反饋來看,20萬字的無損長上下文幫助他們打開了新的AI應用世界,帶來了更大的價值,但隨著他們嘗試更復雜的任務、解讀更長的文檔,依然會遇到對話長度超出限制的情況。這也是大模型產(chǎn)品的無損上下文長度需要繼續(xù)提升的一個直接原因。此外,Kimi智能助手的智能搜索,同樣離不開大模型的無損長上下文能力。Kimi主動搜索得到的多篇資料,會作為上下文的一部分交給模型去推理。正是因為Kimi大模型支持的上下文窗口足夠長,窗口內(nèi)的信息損失足夠低,Kimi智能助手才能輸出高質(zhì)量的結(jié)果,為用戶帶來截然不同的搜索體驗。Kimi可以根據(jù)用戶的問題,主動去互聯(lián)網(wǎng)上搜索、分析和總結(jié)最相關的多個頁面,生成更直接、更準確的答案。例如,用戶可以讓Kimi主動去搜索和對比兩家同領域上市公司的最新財報數(shù)據(jù),直接生成對比表格,節(jié)省大量的資料查找時間。而傳統(tǒng)的搜索引擎通常只能根據(jù)用戶的問題,返回一些參雜著廣告信息網(wǎng)頁鏈接。另一項與大模型的無損上下文能力息息相關的指標是指令遵循(InstructionFollowing)能力。指令遵循能力主要體現(xiàn)在兩個方面:第一,模型在多輪對話中是否能夠始終遵循用戶的指令,理解用戶的需求;第二,模型是否能夠遵循復雜指令,有時候復雜指令可能長達幾千、上萬字。從產(chǎn)品推出以來的用戶反饋來看,Kimi智能助手的多輪交互和超長指令遵循能力,也是產(chǎn)品的一項核心優(yōu)勢。根據(jù)鈦媒體AGI官微,月之暗面方面表示,從很多Kimi智能助手用戶的反饋來看,20萬字的無損長上下文幫助他們打開了新的AI應用世界,帶來了更大的價值,但隨著他們嘗試更復雜的任務、解讀更長的文檔,依然會遇到對話長度超出限制的情況。這也是大模型產(chǎn)品的無損上下文長度需要繼續(xù)提升的一個直接原因。此外,Kimi智能助手的智能搜索,更是離不開大模型的無損長上下文能力。月之暗面指出,正是因為用戶對Kimi發(fā)出的指令越來越復雜,因此團隊也一直致力于提升Kimi能遵循的指令的復雜度、信息檢索能力。同時由于用戶的使用場景從工作逐漸擴展到生活的方方面面,團隊在網(wǎng)頁端之外補齊了微信小程序、iOS端以及安卓端等。月之暗面工程副總裁許欣然透露,Kimi充分發(fā)揮其作為“硅基生命”的優(yōu)勢,夜間也在持續(xù)不斷地自我進化中。月之暗面聯(lián)合創(chuàng)始人周昕宇強調(diào),出于用戶共創(chuàng)的考慮,Kimi的定位比起“聊天機器人”更像一個“智能助手”,因為普通對話對大模型自身迭代的幫助有限。周昕宇表示,對于呼聲很高的提示詞教程,目前已經(jīng)在準備當中,預計在四月左右發(fā)布;同時,多模態(tài)模型也在不斷研發(fā),而音頻處理能力、海外版同樣在需求池內(nèi)。月之暗面工程副總裁許欣然向鈦媒體App表示,月之暗面的AIInfra(基礎設施)團隊也在持續(xù)提升能效比,均是采用自研技術。比起剛發(fā)布時,Kimi在完全相同的硬件條件下響應速度提升了3倍。目前,Kimi智能助手仍完全免費。但隨著用戶群體的擴大和使用量的增長,難免會出現(xiàn)算力不足的情況。月之暗面工程副總裁許欣然透露,2024年上半年預計開啟商業(yè)化模式除了持續(xù)發(fā)展Kimi,根據(jù)界面新聞官方百家號,月之暗面聯(lián)合創(chuàng)始人周昕宇表示,在Sora發(fā)布之前月之暗面就已經(jīng)有多模態(tài)方面的研發(fā),目前正在按照固有節(jié)奏推進,預計在2024年將會有相關產(chǎn)品發(fā)布。我們認為,月之暗面代表著中國AI另一種可能性,即初創(chuàng)公司在某個大模型的細分領域帶來的世界級領先,在2023年10月,月之暗面就在“長文本”這一重要技術上取得了世界領先水平,而伴隨“200萬字”級別Kimi的發(fā)布,月之暗面的領先也有望持續(xù)擴大。而Kimi則是抓住了某個細分領域的“痛點”的產(chǎn)品,即長文本的分析,這種實際的需求,疊加月之暗面自研的大模型在這個領域的領先技術,共同創(chuàng)造出了Kimi。月之暗面創(chuàng)始人兼CEO楊植麟在接受騰訊新聞《潛望》專訪中提到:“我肯定要做AGI嘛,這是接下來十年唯一有意義的事。但不是說我們不做應用?;蛘?,不應該把它定義成一個‘應用’?!畱谩犉饋砗孟衲阌幸粋€技術,你想把它用在什么地方,有商業(yè)化閉環(huán)。但‘應用’不是準確的詞。它跟AGI是相輔相成的。它本身是實現(xiàn)AGI的手段,也是實現(xiàn)AGI的目的。反過來,你如果只關注應用,不關注模型能力迭代,不關注AGI,貢獻也有限?!蔽覀冋J為,伴隨月之暗面在未來持續(xù)深耕AGI,其大模型的技術迭代和應用的落地有望同步推進,共同促進國產(chǎn)AI的發(fā)展。2.國產(chǎn)大模型持續(xù)發(fā)展,性能逐漸接近世界第一梯隊我們認為,好的AI應用與好的AI大模型是分不開的,除了Kimi背后的月之暗面自研大模型,國內(nèi)其他大模型目前也正在緊追海外的步伐,部分領軍者已經(jīng)基本達到了世界一流的水平。2024年1月30日,訊飛星火認知大模型V3.5正式發(fā)布,訊飛星火V3.5實現(xiàn)了文本生成、語言理解、知識問答、邏輯推理、數(shù)學能力、代碼能力、多模態(tài)能力等七大能力的全面提升。根據(jù)與長三角人工智能產(chǎn)業(yè)鏈聯(lián)盟、中國科學院人工智能產(chǎn)學研創(chuàng)新聯(lián)盟等科研機構以及企業(yè)共同形成的通用認知智能大模型測評體系的481個維度,科大訊飛采用科學測評方法和隨機動態(tài)數(shù)據(jù)對比檢測,訊飛星火V3.5的各項能力越來越逼近現(xiàn)在全球最好的GPT-4Turbo水平,并且訊飛星火V3.5已在語言理解、數(shù)學能力上超過了GPT-4Turbo。在代碼功能上,訊飛星火V3.5已經(jīng)達到了GPT-4Turbo的96%。在科研最常用的Python語言領域,不僅在HumanEval的測試集上,而且在真實的測試集上,訊飛星火V3.5技術測試效果已經(jīng)實現(xiàn)超過(GPT-4Turbo)。另外在多模態(tài)的理解上,訊飛星火V3.5達到了GPT-4V的91%,其中語音的多模態(tài)能力已經(jīng)超過GPT-4了。在要素抽取和問題生成方面,訊飛星火V3.5已經(jīng)實現(xiàn)超越GPT-4Turbo,在概念理解、知識推理和圖文生成方面還有差距,但也在迎頭趕上,像概念理解這些關鍵的能力與GPT-4Turbo相比已經(jīng)差距很小。時空推理和邏輯推理方面,訊飛星火V3.5相比V3.0已經(jīng)有了顯著提升,盡管與GPT-4Turbo相比還存在一些差距,但差距并不是很大。如果將其限定在特定領域,并提供專業(yè)領域的知識進行學習和訓練,當訊飛星火V3.5了解相對明確的應用場景后,其評分可能從40-50分提高到90多分,甚至在部分應用場景中可以保證萬無一失。總的來講,訊飛星火V3.5在各個維度的能力都有提升,對標國際最先進水平。數(shù)學能力已經(jīng)超過了GPT-4Turbo,代碼能力在Python上超過了GPT-4Turbo,多模態(tài)能力相當于GPT-4V的91%水平。百度則早在2023年3月16日發(fā)布知識增強大語言模型文心一言。文心一言從數(shù)萬億數(shù)據(jù)和數(shù)千億知識中融合學習,得到預訓練大模型,在此基礎上采用有監(jiān)督精調(diào)、人類反饋強化學習、提示等技術,具備知識增強、檢索增強和對話增強的技術優(yōu)勢。文心一言的基礎模型2023年5月升級至文心大模型3.5,在基礎模型升級、精調(diào)技術創(chuàng)新、知識點增強、邏輯推理增強、插件機制等方面創(chuàng)新突破,取得效果和效率的提升。根據(jù)百度官微援引人民數(shù)據(jù)發(fā)布的《AI大模型綜合能力測評報告》顯示,文心一言不僅綜合評分超越ChatGPT,位居全球第一,更在內(nèi)容生態(tài)、數(shù)據(jù)認知、知識問答三大維度評分超越ChatGPT,且六大維度評分均位列國內(nèi)大模型榜首。同時,文心一言近20項細分測評指標排名全球第一,遙遙領先其他國產(chǎn)大模型。多個公開測評顯示,文心大模型3.5版支持下的文心一言中文能力突出,甚至有超出GPT-4的表現(xiàn);綜合能力在評測中超過ChatGPT,遙遙領先于其他大模型。例如,全球領先的IT市場研究和咨詢公司IDC最新發(fā)布的《AI大模型技術能力評估報告,2023》顯示,根據(jù)百度官微援引百度文心大模型3.5拿下12項指標的7個滿分,得到“綜合評分第一,算法模型第一,行業(yè)覆蓋第一”三個絕對第一;根據(jù)百度官微援引新華網(wǎng)的《國內(nèi)LLM產(chǎn)品測試報告》中,百度文心一言整體領先,在內(nèi)容安全、閱讀理解、常識問答,數(shù)學運算等維度得分遠超ChatGPT3.5、訊飛星火和ChatGLM。2023年10月17日,百度發(fā)布文心大模型4.0,相比3.5版本,理解、生成、邏輯、記憶四大能力都有顯著提升。其中理解和生成能力的提升幅度相近,而邏輯和記憶能力的提升則更大,邏輯的提升幅度達到理解的近3倍,記憶的提升幅度也達到了理解的2倍多。百度基于文心大模型研制了智能代碼助手Comate,從內(nèi)部應用效果來看,整體的代碼采納率達到40%,高頻用戶的代碼采納率達到60%。文心大模型4.0在2023年9月已開始小流量上線,2023年9月-2023年10月一個多月間,效果又提升了近30%。訓練算法效率自2023年3月以來已累計提升3.6倍,周均的訓練有效率超過98%。文心大模型4.0基本技術架構與3.0和3.5版本一脈相承,并在多個關鍵技術方向上進一步創(chuàng)新突破。此外,文心大模型4.0在輸入和輸出階段都進行知識點增強。一方面,對用戶輸入的問題進行理解,并拆解出回答問題所需的知識點,然后在搜索引擎、知識圖譜、數(shù)據(jù)庫中查找準確知識,最后把這些找到的知識組裝進Prompt送入大模型,準確率好,效率也高;另一方面,對大模型的輸出進行反思,從生成結(jié)果中拆解出知識點,然后再利用搜索引擎、知識圖譜、數(shù)據(jù)庫,以及大模型本身進行確認,進而對有差錯的點進行修正。李彥宏在宣布文心大模型4.0發(fā)布時表示,這是迄今為止最強大的文心大模型,實現(xiàn)了基礎模型的全面升級,在理解、生成、邏輯和記憶能力上都有著顯著提升,綜合能力“與GPT-4相比毫不遜色”。2024年01月16日,智譜AI也推出新一代基座大模型GLM-4。GLM-4支持更長上下文;更強的多模態(tài);支持更快推理速度,更多并發(fā),大大降低推理成本;同時GLM-4增強了智能體能力?;A能力(英文):GLM-4在MMLU、GSM8K、MATH、BBH、HellaSwag、HumanEval等數(shù)據(jù)集上,分別達到GPT-494%、95%、91%、99%、90%、100%的水平。指令跟隨能力:GLM-4在IFEval的prompt級別上中、英分別達到GPT-4的88%、85%的水平,在Instruction級別上中、英分別達到GPT-4的90%、89%的水平。對齊能力:GLM-4在中文對齊能力上整體超過GPT-4。長文本能力:在LongBench(128K)測試集上對多個模型進行評測,GLM-4性能超過Claude2.1;在「大海撈針」(128K)實驗中,GLM-4的測試結(jié)果為128K以內(nèi)全綠,做到100%精準召回。GLM-4實現(xiàn)自主根據(jù)用戶意圖,自動理解、規(guī)劃復雜指令,自由調(diào)用網(wǎng)頁瀏覽器、CodeInterpreter代碼解釋器和多模態(tài)文生圖大模型,以完成復雜任務。簡單來講,即只需一個指令,GLM-4會自動分析指令,結(jié)合上下文選擇決定調(diào)用合適的工具。AllTools-文生圖:GLM-4能夠結(jié)合上下文進行AI繪畫創(chuàng)作(CogView3,其在文生圖多個評測指標上,相比DALLE3約在91.4%~99.3%的水平之間。),如下圖所示,大模型能夠遵循人的指令來不斷修改生成圖片的結(jié)果。AllTools-代碼解釋器:GLM-4能夠通過自動調(diào)用python解釋器,進行復雜計算(例如復雜方程、微積分等),在GSM8K、MATH、Math23K等多個評測集上都取得了接近或同等GPT-4AllTools的水平。同樣GLM-4也可以完成文件處理、數(shù)據(jù)分析、圖表繪制等復雜任務,支持處理Excel、PDF、PPT等格式文件。AllTools-網(wǎng)頁瀏覽:GLM-4能夠自行規(guī)劃檢索任務、自行選擇信息源、自行與信息源交互,在準確率上能夠達到78.08,是GPT-4AllTools的116%。AllTools-FunctionCall:GLM-4能夠根據(jù)用戶提供的Function描述,自動選擇所需Function并生成參數(shù),以及根據(jù)Function的返回值生成回復;同時也支持一次輸入進行多次Function調(diào)用,支持包含中文及特殊符號的Function名字。這一方面GLM-4AllTools與GPT-4Turbo相當。AllTools-多工具自動調(diào)用:除了以上單項工具自動調(diào)用外,GLM-4同樣能夠?qū)崿F(xiàn)多工具自動調(diào)用,例如結(jié)合網(wǎng)頁瀏覽、CogView3、代碼解釋器等的調(diào)用方式。總體來講,GLM-4的整體性能相比上一代大幅提升,十余項指標逼近或達到GPT-4。而阿里也在2023年10月31日發(fā)布了千億級參數(shù)大模型通義千問2.0。在10個權威測評中,通義千問2.0綜合性能超過GPT-3.5,正在加速追趕GPT-4。通義千問2.0在性能上取得巨大飛躍,相比2023年4月發(fā)布的1.0版本,通義千問2.0在復雜指令理解、文學創(chuàng)作、通用數(shù)學、知識記憶、幻覺抵御等能力上均有顯著提升。通義千問的綜合性能已經(jīng)超過GPT-3.5,加速追趕GPT-4。在MMLU、C-Eval、GSM8K、HumanEval、MATH等10個主流Benchmark測評集上,通義千問2.0的得分整體超越Meta的Llama-2-70B,相比OpenAI的Chat-3.5是九勝一負,相比GPT-4則是四勝六負,與GPT-4的差距進一步縮小。中英文理解能力是大語言模型的基本功。英語任務方面,通義千問2.0在MMLU基準的得分是82.5,僅次于GPT-4,通過大幅增加參數(shù)量,通義千問2.0能更好地理解和處理復雜的語言結(jié)構和概念;中文任務方面,通義千問2.0以明顯優(yōu)勢在C-Eval基準獲得最高得分,這是由于模型在訓練中學習了更多中文語料,進一步強化了中文理解和表達能力。在數(shù)學推理、代碼理解等領域,通義千問2.0進步明顯。在推理基準測試GSM8K中,通義千問排名第二,展示了強大的計算和邏輯推理能力;在HumanEval測試中,通義千問得分緊跟GPT-4和GPT-3.5,該測試主要衡量大模型理解和執(zhí)行代碼片段的能力,這一能力是大模型應用于編程輔助、自動代碼修復等場景的基礎。2024年3月14日,阿里通義千問還推出了免費的文檔解析功能,可解析網(wǎng)頁、文檔、論文、圖書,突破當前大模型長文檔處理的天花板。針對單個文檔,通義千問能夠處理超萬頁的超長資料,換算成中文篇幅約1000萬字;針對多個文檔,可一鍵速讀100份不同格式的資料;還可解析在線網(wǎng)頁。此外,商湯更是早在2023年6月便聯(lián)合多家國內(nèi)頂尖科研機構發(fā)布了預訓練大語言模型InternLM,成為國內(nèi)首個超越GPT-3.5-turbo性能的基模型。2024年2月2日,商湯發(fā)布了“日日新SenseNova4.0”,多維度全面升級大模型體系?!叭杖招耂enseNova4.0”擁有更全面的知識覆蓋、更可靠的推理能力,更優(yōu)越的長文本理解力及更穩(wěn)定的數(shù)字推理能?和更強的代碼生成能力,并支持跨模態(tài)交互。日日新·商量大語言模型-通用版本(SenseChatV4),支持128K語境窗口長度,綜合整體評測成績水平比肩GPT-4,相較GPT-3.5已經(jīng)實現(xiàn)全面超越。在大模型發(fā)展的背景下,各大科技公司也高度重視AI應用的發(fā)展與落地?!按竽P桶l(fā)展,應用才是硬道理?!笨拼笥嶏w董事長劉慶峰強調(diào)。訊飛星火自2023年5月誕生以來,不斷迭代升級其大模型能力,深耕千行百業(yè)的應用剛需。星火賦能個人應用打造,目前基于訊飛聽見、訊飛星火APP、訊飛輸入法等應用,已累計賦能億萬用戶。為加速企業(yè)大模型應用價值落地,訊飛星火V3.5將提供全棧自主可控的優(yōu)化套件?;谌珖a(chǎn)化算力打造的訊飛星火V3.5支持異構算力調(diào)度,可實現(xiàn)行業(yè)大模型訓練提效90%,支持23個企業(yè)應用場景的敏捷優(yōu)化。截止2024年1月,星火開發(fā)者超35萬,生態(tài)增長迅猛,打造個人應用賦能億萬用戶。訊飛星火賦能千行百業(yè),攜手保險、銀行、能源、汽車、通信等領域龍頭企業(yè),打造大模型賦能的應用標桿。此外,深度適配國產(chǎn)算力的訊飛星火開源大模型“星火開源-13B”首次發(fā)布,場景應用效果領先,昇思開源社區(qū)聯(lián)合首發(fā)上線。百度創(chuàng)始人、董事長兼首席執(zhí)行官李彥宏也表示:“我們一定要去卷AI原生應用,要把這個東西做出來,模型才有價值?!?023年10月17日,百度發(fā)布了國內(nèi)首家一站式交易的AI原生應用商店——百度智能云千帆AI原生應用商店。千帆AI原生應用商店上線百天時,累計上線AI原生應用超100款,涵蓋文案智能創(chuàng)作、AI作畫、代碼生成、數(shù)字人等應用場景,應用數(shù)量指數(shù)級增長中。一個個新生的AI原生應用在這里實現(xiàn)商業(yè)化,月活躍用戶超40萬,應用周訂單量超300%增長,部分優(yōu)質(zhì)應用購買轉(zhuǎn)化率達15%以上。商湯也將先進的大模型能力轉(zhuǎn)化為落地實際場景的產(chǎn)品應用,基于最新發(fā)布的日日新·商量大語言模型Functioncall&AssistantsAPI版本,完成開發(fā)并發(fā)布數(shù)據(jù)分析工具“辦公小浣熊”。通過自然語言輸入,辦公小浣熊結(jié)合商湯大模型體系的意圖識別、邏輯理解、代碼生成能力,自動將數(shù)據(jù)轉(zhuǎn)化為有意義的分析結(jié)果和可視化圖表。未來,商湯“日日新SenseNova”大模型體系及相關產(chǎn)品和工具將為實現(xiàn)通用人工智能(AGI)提供精準著力點,助力全場景、多產(chǎn)業(yè)實現(xiàn)“大模型+”,拓寬大模型應用邊界。我們認為,2023年是國產(chǎn)大模型快速發(fā)展的元年,在過去一年多的發(fā)展時間中,部分領先的國產(chǎn)大模型目前已經(jīng)實現(xiàn)了對GPT-3.5的超越,正在接近世界第一梯隊GPT-4的水平。國產(chǎn)大模型目前仍在持續(xù)發(fā)展的過程中,例如科大訊飛董事長劉慶峰就表示:“星火認知大模型2024年將繼續(xù)保持快速升級,預計上半年達到GPT-4Turbo當前最好水平”,而國產(chǎn)大模型在發(fā)展中對于算力、數(shù)據(jù)的需求仍將不斷擴大,而伴隨大模型的升級迭代,應用的落地也有望全面鋪開。3.從Kimi展望國產(chǎn)大模型和應用,“月之暗面”的背后是星辰大海我們認為,通過針對長文本的快速學習,大模型在某些細分領域能夠起到較為突出的輔助作用,正如月之暗面官微中的介紹:“過去要10000小時才能成為專家的領域,現(xiàn)在只需要10分鐘,Kimi就能接近任何一個新領域的初級專家水平。用戶可以跟Kimi探討這個領域的問題,讓Kimi幫助自己練習專業(yè)技能,或者啟發(fā)新的想法。有了支持200萬字無損上下文的Kimi,快速學習任何一個新領域都會變得更加輕松?!蔽覀兣袛?,伴隨著大模型長文本處理能力提升,以下多個行業(yè)有望成為AI技術升級的核心受益者:1、金融領域:根據(jù)新華網(wǎng)轉(zhuǎn)載的經(jīng)濟日報的《大模型技術對金融業(yè)意味著什么》一文,從匹配度上看,金融業(yè)是典型的數(shù)據(jù)密集型產(chǎn)業(yè),而大模型技術的一大特征就是具有強大的數(shù)據(jù)洞察理解能力,可以縮短數(shù)據(jù)間發(fā)生連接與被計算的時間,提高數(shù)據(jù)創(chuàng)造價值的效率。如果把大模型的能力放在金融業(yè)中去處理原有的一些任務,會對很多工作產(chǎn)生提質(zhì)增效的效果。我們認為,在金融行業(yè)日常的工作中,信息處理是一項無可避免的流程,以投研領域為例,分析師往往需要處理大量的信息,包括公司公告、行業(yè)新聞、市場交易數(shù)據(jù)等等,而許多信息都相當繁雜,例如金山辦公2023年年報就長達305頁,完整細讀將會消耗大量的時間,即使是選取年報中重點領域進行有針對性的研究總結(jié),在一份年報所花費的時間也是以小時計的,這些基礎工作將會給分析師帶來繁重的負擔。而伴隨著大模型長文本處理能力提升,金融領域信息整理歸納的效率也有望迅速提升,舉例來說,Kimi智能助手目前處理能力上限高達200w字,我們簡單做一個假設,一篇年報為10萬字,則我們可以一次性讓Kimi分析20份年報,而通義千問目前能夠處理超萬頁的超長資料,換算成中文篇幅約1000萬字,即在我們的假設下其可以同時分析超過200份年報,這將大大提升分析師信息整理歸納的效率,從而最終提升整體工作效率。而且,根據(jù)月之暗面官微,過去要10000小時才能成為專家的領域,現(xiàn)在只需要10分鐘,Kimi就能接近任何一個新領域的初級專家水平。我們認為,這對于需要提供大量C端用戶服務的金融領域?qū)砣娴母镄拢员kU領域為例,AI應用能夠讀取和分析冗長的保險條款、索賠文件等,快速幫助保險人員快速確定保險責任和賠償范圍,簡化理賠流程,提升客戶滿意度,可以說,伴隨長文本處理能力的升級,未來AI能夠在短時間內(nèi)學習更大量的知識,從而成為部分細分業(yè)務領域的“初級專家”,從而減少許多過去許多人類進行的工作量。我們認為,金融業(yè)作為數(shù)據(jù)密集型行業(yè),在長期業(yè)務發(fā)展中,金融機構積累了海量的數(shù)據(jù)基礎,而且金融業(yè)良好的數(shù)據(jù)資源稟賦與下沉到C端用戶服務的特征決定了其很可能是大模型技術率先滲透的領域之一。此外,由于金融相關文檔通常包含大量的專業(yè)術語和復雜的數(shù)據(jù),對文本處理的準確性和理解能力提出了較高要求,伴隨著大模型長文本處理能力提升,金融行業(yè)有望持續(xù)受益。2、法律領域我們認為,由于法律的規(guī)范化程序和強制性規(guī)定,不可避免地產(chǎn)生很多事務性的工作,例如涉案人員信息的記錄、合同的審查、案件的處理順序、證據(jù)的概括、案件卷宗的整理歸檔等等。但是這背后帶來的是海量的卷宗,舉例來說,司法部官網(wǎng)提及的山西李增虎案,僅僅這個案件中,專案組就完成了1500余冊卷宗的審查,形成13000余頁、650萬字的辦案材料。這就使得法律行業(yè)各參與者在“閱卷”這一必要程序中需要花費巨大的時間和精力。根據(jù)中共瑞安市委辦公室法治瑞安官微轉(zhuǎn)載的李杰(江蘇省泰州市中級人民法院)所撰寫的《論刑事案件法官心證的形成——基于庭審實質(zhì)化視角下說服責任的考察》一文,閱卷在審理過程中是相當重要的一步。一些法官在發(fā)表的訪談和撰寫的審判經(jīng)驗文章里都會明確強調(diào)庭前閱卷的重要性,詳細的閱卷是庭前做好充分庭審準備的必備功課,更是法官形成、驗證心證的基本依賴和主要來源。但是閱卷往往需要花費大量的時間,李杰調(diào)取了部分樣本案件的開庭時間,如果將法定審限劃分為“前——中——后”三段來看,開庭時間多集中在審限的中后段,占比高達92.86%。審限的大量時間用于閱卷和撰寫文書,真正的庭審時間并不太長,庭審的定案功能被虛化,這與庭審實質(zhì)化的要求相背離。我們認為,小數(shù)量的文本信息可以通過人工來處理,但是面對成千上萬的海量文件,如何進行歸納整理,快速提取文件中的信息,這是現(xiàn)今法律行業(yè)面臨的巨大困擾。而伴隨著大模型長文本處理能力提升,對海量數(shù)據(jù)的快速整理歸納卻成為了可能,舉例來說,通義千問目前能夠處理超萬頁的長資料,換算成中文篇幅約1000萬字,上文提到的辦案材料高達13000余頁、650萬字的山西李增虎案能夠一次性被通義千問處理完畢,并在短時間內(nèi)給出歸納總結(jié)。而且,我國司法部門也認識到了人工智能在法律界的重要意義,根據(jù)最高人民法院在2022年12月發(fā)布的《最高人民法院關于規(guī)范和加強人工智能司法應用的意見

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論