2024年AI大模型技術變遷情況回溯報告-中移智庫_第1頁
2024年AI大模型技術變遷情況回溯報告-中移智庫_第2頁
2024年AI大模型技術變遷情況回溯報告-中移智庫_第3頁
2024年AI大模型技術變遷情況回溯報告-中移智庫_第4頁
2024年AI大模型技術變遷情況回溯報告-中移智庫_第5頁
已閱讀5頁,還剩28頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

2024年大模型技術快速演進,相較于2023年的大小模型之爭,技術的進步方向逐步向應用落地方向傾斜,降低端側模型部署門檻,縮短模型推理時延,提升模型交互能力,大模型的發(fā)展迎來了新的變化。本文將從技術視角梳理2024年以來大模型各個領域發(fā)生的變化,以行業(yè)領先實踐為佐證,提出大模型技術演進方向。語言大模型發(fā)展迎來新范式,通過強化學習優(yōu)化內(nèi)部思維鏈策略,以提升復雜邏輯推理能力。多模態(tài)大模型架構正向端到端演進,決策準確性和靈敏度提升推動機器人場景應用落地。在視頻生成領域,DiTs架構的可擴展性優(yōu)勢顯現(xiàn),推動AI應用商業(yè)化。在硬件部署方面,模型壓縮、安全控制等技術正降低部署門檻。在智能體實踐方面,垂類大模型開始在智能終端環(huán)境應用。在合成數(shù)據(jù)策略方面,自我獎勵語言模型在2024年之前,語言類大模型的參數(shù)量快速擴展帶來的“規(guī)模定律”獲得業(yè)界普遍共識,因模型參數(shù)規(guī)模擴展、數(shù)據(jù)集質量提升以及人工微調(diào)為語言模型展現(xiàn)出前所未有的泛化能使得語言類大模型在解決專業(yè)科學、代碼和數(shù)學模型等復雜邏輯推理問題的能力上更進一步。通過研究o1的技術原理發(fā)現(xiàn),其以強化學習優(yōu)化模型內(nèi)部思維鏈推理邏輯步驟,模擬人的思考過程,以加深對問題的理解程度從而提升處理復雜推理任務能力。o1推理大模型的發(fā)布標志著語言大模型的“規(guī)模定律”正延展至后訓練階段,OpenAI首席技術官米拉穆拉迪稱通過強通過強化學習學會了精煉其思維鏈并優(yōu)化所用的策略,學會識別并糾正錯誤,將復雜的步驟分解為更簡單的部分,并在當前方法無效時嘗試不同的途徑。通過這個過程顯著提升了模型的推理能力。在多個高難度推理基準測試中,o1的表現(xiàn)出色,超越人類專家和GPT-4o,展示了其強大的推理能力和在某些領無獨有偶,斯坦福團隊今年3月發(fā)布論文提出的Q-STaR語言模型也有類似的原理,利用強化學習優(yōu)化中間圖例過程,實現(xiàn)并行原理生產(chǎn)、混合原理預測、優(yōu)化原理生成的能力。其測試在7B參數(shù)規(guī)模的語言類模型上表現(xiàn)優(yōu)異,經(jīng)調(diào)整后的語言模過去業(yè)界多模態(tài)大模型多采用基于語言模型為主干的跨模態(tài)架構,其往往通過模態(tài)特定的編碼器(RNN、CNN)轉化為統(tǒng)一的向量表示后再輸入語言模型,依靠語言模型來處理模態(tài)融合后的特征交互。但是這樣帶來的問題是任務響應時間長、損2024年以來以GPT-4o、Gemini為代表的多模態(tài)大模型紛紛開始使用端到端支持多種模態(tài)統(tǒng)一輸入輸出的模型架構。在該架構下引入分詞器,通過將圖像、音頻等連續(xù)信號轉換為離散了模型的輸入接口,減少模態(tài)間的信息損失,提升了模型處理2024GTC大會上,英偉達發(fā)布了人形機器人項目GR00T,旨在開發(fā)人形機器人的通用基礎模型,該模型便是基于控制、執(zhí)行和決策三個層級分層實現(xiàn)模型的端到端訓練學習,最終通過合并反向反饋來得到精準輸出結果,相比于直接通過語言大模型來讓機器人實現(xiàn)自主決策可大幅提升機器人處理復雜任務的精度、高效性以及靈活性。相比于人形機器人,端到端架構更早應用于無人駕駛領域,特斯拉早在2023年便發(fā)布了史上第一駛模塊化、人為預設規(guī)則解決方案的定式,只需通過攝像頭、激光雷達等傳感器數(shù)據(jù)輸入,無需任何預設規(guī)則,便可直接輸出控制車輛方向和速度的操作指令,使得無人駕駛方案變得更2024年以來,國內(nèi)外科技大廠發(fā)布的視頻生成模型多以DiTs為基礎,基于Transformer架構的擴散模型在視頻生成任務中可擴展性優(yōu)勢凸顯,即相較于原先的U-Net卷積網(wǎng)絡架構,Transformer骨干架構可以提供基于參數(shù)規(guī)模和訓練數(shù)據(jù)量提升而帶來更優(yōu)越的性能。同時通過Transformer的窗口注意力機制架構,在生成視頻的像素穩(wěn)定性、前后邏輯連續(xù)性以及信息丟失等方面有大幅提升。Sora除了采用DiTs架構以外,還在數(shù)據(jù)處理和視頻標注領域做了創(chuàng)新。在數(shù)據(jù)方面,基于視頻編碼器相應解碼器實現(xiàn)隱空間向視頻像素空間的映射,以訓練新的視頻壓縮網(wǎng)絡實現(xiàn)長視頻生成的能力。在視頻標注方面,復用DALL-E3的重標注技術,對視頻數(shù)據(jù)生成高質量文字標注,借助了原先視頻生成模型架構的基礎上,疊加了一個13B參數(shù)轉換器模型MetaGenAudio,通過數(shù)百萬個小時的音頻參考數(shù)據(jù)的對比總結,MetaGenAudio可精準匹配聲音和畫面之間的對應關系,根據(jù)不同情緒和環(huán)境的提示詞,找到與畫面完美契合的雖然視頻生成模型的商業(yè)化仍處于早期,以國內(nèi)公司為例如Vidu、PixVerse、可靈等視頻生成模型目前已經(jīng)開面向C端采用訂閱模式收費,年費標準版會員4-5s視頻生成價格折合為0.025-0.1美元左右,面向B端的API調(diào)用價格暫未確定,但伴隨著架構持續(xù)成熟以及各類創(chuàng)新技術推動下,視頻生成有望更蘋果作為智能硬件全球領先的科技公司,在軟硬件、操作AppleIntelligence采用端云結合方案,即分別在設備端server不同應用可以通過統(tǒng)一的語義索引、意圖檢測等工具調(diào)用AFM模型,當遇到復雜任務超出端側模型處理能力時,任為保障在端側設備上運行模型同時避免精度上損失,蘋果創(chuàng)新推出量化壓縮疊加適配器的架構,一方面采用量化壓縮的方法降低模型大小,同時通過LoRA適配器來恢復量化模型的精度。該適配器本身也是由特定任務上精度恢復訓練得到,訓練與開發(fā)成本較低,能夠較好平衡模型良好性能和模型輕便化需為保障模型安全可控,蘋果制定了ResponsibleAI原則——用戶賦能,即工具僅提供智能工具,尊重用戶選擇及隱私;代表全球,服務全球用戶避免種族歧視;謹慎設計,開發(fā)設計過程設施保護措施,防止AI工具濫用或產(chǎn)生風險;隱私保護,通過端側離線處理和云基礎設施創(chuàng)新實現(xiàn)隱私保護,例如使用私有云計算來保護用戶數(shù)據(jù)及隱私。該四大原則被整合到基礎模型開發(fā)的每一個環(huán)節(jié)中,包括數(shù)據(jù)的收集與處理、模型訓練、為提升大模型端側運行流暢度,蘋果研發(fā)了LLM-in-a-flash技術,讓大模型可以不受限于DRAM的限制,在推理時將參數(shù)加載至閃存中來輔助完成計算,分擔存儲壓力,從而降低端側設備部署大模型門檻。具體來說,蘋果以“滑動窗口”和“低秩預測器”方式精簡加載的參數(shù)數(shù)據(jù)量,以大幅縮短數(shù)據(jù)從閃存加載至DRAM因速度慢導致的時延。通過“行列捆綁”技術借助大模型矩陣運算數(shù)據(jù)連續(xù)存放的特性,發(fā)揮閃存順序讀取速度的優(yōu)勢,從而加速閃存的讀取傳輸。另外還通過LazyLLM預填充動態(tài)剪枝技術提升模型的推理速度,蘋果研究人員發(fā)現(xiàn)模型在推理預填充階段,僅有少部分的token是有用的,若對每一層生成的token進行剪枝,后續(xù)層無需對這些無效token進行計算,從而很大程度的節(jié)省計算量。在不損失模型精度的前提下大幅降低模型推理時的預填充計算量,緩解預填充階段出現(xiàn)經(jīng)測試,在LLM-in-a-flash和LazyLLM預填充動態(tài)剪枝技術的優(yōu)化下,大模型推理的時延大幅降低,在端側可運行的模操作的模型相比傳統(tǒng)大語言模型、多模態(tài)模型在基于手機、平板等智能終端實現(xiàn)UI界面理解、數(shù)字推理任務領域具備更好的表現(xiàn)能力,更適應智能體在智能終端復雜UI環(huán)境場景下落地應和OpenAI工程副總裁DavidLUAN創(chuàng)立,公司成立初衷便是打造AIteammate類通用操作工具來幫助人完成工作。)就正式發(fā)布并開源80億參數(shù)多模態(tài)大模型Fuyu-8B,其具備圖表、圖形和文本理解能力之外,能夠厘清復雜圖形中元素的相互關系,類似手機內(nèi)各類APP中button的意義,并能夠根據(jù)用戶指令準確歸納圖表信息。2024年1月,基于Fuyu-8B發(fā)布了Fuyu-Heavy多模態(tài)模型,進一步加強模型在UI界面理解和數(shù)學推理能力,以及適配多平臺的可擴展性。在規(guī)模僅為傳統(tǒng)多模態(tài)模型5%-10%的基礎下,在多項基準測試以及標準文本測試中不輸GPT-4V——Ferret-UI,在理解屏幕整體功能基礎上,能夠基于人機對話自主推斷任務并提出相應可行操作,從而幫助用戶完成界面::其通過圖形編碼器和空間感知視覺采樣器來處理UI屏幕界面里圖像嵌入以及混合區(qū)表示的輸入問題,混合區(qū)域表示輸入技術(HybridRegionRepresentation)是在語言模型下提升引用、定位能力以及二者間緊密程度的創(chuàng)新技術,提升語言模型理解和描述圖形元素的能力。Ferret-UI不僅在架構上做了特殊調(diào)整,其訓練數(shù)據(jù)集也包含大量的UI任務訓練樣本,可以有準確性高于GPT-4v。::ScalingLaw的“數(shù)據(jù)墻”問題正成為當前大模型邁向通用人工智能道路上的瓶頸,有機構預言(巴克萊投資銀行在《AI成數(shù)據(jù)技術需要發(fā)揮的時刻,否則縮放定律會崩潰,阻礙模型的改進),互聯(lián)網(wǎng)上所有文本數(shù)據(jù)可能在GPT6推出之時消耗殆盡,若想進一步提升大模型性能,拓展數(shù)據(jù)集擴展的能力將會2024年7月,Meta發(fā)布的Llama3.1405B便是完全基于合成數(shù)據(jù)方式,使用自我獎勵語言模型進行訓練,其在訓練的過程中并沒有依賴任何人類編寫的答案,而是完全基

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論