“AI 操作系統(tǒng)”時代已至2024_第1頁
“AI 操作系統(tǒng)”時代已至2024_第2頁
“AI 操作系統(tǒng)”時代已至2024_第3頁
“AI 操作系統(tǒng)”時代已至2024_第4頁
“AI 操作系統(tǒng)”時代已至2024_第5頁
已閱讀5頁,還剩29頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

計算機計算機/行業(yè)專題報告/2024.12.01“AI操作系統(tǒng)”時代已至投資評級投資評級:看好(維持)Agent由于其C端入口特性,有望成為首個“爆款”AI應用。當前市場中長期缺乏“爆款”AI應用,我們認為主要系C端大眾對AI的感知度仍然較低,盡管有大量可下載、可付費的AI應用存在,但從廣大用戶體驗來講,各類AI軟件對其生活重塑的邊際變化不大。而近期,包括手機端蘋果、榮耀、Vivo等,以及PC端聯想等廠商上新操作系統(tǒng)級Agent作為新的人機交互形態(tài),以端側入口形式首次深入群眾,令其“被迫”體驗接受新的操作范式,有望打造首個“爆款”AI分析師楊燁分析師李宇軒1.《智駕月報:10月車市環(huán)比向好,文遠知行上市》2024-11-182.《計算機行業(yè)2025年投資策略:多維共振,精彩紛呈》2024-11-173.《外政預緊,內需預旺,國產科技迎騰飛機遇》2024-11-10Agent能力。智譜的Agent能力主要來源于其底層大模型的訓練與迭代:CogAgent是18B參數的視覺語言模型(VLM專門用于GUI理解和導航,基于視覺語言模型CogVLM并結合高分辨率交叉模塊,實現了高效GUI推理;AutoWebGLM分析師楊燁分析師李宇軒1.《智駕月報:10月車市環(huán)比向好,文遠知行上市》2024-11-182.《計算機行業(yè)2025年投資策略:多維共振,精彩紛呈》2024-11-173.《外政預緊,內需預旺,國產科技迎騰飛機遇》2024-11-10GLM-Phone:可實現跨APP操作、支持超長任務流程、支持更多主流APP,針對手機端應用提供了新的解決方案,顯著擴展了其在手機端的應用場景和操作能力2)GLM-PC:辦公領域將迎來生產力躍升,GLM-PC可實現會議替身、文檔處理、網頁搜索與總結、遠程和定時操作等3)GLM-Car&More:Agent為AI終極形態(tài),加速萬物智能、萬物互聯,未來Agent有望滲透至各類智能設備,落地AI原生設備,實現設備主動服務用戶。投資建議:見正文。風險提示:技術迭代不及預期;商業(yè)化落地不及預期;政策支持不及預期;全球宏觀經濟風險。謹請參閱尾頁重要聲明及財通證券股票和行業(yè)評級標準2 4 6 6 82.3AutoGLM:圖形用戶界面的自主基礎Agent,可用于網頁瀏覽與安卓手機操作 4 5 6 7 8 9 9 謹請參閱尾頁重要聲明及財通證券股票和行業(yè)評級標準3 謹請參閱尾頁重要聲明及財通證券股票和行業(yè)評級標準41AI+OS,操作系統(tǒng)級Agent開啟人機交互革命并利用工具自主執(zhí)行動作的智能化應用,其包括規(guī)劃、記憶、工具、行動四大核眾多細分行業(yè)的應用智能化與流程自動化,包括辦公、金融、醫(yī)療、法律、教育、創(chuàng)意設計等。不過其中一些非交互性、高度流程化的應用功能,也存當前市場中長期缺乏“爆款”AI應用,我們認為主要系C端大眾對AI的感知度謹請參閱尾頁重要聲明及財通證券股票和行業(yè)評級標準5十個網站的無人駕駛;GLM-PC啟動內的技術探索,涵蓋會議代理、文檔處理、網頁搜索與總結、遠程及定時操作、隱作電腦,目前仍處于測試階段,而當前智譜已實現了Agent技術似,存在環(huán)境的反饋監(jiān)督,以及隨著推理訓練時間的增加,模型能力也顯著用、短距離的任務復雜度,但當計算量突破一定程度模型突然能夠實現跨應用長距離的復雜任務,同時還能在從未訓練過的環(huán)境執(zhí)行命令,泛化能力顯數據來源:智譜清言官方發(fā)布會,財通證券研將會成為全新生產力工具,汽車+AI將會讓車成為人們的智能第三生活空間,大Agent技術不僅在操作系統(tǒng)和應用層面引領用戶體驗的革新,更將這一變革延伸謹請參閱尾頁重要聲明及財通證券股票和行業(yè)評級標準6數據來源:智譜清言官方發(fā)布會,財通證券研2建立交互數據集,深耕Post-Training,獲得“從Chat走向Act”通用Agent能力受1120×1120的高分辨率圖像輸入,使其能夠識別微小的頁面元素和文本。CogAgent是基于預訓練的VLM(理高分辨率輸入。添加該模塊主要是因為高分辨率圖像會導致極大的計算時長和內存開銷:視覺語言模型通常將文本和圖像特征序列連接起來作為輸入提供給解圖像能夠有效地描繪大多數物體和布局,然而在清晰呈現文字方面有分辨率模塊強調與文本相關的特征,對于理解圖形用戶界面至關重要。因此,該謹請參閱尾頁重要聲明及財通證券股票和行業(yè)評級標準7分辨率圖像中各種大小、方向和字體的文本能力,數據包括來自語言預訓練數據員以問答的形式標注了屏幕元素、潛在任務和操作方法。同時還利用Mind2Web謹請參閱尾頁重要聲明及財通證券股票和行業(yè)評級標準8CogAgent作為一個通用的視覺語言模型,在眾多視覺問答基準與富含文本的視覺問答基準測試當中都表現優(yōu)異,尤其相比通用模型有明顯得分優(yōu)勢,與微調專業(yè)模型相比也屬于領先梯隊。此外,CogAgent在PC和然后由自動化瀏覽程序執(zhí)行這些決策。該模型有幾大創(chuàng)新點解決了傳統(tǒng)LLM的謹請參閱尾頁重要聲明及財通證券股票和行業(yè)評級標準9頁上操作的通用性:鑒于人工成本高昂以及當前大模型在自動數據生成的不足,作者在網頁識別、簡單任務操作、復雜任務操作構建方面都采用了人機混合的方法,人工篩選網站并構建網頁操作類型分割,大模型輔助生成任務和操作意圖。輸出與正確答案相結合,構建具有正負對的對比數據,讓模型通過認識自己的錯誤進行強化學習;拒絕采樣微調采用監(jiān)督學習模型來生成推理路徑,獎勵模型會收集準確并拒絕錯誤的路徑,隨后將其用作擴充的微調數據集。謹請參閱尾頁重要聲明及財通證券股票和行業(yè)評級標準10鍵。數據集構建分為兩個主要階段,第一階段是網頁識別任務和簡單任務操作構任務操作數據集的主要目標是訓練模型執(zhí)行單步網絡操作。這包括在網頁上執(zhí)行基本功能,如點擊鏈接、填寫表單或導航到特定部分。l通過復雜網絡任務開發(fā)數據集,使模型能夠在網絡瀏覽場理。數據集中的每個樣本都包含復雜網絡瀏覽任務、完成該任務的操作序列以及每一步的意圖。通過瀏覽器插件,利用人工標注來捕獲網頁任務執(zhí)行情(中文-英文)基準AutoWebBench,并評估了謹請參閱尾頁重要聲明及財通證券股票和行業(yè)評級標準11據集當中缺乏決策數據,互聯網包含大量的靜態(tài)人類知識,無法充分捕捉人類決現實世界環(huán)境的直接交互,要么通過從合成軌跡中學習。戶交付的可部署的Agent系統(tǒng)。其中包括了兩個創(chuàng)新的設計:如點餐、打車、查詢信息并發(fā)布等常見場景下取得較高成功率,加速Agent進入謹請參閱尾頁重要聲明及財通證券股票和行業(yè)評級標準12圖10.通過AutoGLM在美團App上“點一杯半糖瑞幸熱椰奶拿鐵”謹請參閱尾頁重要聲明及財通證券股票和行業(yè)評級標準133GLM多端Agent家族,打造手機、PC、汽車等終端交互入口的解決方案,顯著擴展了其在手機端的應用場景和操作能力,標志著智能手機人機交互進入了一個全新的高度。通過在淘寶進行產品復購的案例,表明前版本的謹請參閱尾頁重要聲明及財通證券股票和行業(yè)評級標準14之間篩選價格更實惠的肯德基套餐并下單購買,表明在已有功能的基礎上,升級在“打開美團選擇肯德基并下單全家桶—切換餓了么搜索商品—對比價格后訂單”等任務中,達成多個平臺間的的數據傳遞和智能化決策,而無需用戶手動干預,等平臺外,新增了抖音、微博、餓了么、京東、拼多多等更多主流平臺。這意味頻娛樂和外賣服務,提供了一站式的操作體驗。文本、圖片等)進行理解并提取關鍵信息,且能夠根據所得信息,通過邏輯規(guī)劃和動態(tài)交互完成任務規(guī)劃,并分步驟拆解及逐一完成,在此過程中實現了不同階段的數據傳遞,能夠在短時間內快速完成復雜任務。謹請參閱尾頁重要聲明及財通證券股票和行業(yè)評級標準15群聊并識別群用戶板塊,逐個循環(huán)進行首條朋友圈動態(tài)點贊(指進入-點贊-退出-情景,滿足自動化處理高頻重復操作的需求,減少用戶的謹請參閱尾頁重要聲明及財通證券股票和行業(yè)評級標準16),時執(zhí)行任務)等。GLM-PC是能夠幫助用戶操作文字等,并自動操作電腦。例如在會議替身場景下,用戶發(fā)布指令“加入這個飛能夠大幅提升用戶辦公效率,有望成為未來桌面端的必備數據來源:智譜官方微信公眾號,財通證券研數據來源:智譜官方微信公眾號,財通證券研謹請參閱尾頁重要聲明及財通證券股票和行業(yè)評級標準17數據來源:智譜官方微信公眾號,財通證券研數據來源:智譜官方微信公眾號,財通證券研謹請參閱尾頁重要聲明及財通證券股票和行業(yè)評級標準18單的文字指令讓其搜索特定網頁、查找商品或總結文章內容,對百度、微博、知乎、Github等數十個網站實現自動操作。這體現了WebAgent在提升用戶體驗、謹請參閱尾頁重要聲明及財通證券股票和行業(yè)評級標準19智能語音助手,可通過簡單的語音指令激活,對調節(jié)車內環(huán)境、設置導航、播放音樂、查詢天氣等要求迅速響應并精準執(zhí)行,全面提戶。通過全域數據的快速整合與深度洞察,Agent將具備快速處理復雜任務的能間的推移逐步學習用戶的需求與偏好,從而提供更加個性化的服務,真正做到與圖24.智譜與小鵬合作的“AI小P”謹請參閱尾頁重要聲明及財通證券股票和行業(yè)評級標準20數據來源:智譜清言官方發(fā)布會,財通證券研4投資建議Agent在PC端實現落地,辦公領域AI軟件有望加速推廣,辦公軟件廠路,以及其他智能終端包括掃地機、割草機等有望受益,建議關注聯想集團、傳音控

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論