版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
SAM顛覆式創(chuàng)新,NLP技術(shù)路線實現(xiàn)對CV底層技術(shù)突破13請務(wù)必閱讀正文之后的信息披露和免責(zé)申明1、Meta發(fā)布SAM智能摳圖,CV領(lǐng)域或迎來顛覆式技術(shù)創(chuàng)新Meta發(fā)布Segment
Anything論文《Segment
Anything》Alexander
Kirillovetc.,天風(fēng)證券研究所SAM能從照片或視頻中對任意對象實現(xiàn)一鍵分割4月5日,Meta研究部門發(fā)布了一篇名為其“Segment
Anything”的論文,文中介紹了一個全新的SegmentAnything
Model(SAM),可以用于識別圖像和視頻中的物體,甚至是人工智能從未被訓(xùn)練過的物品。利用類NLP技術(shù)路線,完成CV底層技術(shù)突破。Segment
Anything是致力于圖像分割的第一個基礎(chǔ)模型。在此之前,分割一直是CV領(lǐng)域的核心任務(wù),然而如果想為特定任務(wù)創(chuàng)建準(zhǔn)確的分割模型,通常需要專家進(jìn)行高度專業(yè)化的工作,這個過程需要訓(xùn)練AI的基礎(chǔ)設(shè)施,和大量仔細(xì)標(biāo)注的域內(nèi)數(shù)據(jù),因此門檻極高。Meta提出的圖像分割模型SAM接受了多樣化數(shù)據(jù)訓(xùn)練的可提示模型,不僅能適應(yīng)各種任務(wù),而且操作起來也類似于在NLP模型中使用提示的方式。該模型掌握了“什么是對象”這個概念,可以為任何圖像或視頻中的任何對象生成掩碼,即使是它在訓(xùn)練中沒有見過的對象。SAM具有廣泛的通用性,足以涵蓋各種用例,不需額外訓(xùn)練就可開箱即用地用于新的圖像領(lǐng)域,并具備零樣本遷移的能力。資料來源:新智元微信公眾號,天風(fēng)證券研究所1、支持多種交互方式完成圖像、視頻分割SAM三種分割圖像方法演示Segment
Anything官網(wǎng),天風(fēng)證券研究所文字查詢完成圖片分割資料來源:硅星人微信公眾號,天風(fēng)證券研究所除了簡單的識別圖片中的物品外,此次SAM還支持用戶使用各種交互性的方式來分離出想要的物體。Meta
官網(wǎng)中的三種分割圖像部分方法演示:
1
)
懸停與點擊(Hover&Click),將鼠標(biāo)置于用戶想選定的物體上即可完成分割;2)框選(Box),將用戶想選定的部分框選出來即可完成分割;3)全選(Everything),自動識別圖像內(nèi)所有物體。用戶可以直接通過輸入文字查詢,AI可以幫助找到并標(biāo)記圖片中用戶想要找的文字對象。對于視頻中的物體,SAM也能夠準(zhǔn)確識別并且還能快速標(biāo)記出物品的種類、名字和大小,并自動用ID給這些物品進(jìn)行記錄和分類。Meta表示未來這一技術(shù)會跟AR/AR頭顯進(jìn)行廣泛結(jié)合。1、SAM可以針對任何提示返回有效的分割掩碼SAM在包含10億個掩碼的多樣化、高質(zhì)量數(shù)據(jù)集上進(jìn)行訓(xùn)練,使得模型能夠泛化到新的對象和圖像,用戶不再需要收集自己的細(xì)分?jǐn)?shù)據(jù),為用例微調(diào)模型。研究人員訓(xùn)練的SAM可以針對任何提示返回有效的分割掩碼。提示可以是前景/背景點、粗略的框或掩碼、自由形式的文本或總體上任何指示圖像中需要分割的信息。1)SAM允許用戶單擊一下,或交互式單擊許多點,來分割對象,還可以使用邊界框提示模型;2)在面對被分割對象的歧義時,SAM可以輸出多個有效掩碼;3)SAM可以自動發(fā)現(xiàn)、屏蔽圖像中的所有對象;4)在預(yù)計算圖像嵌入后,SAM可以實時為任何提示生成分割掩碼,允許用戶與模型進(jìn)行實時交互。SAM的圖像編碼器為圖像產(chǎn)生一次性嵌入,而輕量級解碼器將任何提示實時轉(zhuǎn)換為矢量嵌入。然后將這兩個信息源在一個預(yù)測分割掩碼的輕量級解碼器中結(jié)合起來。在計算出圖像嵌入之后,SAM可以在短短50毫秒內(nèi)生成一段圖像,并在網(wǎng)絡(luò)瀏覽器中給出任何提示。Segmentation
model《Segment
Anything》Alexander
Kirillov
etc.
,天風(fēng)證券研究所SAM工作原理Segment
Anything官網(wǎng),天風(fēng)證券研究所1、同時發(fā)布SA-1B數(shù)據(jù)集,助力SAM模型提效資料來源:新智元微信公眾號,天風(fēng)證券研究所資料來源:新智元微信公眾號,天風(fēng)證券研究所除了發(fā)布的新模型,Meta還發(fā)布了迄今為止最大的分割數(shù)據(jù)集SA-1B,由1100萬張圖像及11億個掩碼組成。該數(shù)據(jù)集由1100萬張多樣化、高分辨率、保護(hù)隱私的圖像,以及11億個高質(zhì)量分割掩碼組成。數(shù)據(jù)集的整體特性有:1)圖像總數(shù):1100萬;2)掩碼總數(shù):11億;3)每張圖像的平均掩碼:100;4)平均圖像分辨率:1500x2250pixels。有了SAM模型,收集新的分割掩碼速度較以往任何時候都要快,交互式標(biāo)注一個掩碼只需要大約14秒,每個掩碼的標(biāo)注過程只比標(biāo)注邊界框慢2倍,使用最快的標(biāo)注界面,標(biāo)注邊界框大約需要7秒。與以前的大規(guī)模分割數(shù)據(jù)收集工作相比,SAM模型比COCO完全手動的基于多邊形的掩碼標(biāo)注快6.5倍,比以前最大的數(shù)據(jù)標(biāo)注工作快2倍。依賴于交互式標(biāo)注掩碼并不足以創(chuàng)建10億多個掩碼數(shù)據(jù)集,因此Meta構(gòu)建了一個用于創(chuàng)建SA-1B數(shù)據(jù)集的數(shù)據(jù)引擎。該數(shù)據(jù)引擎有三個齒輪,即1)模型輔助標(biāo)注;2)全自動標(biāo)注與輔助標(biāo)注的混合,有助于增加收集到的掩碼的多樣性;3)全自動掩碼創(chuàng)建,使數(shù)據(jù)集能夠擴(kuò)展。SA-1B比任何現(xiàn)有的分割數(shù)據(jù)集多出400倍的掩碼。并且通過研究證實,掩碼具有高質(zhì)量和多樣性,在某些情況下,甚至在質(zhì)量上可與之前規(guī)模更小、完全手動標(biāo)注數(shù)據(jù)集的掩碼相媲美。最終的數(shù)據(jù)集包括超過11億個分割掩碼,這些掩碼收集在大約1100萬張授權(quán)和保護(hù)隱私的圖像上。SA-1B掩碼標(biāo)注速度更快 SA-1B比任何現(xiàn)有的分割數(shù)據(jù)集多出400倍掩碼SAM
作為開源且更通用
AI
系統(tǒng)的強(qiáng)大組件,有望賦能工業(yè)、煤礦、電力、自動駕駛、安防監(jiān)控等多場景28請務(wù)必閱讀正文之后的信息披露和免責(zé)申明2、SAM模型、數(shù)據(jù)集均已開源,通用性優(yōu)異Meta也推出了SAM模型的Demo網(wǎng)頁AI前哨站微信公眾號,天風(fēng)證券研究所隨著Meta推出SAM模型,Meta現(xiàn)已將模型及其背后的訓(xùn)練數(shù)據(jù)集一并開源。其模型背后巨大的訓(xùn)練數(shù)據(jù)集是當(dāng)前最大的圖像分割數(shù)據(jù)集,可以通過Meta官網(wǎng)下載,模型也可在GitHub上進(jìn)行查看或下載。此外,Meta也推出了SAM模型的Demo網(wǎng)頁,點擊即可進(jìn)行試用。Meta認(rèn)為:與專門為一組固定任務(wù)訓(xùn)練的系統(tǒng)相比,基于prompt工程等技術(shù)的可組合系統(tǒng)設(shè)計將支持更廣泛的應(yīng)用。在未來,在任何需要在圖像中查找和分割對象的應(yīng)用中,都有SAM的用武之地。SAM
可以成為
AR、VR、內(nèi)容創(chuàng)建、科學(xué)領(lǐng)域和更通用
AI
系統(tǒng)的強(qiáng)大組件。我們認(rèn)為:SAM不僅學(xué)會一般意義上的對象是什么,并且可以為任何圖像或視頻中的任何對象生成掩碼,甚至包括在訓(xùn)練過程中未遇到的對象和圖像類型,其具備的通用性或?qū)⒖梢愿采w廣泛的用例。在VR/AR領(lǐng)域,SAM可以根據(jù)用戶的視線選擇對象,然后把對象提升為3D。SAM可以通過AR眼鏡識別日常物體資料來源:數(shù)字經(jīng)濟(jì)先鋒號微信公眾號,天風(fēng)證券研究所2、SAM有望賦能多場景應(yīng)用:工業(yè)、煤礦、電力等智能巡檢機(jī)器人資料來源:煤礦數(shù)字化微信公眾號,天風(fēng)證券研究所AI智能巡檢機(jī)器人取代人工勞動有著技術(shù)和安全上的優(yōu)勢,可以為監(jiān)控中心提供詳細(xì)而全面的生產(chǎn)現(xiàn)場實時數(shù)據(jù)信息以及圖像,形成煤礦大數(shù)據(jù)統(tǒng)計信息,滿足事故預(yù)防及分析的需要。我們認(rèn)為,在工業(yè)領(lǐng)域,SAM有望賦能煤礦工業(yè)、電力工業(yè)等領(lǐng)域的巡檢機(jī)器人完成技術(shù)升維,從而提升相關(guān)工業(yè)生產(chǎn)效率及安全水平。2023年3月11日中國煤科機(jī)器人公司與中國煤科沈陽研究院聯(lián)合華為共同研發(fā)的“昇騰礦用輪式巡檢機(jī)器人-領(lǐng)航者3”亮相,該產(chǎn)品將Atlas
500智能小站應(yīng)用于機(jī)器人圖像識別系統(tǒng)中,通過基于Atlas
500的儀器儀表圖像識別和人員監(jiān)測功能,可實現(xiàn)智能巡檢機(jī)器人分析安全隱患,提升巡檢效率。SAM可以進(jìn)行3D物體重建資料來源:新智元微信公眾號,天風(fēng)證券研究所2、SAM賦能多場景應(yīng)用:自動駕駛、視頻監(jiān)控分析等SAM在農(nóng)業(yè)領(lǐng)域應(yīng)用資料來源:數(shù)字經(jīng)濟(jì)先鋒號微信公眾號,天風(fēng)證券研究所?
我們認(rèn)為,SAM可以賦能多場景的深度應(yīng)用,如道路場景中的自動駕駛、體育運(yùn)動場景中的視頻監(jiān)控分析及農(nóng)業(yè)領(lǐng)域中協(xié)助農(nóng)民或科學(xué)家進(jìn)行研究等。未來在像素級別的圖像理解與更高級別的視覺內(nèi)容語義理解之間,我們將看到更緊密的耦合,進(jìn)而解鎖更強(qiáng)大的
AI
系統(tǒng)。室內(nèi)場景-掃地機(jī)器人Segment
Anything官網(wǎng),天風(fēng)證券研究所道路場景中的應(yīng)用-自動駕駛體育運(yùn)動場景-視頻監(jiān)控分析Segment
Anything官網(wǎng),天風(fēng)證券研究所Segment
Anything官網(wǎng),天風(fēng)證券研究所投資建議312請務(wù)必閱讀正文之后的信息披露和免責(zé)申明3、投資建議?
建議關(guān)注:(1)關(guān)注視覺領(lǐng)域技術(shù)型公司、多模態(tài)公司:關(guān)注虹軟科技、當(dāng)虹科技、萬興科技、千方科技、佳都科技等;(2)關(guān)注煤礦、電力、自動駕駛等工業(yè)應(yīng)用類公司:關(guān)注云鼎科技、智洋創(chuàng)新、北路智控、梅安森、美騰科技、銳明技術(shù)、東
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 買魚購銷合同范例
- 企業(yè)超市合同范本
- 1 我們的好朋友2023-2024學(xué)年四年級下冊道德與法治同步說課稿(統(tǒng)編版)
- 企業(yè)定位與品牌傳播效果監(jiān)測制度
- 北斗服務(wù)合同范例
- 典型中介合同范例
- 企業(yè)勞動解聘合同范本
- 公司委托注銷合同范例
- 公司請個保安合同范本
- 會務(wù)贊助合同范例
- 2024美團(tuán)簡化版商家合作合同標(biāo)準(zhǔn)文本一
- 2025年貴州黔源電力股份有限公司招聘筆試參考題庫含答案解析
- 《休閑食品加工技術(shù)》 課件 1 休閑食品生產(chǎn)與職業(yè)生活
- 春季開學(xué)安全第一課
- 2025年新生兒黃疸診斷與治療研究進(jìn)展
- 廣東大灣區(qū)2024-2025學(xué)年度高一上學(xué)期期末統(tǒng)一測試英語試題(無答案)
- 課題申報書:數(shù)智賦能高職院校思想政治理論課“金課”實踐路徑研究
- 公司安全生產(chǎn)事故隱患內(nèi)部報告獎勵工作制度
- H3CNE認(rèn)證考試題庫官網(wǎng)2022版
- 感統(tǒng)訓(xùn)練培訓(xùn)手冊(適合3-13歲兒童)
- 公司章程范本(完整版)
評論
0/150
提交評論