人工智能行業(yè)CV領(lǐng)域市場分析_第1頁
人工智能行業(yè)CV領(lǐng)域市場分析_第2頁
人工智能行業(yè)CV領(lǐng)域市場分析_第3頁
人工智能行業(yè)CV領(lǐng)域市場分析_第4頁
人工智能行業(yè)CV領(lǐng)域市場分析_第5頁
已閱讀5頁,還剩19頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

人工智能行業(yè)CV領(lǐng)域市場分析SAM模型:CV領(lǐng)域的ChatGPTSAM:“分割一切”的AI新模型2023年4月,Meta發(fā)布了全新的AI模型SegmentAnythingModel,即SAM。官網(wǎng)對該模型的描述為:“只需一次點(diǎn)擊,便可在任何圖像中分割出任何物體”。SegmentAnything文章指出,SAM建立了一個基礎(chǔ)圖像分割模型,并在一個巨大的數(shù)據(jù)集上進(jìn)行訓(xùn)練,從而試圖解決一系列下游任務(wù),成為一種通用的模型。論文的關(guān)鍵詞包含了:prompt(基于提示學(xué)習(xí))、task(下游任務(wù))、zero-shot(零樣本)、data(豐富的數(shù)據(jù)集)。模型的核心要點(diǎn)為:(1)與ChatGPT的啟發(fā)思想一樣,采用Prompt-basedlearning的可提示學(xué)習(xí)范式,提高學(xué)習(xí)效率;(2)建立了迄今為止最大的分割數(shù)據(jù)集SegmentAnything1-Billion(SA-1B),含1100萬張圖像,超過10億個掩碼,比任何現(xiàn)有的分割數(shù)據(jù)集多400倍;(3)建立了通用的,全自動的分割模型,零樣本靈活轉(zhuǎn)化新任務(wù),新領(lǐng)域,結(jié)果甚至優(yōu)于之前的監(jiān)督結(jié)果。Prompt:將ChatGPT的學(xué)習(xí)思維應(yīng)用在CV領(lǐng)域SAM模型的學(xué)習(xí)訓(xùn)練方式是prompt,來源于近年來突飛猛進(jìn)的NLP下游任務(wù)的優(yōu)化過程。Prompt代表的prompt-basedlearning,即基于提示的學(xué)習(xí),區(qū)別于傳統(tǒng)的監(jiān)督學(xué)習(xí),被GPT-3團(tuán)隊(duì)推進(jìn)使用。SAM利用這種先進(jìn)的技術(shù)路線,完成CV底層技術(shù)突破,并且具有廣泛的通用性和零樣本遷移的能力。為了較深刻了解prompt,本節(jié)對NLP、PLM及其他相關(guān)模型做簡單介紹。Prompt之前的模型在做什么自然語言處理(NLP,NatureLanguageProcessing)主要研究人和計(jì)算機(jī)的交互,其中預(yù)訓(xùn)練語言模型(PLM,PretrainedLanguageModels)是較為前沿的NLP處理模型。根據(jù)學(xué)習(xí)范式和發(fā)展階段的不同,預(yù)訓(xùn)練模型可以簡單劃分為四代:(1)基于特征的學(xué)習(xí)(Feature-based):第一代預(yù)訓(xùn)練模型,根據(jù)“人的知識”設(shè)置規(guī)則來提取文本特征,以此來對文本進(jìn)行編碼。代表模型是TF-DIF;(2)基于結(jié)構(gòu)的學(xué)習(xí)(Architecture-based):第二代預(yù)訓(xùn)練模型,開啟了NLP的深度學(xué)習(xí)應(yīng)用。代表模型是W2V;一二代預(yù)訓(xùn)練模型的共同點(diǎn)是模型的輸出會作為下游任務(wù)的輸入,但本身不做下游任務(wù),之后的模型會將預(yù)訓(xùn)練的結(jié)果和模型本身都投入到下游任務(wù)中。(3)基于下游微調(diào)(Fine-tuning):第三代預(yù)訓(xùn)練模型,采用預(yù)訓(xùn)練+下游微調(diào)的方式,代表模型是BERT和GPT。(4)基于提示的學(xué)習(xí)(Prompt-based):第四代預(yù)訓(xùn)練模型,在三代模型BERT和GPT的基礎(chǔ)上做了進(jìn)一步的改進(jìn)。將輸入信息按照特定模板進(jìn)行處理,把任務(wù)重構(gòu)成一個更能夠充分利用預(yù)訓(xùn)練語言模型處理的形式。代表模型是ChatGPT,gpt3.5,SAM。其中,三代和四代的核心都是先進(jìn)行預(yù)訓(xùn)練,再進(jìn)行下游微調(diào)。簡單來說,預(yù)訓(xùn)練模型是培養(yǎng)得到的“高中畢業(yè)生”,下游任務(wù)為“高校里的專業(yè)課程”,給這批“高中畢業(yè)生”再學(xué)習(xí)與未來應(yīng)用領(lǐng)域相關(guān)的課程,將其培養(yǎng)成具備專業(yè)技能和知識的“大學(xué)生”,再應(yīng)對專業(yè)崗位的要求。Prompt的優(yōu)勢:實(shí)現(xiàn)預(yù)訓(xùn)練和下游任務(wù)的統(tǒng)一傳統(tǒng)、標(biāo)準(zhǔn)的PLM+finetuning范式(這里指三代模型)存在上下游差異大,應(yīng)用不匹配的問題。預(yù)訓(xùn)練階段采用的是自回歸、自編碼方式,而對下游微調(diào)來說,就需要大量的新數(shù)據(jù)來適應(yīng)新形式。但是,如今的模型的參數(shù)量越來越大,企業(yè)部署起來成本極高,而為了每一種下游任務(wù)都要去專門微調(diào)一個模型,會造成資源的極大浪費(fèi)。整體來說,這類模型的缺點(diǎn)在于:1.微調(diào)樣本需求量大;2.模型的專用性強(qiáng),導(dǎo)致部署成本高。GPT-3團(tuán)隊(duì)認(rèn)為在閱讀大量無監(jiān)督文本后,語言模型可以“培養(yǎng)廣泛的技能和模式識別的能力”,并有效證明了在少樣本場景下,模型不需要更新任何參數(shù),就能夠?qū)崿F(xiàn)不俗效果。在這個基礎(chǔ)上發(fā)展prompt的范式。預(yù)訓(xùn)練+微調(diào)范式是通過大量訓(xùn)練讓模型去適配下游任務(wù)。而Prompt是把下游任務(wù)統(tǒng)一成預(yù)訓(xùn)練任務(wù)的形式,以特定的模板,將下游任務(wù)的數(shù)據(jù)組裝成自然語言形式,充分挖掘預(yù)訓(xùn)練模型本身的能力。以情感分類任務(wù)為例,使用兩種預(yù)訓(xùn)練模型進(jìn)行處理,比如利用模型寫影評、書評、讀后感等。如果使用傳統(tǒng)Fine-tune,需要人力來準(zhǔn)備一個微調(diào)數(shù)據(jù)集,里面必須包含各種對電影/書籍的評價(jià),以及這些評價(jià)人工閱讀后的感受(是積極的還是消極的)。這個下游微調(diào)數(shù)據(jù)集必須足夠大,才能應(yīng)對復(fù)雜的任務(wù)。微調(diào)數(shù)據(jù)集的大小可能遠(yuǎn)超過了預(yù)訓(xùn)練數(shù)據(jù)集,乃至失去了預(yù)訓(xùn)練的意義;而prompt使用預(yù)訓(xùn)練語言模型最擅長的完形填空模式等方式,讓模型根據(jù)輸入句,輸出對MASK位置單詞的預(yù)測,推測出評價(jià)用戶對這部作品究竟是持Positive(積極)還是Negative(消極)的態(tài)度。綜上,prompt范式的優(yōu)點(diǎn)在于:1.可以減少模型訓(xùn)練的樣本量,在少樣本甚至零樣本的情況下進(jìn)行訓(xùn)練;2.提高通用性,在實(shí)際使用中降本增效。如今GPT-4等大模型,已不再完全開放全部的模型參數(shù),用戶都只能通過API接口使用模型進(jìn)行預(yù)測,Prompt工程對下游任務(wù)的重要性已無需多言。ZSL:零樣本學(xué)習(xí)降本增效,提高模型泛化能力零樣本學(xué)習(xí)能力是什么零樣本學(xué)習(xí)(zero-shotlearning,ZSL)是機(jī)器學(xué)習(xí)的難題,其目標(biāo)是模型對于從未見過樣本的“未知物體”也能進(jìn)行識別和分類。ZSL在標(biāo)記數(shù)據(jù)稀缺或獲取成本高的領(lǐng)域有許多潛在的應(yīng)用。圖7描述了零樣本學(xué)習(xí)的經(jīng)典案例:認(rèn)識斑馬。一個“兒童”在動物園里見過了馬、熊貓、獅子、老虎等動物,但是從未見過斑馬,通過老師的描述,該“兒童”了解到斑馬有四條腿、黑白相間的條紋,有尾巴。最終輕松地辨認(rèn)出斑馬。模型也可以通過零樣本學(xué)習(xí),從見過的類別(第一列)中提取特征(如:外形像馬、條紋、黑白),然后根據(jù)對未知類別特征的描述,識別未見過的類別。SAM的零樣本學(xué)習(xí)能力得到認(rèn)可SAM正具備這樣一種零樣本分割能力,它可以從各種prompt輸入(包括點(diǎn)、方框和文本)中生成高質(zhì)量的掩膜(Mask)。學(xué)術(shù)界有多篇論文探討了SAM的ZSL能力,如《SAM.MD:Zero-shotmedicalimagesegmentationcapabilitiesoftheSegmentAnythingModel》測試了SAM的ZSL效果,在圖像分割任務(wù)中輸入了部分點(diǎn)和框作為prompt提示,結(jié)果顯示:專家用戶可以通過SAM實(shí)現(xiàn)大部分場景下的快速半自動分割。雖然在實(shí)驗(yàn)中SAM沒有表現(xiàn)出領(lǐng)先的全自動分割性能,但可成為推動臨床醫(yī)生半自動分割工具發(fā)展的潛在催化劑,預(yù)示了這類模型進(jìn)一步適應(yīng)復(fù)雜醫(yī)療領(lǐng)域的無限可能性??偟膩碚f,ZSL在沒有任何訓(xùn)練數(shù)據(jù)的情況下,也可以完成一些任務(wù)。這種技術(shù)在大模型發(fā)展中具有重要意義。隨著大模型的發(fā)展,模型的參數(shù)數(shù)量和計(jì)算量不斷增加,需要更多的數(shù)據(jù)來訓(xùn)練。但是數(shù)據(jù)收集和標(biāo)注是非常耗時(shí)和昂貴的。ZSL技術(shù)可以減少對數(shù)據(jù)的依賴,從而降低了訓(xùn)練成本。同時(shí),ZSL技術(shù)還可以提高模型的泛化能力,使其能夠處理更多的任務(wù)。SA-1B:迄今為止最大的分割數(shù)據(jù)集,助力模型增效DataEngine:使用數(shù)據(jù)引擎生成掩碼SAM使用數(shù)據(jù)集進(jìn)行訓(xùn)練,標(biāo)注者使用SAM交互式注釋圖像,反過來更新SAM;形成閉環(huán)成長,且收集新的分割掩碼比以前更快。基于這種方法,SAM建立數(shù)據(jù)引擎,采用新穎的數(shù)據(jù)收集方法,將模型和標(biāo)注人員結(jié)合起來,最大限度提高數(shù)據(jù)收集的效率和質(zhì)量。一共分為3個階段:(1)模型輔助的手工注釋階段。在這個階段,標(biāo)注人員使用SAM模型作為輔助工具,通過點(diǎn)擊、框選或輸入文本等方式來生成MASK,且模型根據(jù)標(biāo)注人員的輸入實(shí)時(shí)更新MASK,并提供一些候選MASK供標(biāo)注人員選擇和修改。這樣,標(biāo)注人員可快速精確分割圖像中的對象,不需要手動繪制。這個階段的目標(biāo)是收集高質(zhì)量MASK用于訓(xùn)練和改進(jìn)SAM模型;(2)半自動階段。在這個階段,SAM模型已經(jīng)有了一定的分割能力,可以自動對圖像中的對象進(jìn)行預(yù)測。但是由于模型還不夠完善,預(yù)測的MASK可能存在錯誤或者遺漏。標(biāo)注人員的主要任務(wù)是收集更多的檢查和修正模型的預(yù)測結(jié)果,保證MASK的準(zhǔn)確性和完整性。這個階段的目的是收集更多的掩碼,用于進(jìn)一步提升SAM模型的性能和泛化能力。(3)全自動階段。這個階段SAM模型已經(jīng)達(dá)到了較高的水平,可以準(zhǔn)確分割出圖形中的所有對象,不需要任何人工干預(yù)。因此,標(biāo)注人員的工作就變成了確認(rèn)和驗(yàn)證模型輸出,保證沒有任何錯誤。這個階段的目標(biāo)是利用SAM模型的自動化標(biāo)注能力,快速擴(kuò)充數(shù)據(jù)集的規(guī)模和覆蓋范圍。DataSet:使用數(shù)據(jù)引擎生成掩碼SAM團(tuán)隊(duì)通過這種“模型輔助的手工注釋—半自動半注釋—模型全自動分割掩碼”的漸進(jìn)式方式收集掩碼。最終成功地創(chuàng)建了規(guī)??涨?、質(zhì)量優(yōu)良、多樣化豐富、隱私保護(hù)的圖像分割數(shù)據(jù)集SA-1B。該數(shù)據(jù)集:(1)包含了1100萬張多樣化、高清晰度、隱私保護(hù)的照片(明確為相機(jī)拍攝),照片由一家大型圖片公司提供并授權(quán),在數(shù)據(jù)許可證允許的前提下,可用于計(jì)算機(jī)視覺研究;(2)包含11億個精細(xì)的分割Mask(掩碼),這些Mask是由Meta開發(fā)的數(shù)據(jù)引擎(DataEngine)自動生成的,展示了該引擎強(qiáng)大的自動化標(biāo)注能力;(3)每張圖像的平均分辨率為1500×2250像素,每張圖像包含約100個Mask。(4)比現(xiàn)有的分割數(shù)據(jù)集多400多倍;比COCO完全手動的基于多邊形的掩碼標(biāo)注快6.5倍,比以前最大的數(shù)據(jù)標(biāo)注工作快2倍。這個數(shù)據(jù)集旨在訓(xùn)練一個能夠從開放世界圖像中分割任何物體的通用模型。數(shù)據(jù)集不僅為SAM模型提供了強(qiáng)大的訓(xùn)練基礎(chǔ),也為圖像分割領(lǐng)域提供了一個新的研究資源和基準(zhǔn)。此外,SAM的論文對數(shù)據(jù)集進(jìn)行了RAI(responsibleAI,人工智能的責(zé)任性)分析,認(rèn)為SA-1B的圖像相比之前的分割數(shù)據(jù)集具有更強(qiáng)的跨區(qū)域代表性,大部分國家的圖片都超過了1000張。SAM核心優(yōu)勢:減少訓(xùn)練需求,提升分割性能SAM的核心愿景為:減少對于特定任務(wù)的專業(yè)建模知識要求,減少訓(xùn)練計(jì)算需求,減少自己標(biāo)注掩碼的需求,在“不會/少會、不標(biāo)注/少標(biāo)注、不訓(xùn)練/少訓(xùn)練”的情況下分割目標(biāo)。SAM主要通過以下三種手段來逐步實(shí)現(xiàn)圖像領(lǐng)域的“通用分割大模型“,(1)數(shù)據(jù)的規(guī)模和質(zhì)量。SAM通過使用零樣本遷移能力,在不同的數(shù)據(jù)源和任務(wù)上收集了大量的高質(zhì)量的圖像分割數(shù)據(jù)(1100萬張圖像和11億個掩碼(Mask)),構(gòu)建了SA-1B數(shù)據(jù)集,這是目前最大的圖像分割數(shù)據(jù)集,遠(yuǎn)遠(yuǎn)超過了之前的數(shù)據(jù)集。(2)模型的效率和靈活性。SAM主要借鑒了Transformer模型架構(gòu),采用注意力機(jī)制和卷積神經(jīng)網(wǎng)絡(luò),實(shí)現(xiàn)了一個高效且可提示的圖像分割模型,可以處理任意大小和比例的圖像,并且可以根據(jù)不同的輸入提示生成不同的分割結(jié)果。(3)任務(wù)的泛化和遷移。SAM通過使用可提示分割任務(wù)(promptsegmenttasks),實(shí)現(xiàn)了一個可以零樣本遷移的圖像分割模型,可以適應(yīng)新的圖像分布和任務(wù),而無需額外的訓(xùn)練數(shù)據(jù)或微調(diào)。這使得SAM可以在多個圖像分割任務(wù)上表現(xiàn)出色,甚至超過一些有監(jiān)督的模型。目前模型已經(jīng)實(shí)現(xiàn)的功能有:1)SAM已經(jīng)學(xué)會了物體的概念;2)可以為圖像或者視頻中的物體生成掩碼,甚至沒有見過;3)通用性很強(qiáng);4)支持用戶使用各種交互性的方式來分割圖像和視頻,如全選分割自動識別圖像內(nèi)所有物體、框選分割將用戶想選定的部分框選出來即可完成分割??偟膩碚f,SAM是一個具有劃時(shí)代意義的模型,它為圖像分割領(lǐng)域提供了一個新的范式和思路,也為計(jì)算機(jī)視覺領(lǐng)域的基礎(chǔ)模型研究提供了一個新的視角和方向?;赟AM二次創(chuàng)作,衍生模型提升性能自從SAM發(fā)布以來,已引起AI屆的廣泛關(guān)注和討論,產(chǎn)生了一批衍生模型和相關(guān)的應(yīng)用。如SEEM模型,MedSAM模型等,可以應(yīng)用在工程、醫(yī)學(xué)影像、遙感圖像和農(nóng)業(yè)等領(lǐng)域。SEEM:交互、語義更泛化,分割質(zhì)量提升SEEM(Segmenteverythingeverywhereatonce)是研究者基于SAM提出的新的交互模型,利用SAM強(qiáng)大的零樣本泛化能力,實(shí)現(xiàn)對任意圖像中的所有物體進(jìn)行分割。研究者提出了一種新的分割框架,將SAM與一個檢測器結(jié)合,通過給SAM提供檢測器輸出的邊界框作為輸入提示,從而生成對應(yīng)物體的掩碼。SEEM能夠根據(jù)用戶給出的各種模態(tài)的輸入(包括文本、圖像、涂鴉等等),一次性分割圖像或視頻中的所有內(nèi)容,并識別出物體類別。(1)論文已在多個公開數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),在分割質(zhì)量和效率上都優(yōu)于SAM;(2)SEEM是第一個不僅支持經(jīng)典分割任務(wù),還支持各種用戶輸入類型的通用接口,包括文本、點(diǎn)、涂鴉、框和圖像,提供強(qiáng)大的組合功能。(3)能直接輸入?yún)⒖紙D像并指出參考區(qū)域,對其他圖像進(jìn)行分割,找出與參考區(qū)域一致的物體。該性能具有分類識別特質(zhì);(4)視頻中的零樣本分割功能。使用第一幀以及用戶輸入的涂鴉等,在模糊或者劇烈變形的視頻中也可以準(zhǔn)確分割參考對象。該功能可在道路場景、運(yùn)動場景等應(yīng)用中體現(xiàn)。MedSAM:提升感知力,應(yīng)用醫(yī)學(xué)圖像分割醫(yī)學(xué)圖像由于多樣的成像模式、精細(xì)的解剖結(jié)構(gòu)、不明確且復(fù)雜的邊界以及廣泛的物體尺度等,在圖像分割上具有較大的挑戰(zhàn)性。為了測評SAM對醫(yī)學(xué)影像分割的性能,深圳大學(xué)等多所高校聯(lián)合整理了一個迄今為止最大規(guī)模的醫(yī)學(xué)影像分割數(shù)據(jù)集COSMOS553K,并基于該數(shù)據(jù)集率先對SAM進(jìn)行了全面、多角度、大規(guī)模的細(xì)致評估。評估結(jié)果顯示,盡管SAM有可能成為一個通用的醫(yī)學(xué)影像分割模型,但它在醫(yī)學(xué)影像分割任務(wù)中的表現(xiàn)目前還不穩(wěn)定,特別是全自動Everything的分割模式不適用于大多數(shù)醫(yī)學(xué)影像分割任務(wù),在這種模式下,SAM對醫(yī)學(xué)分割目標(biāo)的感知能力較差。因此,SAM在醫(yī)學(xué)影像分割的研究重點(diǎn)應(yīng)該在如何有效地使用少量醫(yī)學(xué)影像來微調(diào)SAM以提高模型的可靠性,搭建屬于醫(yī)學(xué)影像的SegmentAnything模型。MedSAM為將SAM應(yīng)用到醫(yī)學(xué)影像分割的研究,該研究提出了一種簡單的微調(diào)方法來適應(yīng)SAM到通用的醫(yī)學(xué)影像分割任務(wù),并在21個三維分割任務(wù)和9個二維分割任務(wù)上進(jìn)行了全面的實(shí)驗(yàn),證明MedSAM分割效果優(yōu)于默認(rèn)的SAM模型。SAM-Adapter:陰影檢測再升級,偽體分割更精準(zhǔn)除了醫(yī)學(xué)影像分割難度較大之外,陰影檢測和偽裝物體分割任務(wù)對于SAM來說是比較困難的,因?yàn)樗鼈兩婕暗揭恍┘?xì)微的視覺線索和復(fù)雜的背景。《SAMStrugglesinConcealedScenes--EmpiricalStudyon"SegmentAnything“》這篇技術(shù)報(bào)告選取了當(dāng)前偽裝目標(biāo)分割領(lǐng)域中三個常用的數(shù)據(jù)集合,在無提示的情況下測試了基于三種不同骨架的SAM模型的分割性能。結(jié)果顯示:1)在自然場景中,SAM模型分割隱蔽動物具有一定難度,且難以準(zhǔn)確定位;2)在工業(yè)場景下,SAM仍然無法做到“分割一切”,比如難以區(qū)分缺陷區(qū)域和紋理背景之間的差異性。因此,解決SAM在某些分割任務(wù)中表現(xiàn)不佳的問題非常重要?!禨AMFailstoSegmentAnything?–SAM-Adapter:AdaptingSAMinFew-shotLearning》提出了一種基于少樣本學(xué)習(xí)的適配方法。該方法沒有對SAM網(wǎng)絡(luò)進(jìn)行微調(diào),而是提出了SAM-Adapter,它通過使用簡單而有效的適配器將特定領(lǐng)域的信息或視覺提示納入分割網(wǎng)絡(luò),從而提高其在陰影檢測和偽裝物體分割等任務(wù)上的性能。SAM-Track:擴(kuò)展SAM應(yīng)用領(lǐng)域,增強(qiáng)視頻分割性能SAM模型展現(xiàn)了強(qiáng)大的圖像分割能力,但缺乏對視頻數(shù)據(jù)的支持。然而,浙江大學(xué)ReLER實(shí)驗(yàn)室的科研人員最新開源的SAM-Track項(xiàng)目,提升了SAM的視頻分割能力,即:分割并跟蹤任何物體(Segment-and-trackanything)。SAM-Track在單卡上就能夠支持各種時(shí)空場景中的目標(biāo)分割和跟蹤,包括街景、AR、細(xì)胞、動畫、航拍等多種場景,能夠同時(shí)追蹤超過200個物體,為用戶提供了強(qiáng)大的視頻編輯能力。SAM-Track擴(kuò)展了SAM模型的應(yīng)用領(lǐng)域,使其可以更好地應(yīng)對視頻數(shù)據(jù)的挑戰(zhàn)。相比于傳統(tǒng)的視頻分割技術(shù),SAM-Track具有更高的準(zhǔn)確性和可靠性。它能夠自適應(yīng)地識別不同場景下的物體,并進(jìn)行快速而精確的分割和跟蹤。這讓用戶可以輕松地進(jìn)行視頻編輯和后期制作,得到更加出色的視覺效果??傊琒AM-Track是基于SAM的有意義的研究成果,為視頻分割和跟蹤領(lǐng)域的研究和應(yīng)用提供了新的可能性。它的出現(xiàn)將會為視頻編輯、后期制作等領(lǐng)域帶來更多的機(jī)會和挑戰(zhàn)。SAM及衍生模型賦能多場景應(yīng)用SAM模型是一種高效且準(zhǔn)確的圖像分割模型,其應(yīng)用能夠?yàn)橛?jì)算機(jī)視覺相關(guān)的行業(yè)和賽道提供更快和更準(zhǔn)確的圖像指示識別能力。根據(jù)應(yīng)用難度的不同,可以將SAM的應(yīng)用落地區(qū)分為以下三個方面:首先是工業(yè)機(jī)器視覺。在這個行業(yè)中,圖像識別與處理已經(jīng)得到了廣泛的應(yīng)用。SAM模型的賦能可以帶來降本增效,可以大大縮短訓(xùn)練時(shí)間和減少對數(shù)據(jù)的依賴。其次是AR/CR行業(yè)、自動駕駛、安防監(jiān)控等賽道,需要捕捉和分割動態(tài)圖像,基于3D重建等、對技術(shù)、算力的要求較高。且可能涉及數(shù)據(jù)、算法的倫理與隱私問題,應(yīng)用落地需要一定時(shí)間;此外,SAM也有分割任務(wù)實(shí)現(xiàn)較為困難的場景,在這方面SAM衍生模型的發(fā)展突破,后續(xù)將能對遙感,醫(yī)學(xué)影像處理產(chǎn)業(yè)帶來巨大推推動。如:(1)醫(yī)學(xué)圖像具有多樣的模態(tài)、低對比度、噪聲干擾等特點(diǎn)。SAM可以通過簡單的微調(diào)來適應(yīng)通用的醫(yī)學(xué)圖像分割,或通過輸入提示來實(shí)現(xiàn)特定醫(yī)學(xué)目標(biāo)分割;(2)陰影檢測和偽裝物體分割任務(wù)涉及微小的視覺線索且背景復(fù)雜,對于SAM比較困難的。因此,SAM可以通過利用少量標(biāo)注數(shù)據(jù),few-shot訓(xùn)練一個適配器模塊,來調(diào)整其輸出,從而改善其分割效果,應(yīng)用于遙感圖像、農(nóng)業(yè)等領(lǐng)域。最后,SAM還可以作為基礎(chǔ)模型,與其他模型或系統(tǒng)結(jié)合:例如SAM可以與一個分類器結(jié)合,實(shí)現(xiàn)對任意圖像中的所有物體進(jìn)行檢測和識別;或者與一個生成器結(jié)合,實(shí)現(xiàn)對任意圖像中的任意物體進(jìn)行編輯和轉(zhuǎn)換等。這種結(jié)合能夠提高圖像識別和分割的準(zhǔn)確性和效率,為不同行業(yè)帶來更多應(yīng)用場景?;?D重建,賦能AR、游戲在AR/VR領(lǐng)域,SAM模型可以基于3D重建技術(shù),為用戶提供更加沉浸式的視覺體驗(yàn)。通過該模型,用戶可以根據(jù)自己的目光選擇一個物體,并將其轉(zhuǎn)化為3D空間中的實(shí)體物體。具體來說,SAM模型結(jié)合了3D重建技術(shù)和圖像處理算法,能夠?qū)?D圖像轉(zhuǎn)化為3D場景,從而實(shí)現(xiàn)對真實(shí)世界的還原和模擬。用戶可以通過AR或VR設(shè)備觀察和操控這些3D場景中的物件,享受高度沉浸式的互動體驗(yàn)。此外,SAM模型還能夠通過深度學(xué)習(xí)算法,對用戶的視線和手勢進(jìn)行識別和跟蹤,實(shí)現(xiàn)更加智能化的互動方式。例如,當(dāng)用戶注視某個物體時(shí),SAM可以自動聚焦并為其提供更加詳細(xì)的信息。同時(shí),當(dāng)用戶做出手勢操作時(shí),SAM也能夠快速響應(yīng)并實(shí)現(xiàn)對場景的調(diào)整和變化??傊琒AM模型基于3D重建技術(shù)的應(yīng)用賦能了AR和游戲等領(lǐng)域,為用戶提供了更加沉浸式和智能化的虛擬體驗(yàn)。隨著技術(shù)的不斷進(jìn)步和應(yīng)用場景的不斷擴(kuò)展,SAM模型在未來將會有更加廣泛的應(yīng)用前景。跟蹤運(yùn)動物體,賦能安防監(jiān)控SAM是一種高效且準(zhǔn)確的圖像分割模型,其能力在視頻和動態(tài)圖像分割方面得到了強(qiáng)化,并衍生出了SEEM和SAM-Track兩種應(yīng)用。這些衍生模型充分借鑒了SAM的零樣本泛化能力,使得使用參考圖像及用戶輸入的涂鴉、文字等信息,在模糊或者劇烈變形的視頻中也可以準(zhǔn)確地分割參考對象。如圖29所示,SEEM可以在跑酷、運(yùn)動和游戲等視頻中準(zhǔn)確分割指定對象。對于這些運(yùn)動場景的視頻,傳統(tǒng)的圖像分割算法難以處理,因?yàn)閳鼍爸写嬖谥鴱?fù)雜的背景和快速移動的目標(biāo)物體。但是,SEEM模型不僅可以準(zhǔn)確地識別參考對象,還可以消除背景干擾,從而提高分割的精度。該功能除了在運(yùn)動場景中體現(xiàn)之外,還可賦能安防、視頻監(jiān)控等賽道。在這些領(lǐng)域中,需要實(shí)現(xiàn)對視頻中的物體進(jìn)行精確分割,以便進(jìn)行后續(xù)的識別和處理。SEEM和SAM-Track可以通過輸入提示準(zhǔn)確判斷目標(biāo)物體,并進(jìn)行精確分割。這種分割功能可以為安防、視頻監(jiān)控等領(lǐng)域帶來更高效、準(zhǔn)確和智能化的處理能力。綜上所述,SAM及其衍生的SEEM和SAM-Track模型具有強(qiáng)大的視頻和動態(tài)圖像分割功能,并能夠在運(yùn)動場景、安防、視頻監(jiān)控等領(lǐng)域發(fā)揮重要作用。隨著技術(shù)的不斷進(jìn)步和應(yīng)用場景的擴(kuò)展,這些模型在未來將會有更加廣泛的應(yīng)用前景。解決長尾難題,賦能自動駕駛在自動駕駛領(lǐng)域中,技術(shù)上的長尾問題是當(dāng)前自動駕駛商業(yè)化進(jìn)程中的主要制約因素。雖然現(xiàn)有技術(shù)已經(jīng)實(shí)現(xiàn)了90%以上道路場景的自動駕駛,但由于路面環(huán)境和車輛行駛情況的不可預(yù)測性,剩下10%的長尾場景依然存在很大難度。這些長尾場景通常涉及到突發(fā)事件、復(fù)雜地形或氣候條件等極端情況,例如強(qiáng)烈的降雨、暴風(fēng)雪、雷電等,這些情況會對自動駕駛系統(tǒng)的識別和決策能力產(chǎn)生很大挑戰(zhàn)。此外,在城市交通中,還有一些特殊情況需要考慮,如非機(jī)動車、行人和建筑物等存在的影響,這些都增加了自動駕駛系統(tǒng)的復(fù)雜度和難度。長尾場景如果不得到解決,自動駕駛就始終無法落地。為了解決長尾問題,自動駕駛技術(shù)需要集成更多的算法和傳感器,并通過數(shù)據(jù)采集和深度學(xué)習(xí)等手段提高系統(tǒng)的智能水平。例如,可以結(jié)合雷達(dá)、攝像頭、激光雷達(dá)等傳感器進(jìn)行數(shù)據(jù)融合,提高目標(biāo)物體的識別和跟蹤能力,同時(shí)可以通過深度學(xué)習(xí)算法實(shí)現(xiàn)對復(fù)雜場景的模擬和預(yù)測。此外,也可以引入人工智能技術(shù),讓自動駕駛系統(tǒng)在長尾場景中不斷學(xué)習(xí)和優(yōu)化,以提高其適應(yīng)性和泛化能力。在自動駕駛領(lǐng)域中,SAM可以用于對車輛行駛過程中的圖像進(jìn)行分割,以標(biāo)注出圖像中的不同物體和區(qū)域。自動駕駛系統(tǒng)需要實(shí)時(shí)地對路面情況進(jìn)行感知,以便做出合適的決策。因此,對道路標(biāo)記、車道線、行人、交通信號燈等物體和區(qū)域進(jìn)行準(zhǔn)確的標(biāo)注非常重要。傳統(tǒng)的手動標(biāo)注方法需要大量的時(shí)間和人力成本,而且容易出現(xiàn)誤差。使用SAM可以自動地進(jìn)行圖像分割和物體識別,從而大大減少了標(biāo)注的成本;與傳統(tǒng)的機(jī)器學(xué)習(xí)算法相比,SAM可以更好地處理復(fù)雜的場景和變化,具有更高的準(zhǔn)確性和穩(wěn)定性。此外,SAM還可以與其他深度學(xué)習(xí)模型結(jié)合使用,例如目標(biāo)檢測和路徑規(guī)劃等模型,從而幫助自動駕駛系統(tǒng)更加準(zhǔn)確地感知和理解周圍環(huán)境,以實(shí)現(xiàn)安全、高效的自動駕駛。例如,在行人識別和車道線跟蹤中使用SAM可以幫助自動駕駛系統(tǒng)更好地預(yù)測行人和車輛運(yùn)動軌跡,從而避免潛在的交通事故發(fā)生。總之,SAM是一項(xiàng)非常有用的技術(shù),它可以大大減少標(biāo)注成本,并提高標(biāo)注的準(zhǔn)確性和效率。在自動駕駛領(lǐng)域中,SAM的應(yīng)用將會越來越廣泛,為自動駕駛技術(shù)的快速發(fā)展和商業(yè)化進(jìn)程做出貢獻(xiàn)。提高分割性能,賦能遙感圖像遙感圖像是一種通過衛(wèi)星、飛機(jī)等遙測手段獲取地球表面信息的重要手段,具有多樣化、全覆蓋、高精度等特點(diǎn),成為現(xiàn)代科技發(fā)展中不可或缺的一部分。它的應(yīng)用領(lǐng)域十分廣泛,包括環(huán)境監(jiān)測、自然資源管理、城市規(guī)劃、災(zāi)害預(yù)警等方面。遙感的數(shù)據(jù)類型分為很多種:包括光學(xué)遙感數(shù)據(jù)、光譜數(shù)據(jù)、SAR雷達(dá)數(shù)據(jù)、無人機(jī)數(shù)據(jù)等。遙感數(shù)據(jù)的處理一般分為2個部分:(1)首先是遙感地面處理系統(tǒng)接收來自天上的衛(wèi)星數(shù)據(jù),通過大氣校正、勻光勻色、裁剪分割等處理將原始的太空圖像變成可以進(jìn)一步識別、處理的圖像;(2)在上述的基礎(chǔ)上,對遙感圖像進(jìn)一步處理,包括圖像的解譯等,其中解譯主要完成對太空遙感圖像中具體物體的識別工作,此前主要是通過人工協(xié)助完成。遙感圖像因其多樣性、復(fù)雜性、數(shù)據(jù)量大等特點(diǎn),在處理過程中存在很多挑戰(zhàn)和困難。其圖像處理經(jīng)歷了三個階段:(1)人工解譯階段,這個階段完全依賴標(biāo)注人員進(jìn)行圖像解釋,人工成本高且解譯成果轉(zhuǎn)化率低;(2)AI+遙感階段,這個階段AI技術(shù)已經(jīng)對遙感圖像處理有一定的幫助,通過AI模型以及算力的支持,有效緩解了圖像解譯的工作痛點(diǎn),同時(shí)實(shí)現(xiàn)了人機(jī)協(xié)同。隨著遙感、測繪等對比觀測平臺及衛(wèi)星數(shù)量不斷增長,AI+遙感的結(jié)合為圖像解譯提供了更多可能性;(3)隨著大型神經(jīng)網(wǎng)絡(luò)模型的發(fā)布,遙感圖像的解譯工作有望進(jìn)入到大模型階段。SAM大模型作為一種新興的圖像分割技術(shù),為處理遙感圖像提供了全新的思路和方法。它基于深度學(xué)習(xí)算法,對遙感圖像進(jìn)行統(tǒng)一的分割、識別、生成,大幅提升遙感解譯工作的效率;使用SAM模型進(jìn)行遙感圖像分割,可以幫助用戶快速準(zhǔn)確地生成高質(zhì)量的地圖和三維模型,提高環(huán)境監(jiān)測和資源管理的效率和精度。此外,SAM模型還可以支持多源數(shù)據(jù)融合,將遙感圖像和其他數(shù)據(jù)結(jié)合起來,得到更全面、更精準(zhǔn)的分析結(jié)果。遙感數(shù)據(jù)處理效率的提升也為下游的遙感應(yīng)用爆發(fā)打下了良好的基礎(chǔ)。SAM大模型在處理陰影、掩體分割等難度較高的分割任務(wù)時(shí)仍然面臨著相當(dāng)大的挑戰(zhàn),如在自然場景中很難準(zhǔn)確分割出隱蔽動物的區(qū)域并進(jìn)行定位。遙感圖像分割任務(wù)涉及一些微妙的視覺線索和復(fù)雜的背景,需要模型具有更高的感知力和識別能力,這導(dǎo)致SAM模型無法做到“分割一切”,尤其是在處理一些細(xì)節(jié)方面還需要進(jìn)一步提高其性能。但是,可以通過不斷改進(jìn)和優(yōu)化來提高其性能。例如,可通過引入更多的數(shù)據(jù)集進(jìn)行訓(xùn)練,或采用更加先進(jìn)的神經(jīng)網(wǎng)絡(luò)架構(gòu)來提升模型的感知力和識別精度,SAM的衍生模型SAM-adapter也可以通過增加適配器的方式解決SAM在某些分割任務(wù)中表現(xiàn)不佳的問題,以及下文介紹的RS-promter:在SAM發(fā)布之后,有專家團(tuán)隊(duì)二次創(chuàng)作了基于SAM基礎(chǔ)模型的遙感圖像實(shí)例分割的promptlearning方法,這使得SAM能夠?yàn)檫b感圖像生成語義可辨別的分割結(jié)果,該方法稱之為RSPrompter。它與原始的SAM不同,不需要手動制作prompt,RSPrompter的目標(biāo)是自動生成prompt,以自動獲取語義實(shí)例級掩碼。此方法不僅適用于SAM,還可以擴(kuò)展到其他基礎(chǔ)模型。從實(shí)現(xiàn)上,該團(tuán)隊(duì)提出了兩種方案:基于預(yù)設(shè)錨點(diǎn)的RSPrompter-anchor和基于查詢與最優(yōu)傳輸匹配的RSPrompter-query。為驗(yàn)證RSPrompter的效果進(jìn)行了系列的實(shí)驗(yàn)。這些實(shí)驗(yàn)不僅證明了每個組件的有效性,還在三個公共遙感數(shù)據(jù)集上顯示出其對比其他先進(jìn)實(shí)例分割技術(shù)以及基于SAM的方法都有優(yōu)越的性能。此外,大模型為遙感圖像領(lǐng)域的研究和應(yīng)用帶來了新的驅(qū)動力和挑戰(zhàn)。大模型在基于SAR、光學(xué)、多光譜衛(wèi)星、無人機(jī)航拍等多模態(tài)時(shí)空遙感數(shù)據(jù)領(lǐng)域具有廣泛的應(yīng)用,可以依托開源大模型基礎(chǔ)結(jié)構(gòu),面向遙感數(shù)據(jù)進(jìn)行定制化模型研發(fā),實(shí)現(xiàn)一站式、全流程遙感大模型構(gòu)建能力;其次,通過支持億級模型參數(shù)和標(biāo)注數(shù)據(jù)量下降,大模型可以實(shí)現(xiàn)更高效、精準(zhǔn)的遙感數(shù)據(jù)處理和分析,并賦能影像智能檢索與推送、地物智能提取采編、數(shù)字孿生產(chǎn)品線等領(lǐng)域;在未來還要將大模型訓(xùn)練與小模型部署相結(jié)合,達(dá)到更好的落地應(yīng)用??偟膩碚f,傳統(tǒng)的圖像處理方法在面對遙感影像處理的挑戰(zhàn)時(shí),常常難以滿足實(shí)際需求,不能夠達(dá)到高精度和高效率的要求。因此,采用大型模型來處理遙感圖像已經(jīng)成為當(dāng)前研究的一個重要方向。SAM模型賦能遙感圖像,具有重要的意義和應(yīng)用價(jià)值。它為遙感圖像領(lǐng)域的研究和應(yīng)用帶來了新的機(jī)會和挑戰(zhàn),也為人們更好地認(rèn)識和利用地球資源提供了更好的技術(shù)支持。算力應(yīng)用驅(qū)動,賦能機(jī)器視覺機(jī)器視覺的功能主要?dú)w類為四種:識別、測量、定位、檢測。1)識別:基于目標(biāo)物的特征進(jìn)行甄別,例如外形、顏色、字符、條碼等,要求高速度和高準(zhǔn)確度;2)測量:將圖像像素信息標(biāo)定成常用的度量衡單位并在圖像中精確計(jì)算出目標(biāo)物的幾何尺寸。復(fù)雜形態(tài)測量+高精度是機(jī)器視覺的優(yōu)勢領(lǐng)域;3)定位:獲取目標(biāo)物體的二維或者三維位置信息。定位精度和速度是主要參考指標(biāo);4)檢測:一般指外觀檢測,內(nèi)涵種類繁多。如產(chǎn)品裝配后的完整性檢測、外觀缺陷檢測(如是否有劃痕、凹凸不平等)。機(jī)器視覺是“智能制造之眼”,作為關(guān)鍵零部件廣泛應(yīng)用于工業(yè)自動化領(lǐng)域。典型的機(jī)器視覺系統(tǒng)包括:光源及光源控制器、鏡頭、相機(jī)、視覺控制系統(tǒng)(視覺處理分析軟件及視覺控制器硬件)等,按照技術(shù)可分為基于硬件的成像技術(shù)和基于軟件的視覺分析技術(shù)。機(jī)器視覺發(fā)展受到四大核心驅(qū)動力的影響,包括成像、算法、算力和應(yīng)用。在這四個方面,每個都對機(jī)器視覺的發(fā)展產(chǎn)生了不可或缺的推動作用:(1)應(yīng)用驅(qū)動:傳統(tǒng)制造業(yè)逐步采納機(jī)器視覺技術(shù),提高了其滲透率,同時(shí)新興行業(yè)的崛起增加了機(jī)器視覺需求。例如,在智能制造領(lǐng)域,機(jī)器視覺技術(shù)可以幫助企業(yè)實(shí)現(xiàn)自動化生產(chǎn),提高生產(chǎn)效率和產(chǎn)品質(zhì)量;在智能醫(yī)療領(lǐng)域,機(jī)器視覺技術(shù)可以輔助醫(yī)生進(jìn)行診斷和治療,提高醫(yī)療水平和治療效果。(2)算力/算法驅(qū)動:自21世紀(jì)起,CPU算力大幅增長,尤其是2016年后AI算法迅速進(jìn)化,為機(jī)器視覺技術(shù)的發(fā)展帶來推動。高性能計(jì)算設(shè)備強(qiáng)化了其計(jì)算能力,使圖像處理更高效。AI算法進(jìn)展,如深度學(xué)習(xí),為機(jī)器視覺在圖像識別與分析上開創(chuàng)了更多可能。AI大模型的引入為機(jī)器視覺產(chǎn)業(yè)帶來了技術(shù)底層的重大突破。目前,機(jī)器視覺領(lǐng)域的先

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論