版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
一、論文研究11介trdctin2gmtytigak3gmtytigMdl4擎gmtytigataEgie5集gmtytigatat6分析gmtytigIalyis7零樣本傳輸實etraferEpeimets8icin2egmentnying》2023年4月日,a研究隊發(fā)論文gtytig》。1、1、可示分任務2、分模型3、圖數注集論文指MeaI目標是通引入三個互關聯部分來構一個用圖像分割基礎模:)可提的分任;據標并通過示實樣到系列任分割;)擁有超10億個據1。摘·bact論文介紹ementnhn項目要包了用圖像割的任務模型數據。論文指出I團隊發(fā)現M在多任務上具備競爭力,且它的零樣本性能讓人印象深刻
文章指出,通過在數據收集循環(huán)中使用高效模型I團隊構建了迄今為止最大的分割數據集,在萬張許可和尊重隱私的圖像上有超過0億個掩碼。該模型被設計和訓練為可提示的,因此它可以將零樣本轉移到新的圖像分布和任務。文章提到,MeaI研究團隊在h:emnanhn.m上發(fā)布了eentnhngMelM)的B和M集B,。1介紹·noducion根據論文表,S的目標建立一圖像分割基礎模,即尋開發(fā)一個提示的型,并用能夠實現強大泛化的任務在廣的數據集上對其進行訓練,從而可以通過用提示工程解決數。為,S項成的鍵個:,團需決問:1、1、務可文章認為,首先需要定義一個可提示的分割任務,該任務足夠通用,以供2、2、型個支持靈活示模型時輸割供交互3、3、據可要多樣化、規(guī)的據源以構建一個“數據引擎”,即在使用高效模型來協助數據收集和使用新收集的數據來改進模型之間進行迭代。掩掩碼3掩碼2掩碼1提示pmt論文提到,團隊是從P中獲得了靈感,希望可以將P領域的mpt式到機覺V)域。圖像分割的提示rpt):可以是一組前景背景點、略框或掩碼自由格式的文本或者指示分割圖息。可提示的分割任務rmtalegtainta):指在給定任何提示的情況下返回有效的分掩。有效掩碼,即使提示明、并且可能涉多個對象,出也應該是其中至一個對象的碼。個有效掩碼。其,綠色圓點代圖介紹了個有效掩碼。其,綠色圓點代提示,紅色框線所呈現的圖形代表有效掩碼。通用的、自動分割方法現在SegentAnyhng前兩類方法綜合而成的單一模型,可執(zhí)行交互式分割和自動分割AM模型的提示接口許它靈活的方式使用,通過設適當提示,可以使一系列分任務為可能(如單擊、框、通用的、自動分割方法現在SegentAnyhng前兩類方法綜合而成的單一模型,可執(zhí)行交互式分割和自動分割AM模型的提示接口許它靈活的方式使用,通過設適當提示,可以使一系列分任務為可能(如單擊、框、本等。此外AM1億多掩碼樣化、高質量數據集上行訓練,使它能夠適用于訓練間所觀察到的新型對象和圖類型這種泛化能力意味著從者將再需要收集自己的分割據并其用例微調模型。過去分割方法:交式分割允許對任何類別的對分割方法:分割要象進行訓練(如成千萬個分割的貓示例以及計算資源和技術業(yè)知識來訓練分割模紹SM戶點象以框示;當分割對象存在歧義時,M可以輸出多個有效的掩碼,這是解決現實世界中分割的重要和必要能力之一;M可以自動查找并掩蓋圖像中的所有對象;M可以在預計算圖像嵌入之后即時為任何提示生成分割掩碼,從而允許與模型實時交互。出,M割型:器、器和快掩解器,M在ansm視模的上,在性面了的。圖像編碼器magecr:受可擴展性和強大的預訓練方法的啟發(fā),團隊使用M預訓練的器于入入像圖編碼器運行次,用。提示編碼器rmtcdr:包括兩提—sase(點框、文本)和ese(掩碼,通過位置編碼來表示點框,其中位置碼與每個提示型的學習嵌入結合;用LP的現成本編碼器表示自由格式文。掩等es提示用卷嵌入并與像嵌元素合。器Makdcd入、提嵌輸令映到。對ansme改意和交叉注意來更新有嵌入。在運兩個塊之后,圖像嵌入進行采樣ML將輸出令牌射到動態(tài)線性分類器,然動態(tài)性分器計每個像位的掩前景率。論文提,由于互聯網上的分割掩碼并不豐富,因此,MeaI團隊構建了一個數據引擎來收集11集1,為段模、全動。階段1—手動階段:數據集通過使用M集,用M像,新的注釋數據反過來更新M,實現了相互促進。在該方法下,交互式地注釋一個掩碼約需要4秒,與之前大規(guī)模分割數據收集工作相比,Mea的方法比CCO完全手動基于多邊形的掩碼注釋快.倍,比之前最大的數據注釋工作快2倍,這正是基于M果。階1-手動階Assistd-mlstg)原理的交式分割一組專注釋者過使用由AM提支持的于瀏覽的交互分割工單擊前景/背景對點來版蒙可以使像精的““擦”工進行化。模型輔注直在瀏器實運行計算的圖像嵌入),從而實現真正的交互式體驗。注釋者被要求按照突出的順序標記對象,并被鼓勵在ak花費超過秒后像。、時AM練。、在完成足夠的數據注釋后,AM僅使用新注釋的掩碼進行再訓練。、碼從iTBiTH了練。成果隨著模型的改進,每個ak的平均注釋時間從4減少到4,注意到14s比CC的掩碼注釋快6.5倍。隨著AM的改進,每從20到44說從了430。階2-半自動階段:幫助增掩碼的多樣性,提高模型分割任圖像能力。階3-全自動階段:完全自的掩模創(chuàng)建使得數據集擴展最終數據集包括了約萬許和保隱的像上收集的超億個分割掩模,SB比任何現有分割數據集的掩模數量多40倍經人工評估驗證,其具有高質量和多樣性,在某些情況下甚至與以前規(guī)模較小手動注釋的數據集的質相當。階段2-半自動階段Smi-tomticstg)階3-全自動階Fllytomticstg)原理該階段目標是增加掩碼的多樣以提高模型分割任何東西其性進:1)在該階段開始時,收集了足夠多的掩碼來改進模型,包括;2)了義感知模型,如果一個點位于部分或子部分上,模型將返回子。的o擇3擇碼在δδ概率圖進行閾值化會產生相似的掩碼,認為掩碼是穩(wěn)定的);4)在選擇了置信和穩(wěn)定的掩碼后,應用非最大抑制(M)的能。為了將注釋器集中在不太顯眼的對象,首先自動檢測了置信掩。然后向注釋者展示了預先填充了這些掩碼的圖像并要求他們對任何其他未注釋的對象進行注釋為了檢測置信掩,使用通用“對”類別在所有第一階段掩碼上訓練了一個邊界框檢測。與第一階段一,定期根據新收集的數據重新訓練模型5)每個掩碼的平均注釋時間回溯到(不包括自動掩因為這些對象的標記更具挑戰(zhàn)。成果該階,萬張圖像額外收集590萬個掩總萬個掩碼)。每張圖像的平均掩碼數量44個增加72個掩碼(包括自動掩)。有了成11B碼。論文介紹了據集SB包含萬張多樣、高分率、許可隱私保圖像,以使用數引的.B高量割SB據助助開算覺C。將SB較,性,下展示了SB數據集與現有最分割據集比的準化像大下的碼中分布況:文章對出,VISv1與AD20K分為,而SA-1B對像點蓋更大文章對比出OO和OpenImaesV5具有顯著中心掩碼數量較少 掩碼數量多圖占圖像占比掩碼相對小 掩碼相對較大凹度小 凹度大圖占
每張圖像的掩碼數經過數據對,文出結論,SB比第二大的enIas倍的圖像倍的掩平均下,每張圖像的掩碼比enIas多6,在這方面最接近的數據集,每張圖像的掩碼仍.。1數據集在數量上具備強大優(yōu)。掩碼相對于圖像大小論文通過計算掩對于圖像的大即掩碼面積除以圖像的平方,發(fā)現由于SB數據集每個圖像有更多的掩,它因此擁有更大比例中小掩。掩碼凹度為解釋圖像形狀的復雜,通過對比掩碼凹度進行了分析。掩碼凹度(掩碼面積/掩碼凸包面積。由于形狀復雜度與掩碼大小相,通過首先從分箱碼大小進行分層抽樣來控制數據集的掩碼小分觀察1B掩的凹度分布與他數據集的凹度分布基本。論文進行I分析(esnseI負責任的人工智能),旨在調查使用SBM時潛在的公平議和偏情況??鐓^(qū)域代表性:論文發(fā)現SB的圖像來自多國家的片提商跨多個區(qū),認為SB具有比以前分割數據集更多的圖像數量和更好的跨地區(qū)代表性。文章通示右圖,表明世界上大多數國家的SB圖像超過了張,下圖顯示了圖像最多的三個國家來自世界不同的地區(qū),斯泰和國。NNo.1俄羅斯No.2泰國No.3美國No.4意大No.5英國No.5中國現1入水:通過較SB、CCO和nIaes的性出SB洲亞洲和大洋洲以及中等收入國家/地區(qū)的圖像比例要高得多。所有數據集都沒有充分代表非洲低收入國家。而在S-B中,括非洲內的有地區(qū)至少有0萬個掩碼,多。文章分析了模型在人們的外表性別呈現、膚色外觀和預見,發(fā)現M在不同群似平用。論文展示了來自個不同割數集的于評零樣傳輸力的aes結果明,M在個據樣有個生高果達近。文章指出,最相關M3個掩碼是通過將它們與地面實況進行比較來選擇的而不是選擇最有置信的掩碼,這表明歧義對自動評估的影響,通過ace執(zhí)行歧義解,M在所有于IT。示示的3個預測中最相關的結型Fdatinmdl論論下:①來預訓模已應下任務。來隨對模日益視這范式變越越要,并此類模最近重新名為基礎模型,在大規(guī)廣泛據上練并應廣下游務”的模型。MtaI的工作與基礎模型有很好的相關性,盡管圖像分割的基礎模型是一個有限的范圍,因為它只代表了計算機視覺中重要卻一小部分的子集。②M模型經過了自監(jiān)督技術初始化,其絕大多數能力來自大規(guī)模監(jiān)督訓練,在數據引擎可以擴展可用注釋的情況下M模型的監(jiān)督訓練提供了一個有效的解決方案。合/成Cmpiialty面力時的想象。一個著名的例子是CLIP如何在更大的系統中用作組件,如L·。eaI的目標通過M使合成變得簡單,通過要求M預測各種分割提示的有效掩碼來實現這一點。M和其組件之間可以創(chuàng)建一個可靠的接口。如:MC可以使用M來分割感興趣的對象、實現對看不見的對象的強泛化,以便從單個B圖像進行3D重建;M可以通過可穿戴設備檢測到的注示從用的用序。能推以我心圖等領域因此系。在局限方面,文章認為??傮w現良,但以更美:① 生② M的而高o③ M示,時M是時④ 對t-to-msk的靠⑤ M可以執(zhí)行許多任務,但尚不清楚如何設計實現語義和全景分割的簡單提示。⑥ 在特定領域,其他工具的表現可能優(yōu)于M。經過以上分論文得出以下結論:結論一:emetAthing項目試圖將圖像分割提升到基礎模型時代主要是得益于新任(可提示分、模型(AM)和數據集(A)。結論二AM是否達到基礎模型的地位有待觀察它在社區(qū)中的使用情況,無論該項目的前景如超過1的掩以及可提示的分割模型都將有助于未來為其鋪平道。下em,通在中定分的容示M可實各分任務,且無需額的訓練做到零樣泛化,即M學了辨別物、具備像理解力對不熟的圖像和物體能進行零樣概括這一用特使得M型在關領的推應用為可。點擊提示進行分割eg.點擊提示進行分割eg.
m2
Dm3動的動的據示eg.點擊烏龜區(qū)域Dm4 m5 m6輸出掩碼可以作為其系統的輸入如,物體的掩碼可以在視頻中被跟蹤,通過成像編輯應用程序,變或用于拼貼等創(chuàng)造性任務。根據輸出掩碼可以作為其系統的輸入如,物體的掩碼可以在視頻中被跟蹤,通過成像編輯應用程序,變或用于拼貼等創(chuàng)造性任務。根據模糊提可生多有效碼掩碼1 掩碼2為,M將LP的Pmt覺CV,S1B集下通各式提對像達令,練動。M展??碝模將為率升具,解字腦覺區(qū),賦自駕、康、控、戲、農科領域跨模相景從益。應用領域自動駕駛對路面情況進行實時感,識人員車輛跟蹤動物等;道路記、道線行人交通號燈物體和區(qū)域進行準確標注,少標成本提高注準性和率;合目檢測路徑劃等型,助自駕駛系統準確地感知和理解圍環(huán),實安全高效自動駛醫(yī)療健康診斷輔:對學影進行析,助醫(yī)診斷病;測分:對關病生命征的胞、液等行分,預測疾病發(fā)展趨勢和治效果藥物發(fā):藥物子進分析輔助物研;臨試驗利用像分技術賦能可穿戴設備、遠程療和程監(jiān)等場景監(jiān)控安防在視頻監(jiān)控領域進行影
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 急腹癥護理課件
- 鉆具租賃合同模板(2篇)
- 閱讀館合伙人合同(2篇)
- 認識平行 課件
- 輸尿管超聲課件
- 幼兒園小班音樂《大樹媽媽》教案
- 西京學院《網頁設計與制作》2022-2023學年期末試卷
- 幼兒園語言教育中的談話活動第5章
- 西京學院《單片機原理及應用實驗》2022-2023學年期末試卷
- 西華師范大學《中學教研活動組織指導》2023-2024學年第一學期期末試卷
- 醫(yī)患溝通內容要求記錄模板(入院、入院三日、術前、術后、出院)
- Excel 會計記賬模板-錄入憑證自動生成財務報表(超實用)
- 航海學天文定位第四篇第6章天文定位
- 淺談深度教學中小學數學U型學習模式
- 物理電學暗箱專題30道
- 裝修公司員工勞動合同
- 江西上饒鉛山汽車駕駛科目三考試線路
- 通過一起放火案件淺析放火案件的移交工作
- 南京農業(yè)大學學生在校學習期間現實表現證明
- 機械專業(yè)個人職業(yè)生涯規(guī)劃書范文3篇
- 中醫(yī)呼吸系統疾病研究的現狀及未來臨床研究思路
評論
0/150
提交評論