大語言模型基礎微課版課件 第3、4章 大模型架構(gòu)、人工數(shù)據(jù)標注_第1頁
大語言模型基礎微課版課件 第3、4章 大模型架構(gòu)、人工數(shù)據(jù)標注_第2頁
大語言模型基礎微課版課件 第3、4章 大模型架構(gòu)、人工數(shù)據(jù)標注_第3頁
大語言模型基礎微課版課件 第3、4章 大模型架構(gòu)、人工數(shù)據(jù)標注_第4頁
大語言模型基礎微課版課件 第3、4章 大模型架構(gòu)、人工數(shù)據(jù)標注_第5頁
已閱讀5頁,還剩127頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

浙江省普通本科高?!笆奈濉敝攸c教材建設成果之一大語言模型基礎大語言模型基礎周蘇教授QQ:81505050第3章大模型架構(gòu)大語言模型的底層邏輯包括深度學習架構(gòu)、訓練機制與應用場景等。近年來,通過擴大數(shù)據(jù)大小和模型大小,大模型取得顯著進展,提高了驚人的涌現(xiàn)能力,包括上下文學習(ICL)、指令微調(diào)和思維鏈(CoT)。不過,盡管大模型在自然語言處理任務中表現(xiàn)出了令人驚訝的零樣本/少樣本推理性能,但它們天生“視而不見”,因為通常只能理解離散文本。第3章大模型架構(gòu)盡管如此,研究界還是做出了許多努力來開發(fā)有能力的多模態(tài)大模型,展示了一些令人驚訝的實用能力,例如基于圖像編寫網(wǎng)站代碼,理解模因(指能通過模仿而被復制的信息或思想,小到一條回答,一段流行歌曲旋律,一首古詩,一個笑話,一幅圖片,大到一個習俗,一個節(jié)日,一個思想,一個主義)的深層含義,以及數(shù)學推理。第3章大模型架構(gòu)01大模型生成原理02多模態(tài)語言模型03大模型的結(jié)構(gòu)04應用技術(shù)架構(gòu)目錄/CONTENTS05OpenAI的Sora大模型PART01大模型生成原理簡單來說,GPT(生成式預訓練)大模型是一種基于深度學習的自然語言處理模型,它生成文本(文生文)結(jié)果的原理,就是通過學習語言的規(guī)律,然后根據(jù)已有的語境(上文),預測下一個單詞(頻率),從而生成連貫的文本。這一點,和人類說話或?qū)懳恼率穷愃频摹?/p>

圖3-1通過預測生成文本3.1大模型生成原理借助于群體智能,GPT模型的學習能力和生成能力已經(jīng)遠超人類。比如,人類對話中,“我”后面通常會跟“是”,“你”后面通常會跟“好”等等,這就是一種語言規(guī)律。GPT模型通過類似方式來學習語言規(guī)律。在模型訓練過程中,GPT模型會閱讀大量,甚至是數(shù)以億計的文本數(shù)據(jù),從中學習到文本中非常復雜的語言規(guī)律。這就是為什么GPT模型可以生成非常自然、連貫文本的原理。3.1大模型生成原理GPT模型的內(nèi)部結(jié)構(gòu)由多層神經(jīng)網(wǎng)絡組成,每一層神經(jīng)網(wǎng)絡都可以抽取文本的某種特征。(1)第一層神經(jīng)網(wǎng)絡可能會抽取出單詞的拼寫規(guī)律;(2)第二層神經(jīng)網(wǎng)絡可能會抽取出詞性的規(guī)律;(3)第三層神經(jīng)網(wǎng)絡可能會抽取出句子的語法規(guī)律等等。通過層層抽取,GPT模型可以學習到深層次的語言規(guī)律。其工作原理還涉及到很多復雜的數(shù)學和計算機科學知識。3.1大模型生成原理GPT-3模型展現(xiàn)了一些大模型才具備的突現(xiàn)能力(就是模型規(guī)模必須得增大到一定程度才會顯現(xiàn)的能力,比如至少百億級),其中一項能力就是上下文學習。該能力簡單來說就是,對于一個預訓練好的大模型,遷移到新任務上的時候,并不需要重新訓練,而只需要給模型提供任務描述(這個任務描述是可選項),輸入幾個示例(輸入-輸出對),最后加上要模型回答的查詢,模型就能為新輸入生成正確輸出查詢對應的答案,而不需要對模型做微調(diào)。這也引發(fā)了研究人員對該能力產(chǎn)生原因的思考和探索。3.1.1上下文學習GPT-n系列的模型都屬于自回歸類的語言模型,就是根據(jù)當前輸入預測下一個詞,然后將預測結(jié)果和輸入拼接再當作模型的輸入預測下一個詞,這樣循環(huán)往復。而自回歸模型的訓練目標也很簡單,就是從超大規(guī)模語料庫中采樣訓練樣本,模型根據(jù)輸入輸出一個概率向量(包含所有詞的預測概率,就GPT-3模型而言,維度約1千多萬),而因為文本數(shù)據(jù)自帶標注,所以知道真實的下一個詞。然后,研究人員發(fā)現(xiàn),預訓練好的GPT-3模型擁有一項神奇的能力,后來就被稱為上下文學習。3.1.1上下文學習比如,現(xiàn)在想用GPT-3來做個翻譯任務,將英文翻譯為法文。輸入的格式如右圖所示。圖3-2GPT-3的翻譯任務格式3.1.1上下文學習首先第一行是對任務描述,告訴模型要做翻譯,接下來三行是示例,英文單詞和對應的法文單詞對,最后一行是待翻譯的英文單詞。將以上內(nèi)容整體作為GPT-3的輸入,讓模型去補全輸出就能得到cheese對應的法文單詞。上下文學習非常靈活,除了翻譯任務,還可以做語法修飾甚至寫代碼。而神奇的地方在于,GPT-3的訓練過程中并沒有顯式地提供類似測試階段任務描述加示例這樣的訓練數(shù)據(jù)。3.1.1上下文學習當然,GPT-3的訓練數(shù)據(jù)量非常巨大(比如包含維基百科、書本期刊上的討論等),或許里面已經(jīng)包含了各種任務類似結(jié)構(gòu)的數(shù)據(jù)。GPT-3模型容量足夠大,記下了所有訓練數(shù)據(jù)。對于上下文學習能力的成因,目前還是一個開放性的問題。為什么只有大規(guī)模的語言模型才會具備這樣的能力?或許只有模型參數(shù)量和訓練數(shù)據(jù)量都足夠大,模型才能顯現(xiàn)出該能力。3.1.1上下文學習指令微調(diào)(又稱指令跟隨)是一種通過在由(指令,輸出)對組成的數(shù)據(jù)集結(jié)構(gòu)上進一步訓練大模型的過程,以增強大模型的能力和可控性。其中,指令代表模型的人類指令,輸出代表遵循指令的期望輸出。這種結(jié)構(gòu)使得指令微調(diào)專注于讓模型理解和遵循人類指令。這個過程有助于彌合大模型的下一個詞預測目標與用戶讓大模型遵循人類指令的目標之間的差距。指令微調(diào)可以被視為有監(jiān)督微調(diào)的一種特殊形式。但是,它們的目標依然有差別。有監(jiān)督微調(diào)是一種使用標記數(shù)據(jù)對預訓練模型進行微調(diào)的過程,以便模型能夠更好地執(zhí)行特定任務。3.1.2指令微調(diào)舉個例子,公司門禁系統(tǒng)用了人臉識別,而你只提供了一張照片,門禁系統(tǒng)就能從各個角度認出你,這就是單一樣本??梢园褑我粯颖纠斫鉃橛?條數(shù)據(jù)微調(diào)模型。在人臉識別場景里,單一樣本很常見。在自然語言處理場景中,用百度百科、維基百科上的數(shù)據(jù)、新聞等訓練一個GPT模型,直接拿來做對話任務,這個就是零樣本(完全的無監(jiān)督學習)。然后,如果發(fā)現(xiàn)里面胡說八道有點多,于是找一些人標注少量優(yōu)質(zhì)數(shù)據(jù)喂進去,這就是少樣本。ChatGPT的發(fā)展就經(jīng)歷了從零樣本到少樣本的過程。3.1.3零樣本/少樣本GPT-3之后的問題,是少樣本時到底應該標注哪些數(shù)據(jù)?將它們跟強化學習結(jié)合起來,就是人類反饋強化學習,這是ChatGPT的核心技術(shù)。這套方法本質(zhì)的目的是:如何把機器的知識與人的知識對齊。然后開創(chuàng)了一個新的方向,叫“對準”。3.1.3零樣本/少樣本“模型”是現(xiàn)實化的一種數(shù)學公式抽象。即使深度學習的出發(fā)點是更深層次的神經(jīng)網(wǎng)絡,但細分起來也會有非常多的不同模型(也就是不同的抽象問題的方式)。對應不同的數(shù)學公式,比如常見的CNN(卷積神經(jīng)網(wǎng)絡)、DNN(深度神經(jīng)網(wǎng)絡)等。大模型就是模型中比較“大”的那一類,大的具體含義也就是數(shù)學公式更復雜,參數(shù)更多。3.1.4深度學習架構(gòu)2021年8月份,李飛飛等學者聯(lián)名發(fā)表一份200多頁的研究報告《論基礎模型的機遇與風險》,詳細描述了大規(guī)模預訓練模型面臨的機遇和挑戰(zhàn)。文章中大模型被統(tǒng)一命名為“基礎模型”。該論文肯定了基礎模型對智能體基本認知能力的推動作用。2017年Transformer架構(gòu)的提出,使得深度學習模型參數(shù)突破了1億,BERT網(wǎng)絡模型超過3億規(guī)模,GPT-3模型超過百億,大模型蓬勃發(fā)展,已經(jīng)出現(xiàn)多個參數(shù)超過千億的大模型。參數(shù)量多,學習的數(shù)據(jù)量更多,模型的泛化能力更強。泛化能力通俗來講就是一專多能,可以完成多個不同的任務。3.1.4深度學習架構(gòu)(1)詞嵌入層。大模型使用詞嵌入技術(shù)將文本中的每個詞匯轉(zhuǎn)化為高維向量,確保模型可以處理連續(xù)的符號序列。這些向量不僅編碼了詞匯本身的含義,還考慮了語境下的潛在關(guān)聯(lián)。(2)位置編碼。為了解決序列信息中詞語順序的問題,Transformer引入位置編碼機制,允許模型理解并記住單詞之間的相對或絕對位置關(guān)系,即使在轉(zhuǎn)換成固定長度向量后也能保留上下文信息。3.1.4深度學習架構(gòu)(3)自注意力機制。自注意力是Transformer的核心部件,通過計算輸入序列中每個位置的單詞與其他所有位置單詞的相關(guān)性,從而實現(xiàn)對整個句子的全局建模。多頭自注意力擴展了這一機制,使其能夠從不同視角捕獲并整合信息。(4)前饋神經(jīng)網(wǎng)絡(FFN)。在自注意力層之后,模型通常會包含一個或多個全連接的前饋神經(jīng)網(wǎng)絡層,用于進一步提煉和組合特征,增強模型對復雜語言結(jié)構(gòu)的理解和表達能力。3.1.4深度學習架構(gòu)大量實驗證明,在高質(zhì)量的訓練語料進行指令微調(diào)的前提下,超過百億參數(shù)量的模型才具備一定的涌現(xiàn)能力,尤其是在一些復雜的推理任務上。也就是說,如果為通過大模型技術(shù)來提升業(yè)務指標,不得不要求我們?nèi)ビ柧氁粋€百億規(guī)模的模型。然而,一般情況下人們并不具備如此大規(guī)模的計算資源,在有限算力條件下訓練或推理一個百億量級的大模型是不太現(xiàn)實的。因此,要在訓練和推理階段采用一些優(yōu)化策略來解決此類問題,以在有限計算資源條件下完成自己的大模型訓練任務。3.1.5訓練策略及優(yōu)化技術(shù)(1)自我監(jiān)督學習。利用大規(guī)模無標簽文本數(shù)據(jù)進行預訓練時,采用如掩碼語言模型(MaskedLanguageModel,MLM)或自回歸模型(GPT-style)等策略。MLM通過對部分詞匯進行遮蔽并讓模型預測被遮蔽的內(nèi)容來學習語言表征,而自回歸模型則是基于歷史信息預測下一個詞的概率。(2)微調(diào)階段。預訓練完成后,模型在特定任務上進行微調(diào)以適應具體需求。它涉及文本分類、問答系統(tǒng)、機器翻譯等各種下游任務,通過梯度反向傳播調(diào)整模型參數(shù)提升任務性能。3.1.5訓練策略及優(yōu)化技術(shù)(3)先進的訓練方法。包括對比學習,利用正負樣本對強化模型識別和區(qū)分關(guān)鍵信息的能力,以及增強學習,使模型通過與環(huán)境交互,逐步優(yōu)化其輸出以最大化預期獎勵。3.1.5訓練策略及優(yōu)化技術(shù)人類和動物能夠通過觀察,簡單交互以及無監(jiān)督方式學習世界知識,可以假設這里面蘊含的潛在能力構(gòu)成了常識的基礎,這種常識能夠讓人類在陌生的環(huán)境下完成任務。例如一位年輕司機從來沒有在雪地里開過車,但是他卻知道在雪地里如果車開的太猛,輪胎會打滑。3.1.6所謂世界模型早在幾十年前,就有學者研究人類、動物甚至智能系統(tǒng)如何“借力”世界模型,自我學習。因此,當前人工智能也面臨著重新設計學習范式和架構(gòu),使機器能夠以自我監(jiān)督的方式學習世界模型,然后使用這些模型進行預測、推理和規(guī)劃。世界模型需要融合不同的學科的觀點,包括但不限于認知科學、系統(tǒng)神經(jīng)科學、最優(yōu)控制、強化學習以及“傳統(tǒng)”人工智能。必須將它們與機器學習的新概念相結(jié)合,如自監(jiān)督學習和聯(lián)合嵌入架構(gòu)。3.1.6所謂世界模型PART02多模態(tài)語言模型所謂多模態(tài),指的是多種模態(tài)的信息,包括文本、圖像、視頻、音頻等。在大多數(shù)工作中主要是處理圖像和文本形式的數(shù)據(jù),即把視頻數(shù)據(jù)轉(zhuǎn)為圖像,把音頻數(shù)據(jù)轉(zhuǎn)為文本格式,這就涉及到圖像和文本領(lǐng)域的內(nèi)容。顧名思義,多模態(tài)研究的是這些不同類型的數(shù)據(jù)的融合問題。3.2多模態(tài)語言模型一般大模型是一種生成文字的模型,它和文生圖比如DALL·E都是多模態(tài)語言模型的分支。多模態(tài)大語言模型(MultimodelLLM,MLLM)是近年來興起的一個新的研究熱點,它利用強大的大模型(LLM)作為大腦來執(zhí)行多模態(tài)任務。MLLM令人驚訝的新興能力,如基于圖像寫故事和數(shù)學推理,在傳統(tǒng)方法中是罕見的,顯示了一條通往人工通用智能的潛在道路。3.2多模態(tài)語言模型與此同時,大型視覺基礎模型在感知方面進展迅速,而傳統(tǒng)的與文本的結(jié)合更注重模態(tài)對齊和任務統(tǒng)一,在推理方面發(fā)展緩慢。鑒于這種互補性,單模態(tài)大模型和視覺模型同時朝著彼此運行,最終造就了MLLM新領(lǐng)域。形式上,MLLM指的是基于大模型的模型,該模型能夠接收多模態(tài)信息并對其進行推理。從發(fā)展人工通用智能的角度來看,MLLM比大模型更進一步。3.2多模態(tài)語言模型(1)MLLM更符合人類感知世界的方式。人類自然地接受多感官輸入,這些輸入往往是互補和合作的。因此,多模態(tài)信息有望使MLLM更加智能。(2)MLLM提供了一個用戶友好性更好的界面。得益于多模態(tài)輸入的支持,用戶可以更靈活地與智能助手進行交互。(3)MLLM是一個更全面的任務解決者。雖然大模型通??梢詧?zhí)行自然語言處理任務,但MLLM通??梢灾С指蠓秶娜蝿?。3.2多模態(tài)語言模型具有代表性的MLLM可以分為4種主要類型:(1)多模態(tài)指令調(diào)整(MIT)。(2)多模態(tài)上下文學習(M-ICL)。(3)多模態(tài)思維鏈(M-CoT)。前三個構(gòu)成了MLLM的基本原理,三種技術(shù)相對獨立,并且可以組合使用。(4)大模型輔助視覺推理(LAVR)。這是以大模型為核心的多模態(tài)系統(tǒng)。3.2多模態(tài)語言模型指令是指對任務的描述。指令微調(diào)是一種涉及在指令格式數(shù)據(jù)集集合上微調(diào)預訓練大模型的技術(shù)。通過這種方式進行調(diào)整,大模型可以通過遵循新的指令來泛化到隱藏的任務,從而提高零樣本性能。這個簡單而有效的想法引發(fā)了自然語言處理領(lǐng)域后續(xù)工作的成功,如ChatGPT。3.2.1多模態(tài)指令微調(diào)監(jiān)督微調(diào)方法通常需要許多特定任務的數(shù)據(jù)來訓練特定任務的模型。提示方法減少了對大規(guī)模數(shù)據(jù)的依賴,并且可以通過提示來完成專門的任務。在這種情況下,少樣本性能得到了改進,但零樣本性能仍然相當平均。不同的是,指令微調(diào)學習泛化任務,而不局限于適應特定的任務,指令調(diào)整與多任務提示高度相關(guān)。許多研究工作探索了將大模型中的指令調(diào)整的成功擴展到多模態(tài)。從單模態(tài)擴展到多模態(tài),數(shù)據(jù)和模型都需要進行相應的調(diào)整。3.2.1多模態(tài)指令微調(diào)研究人員通常通過調(diào)整現(xiàn)有的基準數(shù)據(jù)集或自學習來獲取數(shù)據(jù)集,一種常見的方法是將外來模態(tài)的信息注入大模型,并將其視為強有力的推理機。相關(guān)工作要么直接將外來模態(tài)嵌入與大模型對齊,要么求助于專家模型將外來模態(tài)翻譯成大模型可以吸收的自然語言。通過這種方式,這些工作通過多模態(tài)指令調(diào)整將大模型轉(zhuǎn)換為多模態(tài)通用任務求解器。3.2.1多模態(tài)指令微調(diào)多模態(tài)上下文學習是大模型重要的涌現(xiàn)能力之一。上下文學習有兩個好的特點:(1)與傳統(tǒng)的從豐富的數(shù)據(jù)中學習內(nèi)隱模態(tài)的監(jiān)督學習范式不同,上下文學習的關(guān)鍵是從類比中學習。具體而言,在上下文學習設置中,大模型從幾個例子和可選指令中學習,并推斷出新的問題,從而以少量方式解決復雜和隱含的任務。3.2.2多模態(tài)上下文學習(2)上下文學習通常以無訓練的方式實現(xiàn),因此可以在推理階段靈活地集成到不同的框架中,指令調(diào)整技術(shù)可以增強上下文學習的能力。在此背景下,學習擴展到更多模態(tài),在推理時可以通過向原始樣本添加一個演示集,即一組上下文中的樣本來實現(xiàn)多模態(tài)上下文學習。3.2.2多模態(tài)上下文學習多模態(tài)上下文學習主要用于兩種場景:(1)解決各種視覺推理任務。通常包括從幾個特定任務的例子中學習,并概括為一個新的但相似的問題。根據(jù)說明和演示中提供的信息,大模型可以了解任務在做什么以及輸出模板是什么,并最終生成預期的答案。相比之下,工具使用的示例通常是純文本的,而且更具細粒度。它們通常包括一系列步驟,這些步驟可以按順序執(zhí)行以完成任務。(2)教大模型使用外部工具。這種情況與思維鏈(CoT)密切相關(guān)。3.2.2多模態(tài)上下文學習思維鏈(CoT)是“一系列中間推理步驟”,已被證明在復雜推理任務中是有效的。其主要思想是促使大模型不僅輸出最終答案,而且輸出導致答案的推理過程,類似于人類的認知過程。受自然語言處理成功的啟發(fā),已經(jīng)提出了多項工作來將單模態(tài)CoT擴展到多模態(tài)CoT(M-CoT)。(1)模態(tài)橋接。為了將自然語言處理轉(zhuǎn)移到多模態(tài),模態(tài)橋接是第一個需要解決的問題。大致有兩種方法可以實現(xiàn)這一點:通過融合特征或通過將視覺輸入轉(zhuǎn)換為文本描述。3.2.3多模態(tài)思維鏈(2)學習范式。獲得M-CoT能力的方法大致有三種,即通過微調(diào)和無訓練的少樣本或者無樣本學習。三種方式的樣本量要求按降序排列。微調(diào)方法通常涉及為M-CoT學習管理特定的數(shù)據(jù)集。例如,ScienceQA構(gòu)建了一個包含講座和解釋的科學問答數(shù)據(jù)集,該數(shù)據(jù)集可以作為學習CoT推理的來源,并對提出的數(shù)據(jù)集進行微調(diào)。多模態(tài)CoT也使用ScienceQA基準,但以兩步方式生成輸出,即基本原理(推理步驟鏈)和基于基本原理的最終答案。CoT通過快速調(diào)整和特定步驟視覺偏見的組合來學習隱含的推理鏈。3.2.3多模態(tài)思維鏈與微調(diào)相比,少樣本/零樣本學習的計算效率更高。主要區(qū)別在于,少樣本學習通常需要人工準備一些上下文例子,使模型更容易一步一步地學習推理。零樣本學習不需要任何具體學習示例。它通過提示“讓作者逐幀思考”或“這兩個關(guān)鍵幀之間發(fā)生了什么”等設計指令,模型學會在沒有明確指導的情況下利用嵌入的知識和推理能力。類似地,一些工作提示模型描述任務和工具使用情況,將復雜任務分解為子任務。3.2.3多模態(tài)思維鏈受工具增強大模型成功的啟發(fā),一些研究探索了調(diào)用外部工具或視覺基礎模型進行視覺推理任務的可能性,將大模型作為具有不同角色的助手,構(gòu)建特定任務或通用的視覺推理系統(tǒng)。與傳統(tǒng)的視覺推理模型相比,這些工作表現(xiàn)出幾個良好的特點:(1)較強的泛化能力。這些系統(tǒng)配備了從大規(guī)模預訓練中學習到的豐富的開放世界知識,可以很容易地推廣到具有顯著Zero/FewShot性能的看不見的物體或概念。3.2.4大模型輔助視覺推理(2)突發(fā)能力。在強大推理能力和豐富大模型知識的幫助下,這些系統(tǒng)能夠執(zhí)行復雜的任務。例如,給定一張圖片,MM-REAT可以解釋表面下的含義,比如解釋為什么一個模因很有趣。(3)更好的交互性和控制力。傳統(tǒng)模型控制機制有限,并且通常需要昂貴的策劃數(shù)據(jù)集。相比之下,基于大模型的系統(tǒng)能夠在用戶友好的界面中進行精細控制(例如點擊)。3.2.4大模型輔助視覺推理PART03大模型的結(jié)構(gòu)當前,絕大多數(shù)大模型都采用類似GPT的架構(gòu),使用基于Transformer架構(gòu)的深度學習模型構(gòu)建的僅由解碼器組成的網(wǎng)絡結(jié)構(gòu),采用自回歸的方式構(gòu)建語言模型,但是在位置編碼、層歸一化位置、激活函數(shù)等細節(jié)上各有不同。

圖3-3GPT-2模型結(jié)構(gòu)3.3大模型的結(jié)構(gòu)大模型結(jié)構(gòu)的核心組成部分和特點如下。(1)Transformer架構(gòu):包括:?自注意力機制:這是Transformer的核心,允許模型在處理輸入序列時考慮序列中所有位置的上下文,從而捕捉長距離依賴關(guān)系。?多頭注意力:通過并行執(zhí)行多個自注意力操作,模型可以從不同表示子空間中捕獲信息,增強模型的注意力能力。?前饋神經(jīng)網(wǎng)絡:每個注意力層之后跟隨一個或多個全連接層,用于進一步處理和變換注意力輸出的信息。?位置編碼:由于Transformer是位置不變的架構(gòu),需要加入位置編碼來讓模型理解輸入序列中元素的位置信息。3.3大模型的結(jié)構(gòu)(2)深度堆疊:大模型通常由許多個Transformer層堆疊而成,每一層都會對輸入信息進行更深層次的抽象和轉(zhuǎn)化。(3)參數(shù)規(guī)模:大模型的參數(shù)量可達數(shù)千億甚至更多。這些參數(shù)分布在模型的權(quán)重矩陣中,包括但不限于注意力機制中的權(quán)重、前饋網(wǎng)絡的權(quán)重等。3.3大模型的結(jié)構(gòu)(4)預訓練與微調(diào):包括:?預訓練:在大量無標注文本數(shù)據(jù)上進行自監(jiān)督學習,典型的預訓練任務是語言建模,即預測句子中下一個詞是什么,這使得模型能夠?qū)W習到豐富的語言規(guī)律和模式。?微調(diào):針對特定下游任務,如問答、翻譯、文本分類等,對預訓練好的模型進行調(diào)整,通常只需要在少量任務特定數(shù)據(jù)上進行額外訓練。3.3大模型的結(jié)構(gòu)(5)優(yōu)化技術(shù)和資源需求:訓練如此龐大的模型需要高級的優(yōu)化技術(shù)(如AdamW優(yōu)化器)、分布式訓練策略以及大量的計算資源(GPU/TPU集群)、存儲和帶寬。可見,大模型的結(jié)構(gòu)設計旨在通過深度學習和自我注意機制來高效地捕捉和利用語言的復雜性和多樣性,其巨大規(guī)模和先進的訓練方法共同支撐起模型強大的語言理解和生成能力。3.3大模型的結(jié)構(gòu)PART04應用技術(shù)架構(gòu)大模型的厲害之處,不僅在于它很像人類的學習語言,更大的作用在于它未來會改變我們的生活和職場。現(xiàn)有的大模型的整體應用架構(gòu),從上往下,從簡單到復雜,依次有四種。3.4應用技術(shù)架構(gòu)指令工程聽著好像很遙遠,其實就是通過下面這個輸入框觸發(fā)的??瓷先ズ唵?,但這個很考驗一個人寫提示(指令)的“功力”。圖3-4指令界面3.4.1指令工程提示的作用就是通過引導模型生成特定類型的文本。一個好的提示可以引導模型以期望的方式生成文本。例如,如果想讓模型寫一篇關(guān)于全球變暖的文章,我們可以給模型一個提示,如“全球變暖是一個嚴重的問題,因為…”,模型會根據(jù)這個提示生成一篇文章。這種方法的優(yōu)點是簡單直觀,但缺點是可能需要大量的嘗試才能找到一個好的提示。3.4.1指令工程函數(shù)調(diào)用是一種更深入的應用架構(gòu),它通過調(diào)用模型的內(nèi)部函數(shù),直接獲取模型的某些特性。例如,可以調(diào)用模型的詞向量函數(shù),獲取單詞的詞向量。這種方法的優(yōu)點是可以直接獲取模型的內(nèi)部信息,缺點是需要深入理解模型的內(nèi)部結(jié)構(gòu)。3.4.2函數(shù)調(diào)用檢索增強生成(RAG)是一種結(jié)合檢索和生成的應用架構(gòu)。在這種方法中,模型首先會檢索相關(guān)的文本,然后用這些文本作為輸入,讓模型生成答案。例如,如果我們想讓模型回答一個關(guān)于全球變暖的問題,模型可以先檢索到一些關(guān)于全球變暖的文章,然后根據(jù)這些文章生成答案。這種方法的優(yōu)點是可以利用大量的外部信息,提高模型的生成質(zhì)量。但缺點是需要大量的計算資源,因為需要對大量的文本進行檢索。3.4.3檢索增強生成微調(diào)是一種在特定任務上進一步訓練模型的應用架構(gòu)。在這種方法中,模型首先會在大量的文本上進行預訓練,學習語言的基本規(guī)律。然后,模型會在特定任務的數(shù)據(jù)上進行微調(diào),學習任務的特定規(guī)律。例如,我們可以在情感分析任務上微調(diào)模型,讓模型更好地理解情感。這種方法的優(yōu)點是可以提高模型在特定任務上的表現(xiàn),缺點是需要大量的標注數(shù)據(jù)。3.4.4微調(diào)PART05OpenAI的Sora大模型2024年2月16日,OpenAI發(fā)布Sora視頻生成模型技術(shù),報告揭示了其背后的強大訓練思路和詳細的技術(shù)特性。

圖3-5文生視頻模型Sora的作品3.5

OpenAI的Sora大模型DALL·E3是OpenAI在2023年9月發(fā)布的一個文生圖模型。相對于同類產(chǎn)品的Midjourney以及StableDiffusion,DALL·E3最大的便利之處在于,用戶不需要掌握提示的寫法了,直接自然語言描述即可,甚至還可以直接說出你的想法,DALL·E3會根據(jù)你的想法自動生成提示詞,然后去產(chǎn)生圖片。這對于剛剛?cè)腴T人工智能繪畫的人來說,可以說非常友好。圖3-6DALL·E3文生圖模型3.5

OpenAI的Sora大模型Sora模型不僅展現(xiàn)了三維空間的連貫性、模擬數(shù)字世界的能力、長期連續(xù)性和物體持久性,還能與世界互動,如同真實存在。其訓練過程獲得了大模型的靈感,采用擴散型變換器模型,通過將視頻轉(zhuǎn)換為時空區(qū)塊的方式,實現(xiàn)了在壓縮的潛在空間上的訓練和視頻生成。這種獨特的訓練方法使得Sora能夠創(chuàng)造出質(zhì)量顯著提升的視頻內(nèi)容,無需對素材進行裁切,直接為不同設備以其原生縱橫比創(chuàng)造內(nèi)容。Sora的推出,無疑為視頻生成領(lǐng)域帶來了革命性的進步,其技術(shù)細節(jié)值得每一位從業(yè)者細致研究。Sora的技術(shù)報告里面有OpenAI的訓練思路以及Sora詳細的技術(shù)特性,簡單來說,Sora的訓練量足夠大也產(chǎn)生了類似涌現(xiàn)的能力。3.5.1

Sora技術(shù)報告分析Sora的主要技術(shù)特點如下。(1)三維空間的連貫性:Sora可以生成帶有動態(tài)相機運動的視頻。隨著相機移動和旋轉(zhuǎn),人物和場景元素在三維空間中保持連貫的運動。(2)模擬數(shù)字世界:Sora能模擬人工過程,如視頻游戲。Sora能夠同時控制Minecraft(游戲網(wǎng)站)中的玩家,并高保真地渲染游戲世界及其動態(tài)。通過提及“Minecraft”的提示,可以零樣本地激發(fā)Sora的這些能力。3.5.2

Sora主要技術(shù)特點(3)長期連續(xù)性和物體持久性:對視頻生成系統(tǒng)來說,Sora能夠有效地模擬短期和長期依賴關(guān)系。同樣,它能在一個樣本中生成同一角色的多個鏡頭,確保其在整個視頻中的外觀一致。(4)與世界互動:Sora有時能夠模擬對世界狀態(tài)產(chǎn)生簡單影響的行為。例如,畫家可以在畫布上留下隨時間持續(xù)的新筆觸,或者一個人吃漢堡時留下咬痕。3.5.2

Sora主要技術(shù)特點Sora的訓練受到了大模型的啟發(fā)。這些模型通過在互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)上進行訓練,從而獲得了廣泛的能力。其模型訓練過程主要包括如下。(1)Sora實際上是一種擴散型變換器模型,它首先將視頻壓縮到一個低維潛在空間中,然后將這種表現(xiàn)形式分解成時空區(qū)塊,從而將視頻轉(zhuǎn)換為區(qū)塊。3.5.3

Sora的模型訓練過程(2)訓練了一個用于降低視覺數(shù)據(jù)維度的網(wǎng)絡。這個網(wǎng)絡以原始視頻為輸入,輸出在時間和空間上都被壓縮的潛在表示。Sora在這個壓縮的潛在空間上進行訓練,并在此空間中生成視頻。還開發(fā)了一個對應的解碼器模型,它能將生成的潛在表示映射回到像素空間。3.5.3

Sora的模型訓練過程(3)對于給定的壓縮輸入視頻,提取一系列時空區(qū)塊,它們在變換器模型中充當詞元。這種方案同樣適用于圖像,因為圖像本質(zhì)上是單幀的視頻?;趨^(qū)塊的表示方法使Sora能夠針對不同分辨率、持續(xù)時間和縱橫比的視頻和圖像進行訓練。在推理過程中,可以通過在適當大小的網(wǎng)格中排列隨機初始化的區(qū)塊來控制生成視頻的大小。(4)隨著Sora訓練計算量的增加,樣本質(zhì)量有了顯著提升。Sora訓練時沒有對素材進行裁切,使得Sora能夠直接為不同設備以其原生縱橫比創(chuàng)造內(nèi)容。3.5.3

Sora的模型訓練過程(5)針對視頻的原生縱橫比進行訓練,可以提高構(gòu)圖和取景的質(zhì)量。訓練文本到視頻的生成系統(tǒng)需要大量配有文本提示的視頻。應用了在DALL·E3中引入的重新字幕技術(shù)到視頻上。(6)與DALL·E3相似,也利用了GPT技術(shù),將用戶的簡短提示轉(zhuǎn)換成更詳細的提示,然后發(fā)送給視頻模型。3.5.3

Sora的模型訓練過程Sora展現(xiàn)的三維空間連貫性和長期物體持久性,提升了視頻內(nèi)容的真實感。通過模擬數(shù)字世界和與世界互動,Sora能夠創(chuàng)造出富有創(chuàng)意的視頻內(nèi)容。Sora的獨特訓練方法及其對不同縱橫比的原生支持,標志著視頻生成技術(shù)的一個新時代。3.5.3

Sora的模型訓練過程01大模型生成原理02多模態(tài)語言模型03大模型的結(jié)構(gòu)04應用技術(shù)架構(gòu)目錄/CONTENTS05OpenAI的Sora大模型大語言模型基礎第3章大模型架構(gòu)浙江省普通本科高校“十四五”重點教材建設成果之一大語言模型基礎大語言模型基礎周蘇教授QQ:81505050第4章人工數(shù)據(jù)標注數(shù)據(jù)是人工智能的基礎,更是大語言模型源源不斷的養(yǎng)分來源,作為大模型數(shù)據(jù)能力鏈上的重要一環(huán),數(shù)據(jù)標注受到重要關(guān)注,這個環(huán)節(jié)做得如何,直接決定了大模型有多聰明。第4章人工數(shù)據(jù)標注大模型領(lǐng)域的領(lǐng)跑者OpenAI在數(shù)據(jù)標注上有一套自己的方法,他們的數(shù)據(jù)標注方式是先做出預訓練模型,再用強化學習加上人工反饋來調(diào)優(yōu),也就是RLHF(從人類反饋中強化學習)。他們找了很多家數(shù)據(jù)公司來共同完成數(shù)據(jù)標注,自己組建一個由幾十名哲學博士組成的質(zhì)檢團隊,對標注好的數(shù)據(jù)進行檢查。數(shù)據(jù)標注不是以對錯來評估,而是給每個問題選出多個匹配的結(jié)果,再經(jīng)過多人多輪的結(jié)果排序,直至模型數(shù)據(jù)符合常人思維,甚至某些專業(yè)領(lǐng)域的結(jié)果要達到特定要求的知識水平。第4章人工數(shù)據(jù)標注01知識表示方法02什么是數(shù)據(jù)標注03數(shù)據(jù)標注分類04制定標注規(guī)則目錄/CONTENTS05執(zhí)行數(shù)據(jù)標注06標注團隊管理PART01知識表示方法知識是信息接受者通過對信息的提煉和推理而獲得的正確結(jié)論,是人對自然世界、人類社會以及思維方式與運動規(guī)律的認識與掌握,是人的大腦通過思維重新組合和系統(tǒng)化的信息集合。知識與知識表示是人工智能中的一項重要的基本技術(shù),它決定著人工智能如何進行知識學習。4.1知識表示方法在信息時代,有許多可以處理和存儲大量信息的計算機系統(tǒng)。信息包括數(shù)據(jù)和事實。數(shù)據(jù)、事實、信息和知識之間存在著層次關(guān)系。最簡單的信息片是數(shù)據(jù),從數(shù)據(jù)中,我們可以建立事實,進而獲得信息。人們將知識定義為“處理信息以實現(xiàn)智能決策”,這個時代的挑戰(zhàn)是將信息轉(zhuǎn)換成知識,使之可以用于智能決策。4.1知識表示方法從便于表示和運用的角度出發(fā),可將知識分為4種類型。(1)對象(事實):物理對象和物理概念,反映某一對象或一類對象的屬性,例如,桌子結(jié)構(gòu)=高度、寬度、深度。(2)事件和事件序列(關(guān)于過程的知識):時間元素和因果關(guān)系。不光有當前狀態(tài)和行為的描述,還有對其發(fā)展的變化及其相關(guān)條件、因果關(guān)系等描述的知識。4.1.1知識的概念(3)執(zhí)行(辦事、操作行為):不僅包括如何完成(步驟)事情的信息,也包括主導執(zhí)行的邏輯或算法的信息。如下棋、證明定理、醫(yī)療診斷等。(4)元知識:即知識的知識,關(guān)于各種事實的知識,可靠性和相對重要性的知識,關(guān)于如何表示知識和運用知識的知識。例如,如果你在考試前一天晚上死記硬背,那么關(guān)于這個主題的知識的記憶就不會持續(xù)太久。以規(guī)則形式表示的元知識稱為元規(guī)則,用來指導規(guī)則的選用。運用元知識進行的推理稱為元推理。4.1.1知識的概念這里的知識涵義和我們的一般認識有所區(qū)別,它是指以某種結(jié)構(gòu)化方式表示的概念、事件和過程。因此,并不是日常生活中的所有知識都能夠得以體現(xiàn)的,只有限定了范圍和結(jié)構(gòu),經(jīng)過編碼改造的知識才能成為人工智能知識表示中的知識。4.1.1知識的概念從數(shù)據(jù)、事實、信息到知識的層次頻譜如下圖所示。數(shù)據(jù)可以是沒有附加任何意義或單位的數(shù)字,事實是具有單位的數(shù)字,信息則是將事實轉(zhuǎn)化為意義。最終,知識是高階的信息表示和處理,方便做出復雜的決策和理解。圖4-1數(shù)據(jù)、事實、信息和知識的分層關(guān)系4.1.1知識的概念“知識表示”是指把知識客體中的知識因子與知識關(guān)聯(lián)起來,便于人們識別和理解知識。知識表示是知識組織的前提和基礎。下面我們從內(nèi)涵和外延方法方面進行思考,從而了解表示方法的選擇、產(chǎn)生式系統(tǒng)、面向?qū)ο蟮雀拍?。知識的表示是對知識的一種描述,或者說是對知識的一組約定,一種計算機可以接受的用于描述知識的數(shù)據(jù)結(jié)構(gòu),是能夠完成對專家的知識進行計算機處理的一系列技術(shù)手段。從某種意義上講,表示可視為數(shù)據(jù)結(jié)構(gòu)及其處理機制的綜合:表示=數(shù)據(jù)結(jié)構(gòu)+處理機制4.1.2知識表示的定義知識表示包含兩層含義:(1)用給定的知識結(jié)構(gòu),按一定的原則、組織表示知識;(2)解釋所表示知識的含義。4.1.2知識表示的定義對于人類而言,一個好的知識表示應該具有以下特征:(1)它應該是透明的,即容易理解。(2)無論是通過語言、視覺、觸覺、聲音或者這些組合,都對我們的感官產(chǎn)生影響。(3)從所表示的世界的真實情況方面考查,它講述的故事應該讓人容易理解。4.1.2知識表示的定義良好的表示可以充分利用機器龐大的存儲器和極快的處理速度,即充分利用其計算能力(具有每秒執(zhí)行數(shù)十億計算的能力)。知識表示的選擇與問題的解理所當然地綁定在一起,以至于可以通過一種表示使問題的約束和挑戰(zhàn)變得顯而易見(并且得到理解),但是如果使用另一種表示方法,這些約束和挑戰(zhàn)就會隱藏起來,使問題變得復雜而難以求解。4.1.2知識表示的定義一般來說,對于同一種知識可以采用不同的表示方法。反過來,一種知識表示模式可以表達多種不同的知識。但在解決某一問題時,不同的表示方法可能產(chǎn)生不同的效果。人工智能中知識表示方法注重知識的運用,可以粗略地將其分為敘述式表示和過程式表示兩大類。4.1.2知識表示的定義1.敘述式表示法把知識表示為一個靜態(tài)的事實集合,并附有處理它們的一些通用程序,即敘述式表示描述事實性知識,給出客觀事物所涉及的對象是什么。對于敘述式的知識表示,它的表示與知識運用(推理)是分開處理的。4.1.2知識表示的定義敘述式表示法易于表示“做什么”,其優(yōu)點是:(1)形式簡單、采用數(shù)據(jù)結(jié)構(gòu)表示知識、清晰明確、易于理解、增加了知識的可讀性。(2)模塊性好、減少了知識間的聯(lián)系、便于知識的獲取、修改和擴充。(3)可獨立使用,這種知識表示出來后,可用于不同目的。其缺點是不能直接執(zhí)行,需要其他程序解釋它的含義,因此執(zhí)行速度較慢。4.1.2知識表示的定義2.過程式表示法將知識用使用它的過程來表示,即過程式表示描述規(guī)則和控制結(jié)構(gòu)知識,給出一些客觀規(guī)律,告訴怎么做,一般可用一段計算機程序來描述。例如,矩陣求逆程序,其中表示了矩陣的逆和求解方法的知識。這種知識是隱含在程序之中的,機器無法從程序的編碼中抽出這些知識。4.1.2知識表示的定義過程式表示法一般是表示“如何做”的知識。其優(yōu)點有:(1)可以被計算機直接執(zhí)行,處理速度快。(2)便于表達如何處理問題的知識,易于表達怎樣高效處理問題的啟發(fā)性知識。其缺點是:不易表達大量的知識,且表示的知識難于修改和理解。4.1.2知識表示的定義知識表示的過程如圖4-2所示。其中的“知識Ⅰ”是指隱性知識或者使用其他表示方法表示的顯性知識;“知識Ⅱ”是指使用該種知識表示方法表示后的顯性知識?!爸RⅠ”與“知識Ⅱ”的深層結(jié)構(gòu)一致,只是表示形式不同。所以,知識表示的過程就是把隱性知識轉(zhuǎn)化為顯性知識的過程,或者是把知識由一種表示形式轉(zhuǎn)化成另一種表示形式的過程。圖4-2知識表示的過程4.1.3知識表示的過程知識表示系統(tǒng)通常有兩種元素組成:數(shù)據(jù)結(jié)構(gòu)(包含樹、列表和堆棧等結(jié)構(gòu))和為了使用知識而需要的解釋性程序(如搜索、排序和組合)。換句話說,系統(tǒng)中必須有便利的用于存儲知識的結(jié)構(gòu),有用以快速訪問和處理知識的方式,這樣才能進行計算,得到問題求解、決策和動作。4.1.3知識表示的過程PART02什么是數(shù)據(jù)標注人工智能通過機器學習方法大量學習已知樣本,有了預測能力之后再預測未知樣本,以達到智能化的效果。機器學習主要分為監(jiān)督學習和無監(jiān)督學習,實際應用中,有監(jiān)督的深度學習方式是主流,而無監(jiān)督學習因效果不可控而常常被用來做探索性的實驗。監(jiān)督學習需要做數(shù)據(jù)標注,對于標注數(shù)據(jù)有著強依賴性需求。未經(jīng)標注處理過的原始數(shù)據(jù)多以非結(jié)構(gòu)化數(shù)據(jù)為主,這些數(shù)據(jù)難以被機器識別和學習。只有經(jīng)過標注處理后的結(jié)構(gòu)化數(shù)據(jù)才能被算法模型訓練使用。人工數(shù)據(jù)標注可以說是智能的前提與靈魂。4.2什么是數(shù)據(jù)標注簡單來說,數(shù)據(jù)標注的過程就是通過人工標注的方式,把需要機器識別和分辨的語音、圖片、文本、視頻等數(shù)據(jù)打上標簽,進行加工處理,為機器系統(tǒng)提供大量的學習樣本,然后讓計算機不斷地學習這些數(shù)據(jù)的特征,最終實現(xiàn)計算機自主識別。數(shù)據(jù)標注是大部分AI算法得以有效運行的關(guān)鍵環(huán)節(jié),想要實現(xiàn)AI就要先讓計算機學會理解并具備判斷事物的能力??梢哉f數(shù)據(jù)決定了AI的落地程度,精準的數(shù)據(jù)集產(chǎn)品和高度定制化數(shù)據(jù)服務更是受到各大企業(yè)的重視。4.2什么是數(shù)據(jù)標注大模型數(shù)據(jù)標注的特點主要如下。(1)非結(jié)構(gòu)化。早期的數(shù)據(jù)標注工作主要以“打點”和“畫框”為主,就是讓機器學習什么是“人臉”,什么是“障礙物”,需要嚴格按照客戶給定的標注規(guī)范進行,標注要求也偏客觀。大模型標注則更像是在做閱讀理解,模型學習應該給出什么樣的內(nèi)容,大模型生成的多個結(jié)果哪個更接近滿分答案,標注要求偏主觀,難以形成統(tǒng)一的標準。4.2什么是數(shù)據(jù)標注標準從客觀到主觀,使得標注工作更困難,這非??简灅俗煹闹饔^能動性以及解決問題的能力,而且標注師需要具備很廣的知識面,數(shù)據(jù)標注工作不再是個結(jié)構(gòu)化的簡單工作,而變成了需要邏輯思維的非結(jié)構(gòu)化工作。4.2什么是數(shù)據(jù)標注(2)知識密集型。大模型背景下的標注工作主要分為兩類:通識大模型標注、領(lǐng)域大模型標注。目前的大模型產(chǎn)品多數(shù)是通識大模型,但即便如此,標注工作也是非結(jié)構(gòu)化的,需要標注師具備較強的自然語言能力。至于領(lǐng)域大模型標注,對學歷、能力、專業(yè)度的要求則更高。大多數(shù)行業(yè)或企業(yè)需要具備領(lǐng)域知識的專業(yè)人才,他們要重點解決金融、醫(yī)療、科技等領(lǐng)域的專業(yè)問題,最終形成符合專業(yè)邏輯的高質(zhì)量數(shù)據(jù)。比如,政務大模型中,用戶通常會問很多“專精”的問題,“社保斷繳5年怎么辦”這類標注問題就需要標注師讀取大量的政府文件,并能從中找到準確答案。4.2什么是數(shù)據(jù)標注(3)對標注者的學歷要求高。早期的數(shù)據(jù)標注工作者算是人工智能領(lǐng)域的流水線工人,通常集中人力資源豐富的地區(qū),以控制人力成本。如今的標注師們屬于互聯(lián)網(wǎng)公司的白領(lǐng),甚至很多專業(yè)領(lǐng)域的標注人員都是碩士或博士學歷,其身份是領(lǐng)域標注專家。4.2什么是數(shù)據(jù)標注PART03數(shù)據(jù)標注分類從不同的角度思考,數(shù)據(jù)標注有許多不同的分類。(1)從難易程度方面,數(shù)據(jù)標注可劃分為常識性標注與專業(yè)性標注。例如,地圖識別標注多為常識性標注,標注道路、路牌、地圖等數(shù)據(jù),語音識別標注也多為常識性標注。這類標注工作的難點在于需要大量標注訓練樣本,因為應用場景多樣且復雜,一般對標注員無專業(yè)技能要求,認真負責,任務完成效率快、質(zhì)量高的即為好的標注員。4.3數(shù)據(jù)標注分類醫(yī)療診斷領(lǐng)域標注多為專業(yè)性標注,因為病種、癥狀的分類與標注需要有醫(yī)療專業(yè)知識的人才來完成,人力資源招聘領(lǐng)域的標注也屬于專業(yè)性標注,因為標注員需要熟知招聘業(yè)務、各崗位所需的知識技能,還需了解人力資源經(jīng)理招人時的關(guān)注點,才能判斷簡歷是否符合職位的招聘要求。該類型的標注工作需要有招聘專業(yè)知識的標注員,或者稱為標注專家。標注工作的難點比較多,例如選拔培養(yǎng)合適的標注員、標注規(guī)則的界定、標注質(zhì)量的控制等多方面。4.3數(shù)據(jù)標注分類(2)從標注目的方面,數(shù)據(jù)標注可劃分為評估型標注與樣本型標注。評估型標注一般是為了評估模型的準確率,發(fā)現(xiàn)一些不好的樣例,然后優(yōu)化算法模型。為此,為了節(jié)約標注資源可控制標注數(shù)量。一般情況下標注千量級的數(shù)據(jù),樣本具有統(tǒng)計意義即可,標注完成后需要統(tǒng)計正確率以及錯誤樣例。該類型標注的重點是錯誤樣例的原因總結(jié),分析每個壞樣例出現(xiàn)的原因,并將原因歸納為不同分類,以方便算法分析分類型分批次的優(yōu)化模型。4.3數(shù)據(jù)標注分類樣本型標注是為模型提供前期的訓練樣本作為機器學習的輸入,該類型標注工作需要標注大量數(shù)據(jù),一般情況下需要標注萬量級的數(shù)據(jù)。為了樣本的均衡性,標注樣本大都是隨機抽取的。這樣做的優(yōu)點是可在一定程度上避免樣本偏差,但缺點是要標注大量數(shù)據(jù)。如果是文本型樣本,有時可借助算法抽取一些高頻、高質(zhì)量樣本進行標注,這樣可在一定程度上減少標注工作量,但可能存在樣本偏差。數(shù)據(jù)標注從標注對象方面,可劃分為圖像標注、語音標注、視頻標注、文本標注。4.3數(shù)據(jù)標注分類圖像標注是對未經(jīng)處理的圖片數(shù)據(jù)進行加工處理,轉(zhuǎn)換為機器可識別信息,然后輸送到人工智能算法和模型里完成調(diào)用。常見的圖像標注方法有語義分割、矩形框標注、多邊形標注、關(guān)鍵點標注、點云標注、3D立方體標注、2D/3D融合標注、目標追蹤等。圖4-3圖像標注4.3.1圖像標注語音標注是標注員把語音中包含的文字信息、各種聲音先“提取”出來,再進行轉(zhuǎn)寫或者合成。標注后的數(shù)據(jù)主要用于人工智能機器學習,使計算機可以擁有語音識別能力。常見的語音標注類型有語音轉(zhuǎn)寫、語音切割、語音清洗、情緒判斷、聲紋識別、音素標注、韻律標注、發(fā)音校對等。

圖4-4語音標注4.3.2語音標注點云數(shù)據(jù)一般由激光雷達等3D掃描設備獲取空間若干點的信息,包括X、Y、Z坐標位置信息、RGB顏色信息和強度信息等,是一種多維度的復雜數(shù)據(jù)集合。

圖4-53D點云標注4.3.3

3D點云標注3D點云數(shù)據(jù)可以提供豐富的幾何、形狀和尺度信息,并且不易受光照強度變化和其它物體遮擋等影響,可以很好地了解機器的周圍環(huán)境。常見的3D點云標注類型有3D點云目標檢測標注、3D點云語義分割標注、2D3D融合標注、點云連續(xù)幀標注等。4.3.3

3D點云標注文本標注是對文本進行特征標記的過程,對其打上具體的語義、構(gòu)成、語境、目的、情感等數(shù)據(jù)標簽。通過標注好的訓練數(shù)據(jù),可以教會機器識別文本中所隱含的意圖或者情感,使機器可以更好地理解語言。常見的文本標注有OCR轉(zhuǎn)寫、詞性標注、命名實體標注、語句泛化、情感分析、句子編寫、槽位提取、意圖匹配、文本判斷、文本匹配、文本信息抽取、文本清洗、機器翻譯等。4.3.4文本標注PART04制定標注規(guī)則常識性標注的規(guī)則比較簡單,標注一部分樣本即可總結(jié)出較通用的規(guī)則,但專業(yè)性標注的規(guī)則比較復雜,制定專業(yè)的標注規(guī)則需要遵循的原則主要如下。(1)多維分析與綜合分析相結(jié)合。簡歷與職位的匹配度影響因素肯定是多維的,不能只參考工作經(jīng)歷或?qū)I(yè)要求一個因子,或者某幾個因子,要多維分析,最終再給出綜合評分結(jié)果。當然,簡歷與職位的匹配標注也不可能一上來就能給出綜合的評分。要先給單一因子打分,然后參考每個因子的評分結(jié)果,最終再進行綜合分析,給出評分結(jié)果。4.4制定標注規(guī)則(2)因子權(quán)重影響因素場景化。簡歷與職位匹配度評估需要給每個因子打分,要結(jié)合具體場景把所有因子進行歸類分析,比如設定一些重要因子,如果重要因子不匹配可能就直接不給分,比如工作經(jīng)歷代表的是一個人的勝任力,如果該候選人不具備該崗位的勝任力,總分肯定是0分。還有一些因子雖然不是很重要,但會影響評分,有些因子時而重要時而不重要,比如年齡,人力資源經(jīng)理想要1~3年經(jīng)驗的行政專員,候選人40歲,該情況肯定會影響最終評分且很有可能總分是0分。所以把所有影響因子結(jié)合場景進行歸類分析是十分必要的。4.4制定標注規(guī)則(3)問題類型標簽化、結(jié)構(gòu)化。一般情況下標注結(jié)果會以分數(shù)的形式展示,ABCD或者0123。前期制定標注規(guī)則時,一定要把原因分析考慮進去,列出所有不匹配的原因,形成結(jié)構(gòu)化的原因標簽,有利于最終分析壞樣例的分類與占比,然后,算法或者策略團隊在優(yōu)化時可以優(yōu)先解決占比高或影響惡劣的樣例。4.4制定標注規(guī)則數(shù)據(jù)標注是一項看似簡單實際卻十分復雜的工作,涉及標注分類、標注規(guī)則制定、標注原因分析、標注系統(tǒng)搭建、標注團隊管理等,尤其涉及到專業(yè)領(lǐng)域的標注則更困難。4.4制定標注規(guī)則PART05執(zhí)行數(shù)據(jù)標注圖像標注專家阿德拉·巴里烏索于2007年開始使用標簽系統(tǒng)地標注SUN數(shù)據(jù)庫,標注了超過25萬個物體。她記錄了標注過程中曾遇到的困難和采用的解決方案,以便得到一致性高的注釋。巴里烏索在數(shù)據(jù)標注中的主要心得如下。(1)在標注圖像時,首先對圖像進行整體評估,衡量標注難度。有些乍一看標注難度較大的圖像,實際上圖中的元素很少,很容易標記。4.5執(zhí)行數(shù)據(jù)標注(2)標注時,通常由大到小進行標注。比如開放空間中先標注天空,封閉空間內(nèi)先標注天花板,然后再

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論