大語言模型通識微課課件:訓練集、測試集、驗證集_第1頁
大語言模型通識微課課件:訓練集、測試集、驗證集_第2頁
大語言模型通識微課課件:訓練集、測試集、驗證集_第3頁
大語言模型通識微課課件:訓練集、測試集、驗證集_第4頁
大語言模型通識微課課件:訓練集、測試集、驗證集_第5頁
已閱讀5頁,還剩7頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

大語言模型通識

訓練集、測試集、驗證集訓練集、測試集、驗證集三者在數據目的與功能、數據交互頻率上、數據劃分與比例以及使用時機等方面均有不同之處。訓練集、測試集和驗證集在數據來源、預處理、目標、獨立性以及數據質量和代表性方面都有著相似之處,這些相似性是確保模型完成有效訓練和評估的基礎。微課6.2訓練集、測試集、驗證集訓練集用于訓練模型,驗證集用于在訓練過程中選擇模型和調整超參數,測試集則用來最終評估模型的性能?!居柧毤坑柧毮P?。幫助模型確定權重和偏置等參數,通過深入學習和理解訓練集數據,逐漸學會識別其中的模式和規(guī)律,并逐步優(yōu)化其預測能力?!掘炞C集】選擇和調參。用于模型選擇和超參數調整。主要幫助在眾多可能性中,找到那些能夠使模型性能達到巔峰的超參數,如網絡層數、網絡節(jié)點數、迭代次數、學習率等,為挑選最優(yōu)模型超參數提供優(yōu)質的咨詢和建議?!緶y試集】評估性能??简災P?,對模型的泛化能力做出評價。6.2.1目的與功能不同訓練集、測試集、驗證集這三者和模型的數據交互頻率不同。訓練集會不斷交互,驗證集是定期交互,而測試集只交互一次?!居柧毤坎粩嘟换ァMㄟ^多次學習、調整和迭代來提高性能。訓練中,模型通過一次次的迭代優(yōu)化,逐步提升自己的工藝水平?!掘炞C集】定期交互。驗證集在訓練過程中的不同時間點交互,幫助開發(fā)人員調整模型參數和決定訓練的結束點。【測試集】交互一次。測試集在整個訓練過程完成后僅交互一次,用于模型的最終評估,這個活動只有在整個訓練過程圓滿完成后才會出現。6.2.2數據交互頻率不同通常情況下,數據集會通過隨機抽樣、分層抽樣、時間序列抽樣等方式,按照不同比例劃分為訓練集、驗證集和測試集,三者之間不能有交集?!居柧毤空急燃s60%~80%。訓練集作為模型學習的主要來源,需要占據較大的比例,以確保模型有足夠的數據來捕捉到數據中的模式和規(guī)律?!掘炞C集】占比約10%~20%。一般來說,能提供有關模型泛化能力的有用信息就行,不用過多?!緶y試集】占比約10%~20%。因為測試集在模型訓練完成后只評估一次,所以只要足夠用于評估模型最終性能就行。6.2.3數據劃分與比例不同訓練集、驗證集和測試集在模型的整個訓練過程的不同階段發(fā)揮作用,所以開發(fā)人員使用它們的時機是不同的?!居柧毤吭谀P偷某跏加柧氹A段使用。模型剛剛搭建起來的時候,需要耐心地用訓練集進行大量的訓練,直到它掌握了所有的知識為止?!掘炞C集】在模型訓練過程中定期使用。需要在過程中可以監(jiān)督學習效果?!緶y試集】在模型訓練完成后使用。最終評估模型性能。需要保證測試集的數據是模型之前未見過的數據。6.2.4使用時機不同訓練集、驗證集和測試集通常來自同一數據源或具有相同的數據分布。這意味著它們共享相同的數據特征和屬性,確保模型在不同階段處理的數據具有一致性。6.2.5數據來源一致在模型訓練之前,訓練集、驗證集和測試集都需要進行相似的數據預處理步驟,如歸一化、標準化、缺失值處理等。歸一化是將數據縮放到一個特定的范圍,通常是在0和1之間,目的是讓數據在相同的尺度上,以便模型能夠更好地學習和識別其中的模式。通過歸一化,使每個特征對模型的貢獻更加均衡。6.2.6相似的數據預處理標準化則是調整數據的尺碼,將數據特征縮放到一個標準單位。這個過程有助于算法(如線性回歸)的訓練和預測過程更加穩(wěn)定。缺失值的處理像是填補數據中的空白,讓整個數據集更加完整。在數據集中,可能會有一些數據點由于各種原因(如測量錯誤、數據錄入錯誤等)而丟失。處理這些缺失值的方法有多種,包括刪除含有缺失值的樣本、填充缺失值(如使用平均值、中位數或眾數填充)、或者使用模型預測缺失值等。處理缺失值的關鍵是確保不會引入偏差,同時保留盡可能多的有效信息。6.2.7相似的數據預處理訓練、驗證和測試三個數據集在模型開發(fā)的不同階段使用,但它們的目標是一致的,即都是為了構建一個泛化能力強、能夠準確預測新數據的模型。為了保證模型評估的公正性,三個數據集中的樣本必須保持相互獨立。這意味著,每個集合中的數據是獨一無二的,不會與其他集合的數據交叉重疊,讓模型在評估過程中的表現不會受到其他集合數據的影響。這種獨立性確保了評估結果的真實性和有效性。6.2.8目標一致,各具有獨立性為了確保模型在不同階段的學習和評估過程中能夠獲得準確和可靠的結果,訓練集、驗證集和測試集都需要能夠代表原始數據的整體特性,同時還需保證數據質量。這意味著它們都應該包含所有可能的數據特征和類別,以便模型能夠在不同的數據集上都能學習到有效的模式,提高其泛化能力。從訓練集、驗證集和測試集的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論