




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
光伏電站發(fā)電量預(yù)測案例背景人工智能應(yīng)用素養(yǎng)光伏電站發(fā)電量預(yù)測案例背景1.能源是人類生存和發(fā)展的重要基石。隨著社會的飛速發(fā)展,人類對于能源的需求日益增多。光伏電站發(fā)電量預(yù)測案例背景我國能源供給能力和質(zhì)量顯著提升。光伏是能源綠色轉(zhuǎn)型、低碳轉(zhuǎn)型的一個重要的主力能源。圖
2017-2022年光伏當(dāng)年新增容量及同比增幅光伏發(fā)電由于自身間歇性和波動性造成的發(fā)電效率瓶頸有望通過人工智能算法來解決。感謝您的觀看!以上是
本節(jié)全部內(nèi)容案例實現(xiàn)總體框架流程人工智能應(yīng)用素養(yǎng)案例實現(xiàn)總體框架流程總體框架流程數(shù)據(jù)準(zhǔn)備:數(shù)據(jù)讀取、預(yù)處理、數(shù)據(jù)劃分?jǐn)?shù)據(jù)準(zhǔn)備案例實現(xiàn)總體框架流程總體框架流程數(shù)據(jù)準(zhǔn)備:數(shù)據(jù)讀取、預(yù)處理、數(shù)據(jù)劃分?jǐn)?shù)據(jù)準(zhǔn)備模型訓(xùn)練模型訓(xùn)練:生成模型、評估模型、模型調(diào)優(yōu)案例實現(xiàn)總體框架流程總體框架流程數(shù)據(jù)準(zhǔn)備:數(shù)據(jù)讀取、預(yù)處理、數(shù)據(jù)劃分?jǐn)?shù)據(jù)準(zhǔn)備模型訓(xùn)練模型訓(xùn)練:生成模型、評估模型、模型調(diào)優(yōu)預(yù)測保存預(yù)測保存:使用模型進(jìn)行預(yù)測,保存數(shù)據(jù)感謝您的觀看!以上是
本節(jié)全部內(nèi)容案例環(huán)境準(zhǔn)備人工智能應(yīng)用素養(yǎng)01目錄CONTENTS編程語言介紹02案例代碼使用模塊編程語言介紹1PartMinimalistwindAIPython是一種效率極高的語言。相比于其他的語言,使用Python編寫時,程序包含的代碼行更少。Python的語法也有助于創(chuàng)建整潔的代碼:相比其他語言,使用Python編寫的代碼更容易閱讀、調(diào)試和擴(kuò)展。編程語言介紹案例代碼使用模塊2Part案例代碼使用模塊1.NumPyNumPy是使用Python進(jìn)行科學(xué)計算的基礎(chǔ)包主要包含:一個強(qiáng)大的N維數(shù)組對象;有用的線性代數(shù)、傅里葉變換和隨機(jī)數(shù)功能;通用數(shù)據(jù)的高效多維容器,可以定義為任意數(shù)據(jù)類型。案例代碼使用模塊2.PandasPython的核心數(shù)據(jù)分析支持庫,Python數(shù)據(jù)分析實踐與實戰(zhàn)的必備高級工具。能夠處理的數(shù)據(jù)包括:含異構(gòu)列的表格數(shù)據(jù);有序和無序(非固定頻率)的時間序列數(shù)據(jù);帶行列標(biāo)簽的矩陣數(shù)據(jù),包括同構(gòu)或異構(gòu)型數(shù)據(jù);其它形式的觀測、統(tǒng)計數(shù)據(jù)集,數(shù)據(jù)轉(zhuǎn)入Pandas數(shù)據(jù)結(jié)構(gòu)時不必事先標(biāo)記。案例代碼使用模塊3.scikit--learn一個開源的Python庫,旨在簡化基于內(nèi)置機(jī)器學(xué)習(xí)和統(tǒng)計算法構(gòu)建模型的過程,不需要硬編碼。具有易用性、一致性、可靠性和協(xié)作性、完備的文檔教程的優(yōu)點。具有缺乏靈活性,參數(shù)調(diào)整或者模型架構(gòu)中缺少自由選擇的空間;且不擅長深度學(xué)習(xí)。感謝您的觀看!以上是
本節(jié)全部內(nèi)容案例數(shù)據(jù)準(zhǔn)備人工智能應(yīng)用素養(yǎng)01目錄CONTENTS數(shù)據(jù)讀取02數(shù)據(jù)預(yù)處理03數(shù)據(jù)劃分04數(shù)據(jù)升維與特征值選取數(shù)據(jù)讀取1Part1.pandas設(shè)置數(shù)據(jù)顯示格式本案例中使用pandas加載數(shù)據(jù),pandas也可以設(shè)置數(shù)據(jù)的顯示格式2.pandas讀取數(shù)據(jù)數(shù)據(jù)讀取數(shù)據(jù)讀取1.
pandas設(shè)置數(shù)據(jù)顯示格式01行:設(shè)置顯示表格列中數(shù)據(jù)最?顯?寬度為100002行:設(shè)置表格中數(shù)據(jù)顯示的最大行數(shù)為50003行:設(shè)置表格中數(shù)據(jù)顯示的最大列數(shù)為50004行:設(shè)置表格中數(shù)據(jù)顯示的最大寬度為1000數(shù)據(jù)讀取2.pandas讀取數(shù)據(jù)01行:使用pandas的read_csv()函數(shù)讀取訓(xùn)練集02行:使用pandas的read_csv()函數(shù)讀取測試集數(shù)據(jù)預(yù)處理2PartMinimalistwindAI計算機(jī)準(zhǔn)確地理解數(shù)據(jù)需要以標(biāo)準(zhǔn)化方式提供數(shù)據(jù),并且要求數(shù)據(jù)不包含異常值、噪聲數(shù)據(jù)、部分特征值缺少的條目。反之,系統(tǒng)將做出與數(shù)據(jù)不符的假設(shè)則模型訓(xùn)練的速度就會變慢,并且由于數(shù)據(jù)解釋的失誤導(dǎo)致結(jié)果的不準(zhǔn)確。數(shù)據(jù)預(yù)處理1.缺失數(shù)據(jù)處理數(shù)據(jù)預(yù)處理處理的數(shù)據(jù)包括處理異常值數(shù)據(jù)、處理噪聲數(shù)據(jù)和處理缺失數(shù)據(jù)。2.異常值處理數(shù)據(jù)預(yù)處理MinimalistwindAI僅一部分特征有值的數(shù)據(jù),或者缺少有意義特征值的數(shù)據(jù)都被視為缺失數(shù)據(jù)。數(shù)據(jù)預(yù)處理紅色方框和箭頭標(biāo)注數(shù)據(jù)特征值多數(shù)為0.00,特征值無意義,即可認(rèn)為是缺失數(shù)據(jù)。1.刪除缺失數(shù)據(jù)處理缺失數(shù)據(jù)時,一般方法是刪除該值或者使用其他數(shù)值來替換。2.均值代入3.回歸代入數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理1.本案例缺失值處理缺失值篩選:使用pandas的過濾功能篩選出數(shù)據(jù)中為0的數(shù)據(jù),數(shù)據(jù)為0即可認(rèn)為特征數(shù)據(jù)缺失。缺失值預(yù)測填充:發(fā)電量預(yù)測時將缺失數(shù)據(jù)的預(yù)測量使用特定值0.379993053填充。1.刪除異常值異常值指的是遠(yuǎn)離均值的值。如果一個屬性的值遵循高斯分布,異常值則是位于尾部的值。2.閾值判斷+分配新值數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理1.本案例異常值處理-定義刪除異常值函數(shù)01行:定義drop_all_outlier函數(shù)。02行:使用pandas中DataFrame的方法drop_duplicates去除數(shù)據(jù)中的重復(fù)值03-11行:調(diào)用pandas的drop的方法去除不符合要求的數(shù)據(jù);電壓值在(500,800)區(qū)間,現(xiàn)場溫度在(-30,30)之間,轉(zhuǎn)換效率小于100,風(fēng)向和風(fēng)速在合理范圍內(nèi)數(shù)據(jù)預(yù)處理1.本案例異常值處理-刪除異常值01、03行:調(diào)用數(shù)據(jù)復(fù)制方法,拷貝數(shù)據(jù)02、04行:調(diào)用方法去除訓(xùn)練集、測試集的異常數(shù)據(jù)05行:獲取cleaned_sub_data的'ID'賦給cleaned_sub_data_ID變量1.查找異常值的行索引閾值判斷+分配新值分為以下四步:2.使用閾值法確定該行中異常值3.取距離該異常值最近的兩個正常值的平均數(shù)數(shù)據(jù)預(yù)處理4.使用該平均數(shù)代替異常值數(shù)據(jù)預(yù)處理2.本案例異常值處理-“閾值判斷+分配新值”01行:使用pandas的concat方法拼接數(shù)據(jù),sort_values按照ID給數(shù)據(jù)重新排序,reset_index()方法對數(shù)據(jù)重置索引,drop(['index'],axis=1)刪除原來的索引列。03行:按照列索引遍歷數(shù)據(jù),篩選并刪除異常值。04行:按照03行搜索到的索引查詢數(shù)據(jù)并按照ID升序排序。數(shù)據(jù)預(yù)處理2.本案例異常值處理-“閾值判斷+分配新值”01行:iterrows()遍歷異常數(shù)據(jù);02行:獲取每行的‘ID’特征值;03行:找出有異常數(shù)據(jù)的行中異常的值的列索引;04行:獲得當(dāng)前數(shù)據(jù)的行號。05-10行:取距該異常值最近的上下正常值的行偏移值;11行:取相鄰最近的上下兩個正常值的平均值。12行:使用平均值代替異常值。數(shù)據(jù)劃分3PartMinimalistwindAI訓(xùn)練集用于訓(xùn)練不同的模型,驗證集用于調(diào)整每個模型的超參數(shù)以選擇一個最優(yōu)的超參數(shù)組合,而測試集可以用來比較模型,目的是對最終模型進(jìn)行無偏評估。在有些項目中,數(shù)據(jù)集劃分僅劃分為訓(xùn)練集和測試集,沒有驗證集。數(shù)據(jù)劃分?jǐn)?shù)據(jù)集訓(xùn)練集驗證集測試集MinimalistwindAItrain_test_split是數(shù)據(jù)劃分函數(shù),從樣本中隨機(jī)的按比例選取traindata和testdata人工智能助力芯片制造train_data:所要劃分的樣本特征集,即Xtrain_target:所要劃分的樣本結(jié)果,即ytest_size:測試集占比,案例中為0.2,即訓(xùn)練集和測試集的抽取比例為8:2random_state:是隨機(jī)數(shù)的種子數(shù)據(jù)升維與特征值選取4Part數(shù)據(jù)升維與特征值選取1.數(shù)據(jù)升維數(shù)據(jù)集的特征不足的情況,需要對數(shù)據(jù)集的特征擴(kuò)充。交互式特征式在原始數(shù)據(jù)中添加交互項,使特征數(shù)量增加。01行導(dǎo)入相關(guān)庫和方法03行:使用該方法訓(xùn)練數(shù)據(jù),訓(xùn)練完成后,數(shù)據(jù)的特征數(shù)量增加02行使用PolynomialFeatures給數(shù)據(jù)集添加特征:degree:度數(shù),決定多項式的次數(shù);interaction_only:默認(rèn)為False,True表示只能交叉相乘,不能有a^2。1.單一變量法2.迭代式特征選擇法3.基于模型的特征選擇數(shù)據(jù)預(yù)處理2.特征值選取數(shù)據(jù)升維與特征值選取2.特征值選取本案例是SelectFromModel結(jié)合GradientBoostingRegressor(GBDT)實現(xiàn)01行導(dǎo)入相關(guān)庫和方法使用該模型處理數(shù)據(jù)X_train、X_test和sub_data,篩選出有效特征值使用GDBT進(jìn)行模型創(chuàng)建感謝您的觀看!以上是
本節(jié)全部內(nèi)容模型創(chuàng)建人工智能應(yīng)用素養(yǎng)01目錄CONTENTS算法簡介02模型創(chuàng)建算法簡介1PartMinimalistwindAI本案例使用了6種機(jī)器學(xué)習(xí)的算法生成模型:XGBOOST(XGB)、GradientBoostingDecisionTree(GBDT)、隨機(jī)森林RandomForest(RF)、LightGradientBoostingMachine(LightGBM)、k最近鄰算法(KNN)和支持向量機(jī)(SVM)。算法簡介XGBOOST算法原理是不斷地添加樹,不斷地進(jìn)行特征分裂來生長一棵樹。每次添加一個樹,其實是學(xué)習(xí)一個新函數(shù),去擬合上次預(yù)測的殘差。當(dāng)訓(xùn)練完成得到k棵樹,要預(yù)測一個樣本的分?jǐn)?shù),其實就是根據(jù)這個樣本的特征,在每棵樹中會落到對應(yīng)的一個葉子節(jié)點,每個葉子節(jié)點就對應(yīng)一個分?jǐn)?shù),最后只需要將每棵樹對應(yīng)的分?jǐn)?shù)加起來就是該樣本的預(yù)測值。1.XGBOOST(XGB)算法簡介2.GradientBoostingDecisionTree(GBDT)算法簡介決策樹梯度迭代(GradientBoosting,GB)縮減ShrinkageBagging+決策樹=隨機(jī)森林bagging技術(shù)通過合適的投票機(jī)制把多個分類器的學(xué)習(xí)結(jié)果綜合為一個更準(zhǔn)確的分類結(jié)果。集成學(xué)習(xí)采用新訓(xùn)練集訓(xùn)練一種或多種基本分類器,并通過選擇合適的投票機(jī)制,形成組合分類器。最后,運用組合分類器對測試集中的樣本進(jìn)行預(yù)測,獲取這些樣本的標(biāo)記。3.隨機(jī)森林RandomForest(RF)算法簡介LightGBM(LightGradientBoostingMachine)是一個實現(xiàn)GBDT算法的框架,支持高效率的并行訓(xùn)練,并且具有更快的訓(xùn)練速度、更低的內(nèi)存消耗、更好的準(zhǔn)確率、支持分布式可以快速處理海量數(shù)據(jù)等優(yōu)點。4.LightGradientBoostingMachine(LightGBM)算法簡介根據(jù)k個最近的鄰居的狀態(tài)來決定樣本的狀態(tài),類似“物以類聚,人以群分”。核心思想是,為了預(yù)測測試樣本的類別,可以尋找所有訓(xùn)練樣本中與該測試樣本“距離”最近的前K個樣本,這K個樣本大部分屬于哪一類,那么就認(rèn)為這個測試樣本也屬于哪一類,即最相近的K個樣本投票來決定該測試樣本的類別。5.k最近鄰算法(KNN)算法簡介5.k最近鄰算法(KNN)算法簡介當(dāng)K=3時,圖中第一個圈包含了三個圖形,其中三角形2個,正方形一個,該圓的則分類結(jié)果為三角形。當(dāng)K=5時,第二個圈中包含了5個圖形,三角形2個,正方形3個,則以3:2的投票結(jié)果預(yù)測圓為正方形類標(biāo)??傊?,設(shè)置不同的K值,可能預(yù)測得到不同的結(jié)果。支持向量機(jī)(SVM)算法是一類按監(jiān)督學(xué)習(xí)方式對數(shù)據(jù)進(jìn)行二元分類的廣義線性分類器,其決策邊界是對學(xué)習(xí)樣本求解的最大邊距超平面,可以將問題化為一個求解凸二次規(guī)劃的問題。6.支持向量機(jī)(SVM)算法簡介模型創(chuàng)建2Part模型創(chuàng)建1.XGB算法實現(xiàn)n_estimators,使用多少棵樹來擬合,即多少次迭代。本案例中分別取950、1000、1100max_depth,每一棵樹最大深度,本案例中默認(rèn)取3max_features,尋找最佳分割時要考慮的特征數(shù)量。random_state,隨機(jī)數(shù)種子,設(shè)定值表示保證每次構(gòu)建的模型是相同的n_jobs設(shè)定工作的core數(shù)量模型創(chuàng)建2.GBDT算法實現(xiàn)n_estimators分別取500、400、500;max_features設(shè)置為“sqrt”;max_depth設(shè)置為3模型創(chuàng)建3.RF算法實現(xiàn)模型創(chuàng)建4.LightGBM算法實現(xiàn)模型創(chuàng)建5.KNN算法實現(xiàn)n_neighbors,默認(rèn)值5,表示選擇n個鄰居,本案例中使用值7,8,6。p,默認(rèn)值2,控制Minkowski度量方法的值整型,p=1為曼哈頓距離,p=2為歐式距離。本案例中值為1,2,1模型創(chuàng)建6.SVM算法實現(xiàn)C:懲罰系數(shù),即對誤差的寬容度。C越高,說明越不能容忍出現(xiàn)誤差,容易過擬合。C越小,容易欠擬合。C過大或過小,泛化能力變差。本案例中參數(shù)使用100。gamma隱含地決定了數(shù)據(jù)映射到新的特征空間后的分布,gamma越大,支持向量越少,gamma值越小,支持向量越多。本案例中參數(shù)使用0.01。epsilon指定了epsilon-tube,其中訓(xùn)練損失函數(shù)中沒有懲罰與在實際值的距離epsilon內(nèi)預(yù)測的點。本案例中使用參數(shù)0.01。感謝您的觀看!以上是
本節(jié)全部內(nèi)容模型調(diào)優(yōu)人工智能應(yīng)用素養(yǎng)01目錄CONTENTS模型調(diào)優(yōu)方法02模型調(diào)優(yōu)實現(xiàn)模型調(diào)優(yōu)方法1Part1.選擇最佳算法對于開發(fā)者們來說,如何提高性能是非常重要的工作2.超參數(shù)調(diào)優(yōu)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025至2030年中國雙層不銹鋼保溫杯數(shù)據(jù)監(jiān)測研究報告
- 廣東省揭陽市新華中學(xué)2024-2025學(xué)年高一下學(xué)期3月第一次月考化學(xué)試卷(含答案)
- 2025年軍隊文職人員招聘之軍隊文職管理學(xué)通關(guān)試題庫(有答案)
- 2019-2025年消防設(shè)施操作員之消防設(shè)備基礎(chǔ)知識押題練習(xí)試題A卷含答案
- 2019-2025年消防設(shè)施操作員之消防設(shè)備基礎(chǔ)知識考前沖刺模擬試卷A卷含答案
- 2025年軍隊文職人員招聘之軍隊文職教育學(xué)綜合練習(xí)試卷B卷附答案
- 2025年軍隊文職人員招聘之軍隊文職法學(xué)每日一練試卷A卷含答案
- 營養(yǎng)與食品衛(wèi)生學(xué)-營養(yǎng)學(xué)566
- 2025年大學(xué)生防詐騙知識競賽題庫試題及答案(共90題)
- 專業(yè)知識培訓(xùn)課件模板
- 科目一知識大全課件
- 2016-2023年大慶醫(yī)學(xué)高等專科學(xué)校高職單招(英語/數(shù)學(xué)/語文)筆試歷年參考題庫含答案解析
- 泛微協(xié)同OA與SAP集成應(yīng)用解決方案V講訴
- 探討電磁感應(yīng)現(xiàn)象對電能轉(zhuǎn)化效率的影響
- EHS法律法規(guī)清單及合規(guī)性評估
- 橋梁定期檢查-主要部件檢查要點與評定標(biāo)準(zhǔn)
- 長途汽車客運站調(diào)研報告
- 陜西各市(精確到縣區(qū))地圖PPT課件(可編輯版)
- JTG C10-2007 公路勘測規(guī)范正式版
- (完整版)國際金融法
- 近代德國的學(xué)前教育課件
評論
0/150
提交評論