版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
機(jī)器學(xué)習(xí)基礎(chǔ)復(fù)習(xí)提綱1、選擇題(16分)和2、是非題(14分)Python語言的特點(diǎn):Simple(簡單)EasytoLearn(易學(xué))FreeandOpenSource(免費(fèi)、開源)High-levelLanguage(高級(jí)語言)Portable(可移植性)Interpreted(解釋型)ObjectOriented(面向?qū)ο?Extensible(可擴(kuò)展性)Embeddable(可嵌入性)ExtensiveLibraries(豐富的庫)動(dòng)態(tài)類型,交互式,多繼承,函數(shù)返回值,函數(shù)作為參數(shù),變長參數(shù),缺省參數(shù),命名參數(shù),三種forforiinlist:print("序號(hào):%s值:%s"%(list.index(i)+1,i))foriinrange(len(list)):print("序號(hào):%s值:%s"%(i+1,list[i]))fori,valinenumerate(list):print("序號(hào):%s值:%s"%(i+1,val))for和while中的break,continue,elsefor…..else可以在無法循環(huán)或者程序執(zhí)行完的時(shí)候執(zhí)行,while….else同理break跟continue和c一樣List,Tuple,Dictionary,setList是可變有序的列表,可以隨意添加和刪除其中的元素Tuple和list結(jié)構(gòu)相似,但是tuple一旦初始化就不能修改字典具有極快的查找速度,且dictionary的key是不可變對(duì)象(字符串和整數(shù)都可作為key)Set與dictionary類似,它是一組儲(chǔ)存key的無序的集合,且key不能重復(fù)range()函數(shù)產(chǎn)生Listlist=range(1,100)產(chǎn)生1到99的一個(gè)數(shù)組numpy.min,max,sort,argmin,argmax,argsort,flipud,[::-1]min,max計(jì)算矩陣或者數(shù)組中的最小值,最大值argmin,argmax分別計(jì)算矩陣或數(shù)組最大值,最小值所在位置的索引sort(axis=-1,kind='quicksort',order=None)axis中0代表行,1代表列,kind代表算法,order指排序的字段名argsort返回按小到大數(shù)值的索引值flipud用于翻轉(zhuǎn)矩陣[::-1]表示將數(shù)組倒序scatter,plot,bar,box,繪制多軸圖,subplot(numRows,numCols,plotNum)scatter畫散點(diǎn)圖plot畫折線圖bar畫柱狀圖box畫箱圖多軸圖調(diào)用subplot(numR,numC,plotNum)因此構(gòu)造RxC的矩陣plotNum指矩陣中的位置機(jī)器學(xué)習(xí)的一般慨念,比如:有監(jiān)督的機(jī)器學(xué)習(xí)、無監(jiān)督的機(jī)器學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等機(jī)器學(xué)習(xí)模型評(píng)價(jià)方法和評(píng)價(jià)性能指標(biāo)及其在sklearn中相關(guān)的函數(shù)屬性的類型,數(shù)據(jù)預(yù)處理技術(shù)(如sklearn.preprocessing.StandardScaler,preprocessing.scale,preprocessing.MinMaxScaler(),preprocessing.normalize,processing.Normalizer()),過擬合和欠擬合,過擬合處理技術(shù),參數(shù)和超參數(shù),sklearn.preprocessing.StandardScaler標(biāo)準(zhǔn)化處理preprocessing.scale與上面的StandardScaler類似,但是標(biāo)準(zhǔn)化處理可以將處理好的數(shù)組保存preprocessing.MinMaxScaler()歸一化preprocessing.normalize,processing.Normalizer()正則化,每一個(gè)向量內(nèi)所有元素的平方和等于1過擬合產(chǎn)生的原因:數(shù)據(jù)過少+模型過于復(fù)雜+有噪音解決方案:1數(shù)據(jù)處理2輔助分類節(jié)點(diǎn)3正則化欠擬合產(chǎn)生的原因:訓(xùn)練模型太簡單,沒有學(xué)習(xí)到通用的特征解決方案:1添加更多的特征項(xiàng)2減少正則化參數(shù)3使用更深的模型4使用集成方法尋求最優(yōu)的模型f(x,θ)中的θ成為參數(shù),而通過一類參數(shù)來定義結(jié)構(gòu)模型或者優(yōu)化策略這類參數(shù)稱為超參數(shù)支持向量機(jī)的核函數(shù),神經(jīng)網(wǎng)絡(luò)中的層數(shù),梯度下降的步長,聚類算法的類別個(gè)數(shù),正則化的系數(shù)都是最常見的超參數(shù)各個(gè)機(jī)器學(xué)習(xí)算法的基本性質(zhì)比如LinearRegression,DecisionTree,SVM,KNN,MLP,SOM,K-means,DBSACNLinearRegression線性回歸即y=wx+bDecisionTree決策樹SVM支持向量機(jī)假設(shè)在空間中有一個(gè)能正確劃分?jǐn)?shù)據(jù)集并且集合間距最大的分離超平面正常來說空間中存在無數(shù)個(gè)超平面,因此我們需要讓margin(間隔)最大,當(dāng)所需要的超平面是非線性的情況下,可以引入核函數(shù),從低維空間映射到高維空間,常用的核函數(shù)有多項(xiàng)式核函數(shù),高斯徑向基核函數(shù),S型核函數(shù)KNN(KNearNeighbor最近鄰算法)其中最重要的是超參數(shù)k值的選擇,k代表選出k個(gè)于所需要預(yù)測的目標(biāo)最近的k個(gè)單位,一般來說距離選用歐氏距離(也可以選用曼哈頓距離,切比雪夫距離)KNN有著非常明顯的優(yōu)點(diǎn)和缺點(diǎn):優(yōu)點(diǎn):精度高、對(duì)異常值不敏感、無數(shù)據(jù)輸入假定缺點(diǎn):計(jì)算復(fù)雜度高、空間復(fù)雜度高(因?yàn)槊總€(gè)數(shù)都需要進(jìn)行計(jì)算)MLP多層感知器分為inputlayer,hiddenlayer,outputlayer還可以通過mlp的反向傳播來更新hiddenlayer里面的weight,從而達(dá)到更精準(zhǔn)的預(yù)測值SOM算法因此,總結(jié)來說,競爭學(xué)習(xí)的步驟是:(1)向量歸一化(2)尋找獲勝神經(jīng)元(3)網(wǎng)絡(luò)輸出與權(quán)值調(diào)整步驟(3)完成后回到步驟1繼續(xù)訓(xùn)練,直到學(xué)習(xí)率衰減到0。學(xué)習(xí)率處于(0,1],一般隨著學(xué)習(xí)的進(jìn)展而減小,即調(diào)整的程度越來越小,神經(jīng)元(權(quán)重)趨于聚類中心。K-meansk-means初始隨機(jī)選擇k個(gè)質(zhì)心點(diǎn),然后通過歐氏距離計(jì)算后分成k類別,分類結(jié)束之后,通過各類的平均點(diǎn)重新計(jì)算質(zhì)心點(diǎn),然后進(jìn)行第二輪的分類,最終當(dāng)質(zhì)心點(diǎn)不再發(fā)生改變的時(shí)候分類結(jié)束DBSCAN。(形象來說,我們可以認(rèn)為這是系統(tǒng)在眾多樣本點(diǎn)中隨機(jī)選中一個(gè),圍繞這個(gè)被選中的樣本點(diǎn)畫一個(gè)圓,規(guī)定這個(gè)圓的半徑以及圓內(nèi)最少包含的樣本點(diǎn),如果在指定半徑內(nèi)有足夠多的樣本點(diǎn)在內(nèi),那么這個(gè)圓圈的圓心就轉(zhuǎn)移到這個(gè)內(nèi)部樣本點(diǎn),繼續(xù)去圈附近其它的樣本點(diǎn),類似傳銷一樣,繼續(xù)去發(fā)展下線。等到這個(gè)滾來滾去的圈發(fā)現(xiàn)所圈住的樣本點(diǎn)數(shù)量少于預(yù)先指定的值,就停止了。那么我們稱最開始那個(gè)點(diǎn)為核心點(diǎn),如A,停下來的那個(gè)點(diǎn)為邊界點(diǎn),如B、C,沒得滾的那個(gè)點(diǎn)為離群點(diǎn),如N)。3、簡答題(40分)學(xué)過的機(jī)器學(xué)習(xí)算法相關(guān)類的作用及其構(gòu)造函數(shù)主要參數(shù)的意義;與超參數(shù)調(diào)整相關(guān)類的使用數(shù)據(jù)預(yù)處理的方法,如獨(dú)熱編碼preprocessing.OneHotEncoder(),sklearn.feature_extraction.DictVectorizer,線性回歸特征擴(kuò)展方法preprocessing.PolynomialFeatures,文本處理sklearn.feature_extraction.text.CountVectorizer獨(dú)熱編碼preprocessing.OneHotEncoder()獨(dú)熱編碼即One-Hot編碼,又稱一位有效編碼,其方法是使用N位狀態(tài)寄存器來對(duì)N個(gè)狀態(tài)進(jìn)行編碼,每個(gè)狀態(tài)都由他獨(dú)立的寄存器位,并且在任意時(shí)候,其中只有一位有效。sklearn.feature_extraction.DictVectorizer()特征抽取將特征與值的映射字典組成的列表轉(zhuǎn)換成向量,DictVectorizer通過使用scikit-learn的estimators,將特征名稱與特征值組成的映射字典構(gòu)成的列表轉(zhuǎn)換成Numpy數(shù)組或者Scipy.sparse矩陣。線性回歸特征擴(kuò)展方法preprocessing.PolynomialFeatures:用來產(chǎn)生交叉特征,并且多項(xiàng)式包含相互影響的特征集文本處理sklearn.feature_extraction.text.CountVectorizer函數(shù)只考慮每個(gè)單詞出現(xiàn)的頻率;然后構(gòu)成一個(gè)特征矩陣,每一行表示一個(gè)訓(xùn)練文本的詞頻統(tǒng)計(jì)結(jié)果。其思想是,先根據(jù)所有訓(xùn)練文本,不考慮其出現(xiàn)順序,只將訓(xùn)練文本中每個(gè)出現(xiàn)過的詞匯單獨(dú)視為一列特征,構(gòu)成一個(gè)詞匯表各種性能指標(biāo)的計(jì)算,如二類分類問題的混淆矩陣、accuracy、precision、recall、f1、P-R曲線和ROC曲線,回歸問題的R-squared,聚類問題的關(guān)聯(lián)矩陣、Randindex和JaccardIndex回歸問題的R-squared多類分類問題的各種處理策略三種策略一對(duì)一,一對(duì)多,多對(duì)多多標(biāo)簽分類問題的各種處理策略問題轉(zhuǎn)換改編算法集成方法學(xué)習(xí)過的主要集成機(jī)器學(xué)習(xí)算法的基本原理主要機(jī)器學(xué)習(xí)算法的具體實(shí)現(xiàn),如決策樹如何選擇屬性,樸素貝葉斯方法如何預(yù)測,k-means算法的2個(gè)主要步驟,層次聚類如何選擇合并的簇Python語言lambda表達(dá)式、
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 工業(yè)設(shè)備租賃合約三篇
- 社團(tuán)成長路徑計(jì)劃
- 安防相關(guān)行業(yè)投資規(guī)劃報(bào)告
- 數(shù)據(jù)泄露的法務(wù)責(zé)任與對(duì)策計(jì)劃
- 動(dòng)脈硬化閉塞癥患者護(hù)理查房
- 2024-2025學(xué)年滬科版八年級(jí)物理上冊期末考試綜合測試卷02
- 《計(jì)算機(jī)相關(guān)職業(yè)》課件
- 電子商務(wù)開題報(bào)告范文
- 餐飲述職報(bào)告范文
- 專題07 圖形的軸對(duì)稱、平移與旋轉(zhuǎn)(講練)(解析版)
- 綠化工程售后服務(wù)方案
- 分布式光伏工程報(bào)價(jià)參考
- 幼兒園大班安全活動(dòng)《交通安全伴我行》課件
- 三年級(jí)下冊混合計(jì)算題100道及答案
- 北京西城實(shí)小2024-2025學(xué)年六年級(jí)數(shù)學(xué)第一學(xué)期期末綜合測試試題含解析
- 食品供應(yīng)投標(biāo)方案(技術(shù)方案)
- 2025年研究生考試考研法律碩士專業(yè)基礎(chǔ)(法學(xué)397)試卷及答案指導(dǎo)
- 2024-2030年炔草酯全產(chǎn)業(yè)競爭狀況監(jiān)測及未來需求趨勢分析報(bào)告(-版)
- 2024年高考語文復(fù)習(xí)試題匯編:文學(xué)類文本閱讀(含解析)
- 門橋式起重機(jī)市場發(fā)展預(yù)測和趨勢分析
- 2022新教材蘇教版科學(xué)5五年級(jí)下冊全冊教學(xué)設(shè)計(jì)
評(píng)論
0/150
提交評(píng)論