




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
,更人性化的技術(shù),機(jī)器學(xué)習(xí)?!薄ü雀枋紫瘓?zhí)行官◆◆習(xí)算法的少走些路。我會在文章中舉例一些機(jī)器學(xué)習(xí)的問題,也可以在思RPython的執(zhí)行代碼。讀完這篇文章,讀者們至少可以行動起屬于監(jiān)督式學(xué)習(xí)的算法有:回歸模型,決策樹,隨機(jī)森林,K鄰近算法,邏輯回歸錄不動的結(jié)果并試著找出最好的一次嘗試來做決定。LinearLogistic(Decision樸素(Naive隨機(jī)森林(Random降低維度算法(DimensionalityReductionAlgorithms)10.GradientBoostAdaboost算法(Linear條最佳直線。這條最佳直線就是回歸線。這個回歸關(guān)系可以用Y=aX+b表示。在Y=aX+b這個里Y-a-X-b-歸(PolynomialRegression)或曲線回歸(CurvilinearRegression)。Python#Import#Importothernecessarylibrarieslikepandas,fromsklearnimport#LoadTrainandTest#Identifyfeatureandresponsevariable(s)andvaluesmustbenumericandnumpyarrays#Createlinearregressionlinear=#Trainthemodelusingthetrainingsetsandchecklinear.fit(x_train,linear.score(x_train,#Equationcoefficientandprint('Coefficient:\n',print('Intercept:\n',#Predictpredicted=R#LoadTrainandTest#Identifyfeatureandresponsevariable(s)andvaluesmustbenumericandnumpyarraysx_train<-y_train<-x_test<-x<-#Trainthemodelusingthetrainingsetsandchecklinear<-lm(y_train~.,data=#Predictpredicted=所以它預(yù)測的是一個概率值,自然,它的輸出值應(yīng)該在0到1之間。odds=p/1-p)probabilityofeventoccurrenceprobabilityofnoteventln(odds)=ln(p/(1-logit(p)=ln(p/(1-p))=b0+b1X1+b2X2+b3X3.在這里,p是我們感的出現(xiàn)的概率。它通過篩選出特定參數(shù)值使得觀察到Python#Importfromsklearn.linear_modelimport#Assumedyouhave,X(predictor)andY(target)fortrainingdatasetandx_test(predictor)oftest_dataset#Createlogisticregressionmodel=#Trainthemodelusingthetrainingsetsandcheckmodel.fit(X,model.score(X,#Equationcoefficientandprint('Coefficient:\n',print('Intercept:\n',#Predictpredicted=Rx<-#Trainthemodelusingthetrainingsetsandchecklogistic<-glm(y_train~.,data=#Predictpredicted=正則化人驚訝的是,它既可以運(yùn)用于類別變量(categoricalvariables)也可以作用于連續(xù)用來分組的具體指標(biāo)有很多,比如Gini,informationGain,Chi-square,entropy。Python#Import#Importothernecessarylibrarieslikepandas,fromsklearnimport#Assumedyouhave,X(predictor)andY(target)fortrainingdatasetandx_test(predictor)oftest_dataset#Createtreehereyoucanchangethealgorithmasginiorentropy(informationgain)bydefaultitisgini#model=tree.DecisionTreeRegressor()for#Trainthemodelusingthetrainingsetsandcheckmodel.fit(X,model.score(X,#Predictpredicted=Rx<-#growfit<-rpart(y_train~.,data=#Predictpredicted=這是一個分類算法。在這個算法中每一個數(shù)據(jù)作為一個點(diǎn)在一個n上作圖(n是特征數(shù)),每一個特征值就代表對應(yīng)坐標(biāo)值的大小。比如說我們有兩個特征:一個人的身高和發(fā)長。我們可以將這兩個變量在一個二上作圖,圖上我們可以把這個算法想成n里的JezzBall游戲,不過有一些變動Python#Importfromsklearnimport#Assumedyouhave,X(predictor)andY(target)fortrainingdatasetandx_test(predictor)oftest_dataset#CreateSVMclassificationmodel=svm.svc()#thereisvariousoptionassociatedwithit,thisissimpleforclassification.Youcanreferlink,formo#redetail.#Trainthemodelusingthetrainingsetsandcheckmodel.fit(X,model.score(X,#Predictpredicted=Rx<-#Fittingfit<-svm(y_train~.,data=#Predictpredicted=樸素簡言之,樸素假定某一特征的出現(xiàn)與其它特征無關(guān)。比如說,如果一個水果之間存在一定關(guān)系,在樸素算法中我們都認(rèn)為紅色,圓狀和直徑在判斷一個此時玩的概率為0.64.:我們可以用上述方法回答這個問題。P(Yes|Sunny)=P(Sunny|Yes)*P(Yes)這里,P(Sunny|Yes)3/90.33P(Sunny)5/140.36P(Yes)=9/140.64。那么,P(Yes|Sunny)=0.33*0.64/0.36=0.60>0.5,說明這個概率值更大。Python#Importfromsklearn.naive_bayesimport#Assumedyouhave,X(predictor)andY(target)fortrainingdatasetandx_test(predictor)oftest_dataset#CreateSVMclassificationobjectmodel=GaussianNB()#thereisother#Trainthemodelusingthetrainingsetsandcheckmodel.fit(X,#Predictpredicted=Rx<-#Fittingfit<-naiveBayes(y_train~.,data=#Predictpredicted=KNN先記錄所有已知數(shù)據(jù),再利用一個距離函數(shù),找出已知數(shù)據(jù)中距離未知最近的K組數(shù)據(jù),最后按照這K組數(shù)據(jù)里最常見的類別預(yù)測該。距離函數(shù)可以是歐式距離,曼哈頓距離,閔氏距離(MinkowskiDistance),和漢明Python#Importfromsklearn.neighborsimport#Assumedyouhave,X(predictor)andY(target)fortrainingdatasetandx_test(predictor)oftest_dataset#CreateKNeighborsclassifierobjectKNeighborsClassifier(n_neighbors=6)#defaultvalueforn_neighborsis#Trainthemodelusingthetrainingsetsandcheckmodel.fit(X,#Predictpredicted=Rx<-#Fittingfit<-knn(y_train~.,data=#Predictpredicted=K均值算法(K-還記得你是怎樣從墨水漬中辨認(rèn)形狀的么?K均值算法的過程類似,你也要通過觀將每一個數(shù)據(jù)點(diǎn)與距離自己最近的質(zhì)心劃分在同一集群,即生成KPython#Importfromsklearn.clusterimport#Assumedyouhave,X(attributes)fortrainingdatasetandx_test(attributes)oftest_dataset#CreateKNeighborsclassifierobjectk_means=KMeans(n_clusters=3,#Trainthemodelusingthetrainingsetsandcheck#Predictpredicted=Rfit<-kmeans(X,3)#5cluster隨機(jī)森林是對決集合的特有名稱。隨機(jī)森林里我們有多個決(所以叫“森如果有M個特征變量,那么選取數(shù)mMmIntroductionto –ComparingaCARTmodelto (PartComparinga toaCARTmodel(PartTuningtheparametersofyour Python#Importfromsklearn.ensembleimport #Assumedyouhave,X(predictor)andY(target)fortrainingdatasetandx_test(predictor)oftest_dataset#Create model= #Trainthemodelusingthetrainingsetsandcheckmodel.fit(X,#Predictpredicted=R x<-#Fittingfit<- (Species~.,#Predictpredicted=降維算法(DimensionalityReduction僅有了的數(shù)據(jù)來源,也獲得了維度的數(shù)據(jù)信息。例如:電子商務(wù)公司有了顧客的細(xì)節(jié)信息,像個人信息,網(wǎng)絡(luò)瀏覽歷史,個人喜惡,記錄,反饋信息等,他們關(guān)注你的私人特征,比你天天去的超市里的店更強(qiáng)大精準(zhǔn)的模型,但它們有時候反倒也是建模中的一題。怎樣才能從10002000個變量里找到最重要的變量呢?這種情況下降維算法及其他算法,如決策進(jìn)一步的了解可以閱讀BeginnersGuideToLearnDimensionReductionPython#Importfromsklearn #Assumedyouhavetrainingandtestdatasetastrainand#CreatePCAobejectpca= ofk=min(n_sample,n_features)#ForFactor #Reducedthedimensionoftrainingdatasetusingtrain_reduced=#Reducedthedimensionoftesttest_reduced=Rpca p(train,cor= <- <-GradientBoosing預(yù)測準(zhǔn)確度。這些boostingKaggle,AVHackthon,Crowdytix等數(shù)據(jù)KnowaboutGradientandAdaBoostinPython#Importfromsklearn.ensembleimport#Assumedyouhave,X(predictor)andY(target)fortrainingdatasetandx_test(predictor)oftest_dataset#CreateGradientBoosting
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年-惠州市中心人民醫(yī)院招聘筆試真題
- 餐館加盟轉(zhuǎn)讓合同范本
- 2024年北京大學(xué)法學(xué)院教學(xué)科研崗位招聘考試真題
- 2025至2030年中國智能型電動自行車充電器數(shù)據(jù)監(jiān)測研究報告
- 2025至2030年中國易撕膜數(shù)據(jù)監(jiān)測研究報告
- 家具零售企業(yè)數(shù)字化轉(zhuǎn)型與智慧升級戰(zhàn)略研究報告
- 錳渣綜合利用企業(yè)ESG實踐與創(chuàng)新戰(zhàn)略研究報告
- 仿制藥注冊申報風(fēng)險管理咨詢行業(yè)深度調(diào)研及發(fā)展戰(zhàn)略咨詢報告
- 2025至2030年中國拉床數(shù)據(jù)監(jiān)測研究報告
- 知識產(chǎn)權(quán)保護(hù)未來趨勢與挑戰(zhàn)共存
- 焓濕圖的應(yīng)用實例
- 2022-2023學(xué)年江蘇省揚(yáng)州市普通高校高職單招綜合素質(zhì)測試題(含答案)
- 小學(xué)科學(xué)教科版三年級下冊全冊課課練習(xí)題(2023春)(附參考答案)
- DB37T 4242-2020水利工程建設(shè)項目代建實施規(guī)程
- 學(xué)生班級衛(wèi)生值日表模板下載
- 《是誰覺醒了中國》
- 勞務(wù)派遣服務(wù)方案與服務(wù)流程圖
- 初一經(jīng)典、勵志主題班會PPT(共63張PPT)
- 兒童血尿的診斷思路
- 2022立足崗位秉承工匠精神PPT課件模板
- 第六章-政策過程及其理論模型-《公共政策學(xué)》課件
評論
0/150
提交評論