《數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)》 課件4.2 構(gòu)建電商平臺(tái)用戶購買預(yù)測(cè)_第1頁
《數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)》 課件4.2 構(gòu)建電商平臺(tái)用戶購買預(yù)測(cè)_第2頁
《數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)》 課件4.2 構(gòu)建電商平臺(tái)用戶購買預(yù)測(cè)_第3頁
《數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)》 課件4.2 構(gòu)建電商平臺(tái)用戶購買預(yù)測(cè)_第4頁
《數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)》 課件4.2 構(gòu)建電商平臺(tái)用戶購買預(yù)測(cè)_第5頁
已閱讀5頁,還剩21頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

構(gòu)建電商平臺(tái)運(yùn)輸行為預(yù)測(cè)電商平臺(tái)用戶購買預(yù)測(cè)——邏輯回歸任務(wù)描述電商平臺(tái)運(yùn)輸預(yù)測(cè)是一項(xiàng)非常重要的任務(wù)。堅(jiān)持一切為了人民,通過預(yù)測(cè)用戶的運(yùn)輸行為,電商平臺(tái)可以更好地了解用戶需求。然而,運(yùn)輸行為往往是一個(gè)難以捉摸的過程,不受規(guī)律和時(shí)間限制的影響,這給預(yù)測(cè)模型的建立帶來了很大的挑戰(zhàn)。本任務(wù)基于邏輯回歸模型,從歷史交互數(shù)據(jù)中學(xué)習(xí)運(yùn)輸行為的一般特征,預(yù)測(cè)下一個(gè)月用戶可能會(huì)運(yùn)輸哪些品牌。將重點(diǎn)關(guān)注電商平臺(tái)用戶的運(yùn)輸行為,提高運(yùn)輸預(yù)測(cè)的準(zhǔn)確率,優(yōu)化平臺(tái)的運(yùn)營(yíng)管理和商業(yè)決策,從而提高平臺(tái)的競(jìng)爭(zhēng)力和收益。任務(wù)要求利用sklearn庫建立邏輯回歸模型。邏輯回歸模型邏輯回歸模型二分類問題是一種基本的分類問題,它涉及將數(shù)據(jù)樣本分為兩個(gè)不同的類別或標(biāo)簽中的一個(gè)。例如,將垃圾郵件與正常郵件分類、將腫瘤分為惡性和良性等都是二分類問題。在二分類問題中,通常將一個(gè)類別標(biāo)記為“正例”(positive)和另一個(gè)標(biāo)記為“反例”(negative)。分類模型的目標(biāo)是學(xué)習(xí)如何將輸入特征與相應(yīng)的標(biāo)簽相關(guān)聯(lián),以便在新的未知數(shù)據(jù)上進(jìn)行分類預(yù)測(cè)。邏輯回歸模型常用的二分類算法包括邏輯回歸、決策樹、隨機(jī)森林等。這些算法在不同的數(shù)據(jù)集和應(yīng)用場(chǎng)景中表現(xiàn)不同,因此,選擇合適的算法以及進(jìn)行適當(dāng)?shù)奶卣鞴こ淌沁M(jìn)行二分類任務(wù)的重要部分。邏輯回歸模型在任務(wù)3.1的學(xué)習(xí)中已經(jīng)介紹了線性回歸的一般形式,給出了自變量x與因變量y成線性關(guān)系時(shí)所建立的函數(shù)關(guān)系。但是,現(xiàn)實(shí)場(chǎng)景中更多的情況y不是與x成線性關(guān)系,而是與x的某個(gè)函數(shù)成線性關(guān)系,此時(shí)需要引入廣義線性回歸模型。需要注意的是,邏輯回歸雖然稱作“回歸”,但實(shí)際上是一種分類算法。該算法期望所有預(yù)測(cè)值都介于0~1之間。具體的分類方法為設(shè)定一個(gè)分類閾值,將預(yù)測(cè)結(jié)果y大于分類閾值的樣本歸為正類,反之歸為反類。邏輯回歸模型邏輯回歸雖然稱作“回歸”,但實(shí)際上是一種分類算法。該算法期望所有預(yù)測(cè)值都介于0~1之間。具體的分類方法為設(shè)定一個(gè)分類閾值,將預(yù)測(cè)結(jié)果y大于分類閾值的樣本歸為正類,反之歸為反類。決策邊界邏輯回歸模型假設(shè)函數(shù)如下式所示。

表示分類閾值參數(shù)集。

上式的圖像如圖所示,保證了所有函數(shù)值都介于[0,1]之間。Logstic函數(shù)如下式所示。邏輯回歸模型合并左邊兩式轉(zhuǎn)為標(biāo)準(zhǔn)邏輯回歸形式如左式所示。

邏輯回歸模型建模步驟根據(jù)分析目的設(shè)置因變量和自變量,并進(jìn)行屬性篩選列出線性回歸方程,估計(jì)回歸系數(shù)模型檢驗(yàn)?zāi)P皖A(yù)測(cè)邏輯回歸模型LogisticRegression類使用scikit-learn庫中l(wèi)inear_model模塊的LogisticRegression類可以建立邏輯回歸模型,其語法格式如下。classsklearn.linear_model.LogisticRegression(penalty='l2',dual=False,tol=0.0001,C=1.0,fit_intercept=True,intercept_scaling=1,class_weight=None,random_state=None,solver='liblinear',max_iter=100,multi_class='ovr',verbose=0,warm_start=False,n_jobs=1)邏輯回歸模型LogisticRegression類常用參數(shù)及其說明penalty接收str。表示正則化選擇參數(shù),可選l1或l2。默認(rèn)為l2solver接收str。表示優(yōu)化算法選擇參數(shù),可選參數(shù)為newton-cg、lbfg、liblinear、sag,當(dāng)penalty='l2'時(shí),4種都可選;當(dāng)penalty='l1'時(shí),只能選liblinear。默認(rèn)為liblinearmulti_class接收str。表示分類方式選擇參數(shù),可選ovr和multinomial。默認(rèn)為ovr參數(shù)名稱說明classsklearn.linear_model.LogisticRegression(penalty='l2',dual=False,tol=0.0001,C=1.0,fit_intercept=True,intercept_scaling=1,class_weight=None,random_state=None,solver='liblinear',max_iter=100,multi_class='ovr',verbose=0,warm_start=False,n_jobs=1)邏輯回歸模型LogisticRegression類常用參數(shù)及其說明class_weight接收balanced以及字典。表示類型權(quán)重參數(shù),如對(duì)于因變量取值為0或1的二元模型,可以定義class_weight={0:0.9,1:0.1},這樣類型0的權(quán)重為90%,而類型1的權(quán)重為10%。默認(rèn)為Nonecopy_X接收bool。表示是否復(fù)制數(shù)據(jù)表進(jìn)行運(yùn)算。默認(rèn)為Truen_jobs接收int。表示計(jì)算時(shí)使用的核數(shù)。默認(rèn)為1參數(shù)名稱說明classsklearn.linear_model.LogisticRegression(penalty='l2',dual=False,tol=0.0001,C=1.0,fit_intercept=True,intercept_scaling=1,class_weight=None,random_state=None,solver='liblinear',max_iter=100,multi_class='ovr',verbose=0,warm_start=False,n_jobs=1)邏輯回歸模型人才是第一資源,碩士研究生招生考試競(jìng)爭(zhēng)非常激烈,尤其是在一些熱門專業(yè)中,招生人數(shù)往往遠(yuǎn)遠(yuǎn)少于報(bào)考人數(shù)。因此,考生需要充分準(zhǔn)備,提高自己的綜合素質(zhì)和應(yīng)試能力,加快建設(shè)教育強(qiáng)國(guó)。研究生入學(xué)考試分為初試和復(fù)試兩個(gè)環(huán)節(jié)。下表為某高校某專業(yè)2022年考生的考研分?jǐn)?shù)數(shù)據(jù)集,其中初試成績(jī)已按比例處理為百分制。初試成績(jī)復(fù)試成績(jī)錄取結(jié)果34.6278.02094.8345.69135.8472.900………55.3464.93142.0878.840邏輯回歸模型繪制數(shù)據(jù)集的散點(diǎn)圖構(gòu)建邏輯回歸模型預(yù)測(cè)考生錄取情況繪制決策邊界使用LogisticRegression構(gòu)建考生錄取情況預(yù)測(cè)模型主要分為以下四個(gè)步驟。構(gòu)建邏輯回歸模型繪制運(yùn)輸預(yù)測(cè)結(jié)果柱形圖構(gòu)建邏輯回歸模型讀取數(shù)據(jù)提取特征變量和目標(biāo)變量拆分訓(xùn)練集和測(cè)試集構(gòu)建模型使用LogisticRegression構(gòu)建電商平臺(tái)運(yùn)輸行為預(yù)測(cè)主要分為以下五個(gè)步驟。對(duì)電商平臺(tái)運(yùn)輸行為進(jìn)行預(yù)測(cè)讀取數(shù)據(jù)使用pandas庫中read_csv函數(shù)讀取處理后的電子商務(wù)運(yùn)輸數(shù)據(jù)。提取特征變量和目標(biāo)變量從原始數(shù)據(jù)集中提取出特征變量(即用于預(yù)測(cè)的變量)和目標(biāo)變量(即要預(yù)測(cè)的變量)??蛻鬒D公司廠庫裝運(yùn)方式客戶服務(wù)電話數(shù)量客戶評(píng)價(jià)產(chǎn)品成本運(yùn)輸數(shù)量產(chǎn)品重要性折扣重量準(zhǔn)時(shí)到達(dá)性別_女性別_男總成本/千元特征變量目標(biāo)變量拆分訓(xùn)練集和測(cè)試集將數(shù)據(jù)集拆分為訓(xùn)練集和測(cè)試集。使用訓(xùn)練集對(duì)模型進(jìn)行訓(xùn)練,使用測(cè)試集對(duì)構(gòu)建的模型進(jìn)行測(cè)試,其中測(cè)試集占整個(gè)數(shù)據(jù)集的20%。使用train_test_split類拆分為訓(xùn)練集和測(cè)試集構(gòu)建邏輯回歸模型使用LogisticRegression

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論