




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
為了讓你更清晰地了解到模型構(gòu)建環(huán)節(jié)中算法同學(xué)的具體工作,我會(huì)結(jié)合上節(jié)課用戶流失預(yù)測的例子,用兩節(jié)課的時(shí)間為你講解一個(gè)I模型構(gòu)建的過程。模型構(gòu)建主要包括5段,分別為模型設(shè)計(jì)、特征工程、模型訓(xùn)練、模型驗(yàn)證、模型融合。今天,我們先講前2個(gè)階段,下節(jié)課,我們再講其他3那到底哪里有不同呢?就是模型構(gòu)建的特征以及模型的目標(biāo)變量不一樣。比如,對于用戶流失預(yù)測模型,輸入是用戶登錄時(shí)間、用戶賬齡等特征,輸出是用戶流失的可能性;對于用戶信用評分模型,輸入是用戶、花唄額度等特征,輸出則是用戶逾期概率。所以,在模型設(shè)計(jì)階段最重要的就是定義模型目標(biāo)變量(的是日活,所以流失用戶的定義就是近30天沒有登錄的用戶。后來用戶量級穩(wěn)定了,公司開始考慮問題,我們的流失用戶定義就變成了近30天沒有成功下單的用戶。來型的基礎(chǔ)。在選取樣的時(shí)候,你需要根據(jù)模型的目標(biāo)、業(yè)務(wù)的實(shí)際場景來選擇合適的樣本。比如在用戶流失預(yù)測項(xiàng)目上,如果你選擇樣本的時(shí)候,只選擇了今年6月份的數(shù)據(jù),但是由于受到618大促的影響,人們購物行為會(huì)比平時(shí)多很多,這就會(huì)導(dǎo)致此階段的樣本不能從樣本數(shù)據(jù)中提取可以很好描述數(shù)據(jù)的特征,再利用它們建立出對未知數(shù)據(jù)有優(yōu)秀預(yù)測能力的模型。說了這么多,其實(shí)就是一句話:數(shù)據(jù)和特征決定了機(jī)器學(xué)習(xí)的上限,而模型和法是近這個(gè)上限而已。因此,算法工程師們花費(fèi)在特征工程建立上面的時(shí)間,基本上占整個(gè)模型構(gòu)建的%。那什么是特征工程?對一個(gè)模型來說,因?yàn)樗妮斎胍欢ㄊ菙?shù)量化的信息,也就是用向(ureEnginering。那什么是建立特征工程呢?比較常見的,我們可以通過一個(gè)人的、學(xué)歷、工資信用選,最后是生成訓(xùn)練/測試集。4這里我要補(bǔ)充一點(diǎn),在建立特征工程的開始階段,算法工程師為了更好地理解數(shù)據(jù),通常數(shù)據(jù)可視化(DataVisualization進(jìn)行處理,也就是數(shù)據(jù),來解決這些數(shù)據(jù)可能存在的數(shù)據(jù)缺失、有異常值、數(shù)據(jù)不均衡、量綱不一致等問題。其中,數(shù)據(jù)缺失在數(shù)據(jù)階段是最常見的問題。比如說,我們在做用戶流失預(yù)測型的時(shí)候,需要用到客訴數(shù)據(jù)。客訴數(shù)據(jù)有和網(wǎng)頁兩個(gè)來源,但是因此,在遇到數(shù)據(jù)缺失問題時(shí),算法工程師可以通過刪除缺失值或者補(bǔ)充缺失值的解決它。至于數(shù)據(jù)異常的問題,可以選擇的方法就是對數(shù)據(jù)修正或者直接丟棄,當(dāng)然如果你的目標(biāo)就是發(fā)現(xiàn)異常情況,那就需要保留異常值并且標(biāo)注。對于數(shù)據(jù)不均衡的問題,因?yàn)閿?shù)據(jù)偏差可能導(dǎo)致后面訓(xùn)練的模型過擬合或者欠擬合處理數(shù)據(jù)偏差問題也是數(shù)據(jù)階段需要考慮的。在好數(shù)據(jù)之后,算法工程師就需要對數(shù)據(jù)進(jìn)行特征的提取,一般提取出的特征會(huì)有類常見的形式,分別是數(shù)值型特征數(shù)據(jù)、或者描述類數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、網(wǎng)關(guān)系型數(shù)據(jù)。接下來,我們來看看它們的提取方法。有,那我們就可以對這三個(gè)屬性分別打,再把每個(gè)作為一個(gè)獨(dú)的特0、1來表示,房[0,1]、有車[0,1]等等非結(jié)構(gòu)化數(shù)據(jù)一般存在于UGC(UserGeneratedContent,用戶生成內(nèi)容)內(nèi)容數(shù)據(jù)中。這類數(shù)據(jù)比較繁雜,提取的特征的比前兩類數(shù)據(jù)復(fù)雜一些。在用戶流失預(yù)測模中,我們就是先出用戶評論數(shù)據(jù),再通過自然語言處理技術(shù),來分析評論是否包含信息和情緒,最后再把它作為用戶流失的一種維度特征。另外,在挖掘用戶評論的過程中,如果遇到“這個(gè)酒店有親子房,我家孩子很喜歡”這樣那很可能就是家人。如果在同一單位地址,那很可能就是同事,這代表著一個(gè)關(guān)系的連接。提取這類特征其實(shí)就是,根據(jù)復(fù)雜網(wǎng)絡(luò)的關(guān)系去挖掘任意兩人關(guān)系之間的強(qiáng)弱,像是家庭關(guān)系、同學(xué)關(guān)系、好友關(guān)系等等。具體來說,算法工程師可以利用、收貨地址、位置信息、商品的和助力活動(dòng)等等的數(shù)據(jù),挖掘出一個(gè)社交關(guān)系網(wǎng)絡(luò),這個(gè)網(wǎng)絡(luò)中的信息就能作為我們特征提取的參考了。不過,這是一個(gè)很專業(yè)的領(lǐng)域,我們現(xiàn)階段只需要知道一般的提取思路就可以了。一般來說,算法工程師會(huì)對希望入模的特征設(shè)置對應(yīng)的覆蓋度、IV的第一步。然后,再依據(jù)這些指標(biāo)和按照經(jīng)驗(yàn)定下來的閾值對特征進(jìn)行篩選。最后,還要看特征的穩(wěn)定性,將不穩(wěn)定的特征去掉。比如說,我們在預(yù)測流失用戶項(xiàng)目中,篩選出了賬齡、最近一周登錄次數(shù)、次和瀏覽時(shí)長這幾個(gè)特征,我把它們對應(yīng)的覆蓋度、IV在對這些特征進(jìn)行篩選的時(shí)候,我們首先去掉覆蓋度過低的次數(shù),因?yàn)檫@個(gè)特征覆蓋的人群很少,從經(jīng)驗(yàn)上來講,如果特征覆蓋度小于%的話,我們就不會(huì)使用這個(gè)特征然后去掉V值過低的登錄次數(shù),V值指的是信息貢獻(xiàn)度,表示了特征對這個(gè)模型有多少貢獻(xiàn),那簡單來說,就是這個(gè)特征有多重要。在用戶流失項(xiàng)目中,如果V1的話,我們就不會(huì)使用這個(gè)特征了。最后去掉穩(wěn)定性過低的瀏覽時(shí)長,剩下的就是我們可以入模型的特征變量了。訓(xùn)練/作為產(chǎn)品經(jīng)理,要重視模型設(shè)計(jì)階段,因?yàn)槲覀兊腜RD實(shí)際就決定了模型目標(biāo)變建立特征工程這個(gè)環(huán)節(jié)的工作,因?yàn)榛究梢哉嫉紸I模型開發(fā)時(shí)間的60%,所以它的核心步驟也是我們要知道和了解的。這其中最重要的就是數(shù)據(jù)和特征提取,因?yàn)閿?shù)據(jù)和在I型構(gòu)過程產(chǎn)品經(jīng)常給客戶各種。有你需要和算法同學(xué)站在一起,說服理解問題和投入資源,以及當(dāng)某些預(yù)測模型的精準(zhǔn)度不是特別高的時(shí)候,你還要和客戶進(jìn)行技巧性的溝通,為產(chǎn)品優(yōu)化爭取的時(shí)間。而這些,都離不開你對I模型構(gòu)建過程的足夠了解。所以,這兩節(jié)課雖然看起來簡單,但你一定要認(rèn)真學(xué)。30 售賣。頁面已增加防盜追蹤,將依 上一 05|通過一個(gè)AI產(chǎn)品的落地,掌握產(chǎn)品經(jīng)理工作全流下一 07|AI模型的構(gòu)建過程是怎樣的(下言言悠悠2、數(shù)據(jù)接入。是否有數(shù)據(jù)依賴,注明已接入的數(shù)據(jù),包括數(shù)據(jù)類型(HiveMQ),數(shù)據(jù)量大D中,如果產(chǎn)品是以提高CTR為目標(biāo),那么可以使用CTR作為衡量排序模型的指標(biāo)。但在場景中,還存在CVR、GMV、UV等多個(gè)指標(biāo),并不是一個(gè)指標(biāo)所決定的,所以此時(shí)產(chǎn)品
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 廚師服務(wù)合同模板大全
- 2023-2024學(xué)年浙江攝影版(三起)(2020)小學(xué)信息技術(shù)五年級下冊變量計(jì)數(shù)(教學(xué)設(shè)計(jì))
- 1 自主選擇課余生活 教學(xué)設(shè)計(jì)-2024-2025學(xué)年道德與法治五年級上冊統(tǒng)編版
- 3人體與運(yùn)動(dòng)C 教學(xué)設(shè)計(jì)-八年級體育與健康
- 四年級第一學(xué)期語文教學(xué)計(jì)劃
- 3公民意味著什么( 教學(xué)設(shè)計(jì) )2023-2024學(xué)年統(tǒng)編版道德與法治六年級上冊
- 7 生命最寶貴 第一課時(shí) 教學(xué)設(shè)計(jì)-2023-2024學(xué)年道德與法治三年級上冊統(tǒng)編版
- 2023-2024學(xué)年粵教版(2019)高中信息技術(shù)必修一《數(shù)據(jù)與計(jì)算》第三章第一節(jié)《 體驗(yàn)計(jì)算機(jī)解決問題的過程》教學(xué)設(shè)計(jì)
- 19《海濱小城》(教學(xué)設(shè)計(jì))2024-2025學(xué)年部編版語文三年級上冊
- 小區(qū)臨時(shí)停車合同范本
- 應(yīng)收帳款質(zhì)押擔(dān)保合同
- 門診診所運(yùn)行管理制度
- 2025年大模型應(yīng)用落地白皮書:企業(yè)AI轉(zhuǎn)型行動(dòng)指南
- 體育館施工圖設(shè)計(jì)合同
- 2025年臨床醫(yī)師定期考核試題中醫(yī)知識復(fù)習(xí)題庫及答案(200題)
- 2025年臨床醫(yī)師定期考核必考復(fù)習(xí)題庫及答案(900題)
- JTG5120-2021公路橋涵養(yǎng)護(hù)規(guī)范
- 《小紅帽》繪本故事-課件
- 王淑玲《做最好的自己》讀書分享
- 新蘇教版科學(xué)六年級下冊全冊教案(含反思)
- XE82000--午山風(fēng)電場風(fēng)機(jī)定檢作業(yè)指導(dǎo)書
評論
0/150
提交評論