




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、、計(jì)算題(共4題,100分)1、通過分析關(guān)于二手車的相關(guān)變量,研究這些變量怎么影響二手車的交易價(jià)格?;囟周嚦闃?預(yù)處理.csv收集的數(shù)據(jù)包含:變量名代表含義數(shù)據(jù)類型備注yuanjia原價(jià)連續(xù)變量汽車原價(jià)baojia報(bào)價(jià)連續(xù)變汽車報(bào)價(jià)licheng里程連續(xù)變量累計(jì)里程數(shù)(單位:pailiang排量.L.連續(xù)變量發(fā)動(dòng)機(jī)單位時(shí)間內(nèi)本量mali最大馬力.Ps.連續(xù)變量最大動(dòng)力輸出changshang廠商離散變十一分類一一排名®商分別用1-10表示1以外的其他水平cheshen_type車身結(jié)構(gòu)-車類型離散變量四分類一一“SUV”、“三廂”、“MPV”pengzhuang排除重大碰撞離散變排
2、除重大碰撞(0)大碰撞(1)waiguan_xiufu外觀修復(fù)檢查離散變排除外觀修復(fù)(0)觀修復(fù)(Dwaiguan_quexian外觀缺陷檢查離散變排除外觀缺陷(0)觀缺陷(1)neishi_quexian內(nèi)飾缺陷檢查離散變量排除內(nèi)飾缺陷(0)飾缺陷(1)shangpaishijian上牌時(shí)間連續(xù)變量與2017年2月之間(單位:月)對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,分析應(yīng)采用的模型,寫出詳細(xì)的思路和數(shù)據(jù)分析過程,用多種方法檢驗(yàn)和解釋模型,說明模型的實(shí)際意義。答案解析:因變量采用車輛報(bào)價(jià)數(shù)據(jù),自變量選擇除車輛報(bào)價(jià)數(shù)據(jù)之外的其他變量,進(jìn)行線性回歸分析可以看到冊(cè)I除了三個(gè)變量,R方和調(diào)整R方都接近1,模型擬合度很好
3、。由于自變量中真皮座椅、外觀缺陷、車身類型未通過t檢驗(yàn),因此需要將這三個(gè)變量刪除后再做線性回歸分析,可得:Y=l.1036-0.0646shangpaishijian-0.10641icheng-0.4235biansu+0.8482zhouju-1.0036pailiang+0.0154mali-0.1729tianchuangl+0.7581tianchuan2+0.3974daocheyingxiang-0.5061GPS-0.2864waiguan_xiufu+0.5156yuanjia+0.1665paifang_0.0199changshang模型擬合效果很好,且通過了F檢驗(yàn)和t檢
4、驗(yàn),(常數(shù)項(xiàng)的t檢驗(yàn)可以不通過)可以根據(jù)此模型對(duì)二手車進(jìn)行價(jià)格評(píng)估2、利用Apriori算法,寫出下列購物籃數(shù)據(jù)的頻繁項(xiàng)集和強(qiáng)關(guān)聯(lián)規(guī)則(設(shè)定支持度為2,置信度為0.7)若此購物籃數(shù)據(jù)為某超市隨機(jī)選取的7位顧客的交易數(shù)據(jù),請(qǐng)結(jié)合之前得到的結(jié)果為該超市提一些建議。先將給定的數(shù)據(jù)整理成datahoop關(guān)聯(lián)分析可識(shí)別的格式,導(dǎo)入datahoop平臺(tái),對(duì)變策牛肉、雞肉、牛奶、奶酪、靴子、衣服進(jìn)行關(guān)聯(lián)分析。設(shè)置最小支持度為2/7=0.286,最小置信度為0,可以得到頻繁項(xiàng)集(刪除垂旦).設(shè)置最小支持?jǐn)?shù)為2/7=0.286、最小置信度=0.7,可以得到提升度X的有效強(qiáng)關(guān)聯(lián)規(guī)則(刪除單項(xiàng))解答:首先對(duì)原數(shù)據(jù)進(jìn)
5、行預(yù)處理至ABcDEFG顧客ID購買項(xiàng)abcde品&eTFFTT|1相,bjeTTTFT!2同百TTFTT;|2相jGUHTFTTT|3foc;eFTTFT!3hd同F(xiàn)TFTT!4fcd)FFTTF!4同b©TTTFF|5d間TFFTT|5ab同TTFFT然后再處理至支持度排名項(xiàng)目1102030麗項(xiàng)目2支持度置信度提升度U”aedeb(ftftrl568910>>>;>;>;>>;>;>;05050810.710.61一項(xiàng)的頻繁集0610.510.85710.75
6、0.83330.6251.07141.07141.04171.0417二項(xiàng)頻繁集刪除重復(fù)項(xiàng)支持度排名1-23080.81070.71060.61一項(xiàng)的頻繁集060.61050.510.85711.0714支持度置信度提升度70a)d)(ri5810b)050.83331.0417二項(xiàng)頻繁集0.83331.0417一項(xiàng)頻繁項(xiàng)集:(e)、(a)、(d)、(b)、(c)二項(xiàng)頻繁項(xiàng)集:(a,e)、(d,e)、(b,e)再將支持度和置信度的值分別設(shè)置成0.286和0支持度排寺項(xiàng)目310oamb相d也2356789項(xiàng)目2支持度置信度->eJ0.80.8->;aD.70.7-&am
7、p;gt;(e)D.60.8571->;eD.50.8333->;eD.50.8333d)->,悶0.4e)->;a)0.4b->.同0.3.7,導(dǎo)入datahoop平臺(tái)提升度TZ1.07141.04171.041711.250.81.14290.750.9375二項(xiàng)的有效強(qiáng)關(guān)聯(lián)規(guī)則:aea三項(xiàng)的強(qiáng)關(guān)聯(lián)規(guī)則:(a,d)(d,e)-(a,b)-從上面數(shù)據(jù)可以看出牛肉和雞肉等肉食產(chǎn)品可以放在一起,和奶酪則要放在附近的走道旁,讓需要的顧客更方便拿取方便客戶選擇,牛奶3、以下數(shù)據(jù)是31個(gè)省市各行業(yè)的工資情況,各行業(yè)工資難免相關(guān),因此,請(qǐng)先進(jìn)行
8、降維處理再進(jìn)行聚類分析。降維、聚類.xls答案解析:分析數(shù)據(jù)發(fā)現(xiàn)無缺失值,且不露要進(jìn)行其他處理。本案例采用k-means算法進(jìn)行聚類,因此還霍考慮異常值和共線性.由于量太少,單獨(dú)一個(gè)數(shù)據(jù)也可能是一個(gè)特殊的類,因此這里不做異常值處理。由相關(guān)系數(shù)定陣分析發(fā)現(xiàn)變量之間存在共線性,所以不能直接進(jìn)行聚類,接下來用主成分分析對(duì)變量進(jìn)行降維處理。設(shè)置主成分個(gè)數(shù)為2時(shí)發(fā)現(xiàn)累計(jì)貢獻(xiàn)率為0.9557,效果很好,可以用PC1和PC2進(jìn)行聚類分析.(這里PC1和PC2是由標(biāo)準(zhǔn)化后的安量求得的,很小,且沒有量綱差距,所以聚類分析時(shí)不再進(jìn)行標(biāo)準(zhǔn)化)。接下來用k-means算法對(duì)PC1和PC2進(jìn)行聚類分析,分別選3,4,5
9、個(gè)類別迸行聚類,發(fā)現(xiàn)聚成三類時(shí)效果最好。解答:先將數(shù)據(jù)導(dǎo)入datahoop平臺(tái),進(jìn)行降維處理貢獻(xiàn)率累計(jì)貢獻(xiàn)率F0.49220.4922F_20.33610.8283得出的貢獻(xiàn)率和累計(jì)貢獻(xiàn)率值均在0至1之間將數(shù)據(jù)進(jìn)行聚類分析WflB©伯初口即的忌m尿隹化足目執(zhí)行2Ss聞戰(zhàn)創(chuàng)匕TrueFa«eTrue4Means*夫個(gè)敢>03逅屬相MUWSW2公S*(疔HfSttW何氐K-Means>010電1.K-Means>0300因?yàn)橹耙堰M(jìn)行降維處理所以不再進(jìn)行標(biāo)準(zhǔn)化,設(shè)置聚類個(gè)數(shù)為3,初始中心點(diǎn)選擇次數(shù)為10,最大迭代次數(shù)為3004則獎(jiǎng)中心峰本個(gè)03母4547244
10、W3W3W47283»XW67424b7",-g303817123W417W212673"4為30503M42均25bM*&T5213WS1的W9J7T531將3350961437S3<fl71646233444S»»7X8543123827163971638617924由37X32637297639KO05020125的0323唧W35102&盼口659n3558296249:$11755跖7%5我1妁17KM5799W5480305»9«>5752333MWb樣本個(gè)數(shù)依次為再將聚類個(gè)數(shù)設(shè)置成4
11、,其他數(shù)值不變不均先/軟?!皩O213325b4830】OS339102752$,36蓼通心4241239如85JCC5591165921355M2g膛4/5?2513917420066734743647416722148934741714640740叫49023862(54316164BDb&U35911W75569c66S740D42W32K”B575UQ476移53814617JJ535295i25832691S算3:674B77225290970C630910WXWS3用3325T0090*273W7913煙8辨心溺5庠*M5K的25際3055578?»87463545
12、ITO833Z25383646793332SQ1173850355243783S<如671203793426691d484B6862WM702406H92樣本個(gè)數(shù)為可以看出樣本存在不均衡因此聚類分為3類時(shí)分類效果最好4、為了研究影響泰坦尼克號(hào)生還與否的影響因素有哪些,收集如下數(shù)據(jù):5train.csv巴Itrain-原始.csv收集變量包括:Passengerld*Survived,Pclass>Sex,Age,SibSp,Parch,Ticket,Fare»CabinyEmbarkedPassengerld=>乘客IDSurvived=>是否生還Pclass
13、=>乘客等級(jí)(1/2/3等艙位)Name=乘客姓名Sex=>性別Age=>年齡-SibSp=堂兄弟/妹個(gè)數(shù)Parch=父母與小孩個(gè)數(shù)Ticket=船票信息Fare=>票價(jià)Cabin=>客艙Embarked=>登船港口對(duì)收集進(jìn)行預(yù)處理,選擇適當(dāng)?shù)乃惴ㄟM(jìn)行分析,并評(píng)價(jià)和解釋模型,要求寫出具體的思路過程。答案解析:本次分析選取變量包括:Survived=是否生還、Pclass=乘客等級(jí)(1/2/3等艙位)、Sex=性別、Age=年齡、SibSp=堂兄弟/妹個(gè)數(shù)、Parch=父母與小孩個(gè)數(shù)、Fare=票價(jià)截圖可以看到,性別屬于定性本案例研究以上選取的變量對(duì)于乘客是否獲救的影響.通過原始的變星,因此對(duì)此進(jìn)行研完需要對(duì)這些變是進(jìn)行前期數(shù)值轉(zhuǎn)換.本次處理把性別進(jìn)行0和1處理,female(女)轉(zhuǎn)換成0,male(55)轉(zhuǎn)換成1.本案例選取的變量中,年齡Age存在缺失值,因此對(duì)于年齡的缺失值霜要進(jìn)行處理,本次對(duì)年齡的缺失值用所有年齡
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 掛車租出合同6篇
- 場(chǎng)地有償使用合同7篇
- 公寓式房屋轉(zhuǎn)租合同
- 廣告制作安裝合同書
- 臨街商鋪?zhàn)赓U合同
- 工程降水分包合同
- 土地利用規(guī)劃的制定與執(zhí)行指導(dǎo)書
- 員工租賃車輛協(xié)議
- 信封印刷合同6篇
- 圍墻工程包工合同
- 2025年安全員C證(專職安全員)考試題庫
- 地理-天一大聯(lián)考2025屆高三四省聯(lián)考(陜晉青寧)試題和解析
- 醫(yī)療衛(wèi)生系統(tǒng)招聘考試(中醫(yī)學(xué)專業(yè)知識(shí))題庫及答案
- 貴州省貴陽市2024-2025學(xué)年九年級(jí)上學(xué)期期末語文試題(含答案)
- 小巴掌童話課件
- 教科版六年級(jí)科學(xué)下冊(cè)全冊(cè)教學(xué)設(shè)計(jì)教案
- 部編版小學(xué)五年級(jí)下冊(cè)《道德與法治》全冊(cè)教案含教學(xué)計(jì)劃
- 2024年青島遠(yuǎn)洋船員職業(yè)學(xué)院高職單招語文歷年參考題庫含答案解析
- 定額〔2025〕1號(hào)文-關(guān)于發(fā)布2018版電力建設(shè)工程概預(yù)算定額2024年度價(jià)格水平調(diào)整的通知
- 2024建筑施工安全生產(chǎn)隱患識(shí)別圖合集
- 2025年江蘇南京技師學(xué)院招聘工作人員19人高頻重點(diǎn)提升(共500題)附帶答案詳解
評(píng)論
0/150
提交評(píng)論