




版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1實(shí)訓(xùn)2電影數(shù)據(jù)預(yù)處理2知識(shí)點(diǎn)數(shù)據(jù)合并數(shù)據(jù)脫敏時(shí)間序列處理數(shù)據(jù)分組數(shù)據(jù)聚合3實(shí)訓(xùn)目標(biāo)掌握數(shù)據(jù)合并的方法;理解數(shù)據(jù)脫敏的方法;理解時(shí)間序列的表示與處理;掌握數(shù)據(jù)分組的方法;掌握數(shù)據(jù)聚合的方法;4知識(shí)點(diǎn)數(shù)據(jù)合并數(shù)據(jù)脫敏時(shí)間序列處理數(shù)據(jù)分組數(shù)據(jù)聚合5數(shù)據(jù)合并數(shù)據(jù)合并是指將多個(gè)數(shù)據(jù)表根據(jù)某種規(guī)則合并為一個(gè)數(shù)據(jù)表的過(guò)程。數(shù)據(jù)合并主鍵合并堆疊合并6010203政府需求岷山集團(tuán)需求同盟商家群眾數(shù)據(jù)合并堆疊合并concat()函數(shù)可以沿著一條軸的方向?qū)⒍鄠€(gè)數(shù)據(jù)表對(duì)象進(jìn)行堆疊。concat(objs,axis=0,join=‘outer’,join_axes=None,ignore_index=False,keys=None,levels=None,names=None,
...)axis:表示連接的軸向,可以為0(默認(rèn))或1。join:表示連接的方式,inner表示內(nèi)連接,outer(默認(rèn))表示外連接。names:結(jié)果分層索引中的層級(jí)的名稱(chēng)。7010203政府需求岷山集團(tuán)需求同盟商家df_obj1=pd.DataFrame({'key':['a','b','c'],'A':[1,1,1],'B':[2,2,2]})df_obj2=pd.DataFrame({'key':['b','c','d'],'A':[1,1,1],'B':[2,2,2]})數(shù)據(jù)合并堆疊合并85MIN010203政府需求岷山集團(tuán)需求群眾pd.concat([df_obj1,df_obj2])pd.concat([df_obj1,df_obj2],axis=1)數(shù)據(jù)合并堆疊合并94MIN010203政府需求岷山集團(tuán)需求同盟商家群眾數(shù)據(jù)合并主鍵合并主鍵合并是指根據(jù)一個(gè)或多個(gè)鍵將不同的DatFrame對(duì)象連接起來(lái)。pandas.merge(left,right,how='inner',on=None,left_on=None,right_on=None,left_index=False,right_index=False)left,right:待合并的左右兩側(cè)數(shù)據(jù)對(duì)象。how:表示連接方式,inner(默認(rèn))為內(nèi)連接,outer為外連接。left為使用左側(cè)對(duì)象的鍵,right為使用右側(cè)對(duì)象的鍵。
on:用于連接的列名。105MIN010203岷山集團(tuán)需求群眾pd.merge(df_obj1,df_obj2,how='inner')pd.merge(df_obj1,df_obj2,how='outer')數(shù)據(jù)合并主鍵合并pd.merge(df_obj1,df_obj2,how='left')pd.merge(df_obj1,df_obj2,how='right')11知識(shí)點(diǎn)數(shù)據(jù)合并數(shù)據(jù)脫敏時(shí)間序列處理數(shù)據(jù)分組數(shù)據(jù)聚合12數(shù)據(jù)脫敏數(shù)據(jù)脫敏是指根據(jù)數(shù)據(jù)的使用目的和使用環(huán)境制定一定的隱私保護(hù)規(guī)則,防止敏感數(shù)據(jù)在不可靠的環(huán)境下使用,防止因數(shù)據(jù)泄露造成不必要的損失。數(shù)據(jù)脫敏動(dòng)態(tài)數(shù)據(jù)脫敏靜態(tài)數(shù)據(jù)脫敏13時(shí)間序列處理靜態(tài)數(shù)據(jù)脫敏:14靜態(tài)數(shù)據(jù)脫敏需要將生產(chǎn)環(huán)境的數(shù)據(jù)進(jìn)行備份,通過(guò)特定的方法排查問(wèn)題或進(jìn)行數(shù)據(jù)分析,出于安全考慮需要把敏感數(shù)據(jù)從生產(chǎn)環(huán)境脫敏完畢之后再在非生產(chǎn)環(huán)境使用。時(shí)間序列處理動(dòng)態(tài)數(shù)據(jù)脫敏:15動(dòng)態(tài)數(shù)據(jù)脫敏一般直接用在生產(chǎn)環(huán)境,訪問(wèn)敏感數(shù)據(jù)時(shí)實(shí)時(shí)進(jìn)行脫敏,因?yàn)橛袝r(shí)在不同情況下對(duì)于同一敏感數(shù)據(jù)的讀取,需要做不同級(jí)別的脫敏處理。并且脫敏前后的數(shù)據(jù)須保持一致性和有效性。數(shù)據(jù)脫敏數(shù)據(jù)脫敏的方式有很多種,在選用脫敏方法時(shí)我們需要考慮到數(shù)據(jù)使用者的使用目的和使用方式,同時(shí)也要注意保護(hù)數(shù)據(jù)發(fā)布者的隱私和權(quán)益不受侵害。數(shù)據(jù)脫敏無(wú)效化處理隨機(jī)化處理加密處理16知識(shí)點(diǎn)數(shù)據(jù)合并數(shù)據(jù)脫敏時(shí)間序列處理數(shù)據(jù)分組數(shù)據(jù)聚合17時(shí)間序列處理時(shí)間序列是指多個(gè)時(shí)間點(diǎn)形成的數(shù)值序列,一般作為某指標(biāo)或特征的參考系。Pandas提供了多個(gè)時(shí)間相關(guān)類(lèi)表示時(shí)間序列。時(shí)間序列時(shí)間戳Timestamp日期時(shí)間datetime時(shí)間索引DatetimeIndex時(shí)間片段Period18時(shí)間序列處理時(shí)間序列作用:19可以反映數(shù)據(jù)所描述對(duì)象的發(fā)展變化過(guò)程,描述現(xiàn)象的發(fā)展?fàn)顟B(tài)和結(jié)果。可以用于觀測(cè)數(shù)據(jù)所描述對(duì)象的發(fā)展趨勢(shì)和發(fā)展速度??梢蕴剿鲾?shù)據(jù)所描述對(duì)象發(fā)展變化的規(guī)律,對(duì)某些現(xiàn)象進(jìn)行預(yù)測(cè)。時(shí)間序列處理pd.to_datetime('20210801')pd.datetime(year=2021,month=8,day=1)pd.date_range('20210801',periods=1)pd.Period('2021/8/1')時(shí)間序列創(chuàng)建205MIN時(shí)間序列處理importnumpyasnpimportpandasaspddate=pd.date_range('20201230','20210102’)df_obj=pd.DataFrame(np.random.randint(1,10,size=(4,2)),index=date)df_obj['2021']時(shí)間序列選取215MIN時(shí)間序列處理date=pd.date_range('20201230','20210102’)date.strftime('%Y/%m/%d’)date.strftime('%Y-%m-%d-%H-%M-%S')時(shí)間序列表示%y兩位數(shù)的年份表示%Y四位數(shù)的年份表示%m月份%d天%H24小時(shí)制小時(shí)數(shù)%M分鐘數(shù)%S秒225MIN時(shí)間序列處理Pandas中的resample()是一個(gè)對(duì)常規(guī)時(shí)間序列數(shù)據(jù)重新采樣和頻率轉(zhuǎn)換的便捷的方法。重采樣resample(rule,
how=None,
axis=0,
fill_method=None,
closed=None,
label=None,
...)rule:表示重采樣的頻率。fill_method:表示重采樣時(shí)如何插值,可以取ffill和bfill及None。closed:設(shè)置采樣哪一端是閉合的。label:表示聚合后的標(biāo)簽,可設(shè)置為left或right23時(shí)間序列處理ser_obj=pd.Series(range(9),index=pd.date_range('20210801',periods=9,freq='T’))ser_obj.resample('3T',label='right').sum()#resample支持多種內(nèi)置函數(shù)聚合數(shù)據(jù),也支持OHLC方法,該方法可對(duì)金融數(shù)據(jù)進(jìn)行有效處理重采樣244MIN知識(shí)點(diǎn)數(shù)據(jù)合并數(shù)據(jù)脫敏時(shí)間序列處理數(shù)據(jù)分組數(shù)據(jù)聚合25數(shù)據(jù)分組在進(jìn)行數(shù)據(jù)處理過(guò)程中,可以將屬于不同類(lèi)別的數(shù)據(jù)按照以一定標(biāo)準(zhǔn)進(jìn)行分組處理。Pandas中最常用的方法為groupby()方法groupby(by=None,axis=0,level=None,as_index=True,sort=True,group_keys=True,squeeze=False,observed=False,**kwargs)by:用于確定進(jìn)行分組的依據(jù),可以通過(guò)列名、列表、函數(shù)或Series對(duì)象進(jìn)行分組。axis:表示分組軸的方向,0為按行分組(默認(rèn)),1為按列分組。sort:表示是否對(duì)分組標(biāo)簽進(jìn)行排序,接收布爾值,默認(rèn)為T(mén)rue。26數(shù)據(jù)分組df_obj=pd.DataFrame({'key1':['A','A','B','B','A'],'key2':['one','two','one','two','one'],'data1':[2,3,4,6,8],'data2':[3,5,6,3,7]})df_obj.groupby('key1').apply(lambdax:x[:])275MIN數(shù)據(jù)分組df_obj.groupby([1,2,3,1,2]).apply(lambdax:x[:])df_obj.groupby(lambdax:x%2==0).apply(lambdax:x[:])df_obj.groupby({0:'even',1:'odd',2:'even',3:'odd',4:'even'}).apply(lambdax:x[:])286MIN知識(shí)點(diǎn)數(shù)據(jù)合并數(shù)據(jù)脫敏時(shí)間序列處理數(shù)據(jù)分組數(shù)據(jù)聚合29數(shù)據(jù)聚合在對(duì)數(shù)據(jù)表分組后往往需要對(duì)每個(gè)分組使用一定的方法進(jìn)行運(yùn)算,以求得各個(gè)分組在某一標(biāo)準(zhǔn)下的結(jié)果。Pandas可使用agg方法和內(nèi)置函數(shù)對(duì)數(shù)據(jù)進(jìn)行聚合操作。agg(func,axis=0,*args,**kwargs)func:表示用于匯總數(shù)據(jù)的函數(shù),可以為單個(gè)函數(shù)或函數(shù)列表。axis:表示函數(shù)作用于軸的方向,0或index表示按列應(yīng)用(默認(rèn)值);1或columns表示按行應(yīng)用。30df_obj=pd.DataFrame({'key1':['A','A','B','B','A'],'key2':['one','two','one','two','one'],'data1':[2,3,4,6,8],
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 分享成功人士的工作習(xí)慣計(jì)劃
- 《貴州圖南礦業(yè)(集團(tuán))有限公司興仁市下山鎮(zhèn)四海煤礦(變更)礦產(chǎn)資源綠色開(kāi)發(fā)利用方案(三合一)》評(píng)審意見(jiàn)
- 《福泉市鵬盛礦業(yè)有限責(zé)任公司貴州省福泉市陸坪鎮(zhèn)大沙壩鋁土礦(變更)礦產(chǎn)資源綠色開(kāi)發(fā)利用方案(三合一)》專(zhuān)家組評(píng)審意見(jiàn)
- 人教版初中七年級(jí)下冊(cè)歷史與社會(huì) 5.1.1遼闊的疆域 教學(xué)設(shè)計(jì)
- 財(cái)政與金融基礎(chǔ)知識(shí)課件
- 第二十五教時(shí)小結(jié)本單元內(nèi)容-俗稱(chēng)“加法定理”教學(xué)實(shí)錄
- 2025年沈陽(yáng)道路貨運(yùn)駕駛員從業(yè)資格證考試題庫(kù)
- 2025年長(zhǎng)治a2貨運(yùn)從業(yè)資格證考試
- 2025年淮南從業(yè)資格證應(yīng)用能力考些啥
- 2025年常德貨運(yùn)從業(yè)資格證考試模擬考試
- 2025年黑龍江省安全員A證考試題庫(kù)附答案
- 2025年公共交通衛(wèi)生提升方案
- 2025屆上海市高三下學(xué)期2月聯(lián)考調(diào)研英語(yǔ)試題【含答案解析】
- 發(fā)展我國(guó)銀發(fā)經(jīng)濟(jì)面臨的挑戰(zhàn)和優(yōu)化路徑研究
- 建(構(gòu))筑物消防員初級(jí)技能培訓(xùn)課件
- 2025年潛江市城市建設(shè)發(fā)展集團(tuán)招聘工作人員【52人】高頻重點(diǎn)提升(共500題)附帶答案詳解
- DB50T 441-2012 渝菜 毛血旺烹飪技術(shù)規(guī)范
- 2024年05月富德生命人壽保險(xiǎn)股份有限公司招考筆試歷年參考題庫(kù)附帶答案詳解
- 醫(yī)防融合培訓(xùn)
- 高速鐵路設(shè)計(jì)規(guī)范
- 《電機(jī)能能效等級(jí)》課件
評(píng)論
0/150
提交評(píng)論