




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第1章
緒論學(xué)習(xí)建議學(xué)習(xí)目的【掌握】數(shù)據(jù)科學(xué)中的基礎(chǔ)理論,尤其是核心術(shù)語(yǔ)、研究目的、理論體系與基本原則;【理解】數(shù)據(jù)科學(xué)科學(xué)家的的主要職責(zé)與能力要求;【了解】數(shù)據(jù)科學(xué)的發(fā)展簡(jiǎn)史。學(xué)習(xí)重點(diǎn)大數(shù)據(jù)挑戰(zhàn)的本質(zhì)數(shù)據(jù)科學(xué)的研究目的數(shù)據(jù)科學(xué)的理論體系數(shù)據(jù)科學(xué)的基本原則學(xué)習(xí)難點(diǎn)大數(shù)據(jù)挑戰(zhàn)的本質(zhì)數(shù)據(jù)科學(xué)的基本原則學(xué)習(xí)建議序號(hào)我提出的疑問(wèn)本章中的答案1我為什么需要學(xué)習(xí)《數(shù)據(jù)科學(xué)》?大數(shù)據(jù)挑戰(zhàn)的本質(zhì)(1.1)數(shù)據(jù)科學(xué)的提出背景(1.1)2什么是數(shù)據(jù)科學(xué)?數(shù)據(jù)科學(xué)的定義(1.1)、數(shù)據(jù)科學(xué)的研究目的(1.2)3數(shù)據(jù)科學(xué)的發(fā)展現(xiàn)狀與趨勢(shì)是什么?數(shù)據(jù)科學(xué)的發(fā)展簡(jiǎn)史(1.3)4數(shù)據(jù)科學(xué)中應(yīng)學(xué)習(xí)哪些主要內(nèi)容?數(shù)據(jù)科學(xué)的理論體系(1.4)5數(shù)據(jù)科學(xué)的特殊性在哪里?數(shù)據(jù)科學(xué)的基本原則(1.5)6數(shù)據(jù)科學(xué)的學(xué)習(xí)目的是什么?成為專業(yè)數(shù)據(jù)科學(xué)家或?qū)I(yè)中的數(shù)據(jù)科學(xué)家(1.6)數(shù)據(jù)科學(xué)概述01數(shù)據(jù)科學(xué)現(xiàn)狀和歷史02大數(shù)據(jù)特征03大數(shù)據(jù)時(shí)代的統(tǒng)計(jì)思考04數(shù)據(jù)科學(xué)的工作流程05軌道交通大數(shù)據(jù)技術(shù)的任務(wù)06目錄CONTENTS大數(shù)據(jù)的熱與冷一個(gè)既熱又冷的領(lǐng)域大數(shù)據(jù)的奧妙不在于“數(shù)據(jù)”,更不在于“大”大數(shù)據(jù)的形與神——到底誰(shuí)發(fā)明了術(shù)語(yǔ)“大數(shù)據(jù)”大數(shù)據(jù)時(shí)代的到來(lái)——數(shù)據(jù)與知識(shí)之間的
矛盾日益突出計(jì)算機(jī)科學(xué)數(shù)據(jù)已經(jīng)超現(xiàn)有的計(jì)算和存儲(chǔ)能力RDB統(tǒng)計(jì)學(xué)數(shù)據(jù)不抽樣也可以計(jì)算預(yù)測(cè)?解釋?機(jī)器學(xué)習(xí)有了數(shù)據(jù),可以用簡(jiǎn)單方法實(shí)現(xiàn)較好的“智能”啦社會(huì)科學(xué)不再是關(guān)鍵節(jié)點(diǎn)的數(shù)據(jù)為什么
基于“小數(shù)據(jù)”的傳統(tǒng)理論不能解釋“大數(shù)據(jù)現(xiàn)象”大數(shù)據(jù)小數(shù)據(jù)涌現(xiàn)價(jià)值隱私質(zhì)量安全…數(shù)據(jù)科學(xué)概述數(shù)據(jù)科學(xué)家:計(jì)算機(jī)科學(xué)家中的統(tǒng)計(jì)專家,是統(tǒng)計(jì)專家中的計(jì)算機(jī)科學(xué)家有些數(shù)據(jù)科學(xué)家的確是統(tǒng)計(jì)專家,而有些數(shù)據(jù)科學(xué)家則堪比軟件工程師?有的數(shù)據(jù)科學(xué)家是機(jī)器學(xué)習(xí)專家,而也有一些數(shù)據(jù)科學(xué)家僅僅是這方面的菜鳥?有的數(shù)據(jù)科學(xué)家擁有博士學(xué)位,出版過(guò)出色的學(xué)術(shù)作品,而有些數(shù)據(jù)科學(xué)家從不閱讀論文?數(shù)據(jù)科學(xué)家是能夠從混亂數(shù)據(jù)中剝離出洞見的人如何定義數(shù)據(jù)科學(xué)(DataScience)新興科學(xué)是一門將“現(xiàn)實(shí)世界”映射到“數(shù)據(jù)世界”之后,在“數(shù)據(jù)層次”上研究“現(xiàn)實(shí)世界”的問(wèn)題,并根據(jù)“數(shù)據(jù)世界”的分析結(jié)果,對(duì)“現(xiàn)實(shí)世界”進(jìn)行預(yù)測(cè)、洞見、解釋或決策的新興科學(xué);交叉性學(xué)科是一門以“數(shù)據(jù)”,尤其是“大數(shù)據(jù)”為研究對(duì)象,并以數(shù)據(jù)統(tǒng)計(jì)、機(jī)器學(xué)習(xí)、數(shù)據(jù)可視化等為理論基礎(chǔ),主要研究數(shù)據(jù)預(yù)處理、數(shù)據(jù)管理、數(shù)據(jù)計(jì)算、數(shù)據(jù)產(chǎn)品開發(fā)等活動(dòng)的交叉性學(xué)科;獨(dú)立學(xué)科是一門以實(shí)現(xiàn)“從數(shù)據(jù)到信息”、“從數(shù)據(jù)到知識(shí)”和(或)“從數(shù)據(jù)到智慧”的轉(zhuǎn)化為主要研究目的,以“數(shù)據(jù)驅(qū)動(dòng)”、“數(shù)據(jù)業(yè)務(wù)化”、“數(shù)據(jù)洞見”、“數(shù)據(jù)產(chǎn)品研發(fā)”和(或)“數(shù)據(jù)生態(tài)系統(tǒng)的建設(shè)”為主要研究任務(wù)的獨(dú)立學(xué)科;知識(shí)體系是一門以“數(shù)據(jù)時(shí)代”,尤其是“大數(shù)據(jù)時(shí)代”面臨的新挑戰(zhàn)、新機(jī)會(huì)、新思維和新方法為核心內(nèi)容的,包括新的理論、方法、模型、技術(shù)、平臺(tái)、工具、應(yīng)用和最佳實(shí)踐在內(nèi)的一整套知識(shí)體系。數(shù)據(jù)科學(xué)≈大數(shù)據(jù)科學(xué)(+小數(shù)據(jù)科學(xué))數(shù)據(jù)科學(xué)概述數(shù)據(jù)科學(xué)就是運(yùn)用數(shù)理統(tǒng)計(jì)?人工智能以及某些領(lǐng)域的經(jīng)驗(yàn),從各種結(jié)構(gòu)化數(shù)據(jù)?半結(jié)構(gòu)化數(shù)據(jù)以及非結(jié)構(gòu)化數(shù)據(jù)中發(fā)現(xiàn)知識(shí)與智慧的跨領(lǐng)域?qū)W科?在實(shí)際應(yīng)用中,數(shù)據(jù)科學(xué)與云計(jì)算?數(shù)據(jù)工程?黑客思維等知識(shí)密切相關(guān)?數(shù)據(jù)科學(xué)的學(xué)科定位圖1DrewConway的數(shù)據(jù)科學(xué)韋恩圖(2010)圖2JerryOverton的數(shù)據(jù)科學(xué)韋恩圖(2016)來(lái)源:圖1:SchuttR,O'NeilC.Doingdatascience:Straighttalkfromthefrontline[M].O'ReillyMedia,Inc.,2013:7.圖2:JerryOverton.GoingProinDataScience[M].O’ReillyMedia,Inc,2016:12.黑客精神熱衷挑戰(zhàn)崇尚自由主張分享追求創(chuàng)新黑客道德準(zhǔn)則TheHackerEthic(StevenLevy,Hackers:HeroesoftheComputerRevolution)為什么
大家聽不懂大數(shù)據(jù)時(shí)代的新詞匯數(shù)據(jù)產(chǎn)品數(shù)據(jù)生態(tài)數(shù)據(jù)如何正確理解?承認(rèn)數(shù)據(jù)的“被動(dòng)屬性”認(rèn)識(shí)到“主動(dòng)屬性”數(shù)據(jù)的主動(dòng)屬性?主動(dòng)屬性的含義數(shù)據(jù)驅(qū)動(dòng)的…數(shù)據(jù)業(yè)務(wù)化讓數(shù)據(jù)說(shuō)話以數(shù)據(jù)為中心的…復(fù)雜數(shù)據(jù)…數(shù)據(jù)科學(xué)新的知識(shí)體系主動(dòng)屬性的意義數(shù)據(jù)分析式…數(shù)據(jù)密集型…數(shù)據(jù)洞見典型應(yīng)用京東、淘寶、拼多多、Amazon。。。抖音、TikTok、Twitter、Facebook。。。Target、沃爾瑪、家樂福。。。美國(guó)大選預(yù)測(cè)相親速配軟件。。。數(shù)據(jù)科學(xué)的現(xiàn)狀和歷史“數(shù)據(jù)科學(xué)”的主要里程碑(1/3)《ConciseSurveyofComputerMethods》中首次出現(xiàn)術(shù)語(yǔ)“數(shù)據(jù)科學(xué)”PeterNaurDataScience:anActionPlanforExpandingtheTechnicalAreasoftheFieldofStatisticsWilliamS.ClevelandTheDataScienceJournalTroySadkowsky等在LinkedIn上組建了第一個(gè)數(shù)據(jù)科學(xué)家群TheDataScientistsGroup1974200120032009ICSU
CODATA第一本以“數(shù)據(jù)科學(xué)”為命名的學(xué)術(shù)期刊“數(shù)據(jù)科學(xué)”的主要里程碑(2/3)DrewConway提出了第一個(gè)揭示數(shù)據(jù)科學(xué)理論基礎(chǔ)的維恩圖。TheDataScienceVennDiagramPatilDJ系統(tǒng)討論了如何組建數(shù)據(jù)科學(xué)家團(tuán)隊(duì)問(wèn)題Buildingdatascienceteams美國(guó)總統(tǒng)大選DavenportTH和PatilDJ在HarvardBusinessReview上發(fā)表DataScientist:thesexiestjobofthe21stcentrySchuttR在哥大學(xué)開設(shè)《IntrotoDataScience》大轉(zhuǎn)折MattmannCA在Nature上發(fā)表題目為Avisionfordatascience的論文;DharV在CommunicationsoftheACM上發(fā)表論文Datascienceandprediction;ProvostF和FawcettT出版了專著DataScienceforBusiness:Whatyouneedtoknowaboutdatamininganddata-analyticthinking;Mayer-Sch?nbergerV和CukierK出版了專著Bigdata:ARevolutionThatWillTransformHowWeLive,Work,andThink;SchuttR和O'NeilC出版專著DoingDataScience;大豐收2010201120122013“數(shù)據(jù)科學(xué)”的主要里程碑(3/3)ZumelN,MountJ,PorzakJ等的專著PracticaldatasciencewithRDjPatil出版DataJujitsu:TheArtofTurningDataintoProductPracticaldatasciencewithR美國(guó)白宮任命PatilDJ作為首席數(shù)據(jù)科學(xué)家LillianPierson出版DatasciencefordummiesMonyaBaker在Nature上發(fā)表論文《DataScience:Industryallure》白宮首席數(shù)據(jù)科學(xué)家我國(guó)第一部專著《數(shù)據(jù)科學(xué)》朝樂門研發(fā)數(shù)據(jù)科學(xué)領(lǐng)域本體JerryOverton出版了專著GoingProinDataScience數(shù)據(jù)科學(xué)201420152016約翰圖基在1962年提出了一個(gè)新領(lǐng)域———“數(shù)據(jù)分析”1974年,“數(shù)據(jù)科學(xué)”作為專業(yè)術(shù)語(yǔ)首次被提出1996年,國(guó)際船級(jí)社協(xié)會(huì)第一次將數(shù)據(jù)科學(xué)作為一個(gè)會(huì)議主題1997年,美籍華裔統(tǒng)計(jì)學(xué)家吳建福1998年,林知己夫提出數(shù)據(jù)學(xué)科應(yīng)該是一門跨學(xué)科的融合了數(shù)據(jù)設(shè)計(jì)?收集和分析的新概念?直到21世紀(jì),數(shù)據(jù)科學(xué)的概念逐漸發(fā)展起來(lái)?2001年,威廉克里夫蘭?他提出統(tǒng)計(jì)學(xué)需要擴(kuò)展,即超越理論并應(yīng)用到技術(shù)領(lǐng)域2002年,科學(xué)技術(shù)數(shù)據(jù)委員會(huì)創(chuàng)辦了數(shù)據(jù)科學(xué)雜志DataScienceJournal2003年,中國(guó)人民大學(xué)創(chuàng)辦了JournalofDataScience2014年,美國(guó)統(tǒng)計(jì)協(xié)會(huì)旗下的統(tǒng)計(jì)學(xué)習(xí)與數(shù)據(jù)挖掘部門重新命名為統(tǒng)計(jì)學(xué)習(xí)與數(shù)據(jù)科學(xué)部門Gartner數(shù)據(jù)科學(xué)成熟度新技術(shù)曲線Gartner數(shù)據(jù)科學(xué)成熟度曲線大數(shù)據(jù)時(shí)代的10大變革在大數(shù)據(jù)時(shí)代,你還在這樣做研究嗎?大數(shù)據(jù)時(shí)代的研究范式Data-intensiveScientificDiscovery原始社會(huì)的“實(shí)驗(yàn)科學(xué)范式”以模型和歸納為特征的“理論科學(xué)范式”以模擬仿真為特征的“計(jì)算科學(xué)范式”數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)范式數(shù)據(jù)資產(chǎn)原則數(shù)據(jù)開發(fā)利用法律糾紛勞動(dòng)增值市場(chǎng)交易資產(chǎn)化管理…大數(shù)據(jù)的資產(chǎn)屬性數(shù)據(jù)資源數(shù)據(jù)資產(chǎn)權(quán)屬立法什么是大數(shù)據(jù)思維數(shù)據(jù)范式vs知識(shí)范式傳統(tǒng)思維數(shù)據(jù)→知識(shí)→問(wèn)題理論完美主義大數(shù)據(jù)思維數(shù)據(jù)→問(wèn)題您.You好.Good,well嗎.Is,are,do,does,did..統(tǒng)計(jì)學(xué)規(guī)律語(yǔ)言學(xué)規(guī)律.Areyougood錯(cuò)]Areyouwell[錯(cuò)]Howareyou[]歷史經(jīng)驗(yàn)主義您好嗎?Howareyou/你在哪里?Whereareyou?….Howareyou【例】將中文中的“您好嗎?”翻譯成英文知識(shí)范式數(shù)據(jù)范式Step1Step2Step3Step1Step2知識(shí).產(chǎn)業(yè)競(jìng)合關(guān)系的變化“TheonlyproblemwithMicrosoftistheyjusthavenotaste,”Jobssaidinthe1996publictelevisiondocumentary
“TriumphoftheNerds.”“Theyhaveabsolutelynotaste.AndIdon’tmeanthatinasmallway,Imeanthatinabigway,inthesensethattheydon’tthinkoforiginalideas,andtheydon’tbringmuchcultureintotheirproducts.”協(xié)同原則人機(jī)協(xié)同+人際協(xié)同+機(jī)器協(xié)同大規(guī)模人機(jī)協(xié)同協(xié)同≠(傳統(tǒng))團(tuán)隊(duì)【小結(jié)】數(shù)據(jù)科學(xué)的提出背景數(shù)據(jù)科學(xué)VS數(shù)據(jù)分析VS大數(shù)據(jù)大數(shù)據(jù)特征數(shù)據(jù)量大、多樣性、時(shí)效性、價(jià)值大多維度《中國(guó)十大“吃貨”省市排行榜》“百度知道”的7700萬(wàn)條與吃有關(guān)的問(wèn)題在關(guān)于“xx能吃嗎”的問(wèn)題中,福建?浙江?廣東?四川等地的網(wǎng)友最經(jīng)常問(wèn)的是“XX蟲能吃嗎”,江蘇?上海?北京等地的網(wǎng)友最經(jīng)常問(wèn)的是“XX的皮能不能吃”,內(nèi)蒙古?新疆?西藏的網(wǎng)友則最關(guān)心“蘑菇能吃嗎”,而寧夏網(wǎng)友最關(guān)心的竟然是“螃蟹能吃嗎”?百度知道的數(shù)據(jù)維度很多,它們不僅涉及食物的做法?吃法?成分?營(yíng)養(yǎng)價(jià)值?價(jià)格?問(wèn)題來(lái)源的地域和時(shí)間等顯性的維度,而且還藏著很多外人不注意的隱含信息,比如提問(wèn)者或回答者使用的計(jì)算機(jī)以及瀏覽器?百度知道的原始數(shù)據(jù)說(shuō)得好聽點(diǎn)是具有多樣性,說(shuō)得不好聽是“相當(dāng)雜亂”的?但恰恰是這些看上去雜亂無(wú)章的數(shù)據(jù)將原來(lái)看似無(wú)關(guān)的維度聯(lián)系了起來(lái)容易得到不同年齡?性別和文化背景的人的飲食習(xí)慣,不同生活習(xí)慣的人的飲食習(xí)慣等?如果再結(jié)合每個(gè)人使用的計(jì)算機(jī)的品牌和型號(hào),大抵可以了解提問(wèn)者和回答者的收入情況,這樣就可以知道不同收入階層的人的飲食習(xí)慣?數(shù)據(jù)科學(xué)與傳統(tǒng)的統(tǒng)計(jì)調(diào)查方法對(duì)比成本因素傳統(tǒng)方法未必反映被調(diào)查人真實(shí)的想法全面性,或者說(shuō)完備性預(yù)測(cè)2012年美國(guó)總統(tǒng)大選結(jié)果蓋洛普博士靠成功地預(yù)測(cè)了1936年美國(guó)總統(tǒng)大選的結(jié)果內(nèi)德斯維爾,利用大數(shù)據(jù),成功地預(yù)測(cè)了全部50+1個(gè)州的選舉結(jié)果時(shí)效性大數(shù)據(jù)的時(shí)效性其實(shí)不是必需的例子:交通路況信息Big,Large和VastLarge和vast在程度上略有差別Large和vast常常用于形容體量的大小Big更強(qiáng)調(diào)的是相對(duì)小的大,是抽象意義上的大大數(shù)據(jù)時(shí)代的統(tǒng)計(jì)思考相關(guān)性:使用數(shù)據(jù)的鑰匙統(tǒng)計(jì)學(xué):點(diǎn)石成金的魔棒相關(guān)性:使用數(shù)據(jù)的鑰匙日本人通過(guò)1964年中國(guó)的《人民畫報(bào)》上刊登的鐵人王進(jìn)喜的照片,分析出了關(guān)于大慶油田的許多細(xì)節(jié)Google趨勢(shì)流行病傳播和各地區(qū)搜索量變化的關(guān)系“過(guò)分解讀”問(wèn)題統(tǒng)計(jì)學(xué):點(diǎn)石成金的魔棒賭徒和投機(jī)者一門獨(dú)立的學(xué)科數(shù)理統(tǒng)計(jì)是建立在概率論基礎(chǔ)之上,收集?處理和分析數(shù)據(jù),找到數(shù)據(jù)內(nèi)在的關(guān)聯(lián)性和規(guī)律性的學(xué)科?數(shù)據(jù)科學(xué)的工作流程數(shù)據(jù)科學(xué)研究目的與任務(wù)大數(shù)據(jù)及其運(yùn)動(dòng)規(guī)律的揭示從數(shù)據(jù)到智慧的轉(zhuǎn)化數(shù)據(jù)洞見(DataInsights)數(shù)據(jù)業(yè)務(wù)化數(shù)據(jù)分析數(shù)據(jù)驅(qū)動(dòng)型決策(支持)數(shù)據(jù)產(chǎn)品的研發(fā)數(shù)據(jù)生態(tài)系統(tǒng)的建設(shè)用例:軌道交通大數(shù)據(jù)技術(shù)軌道交通是指在固定軌道上行駛的交通方式,一般包括以下幾種:地鐵:地下或高架的城市快速軌道交通系統(tǒng),主要負(fù)責(zé)城市內(nèi)部的人員交通運(yùn)輸。輕軌:介于地鐵和有軌電車之間的城市軌道交通系統(tǒng),一般采用地面或高架形式,主要用于城市邊緣地區(qū)的交通運(yùn)輸。有軌電車:使用電力牽引的城市軌道交通系統(tǒng),主要用于城市中心地區(qū)的人員交通運(yùn)輸。高速鐵路:具有高速、大容量、高安全性和高舒適性的鐵路交通系統(tǒng),主要用于城市間和城市周邊地區(qū)的人員交通運(yùn)輸。動(dòng)車組列車:具有高速、大容量、高安全性和高舒適性的鐵路客車,與高速鐵路相似,但不同于高速鐵路,動(dòng)車組列車可以適應(yīng)較彎曲的線路。磁懸浮列車:一種基于磁浮技術(shù)的高速列車,具有較高的運(yùn)行速度和舒適性,適用于城市間的快速交通運(yùn)輸。數(shù)據(jù)種類運(yùn)營(yíng)數(shù)據(jù):包括車站客流、車輛位置、列車運(yùn)行時(shí)間、乘客出行偏好等數(shù)據(jù),主要用于運(yùn)營(yíng)監(jiān)控、調(diào)度優(yōu)化、票務(wù)統(tǒng)計(jì)等方面。設(shè)備數(shù)據(jù):包括車輛、信號(hào)設(shè)備、車站設(shè)施等設(shè)備的狀態(tài)、故障信息等數(shù)據(jù),主要用于設(shè)備監(jiān)測(cè)、維修保養(yǎng)、設(shè)備替換等方面。環(huán)境數(shù)據(jù):包括天氣、空氣質(zhì)量、路況等環(huán)境因素?cái)?shù)據(jù),主要用于調(diào)度優(yōu)化、安全保障、乘客體驗(yàn)等方面。用戶數(shù)據(jù):包括用戶個(gè)人信息、用戶出行軌跡、用戶偏好等數(shù)據(jù),主要用于個(gè)性化服務(wù)、營(yíng)銷推廣、出行行為研究等方面。地理信息數(shù)據(jù):包括軌道交通線路、車站位置、周邊道路網(wǎng)絡(luò)等地理信息數(shù)據(jù),主要用于調(diào)度優(yōu)化、線路規(guī)劃、地理信息系統(tǒng)應(yīng)用等方面。外部數(shù)據(jù):包括城市交通網(wǎng)絡(luò)、城市人口密度、城市經(jīng)濟(jì)發(fā)展水平等外部因素?cái)?shù)據(jù),主要用于預(yù)測(cè)分析、政策制定、市場(chǎng)研究等方面。任務(wù)和目標(biāo)軌道交通大數(shù)據(jù)技術(shù)的任務(wù)和目標(biāo)是通過(guò)對(duì)軌道交通系統(tǒng)中海量的數(shù)據(jù)進(jìn)行采集、存儲(chǔ)、處理、分析和應(yīng)用,為軌道交通系統(tǒng)的運(yùn)營(yíng)管理和服務(wù)提供科學(xué)決策和支撐。具體來(lái)說(shuō),軌道交通大數(shù)據(jù)技術(shù)的任務(wù)和目標(biāo)包括以下幾個(gè)方面:數(shù)據(jù)采集與存儲(chǔ):通過(guò)各種傳感器、監(jiān)測(cè)設(shè)備等手段,采集軌道交通系統(tǒng)中各種數(shù)據(jù),如列車運(yùn)行數(shù)據(jù)、旅客信息、信號(hào)系統(tǒng)數(shù)據(jù)等,并將這些數(shù)據(jù)存儲(chǔ)在可靠、高效、安全的數(shù)據(jù)平臺(tái)上。數(shù)據(jù)處理與分析:通過(guò)數(shù)據(jù)處理和分析技術(shù),對(duì)采集的數(shù)據(jù)進(jìn)行處理、清洗、分類、聚合、挖掘等操作,提取有價(jià)值的信息和知識(shí),如列車運(yùn)行狀態(tài)、旅客出行規(guī)律、信號(hào)系統(tǒng)故障預(yù)測(cè)等。數(shù)據(jù)可視化與應(yīng)用:將處理后的數(shù)據(jù)可視化展示,讓軌道交通系統(tǒng)管理人員、決策者和公眾更直觀地了解軌道交通系統(tǒng)的運(yùn)行情況、問(wèn)題和趨勢(shì),并為他們提供科學(xué)決策和支撐,如調(diào)整列車運(yùn)行計(jì)劃、優(yōu)化站點(diǎn)布局、提高服務(wù)質(zhì)量等。數(shù)據(jù)安全與隱私保護(hù):確保軌道交通系統(tǒng)中的數(shù)據(jù)在采集、存儲(chǔ)、處理、分析和應(yīng)用過(guò)程中的安全性和隱私保護(hù),避免數(shù)據(jù)泄露、濫用和不當(dāng)使用等問(wèn)題??偟膩?lái)說(shuō),軌道交通大數(shù)據(jù)技術(shù)的任務(wù)和目標(biāo)是為軌道交通系統(tǒng)提供更高效、更安全、更智能、更舒適的服務(wù),實(shí)現(xiàn)軌道交通系統(tǒng)的可持續(xù)發(fā)展和智慧化轉(zhuǎn)型。數(shù)據(jù)科學(xué)的術(shù)語(yǔ)與本體數(shù)據(jù)化(Datafication)Datafication(數(shù)據(jù)化)≠Digitalization(數(shù)字化)數(shù)據(jù)化(Datafication)Google眼睛正在數(shù)據(jù)化人們視覺活動(dòng)Twitter正在數(shù)據(jù)化人們的思想動(dòng)態(tài)LinkedIn正在數(shù)據(jù)化人們的社會(huì)關(guān)系數(shù)據(jù)柔術(shù)(DataJujitsu)
數(shù)據(jù)柔術(shù)(DataJujitsu)【注意】3C原則=Critical+Creative+Curious藝術(shù)性以用戶為中心用戶體驗(yàn)數(shù)據(jù)產(chǎn)品(DataProducts)數(shù)據(jù)產(chǎn)品:能夠通過(guò)數(shù)據(jù)來(lái)幫助用戶實(shí)現(xiàn)某一個(gè)(些)目標(biāo)的產(chǎn)品數(shù)據(jù)類產(chǎn)品干凈數(shù)據(jù)脫敏數(shù)據(jù)集成數(shù)據(jù)規(guī)約數(shù)據(jù)標(biāo)注數(shù)據(jù)….信息類產(chǎn)品數(shù)據(jù)新聞數(shù)據(jù)訂閱報(bào)告/快報(bào)/摘錄定題服務(wù)…知識(shí)類產(chǎn)品百科全書語(yǔ)料庫(kù)領(lǐng)域本體知識(shí)庫(kù)規(guī)則庫(kù)…智慧類產(chǎn)品決策支持?jǐn)?shù)據(jù)洞見數(shù)據(jù)業(yè)務(wù)化數(shù)據(jù)驅(qū)動(dòng)數(shù)據(jù)改寫(DataMunging)數(shù)據(jù)改寫(DataMunging)數(shù)據(jù)的解析(parsing)、提煉(scraping)、格式化(formatting)和形式化(formalization)處理與一般數(shù)據(jù)處理不同的是,數(shù)據(jù)再加工強(qiáng)調(diào)的是數(shù)據(jù)加工過(guò)程中的創(chuàng)造力和想象力【注意】3C原則=Critical+Creative+Curious數(shù)據(jù)打磨(DataWrangling)將“原始數(shù)據(jù)”轉(zhuǎn)換為“一次數(shù)據(jù)”(或“二次數(shù)據(jù)”)的過(guò)程數(shù)據(jù)的層次【注意】3C原則=Critical+Creative+CuriousDatamungingordatawranglingislooselydefinedastheprocessofmanuallyconvertingormappingdatafromone"raw"formintoanotherformatthatallowsformoreconvenientconsumptionofthedatawiththehelpofsemi-automatedtools數(shù)據(jù)洞見(DataInsights)針對(duì)特定需求、挑戰(zhàn)或現(xiàn)象,從數(shù)據(jù)中發(fā)現(xiàn)未知的、有價(jià)值的、可用于直接驅(qū)動(dòng)某種行為的見解、規(guī)律、認(rèn)知或新發(fā)現(xiàn)PeopleUseStatisticsasaDrunkUsesaLamppost—ForSupportRatherThanIllumination數(shù)據(jù)分析式思維(Data-AnalyticThinking)傳統(tǒng)思維從“業(yè)務(wù)”或“決策”等要素入手,最終改變“數(shù)據(jù)”數(shù)據(jù)分析式思維主要從“數(shù)據(jù)”入手,最終改變“業(yè)務(wù)”;數(shù)據(jù)分析式思維(Data-AnalyticThinking)2/3的癌癥是因?yàn)檫\(yùn)氣差?《Science》|大數(shù)據(jù)分析的套路與陷阱大數(shù)據(jù)分析問(wèn)題類型(實(shí)際)問(wèn)題類型(曲解)曲解情況的簡(jiǎn)單描述推理分析因果分析相關(guān)性并不意味著因果關(guān)系探索分析推理分析數(shù)據(jù)疏浚(data
dredging)探索分析預(yù)測(cè)分析過(guò)擬合描述分析推理分析1為n分析JefferyT.Leek,RogerD.Peng.Whatisthequestion?Mistakingthetypeofquestionbeingconsideredisthemostcommonerrorindataanalysis[J].Science,2015,374(6228):1314-1315.數(shù)據(jù)連續(xù)性(DataContinuity)數(shù)據(jù)連續(xù)性(DataContinuity)≠數(shù)字連續(xù)性(DigitalContinuity)數(shù)據(jù)驅(qū)動(dòng)(Data-driven)Data-driven…OrganizationMarketingDecisionmakingApplicationsCulture數(shù)據(jù)密集型(Data-Intensive)數(shù)據(jù)空間(DataSpace)特征數(shù)據(jù)庫(kù)數(shù)據(jù)空間內(nèi)部
特征建設(shè)模式先行支付(Pay-before-you-go)現(xiàn)收現(xiàn)付(Pay-as-you-go)數(shù)據(jù)模式先有模式,后有數(shù)據(jù)模式設(shè)計(jì)后相對(duì)穩(wěn)定先有數(shù)據(jù),后有模式模式設(shè)計(jì)后不斷演化數(shù)據(jù)模型關(guān)系模型網(wǎng)狀模型數(shù)據(jù)格式進(jìn)行統(tǒng)一轉(zhuǎn)化或映射處理不改變數(shù)據(jù)源中的數(shù)據(jù)格式數(shù)據(jù)存儲(chǔ)集中式“融合”分布式“共存”外部特征數(shù)據(jù)來(lái)源確定不確定數(shù)據(jù)管理由DBMS集中管理DSMS集中管理+數(shù)據(jù)源自我管理數(shù)據(jù)控制完全控制部分控制信息丟失較大較少數(shù)據(jù)關(guān)聯(lián)簡(jiǎn)單、靜態(tài)復(fù)雜、動(dòng)態(tài)服務(wù)質(zhì)量確定性、最優(yōu)性不確定性、次優(yōu)性數(shù)據(jù)科學(xué)的基本原則數(shù)據(jù)科學(xué)的基本原則三世界原則三要素原則數(shù)據(jù)驅(qū)動(dòng)原則數(shù)據(jù)復(fù)雜性原則數(shù)據(jù)資產(chǎn)原則DIKUW原則3C原則協(xié)同原則從簡(jiǎn)原則數(shù)據(jù)范式原則數(shù)據(jù)科學(xué)的基本原則三世界原則三要素原則數(shù)據(jù)驅(qū)動(dòng)原則數(shù)據(jù)復(fù)雜性原則數(shù)據(jù)資產(chǎn)原則DIKUW原則3C原則協(xié)同原則從簡(jiǎn)原則數(shù)據(jù)范式原則討論:三世界原則我們的世界物理世界我們的世界物理世界數(shù)據(jù)世界TheFourthParadigm:Data-IntensiveScientificDiscovery討論:三世界原則某學(xué)生的科學(xué)研究思維分析TheFourthParadigm:Data-IntensiveScientificDiscovery數(shù)據(jù)科學(xué)的基本原則三世界原則三要素原則數(shù)據(jù)驅(qū)動(dòng)原則數(shù)據(jù)復(fù)雜性原則數(shù)據(jù)資產(chǎn)原則DIKUW原則3C原則協(xié)同原則從簡(jiǎn)原則數(shù)據(jù)范式原則三要素原則理論實(shí)戰(zhàn)精神圖1DrewConway的數(shù)據(jù)科學(xué)韋恩圖(2010)數(shù)據(jù)科學(xué)的基本原則三世界原則三要素原則數(shù)據(jù)驅(qū)動(dòng)原則數(shù)據(jù)復(fù)雜性原則數(shù)據(jù)資產(chǎn)原則DIKUW原則3C原則協(xié)同原則從簡(jiǎn)原則數(shù)據(jù)范式原則數(shù)據(jù)驅(qū)動(dòng)原則敏捷=大數(shù)據(jù)?智慧=大數(shù)據(jù)?Data-driven…OrganizationMarketingDecisionmakingApplicationsCulture數(shù)據(jù)科學(xué)的基本原則三世界原則三要素原則數(shù)據(jù)驅(qū)動(dòng)原則數(shù)據(jù)復(fù)雜性原則數(shù)據(jù)資產(chǎn)原則DIKUW原則3C原則協(xié)同原則從簡(jiǎn)原則數(shù)據(jù)范式原則數(shù)據(jù)在先還是模式在先?Informationloss存儲(chǔ)與計(jì)算能力Moredata好還是bettermodel好?如何認(rèn)識(shí)“數(shù)據(jù)預(yù)處理”DataFirst,SchemaLaterorNeverParadigm我們需要的是Moredata還是BetterModel?MoreData+SimpleAlgorithms=TheBestDataModelsInformationlossMR機(jī)器學(xué)習(xí)IBM/Google翻譯對(duì)數(shù)據(jù)復(fù)雜性的認(rèn)識(shí)?
5.數(shù)據(jù)科學(xué)的基本原則關(guān)系數(shù)據(jù)庫(kù)一種一致性強(qiáng)一致性實(shí)現(xiàn)方法事務(wù)處理2PL協(xié)議2PC協(xié)議NoSQL數(shù)據(jù)庫(kù)多種一致性弱一致性最終一致性實(shí)現(xiàn)方法更新一致性讀寫一致性會(huì)話一致性Cassandra,Dynamo選擇AP(放棄C)BigTable,MongoDB滿足CP(放棄A)Mysql和Postgres滿足AC(放棄P)數(shù)據(jù)科學(xué)的基本原則三世界原則三要素原則數(shù)據(jù)驅(qū)動(dòng)原則數(shù)據(jù)復(fù)雜性原則數(shù)據(jù)資產(chǎn)原則DIKUW原則3C原則協(xié)同原則從簡(jiǎn)原則數(shù)據(jù)范式原則數(shù)據(jù)科學(xué)的基本原則三世界原則三要素原則數(shù)據(jù)驅(qū)動(dòng)原則數(shù)據(jù)復(fù)雜性原則數(shù)據(jù)資產(chǎn)原則DIKUW原則3C原則協(xié)同原則從簡(jiǎn)原則數(shù)據(jù)范式原則DIKUW模型三世界原則三要素原則數(shù)據(jù)驅(qū)動(dòng)原則數(shù)據(jù)復(fù)雜性原則數(shù)據(jù)資產(chǎn)原則DIKUW原則3C原則協(xié)同原則從簡(jiǎn)原則數(shù)據(jù)范式原則數(shù)據(jù)科學(xué)的基本原則數(shù)據(jù)科學(xué)的3C原則數(shù)據(jù)科學(xué)的基本原則三世界原則三要素原則數(shù)據(jù)驅(qū)動(dòng)原則數(shù)據(jù)復(fù)雜性原則數(shù)據(jù)資產(chǎn)原則DIKUW原則3C原則協(xié)同原則從簡(jiǎn)原則數(shù)據(jù)范式原則人機(jī)協(xié)同+人際協(xié)同+機(jī)器協(xié)同大規(guī)模人機(jī)協(xié)同協(xié)同≠(傳統(tǒng))團(tuán)隊(duì)協(xié)同原則三世界原則三要素原則數(shù)據(jù)驅(qū)動(dòng)原則數(shù)據(jù)復(fù)雜性原則數(shù)據(jù)資產(chǎn)原則DIKUW原則3C原則協(xié)同原則從簡(jiǎn)原則數(shù)據(jù)范式原則數(shù)據(jù)科學(xué)的基本原則數(shù)據(jù)復(fù)雜,但算法簡(jiǎn)單MR/Spark/NoSQLMoredataorbettermodelNoSQL中的數(shù)據(jù)模型Node1Node2NodeN….(’tokyo’,data)Hash表NoSQL數(shù)據(jù)模型Key-Value臨時(shí)性Key-Value永久性Key-Value混合性Key-ValueKey-DocumentKey-Column圖存儲(chǔ)模型三世界原則三要素原則數(shù)據(jù)驅(qū)動(dòng)原則數(shù)據(jù)復(fù)雜性原則數(shù)據(jù)資產(chǎn)原則DIKUW原則3C原則協(xié)同原則從簡(jiǎn)原則數(shù)據(jù)范式原則數(shù)據(jù)科學(xué)的基本原則三世界原則三要素原則數(shù)據(jù)驅(qū)動(dòng)原則數(shù)據(jù)復(fù)雜性原則數(shù)據(jù)資產(chǎn)原則DIKUW原則3C原則協(xié)同原則從簡(jiǎn)原則數(shù)據(jù)范式原則【小結(jié)】數(shù)據(jù)科學(xué)的基本原則數(shù)據(jù)科學(xué)項(xiàng)目項(xiàng)目發(fā)起人(ProjectSponsor)項(xiàng)目的投資者,代表的是項(xiàng)目最終利益與目的.項(xiàng)目經(jīng)理(ProjectManager)項(xiàng)目的實(shí)際管理者,包括項(xiàng)目范圍、時(shí)間、成本、質(zhì)量、風(fēng)險(xiǎn)、人力
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 醫(yī)用線纜購(gòu)買合同范本
- 關(guān)于施工安全合同范本
- 承辦論壇合同范本
- 主播和合同范本
- 光伏ppp模式合同范本
- 助理聘用合同范本
- 醫(yī)院電力安裝合同范本
- 勞資補(bǔ)償合同范本
- 住宅大樓租房合同范本
- 醫(yī)院簡(jiǎn)短采購(gòu)合同范例
- 市場(chǎng)消防安全課件
- 名師工作室建設(shè)課件
- 腹膜透析管理標(biāo)準(zhǔn)操作規(guī)程
- 2025-2025學(xué)年度人教版小學(xué)五年級(jí)美術(shù)下冊(cè)教學(xué)計(jì)劃
- 新人教版四年級(jí)數(shù)學(xué)下冊(cè)全冊(cè)教案 完整
- 2025年行政執(zhí)法人員執(zhí)法資格考試必考題庫(kù)及答案(共232題)
- 浙教版小學(xué)三年級(jí)下冊(cè)《勞動(dòng)》全冊(cè)教學(xué)課件
- 午休安全紀(jì)律教育
- 《電力建設(shè)工程施工安全管理導(dǎo)則》(NB∕T 10096-2018)
- 2024-2025學(xué)年廣東省部分學(xué)校高一(上)第一次聯(lián)合考試物理試卷(含答案)
- 法律盡職調(diào)查
評(píng)論
0/150
提交評(píng)論