版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第1章大數(shù)據(jù)分析基礎(chǔ)大數(shù)據(jù)分析與實(shí)踐——社會研究與數(shù)字治理奧利·阿什菲爾特是普林斯頓大學(xué)的一位經(jīng)濟(jì)學(xué)家,他的日常工作
就是琢磨數(shù)據(jù),利用統(tǒng)計(jì)學(xué),他從大量的數(shù)據(jù)資料中提取出隱藏在數(shù)
據(jù)背后的信息。奧利非常喜歡喝葡萄酒,他說:“當(dāng)上好的紅葡萄酒有了一定的年份時(shí),就會發(fā)生一些非常神奇的事情。”當(dāng)然,奧利指的不僅僅是葡萄酒的口感,還有隱藏在葡萄酒背后的力量?!懊看文阗I到上好的紅葡萄酒時(shí),”他說,“其實(shí)就是在進(jìn)行投資,因?yàn)檫@瓶酒以后很有可能會變得更好。重要的不是它現(xiàn)在值多少錢,而是將來值多少錢——即使你并不打算賣掉它,而是喝掉它。如果你想知道把從當(dāng)前消費(fèi)中得到的愉悅推遲,將來能從中得到多少愉悅,那么這將是一個永遠(yuǎn)也討論不完的、吸引人的話題?!标P(guān)于這個話題,奧利已研究了25年。第1章導(dǎo)讀案例葡萄酒的品質(zhì)分析奧利花費(fèi)心思研究的一個問題是,如何通過數(shù)字來評估波爾多葡
萄酒的品質(zhì)。與品酒專家通常所使用的“品咂并吐掉”的方法不同,
奧利用數(shù)字指標(biāo)來判斷能拍出高價(jià)的酒所應(yīng)該具有的品質(zhì)特征。法國波爾多葡萄園第1章導(dǎo)讀案例葡萄酒的品質(zhì)分析“其實(shí)很簡單,”他說,“酒是一種農(nóng)產(chǎn)品,每年都會受到氣候
條件的強(qiáng)烈影響?!币虼?,奧利采集了法國波爾多地區(qū)的氣候數(shù)據(jù)
加以研究,他發(fā)現(xiàn)如果收割季節(jié)干旱少雨且整個夏季的平均氣溫較高,該年份就容易生產(chǎn)出品質(zhì)上乘的葡萄酒。當(dāng)葡萄熟透、汁液高度濃縮時(shí),波爾多葡萄酒是最好的。夏季特別炎熱的年份,葡萄很容易熟透,酸度就會降低。炎熱少雨的年份,葡萄汁也會高度濃縮。因此,天氣越炎熱
干燥,越容易生產(chǎn)出品質(zhì)一流的葡萄酒。熟透的葡萄能生產(chǎn)出口感柔潤(
即低敏度)的葡萄酒,而汁液高度濃縮的葡萄能夠生產(chǎn)出醇厚的葡萄酒。第1章導(dǎo)讀案例葡萄酒的品質(zhì)分析奧利把這個關(guān)于葡萄酒的理論簡化為下面的方程式:葡萄酒的品質(zhì)=12.145+0.00117×冬天降雨量+0.0614
×葡萄生長期平均氣溫-0.00386×收獲季節(jié)降雨量正如彼得·帕塞爾在《紐約時(shí)報(bào)》中報(bào)告的那樣,奧利給出的統(tǒng)計(jì)方程與實(shí)際高度吻合。把任何年份的氣候數(shù)據(jù)代入上面這個式子,就能夠預(yù)測出任意一種葡萄酒的平均品質(zhì)。如果把這個式子變得再稍微復(fù)雜精巧一些,奧利還能更精確地預(yù)測出100多個酒莊的葡萄
酒品質(zhì)。他承認(rèn)“這看起來有點(diǎn)太數(shù)字化了”,“但這恰恰是法國人把他
們葡萄酒莊園排成著名的1855個等級時(shí)所使用的方法”。第1章導(dǎo)讀案例葡萄酒的品質(zhì)分析然而,當(dāng)時(shí)傳統(tǒng)的評酒專家并未接受奧利利用數(shù)據(jù)預(yù)測葡萄酒品
質(zhì)的做法。英國的《葡萄酒》雜志認(rèn)為,“這條公式顯然是很可笑
的,我們無法重視它?!奔~約葡萄酒商人威廉姆·薩科林認(rèn)為,從波爾多葡萄酒產(chǎn)業(yè)的角度來看,奧利的做法“介于極端和滑稽可笑之間”。因此,奧利常常被業(yè)界人士取笑。當(dāng)奧利在克里斯蒂拍賣行酒品部做關(guān)于葡萄酒的演講時(shí),坐在后排的交易商噓聲一片。傳統(tǒng)的評酒大師認(rèn)為,如果要對葡萄酒的品質(zhì)評判得更準(zhǔn)確,應(yīng)該親自去品嘗一下。但是有這樣一個問題:在好幾個月的生產(chǎn)時(shí)間里,人們是無法品嘗到葡萄酒的。波爾多和勃艮第的
葡萄酒在裝瓶之前需要盛放在橡木桶里發(fā)酵18~24個月。第1章導(dǎo)讀案例葡萄酒的品質(zhì)分析像帕克這樣的評酒專家需要在桶裝4個月以后才能第一次品嘗,這
個階段的葡萄酒還只是臭臭的、發(fā)酵的葡萄而已。不知道此時(shí)這種無
法下咽的“酒”是否能夠使品嘗者得出關(guān)于酒的品質(zhì)的準(zhǔn)確信息。例如,巴特菲德拍賣行酒品部的前經(jīng)理布魯斯·凱澤曾經(jīng)說過:“發(fā)酵初期的葡萄酒變化非常快,沒有人,我是說不可能有人,能夠通過品嘗來準(zhǔn)確地評估酒的好壞。至少要放上10年,甚至更久?!迸c之形成鮮明對比的是,奧利從對數(shù)字的分析中能夠得出氣候與酒價(jià)之間的關(guān)系。他發(fā)現(xiàn)冬季降雨量每增加1毫米,酒價(jià)就有可能提高0.00117美元。當(dāng)然,這只是“有可能”而已。不過,對數(shù)據(jù)的分析使奧利可以在葡萄酒的未來品質(zhì)——這是品酒師有機(jī)會嘗到第一口酒的數(shù)月之前,更是在葡萄酒賣出的數(shù)年之前。在葡萄酒期貨交易活躍的今天,奧利的預(yù)測能夠給葡萄酒收集者極大的幫助。第1章導(dǎo)讀案例葡萄酒的品質(zhì)分析20世紀(jì)80年代后期,奧利開始在半年刊的簡報(bào)《流動資產(chǎn)》上發(fā)
布他的預(yù)測數(shù)據(jù)。最初有600多人開始訂閱。這些訂閱者的分布很廣,
包括很多百萬富翁以及癡迷葡萄酒的人——這是一些可以接受計(jì)量方法的葡萄酒收集愛好者。但與每年花30美元來訂閱簡報(bào)《葡萄酒愛好者》的30000人相比,《流動資產(chǎn)》的訂閱人數(shù)確實(shí)少得可憐。20世紀(jì)90年代初期,《紐約時(shí)報(bào)》在頭版頭條登出了奧利的最新預(yù)測數(shù)據(jù),這使得更多人了解了他的思想。奧利公開批判了帕克對1986年波爾多葡萄酒的估價(jià)。帕克對1986年波爾多葡萄酒的評價(jià)是“品質(zhì)一流,甚至非常出色”。但是奧利不這么認(rèn)為,他認(rèn)為由于生產(chǎn)期內(nèi)過低的平均氣溫以及收獲期過多的雨水,這一年葡萄酒的品質(zhì)注定平平。第1章導(dǎo)讀案例葡萄酒的品質(zhì)分析當(dāng)然,奧利對1989年波爾多葡萄酒的預(yù)測才是這篇文章中真正讓人吃驚的地方,盡管當(dāng)時(shí)這些酒在木桶里僅僅放置了3個月,還從未被品酒師品嘗過,奧利預(yù)測這些酒將成為“世紀(jì)佳釀”。他保證這些酒的品質(zhì)將會“令人震驚地一流”。根據(jù)他自己的評級,如果1961年的波爾多葡萄酒評級為100的話,那么1989年的葡萄酒將會達(dá)到149。奧利甚至大膽地預(yù)測,這些酒“能夠賣出過去35年中所生
產(chǎn)的葡萄酒的最高價(jià)”。
葡萄酒收藏第1章導(dǎo)讀案例葡萄酒的品質(zhì)分析看到這篇文章,評酒專家非常生氣。評酒專家們開始辯解,竭力指
責(zé)奧利本人以及他所提出的方法。他們說他的方法是錯的,因?yàn)檫@一
方法無法準(zhǔn)確地預(yù)測未來的酒價(jià)。然而,對于統(tǒng)計(jì)學(xué)家(以及對此稍加思考的人)來說,預(yù)測有時(shí)過高,有時(shí)過低是件好事,因?yàn)檫@恰好說明估計(jì)量是無偏的。1990年,奧利更加陷于孤立無援的境地。在宣稱1989年的葡萄酒將成為“世紀(jì)佳釀”之后,數(shù)據(jù)告訴他1990年的葡萄酒將會更好,而且他也照實(shí)說了?,F(xiàn)在回頭再看,我們可
以發(fā)現(xiàn)當(dāng)時(shí)《流動資產(chǎn)》的預(yù)測驚人地準(zhǔn)確。1989年的葡萄酒確實(shí)是難得
的佳釀,而1990年的也確實(shí)更好。第1章導(dǎo)讀案例葡萄酒的品質(zhì)分析怎么可能在連續(xù)兩年中生產(chǎn)出兩種“世紀(jì)佳釀”呢?事實(shí)上,
自1986年以來,每年葡萄生長期的氣溫都高于平均水平。法國的天
氣連續(xù)20多年溫暖和煦。對于葡萄酒愛好者們而言,這顯然是生產(chǎn)柔潤的波爾多葡萄酒的最適宜的時(shí)期。傳統(tǒng)的評酒專家們現(xiàn)在才開始更多地關(guān)注天氣因素。盡管他們當(dāng)中很多人從未公開承認(rèn)奧利的預(yù)測,但他們自己的預(yù)測也開始越來越密切地與奧利那個簡單的方程式聯(lián)系在一
起。指責(zé)奧利的人仍然把他的思想看作是異端邪說,因?yàn)樗噲D把葡萄酒
的世界看得更清楚。他從不使用華麗的辭藻和毫無意義的術(shù)語,而是直接
說出預(yù)測的依據(jù)。第1章導(dǎo)讀案例葡萄酒的品質(zhì)分析整個葡萄酒產(chǎn)業(yè)毫不妥協(xié)不僅僅是在做表面文章。“葡萄酒經(jīng)銷
商及專欄作家只是不希望公眾知道奧利所做出的預(yù)測。”凱澤說,
“這一點(diǎn)從1986年的葡萄酒就已經(jīng)顯現(xiàn)出來了。奧利說品酒師們的評級是騙人的,因?yàn)槟且荒甑臍夂驅(qū)τ谄咸训纳L來說非常不利,雨水泛濫,氣溫也不夠高。但是當(dāng)時(shí)所有的專欄作家都言辭激烈地堅(jiān)持認(rèn)為那一年的酒會是好酒。事實(shí)證明奧利是對的,但是正確的觀點(diǎn)不一定總是受歡迎的。”第1章導(dǎo)讀案例葡萄酒的品質(zhì)分析葡萄酒經(jīng)銷商和專欄評論家們都能夠從維持自己在葡萄酒品質(zhì)方
面的信息壟斷者地位中受益。葡萄酒經(jīng)銷商利用長期高估的最初評
級來穩(wěn)定葡萄酒價(jià)格。《葡萄酒觀察家》和《葡萄酒愛好者》能否保持葡萄酒品質(zhì)的仲裁者地位,決定著上百萬資金的生死。很多人要謀生,就只能依賴于喝酒的人不相信這個方程式。也有跡象表明事情正在發(fā)生變化。倫敦克里斯蒂拍賣行國際酒品部主席邁克爾·布羅德本
特委婉地說:“很多人認(rèn)為奧利是個怪人,我也認(rèn)為他在很多方面的確很
怪。但是我發(fā)現(xiàn),他的思想和工作會在多年后依然留下光輝的痕跡。他所
做的努力對于打算買酒的人來說非常有幫助?!钡?章導(dǎo)讀案例葡萄酒的品質(zhì)分析目錄大數(shù)據(jù)基礎(chǔ)大數(shù)據(jù)的結(jié)構(gòu)類型大數(shù)據(jù)對分析的影響定性分析與定量分析12345四種數(shù)據(jù)分析方法6大數(shù)據(jù)分析的行業(yè)作用大數(shù)據(jù)基礎(chǔ)PART011.11.1大數(shù)據(jù)基礎(chǔ)信息社會所帶來的好處是顯而易見的:每個人口袋里都揣著一部手機(jī),每臺辦公桌上都放著一臺電腦,每間辦公室內(nèi)都連接到局域網(wǎng)或者互聯(lián)網(wǎng)。半個世紀(jì)以來,隨著計(jì)算機(jī)技術(shù)全面和深度地融入社會生活,信息爆炸已經(jīng)積累到了一個引發(fā)變革的程度。它不僅使世界充斥著比以往更多的信息,而且其增長速度也在加快。信息總量的變化還導(dǎo)致了信息形態(tài)的變化——量變引起了質(zhì)變。1.1大數(shù)據(jù)基礎(chǔ)如今,人們不再認(rèn)為數(shù)據(jù)是靜止和陳舊的。但在以前,一旦完成了收集數(shù)據(jù)的目的之后,數(shù)據(jù)就會被認(rèn)為已經(jīng)沒有用處了。比方說,在飛機(jī)降落之后,票價(jià)數(shù)據(jù)就沒有用了——設(shè)計(jì)人員如果沒有大數(shù)據(jù)的理念,就會丟失掉很多有價(jià)值的數(shù)據(jù)。數(shù)據(jù)已經(jīng)成為一種商業(yè)資本,一項(xiàng)重要的經(jīng)濟(jì)投入,可以創(chuàng)造新的經(jīng)濟(jì)利益。事實(shí)上,一旦思維轉(zhuǎn)變過來,數(shù)據(jù)就能被巧妙地用來激發(fā)新產(chǎn)品和新服務(wù)。今天,大數(shù)據(jù)是人們獲得新的認(rèn)知、創(chuàng)造新的價(jià)值的源泉,大數(shù)據(jù)還是
改變市場、組織機(jī)構(gòu)以及政府與公民關(guān)系的方法。
大數(shù)據(jù)時(shí)代對我們的生活和與世界交流的方式都提
出了挑戰(zhàn)。1.1.3廣義的大數(shù)據(jù)1.1.1定義大數(shù)據(jù)1.1.2大數(shù)據(jù)的3V特征大數(shù)據(jù)時(shí)代對我們的生活和與世界交流的方式都提出了挑戰(zhàn)。1.1大數(shù)據(jù)基礎(chǔ)1.1.1
定義大數(shù)據(jù)所謂大數(shù)據(jù),狹義上可以定義為:用現(xiàn)有的一般技術(shù)難以管理的大量數(shù)據(jù)的集合。這實(shí)際上是指用目前在企業(yè)數(shù)據(jù)庫占據(jù)主流地位的關(guān)系型數(shù)據(jù)庫無法進(jìn)行管理的、具有復(fù)雜結(jié)構(gòu)的數(shù)據(jù)。或者也可以說,是指由于數(shù)據(jù)量的增大,導(dǎo)致對數(shù)據(jù)的查詢響應(yīng)時(shí)間超出了允許的范圍。研究機(jī)構(gòu)加特納給出了這樣的定義:“大數(shù)據(jù)是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)?!?.1.1
定義大數(shù)據(jù)世界級領(lǐng)先的全球管理咨詢公司麥肯錫說:“大數(shù)據(jù)指的是所涉及的數(shù)據(jù)集規(guī)模已經(jīng)超過了傳統(tǒng)數(shù)據(jù)庫軟件獲取、存儲、營理和分析的能力。這是一個被故意設(shè)計(jì)成主觀性的定義,并且是一個關(guān)于多大的數(shù)據(jù)集才能被認(rèn)為是大數(shù)據(jù)的可變定義,即并不定義大于一個特定數(shù)字的TB才叫大數(shù)據(jù)。因?yàn)殡S著技術(shù)的不斷發(fā)展,符合大數(shù)據(jù)標(biāo)準(zhǔn)的數(shù)據(jù)集容量也會增長;并且定義隨不同的行業(yè)也有變化,這依賴于在一個特定行業(yè)通常使用何種軟件和數(shù)據(jù)集有多大。因此,大數(shù)據(jù)在今天不同行業(yè)中的范圍可以從幾十TB到幾PB。”隨著“大數(shù)據(jù)”的出現(xiàn),數(shù)據(jù)倉庫、數(shù)據(jù)安全、數(shù)據(jù)分析、數(shù)據(jù)挖掘等圍繞大數(shù)據(jù)商業(yè)價(jià)值的利用正逐漸成為行業(yè)人士爭相追捧的利潤焦點(diǎn),在全球引領(lǐng)了又一輪數(shù)據(jù)技術(shù)革新的浪潮。1.1.2
大數(shù)據(jù)的3V特征從字面上看,“大數(shù)據(jù)”這個詞可能會讓人覺得只是容量非常大的數(shù)據(jù)集合而已,但容量只不過是大數(shù)據(jù)特征的一個方面,如果只拘泥于數(shù)據(jù)量,就無法深入理解當(dāng)前圍繞大數(shù)據(jù)所進(jìn)行的討論。因?yàn)椤坝矛F(xiàn)有的一般技術(shù)難以管理”這樣的狀況,并不僅僅是由于數(shù)據(jù)量增大這一個因素所造成的。IBM說:“可以用3個特征相結(jié)合來定義
大數(shù)據(jù):數(shù)量(Volume,或稱容量)、
種類(Variety,或稱多樣性)和速度
(Velocity),或者就是簡單的3V,
即龐大容量、極快速度和種類豐富的數(shù)
據(jù)。”1.1.2
大數(shù)據(jù)的3V特征(1)Volume(數(shù)量)。用現(xiàn)有技術(shù)無法管理的數(shù)據(jù)量,從現(xiàn)狀來看,基本上是指從幾十TB到幾PB這樣的數(shù)量級。當(dāng)然,隨著技術(shù)的進(jìn)步,這個數(shù)值也會不斷變化。如今,存儲的數(shù)據(jù)量在急劇增長中,我們存儲所有事物,包括環(huán)境數(shù)據(jù)、財(cái)務(wù)數(shù)據(jù)、醫(yī)療數(shù)據(jù)、監(jiān)控?cái)?shù)據(jù)等等,數(shù)據(jù)量不可避免地會轉(zhuǎn)向ZB級別??墒?,隨著可供企業(yè)使用的數(shù)據(jù)量不斷增長,可處理、理解和分析的數(shù)據(jù)的比例卻不斷在下降。1.1.2
大數(shù)據(jù)的3V特征(2)Variety(種類、多樣性)。隨著傳感器、智能設(shè)備以及社交協(xié)作技術(shù)的激增,企業(yè)中的數(shù)據(jù)也變得更加復(fù)雜,因?yàn)樗粌H包含傳統(tǒng)的關(guān)系型數(shù)據(jù),還包含來自網(wǎng)頁、互聯(lián)網(wǎng)日志文件(包括流數(shù)據(jù))、搜索索引、社交媒體、電子郵件、文檔、主動和被動系統(tǒng)的傳感器數(shù)據(jù)等原始、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。種類表示所有的數(shù)據(jù)類型。其中,爆發(fā)式增長的一些數(shù)據(jù),如互聯(lián)網(wǎng)上的文本數(shù)據(jù)、位置信息、傳感器數(shù)據(jù)、視頻數(shù)據(jù)等,用目前企業(yè)主流的關(guān)系型數(shù)據(jù)庫是很難存儲的,它們都屬于非結(jié)構(gòu)化數(shù)據(jù)。1.1.2
大數(shù)據(jù)的3V特征當(dāng)然,這些數(shù)據(jù)中有些是過去就一直存在并保存下來的。和過去不同的是,除了存儲,還需要對這些大數(shù)據(jù)進(jìn)行分析,并從中獲得有用的信息。例如監(jiān)控?cái)z像機(jī)中的視頻數(shù)據(jù),超市、便利店等零售企業(yè)幾乎都配備了監(jiān)控?cái)z像機(jī),最初目的是為了防范盜竊,但現(xiàn)在也出現(xiàn)了使用視頻數(shù)據(jù)來分析顧客購買行為的案例。例如,美國高級文具制造商萬寶龍過去是憑經(jīng)驗(yàn)和直覺來決定商品陳列布局的,現(xiàn)在嘗試?yán)帽O(jiān)控?cái)z像頭對顧客在店內(nèi)的行為進(jìn)行分析。通過分析監(jiān)控?cái)z像數(shù)據(jù),將最想賣出去的商品移動到最容易吸引顧客目光的位置,使得銷售額提高了20%。1.1.2
大數(shù)據(jù)的3V特征美國移動運(yùn)營商T-Mobile也在其全美1000家店中安裝了帶視頻分析功能的監(jiān)控?cái)z像機(jī),可以統(tǒng)計(jì)來店人數(shù),還可以追蹤顧客在店內(nèi)的行動路線、在展臺前停留的時(shí)間,甚至是試用了哪一款手機(jī)、試用了多長時(shí)間等,對顧客在店內(nèi)的購買行為進(jìn)行分析。1.1.2
大數(shù)據(jù)的3V特征(3)Velocity(速度)。數(shù)據(jù)產(chǎn)生和更新的頻率也是衡量大數(shù)據(jù)的一個重要特征。就像我們收集和存儲的數(shù)據(jù)量和種類發(fā)生了變化一樣,生成和需要處理數(shù)據(jù)的速度也在變化。這里,速度的概念不僅是與數(shù)據(jù)存儲相關(guān)的增長速率,還應(yīng)該動態(tài)地應(yīng)用到數(shù)據(jù)流動的速度上。有效地處理大數(shù)據(jù),需要在數(shù)據(jù)變化的過程中對它的數(shù)量和種類執(zhí)行分析,而不只是在它靜止后執(zhí)行分析。例如,遍布全國的各種便利店在24小時(shí)內(nèi)產(chǎn)生的POS機(jī)數(shù)據(jù),電商網(wǎng)站中由用戶訪問所產(chǎn)生的網(wǎng)站點(diǎn)擊流數(shù)據(jù),高峰時(shí)達(dá)到每秒近萬條的微信短文,全國公路上安裝的交通探測傳感器和路面狀況傳感器(可檢測結(jié)冰、積雪等路面狀態(tài))等,每天都在產(chǎn)生著龐大的數(shù)據(jù)。1.1.2
大數(shù)據(jù)的3V特征在3V的基礎(chǔ)上,IBM又歸納總結(jié)了第四個V——Veracity(真實(shí)和準(zhǔn)確)?!爸挥姓鎸?shí)而準(zhǔn)確的數(shù)據(jù)才能讓對數(shù)據(jù)的管控和治理真正有意義。隨著新數(shù)據(jù)源的興起,傳統(tǒng)數(shù)據(jù)源的局限性被打破,企業(yè)愈發(fā)需要有效的信息治理以確保其真實(shí)性及安全性?!?.1.2
大數(shù)據(jù)的3V特征互聯(lián)網(wǎng)數(shù)據(jù)中心IDC說:“大數(shù)據(jù)是一個貌似不知道從哪里冒出來的大的動力。但是實(shí)際上,大數(shù)據(jù)并不是新生事物。然而,它確實(shí)正在進(jìn)入主流并得到重大關(guān)注,這是有原因的。廉價(jià)的存儲、傳感器和數(shù)據(jù)采集技術(shù)的快速發(fā)展、通過云和虛擬化存儲設(shè)施增加的信息鏈路,以及創(chuàng)新軟件和分析工具,正在驅(qū)動著大數(shù)據(jù)。大數(shù)據(jù)不是一個‘事物’,而是一個跨多個信息技術(shù)領(lǐng)域的動力/活動。大數(shù)據(jù)技術(shù)描述了新一代的技術(shù)和架構(gòu),它被設(shè)計(jì)用于:通過使用高速(Velocity)的采集、發(fā)現(xiàn)和/或分析,從超大容量(Volume)的多樣(Variety)數(shù)據(jù)中經(jīng)濟(jì)地提取價(jià)值(Value)?!边@個定義除了揭示大數(shù)據(jù)傳統(tǒng)的3V基本特征,即大數(shù)據(jù)量、多樣性和高速,還增添了一個新特征:價(jià)值。1.1.2
大數(shù)據(jù)的3V特征總之,大數(shù)據(jù)是個動態(tài)的定義,不同行業(yè)根據(jù)其應(yīng)用的不同有著不同的理解,其衡量標(biāo)準(zhǔn)也在隨著技術(shù)的進(jìn)步而改變。1.1.3
廣義的大數(shù)據(jù)大數(shù)據(jù)的狹義定義著眼點(diǎn)在數(shù)據(jù)的性質(zhì)上,我們從廣義層面上再為大數(shù)據(jù)下一個定義:“所謂‘大數(shù)據(jù)’是一個綜合性概念,它包括因具備3V(Volume/Variety/Velocity,數(shù)量/品種/速度)特征而難以進(jìn)行管理的數(shù)據(jù),對這
些數(shù)據(jù)進(jìn)行存儲、處理、分析的技術(shù),以及能夠通過分析這些數(shù)據(jù)獲得實(shí)用意義和觀點(diǎn)的人才和組織?!?/p>
廣義的大數(shù)據(jù)1.1.3
廣義的大數(shù)據(jù)“存儲、處理、分析的技術(shù)”指的是用于大規(guī)模數(shù)據(jù)分布式處理的框架Hadoop、具備良好擴(kuò)展性的NoSQL數(shù)據(jù)庫,以及機(jī)器學(xué)習(xí)和統(tǒng)計(jì)分析等;“能夠通過分析這些數(shù)據(jù)獲得實(shí)用意義和觀點(diǎn)的人才和組織”,指的是目前十分緊俏的“數(shù)據(jù)科學(xué)家”這類人才以及能夠?qū)Υ髷?shù)據(jù)進(jìn)行有效運(yùn)用的組織。大數(shù)據(jù)的結(jié)構(gòu)類型PART021.21.2大數(shù)據(jù)析的結(jié)構(gòu)類型數(shù)據(jù)量大是大數(shù)據(jù)的一致特征。由于數(shù)據(jù)自身的復(fù)雜性,作為一個必然的結(jié)果,處理大數(shù)據(jù)的首選方法是在并行計(jì)算的環(huán)境中進(jìn)行大規(guī)模并行處理(MassivelyParallelProcessing,MPP),這使得同時(shí)發(fā)生的并行攝取、并行數(shù)據(jù)裝載和分析成為可能。實(shí)際上,大多數(shù)的大數(shù)據(jù)都是非結(jié)構(gòu)化或半結(jié)構(gòu)化的,需要不同的技術(shù)和工具來處理和分析。1.2大數(shù)據(jù)的結(jié)構(gòu)類型大數(shù)據(jù)最突出的特征是它的結(jié)構(gòu)。下圖顯示了幾種不同數(shù)據(jù)結(jié)構(gòu)類型數(shù)據(jù)的增長趨勢,由圖可知,未來數(shù)據(jù)增長的80%~90%將來自于不是結(jié)構(gòu)化的數(shù)據(jù)類型(半、準(zhǔn)和非結(jié)構(gòu)化)。
數(shù)據(jù)增長日益趨向非結(jié)構(gòu)化1.2大數(shù)據(jù)的結(jié)構(gòu)類型實(shí)際上,有時(shí)這4種不同的、相分離的數(shù)據(jù)類型是可以被混合在一起的。例如,一個傳統(tǒng)的關(guān)系數(shù)據(jù)庫管理系統(tǒng)保存著一個軟件支持呼叫中心的通話日志,這里有典型的結(jié)構(gòu)化數(shù)據(jù),比如日期/時(shí)間戳、機(jī)器類型、問題類型、操作系統(tǒng),這些都是在線支持人員通過圖形用戶界面上的下拉式菜單輸入的。另外,還有非結(jié)構(gòu)化數(shù)據(jù)或半結(jié)構(gòu)化數(shù)據(jù),比如自由形式的通話日志信息,這些可能來自包含問題的電子郵件,或者技術(shù)問題和解決方案的實(shí)際通話描述。另外一種可能是與結(jié)構(gòu)化數(shù)據(jù)有關(guān)的實(shí)際通話的語音日志或者音頻文字實(shí)錄。即使是現(xiàn)在,大多數(shù)分析人員還無法分析這種通話日志歷史數(shù)據(jù)庫中的最普通和高度結(jié)構(gòu)化的數(shù)據(jù),因?yàn)橥诰蛭谋拘畔⑹且豁?xiàng)強(qiáng)度很大的工作,并且無法簡單地實(shí)現(xiàn)自動化。1.2大數(shù)據(jù)的結(jié)構(gòu)類型人們通常最熟悉結(jié)構(gòu)化數(shù)據(jù)的分析,然而,半結(jié)構(gòu)化數(shù)據(jù)(XML)、“準(zhǔn)”結(jié)構(gòu)化數(shù)據(jù)(網(wǎng)站地址字符串)和非結(jié)構(gòu)化數(shù)據(jù)代表了不同的挑戰(zhàn),需要不同的技術(shù)來分析。除了三種基本的數(shù)據(jù)類型以外,還有一種重要的數(shù)據(jù)類型為元數(shù)據(jù)。元數(shù)據(jù)提供了一個數(shù)據(jù)集的特征和結(jié)構(gòu)信息,這種數(shù)據(jù)主要由機(jī)器生成并且能夠添加到數(shù)據(jù)集中。搜尋元數(shù)據(jù)對于大數(shù)據(jù)存儲、處理和分析是至關(guān)重要的一步,因?yàn)樗峁┝藬?shù)據(jù)系譜信息以及數(shù)據(jù)處理的起源。元數(shù)據(jù)的例子包括:·XML文件中提供作者和創(chuàng)建日期信息的標(biāo)簽;·數(shù)碼照片中提供文件大小和分辨率的屬性文件。大數(shù)據(jù)對分析的影響PART031.31.3大數(shù)據(jù)對分析的影響大數(shù)據(jù)技術(shù)已經(jīng)改變了數(shù)據(jù)分析的現(xiàn)狀,并且需要一個新的方法——就是我們所說的“現(xiàn)代分析”?!按髷?shù)據(jù)分析”在很多情況下又稱為“大數(shù)據(jù)預(yù)測分析”。數(shù)據(jù)分析是數(shù)據(jù)處理流程的核心,因?yàn)閿?shù)據(jù)中所蘊(yùn)藏的價(jià)值就產(chǎn)生于分析的過程,它和以往數(shù)據(jù)分析最重要的差別在于數(shù)據(jù)量的急劇增長,也正因?yàn)榇?,使得對于?shù)據(jù)的存儲、查詢以及分析的要求迅速提高。1.3.2大數(shù)據(jù)分析的定義1.3.1大數(shù)據(jù)的影響數(shù)據(jù)分析是數(shù)據(jù)處理流程的核心,因?yàn)閿?shù)據(jù)中所蘊(yùn)藏的價(jià)值就產(chǎn)生于分析的過程,它和以往數(shù)據(jù)分析最重要的差別在于數(shù)據(jù)量的急劇增長,。1.3大數(shù)據(jù)對分析的影響1.3.1
大數(shù)據(jù)的影響大數(shù)據(jù)有多“大”?就分析而言,我們?yōu)榇髷?shù)據(jù)下一個不同的定義:如果數(shù)據(jù)滿足以下任何一個條件,那么就視其為大數(shù)據(jù):(1)分析數(shù)據(jù)集非常大,以至于無法匹配到單臺機(jī)器的內(nèi)存中。(2)分析數(shù)據(jù)集非常大,以至于無法移到一個傳統(tǒng)的專用分析平臺上。(3)分析的源數(shù)據(jù)存儲在一個大數(shù)據(jù)存儲庫中,例如Hadoop、MPP數(shù)據(jù)庫、NoSQL數(shù)據(jù)庫或者NewSQL數(shù)據(jù)庫。1.3.1
大數(shù)據(jù)的影響大數(shù)據(jù)所具有的特性使其在“數(shù)據(jù)規(guī)?!薄皵?shù)據(jù)類型多樣性”“響應(yīng)速度”等方面影響著大數(shù)據(jù)的分析過程。當(dāng)分析師在矩陣或者表格中處理結(jié)構(gòu)化數(shù)據(jù)時(shí),“數(shù)量”意味著更多的行、更多的列或者兩者都有。分析師日常使用隨機(jī)采樣記錄的數(shù)據(jù)集,包含數(shù)以百萬計(jì)甚至數(shù)以億計(jì)的行,然后使用樣本來訓(xùn)練和驗(yàn)證預(yù)測模型。如果目標(biāo)是為總體建立單個預(yù)測模型,建模行為的發(fā)生率相對較高而且在總體中發(fā)生較為均勻,采樣的效果會非常好。但是,使用現(xiàn)代分析技術(shù),采樣變成了一個可選擇的方法,不會因?yàn)橛?jì)算資源有限而成為分析師必須使用的方法。1.3.1
大數(shù)據(jù)的影響將更多的行加入分析數(shù)據(jù)集中,會對分析產(chǎn)生截然不同的影響。改善預(yù)測模型效果最有效的方法是加入具有信息價(jià)值的新變量,但是你不會總是事先知道什么變量將給一個模型增加價(jià)值。這意味著,當(dāng)增加一個量到一個分析數(shù)據(jù)集中,需要工具來使分析師能夠很快瀏覽眾多變量,進(jìn)而找到那些能夠給預(yù)測模型增加價(jià)值的變量。有多個行和列也意味著有更多的方法來確定一個預(yù)測模型。例如,一個應(yīng)答指標(biāo)和五個預(yù)測因子的分析數(shù)據(jù)集——一個在任何標(biāo)準(zhǔn)下都算小的數(shù)據(jù)集。五個預(yù)測因子有29個特定組合作為主要影響,如果考慮到預(yù)測因子的相互作用和各種轉(zhuǎn)換,將會有許多其他可能的模型形式??赡艿哪P托问降臄?shù)量會隨著變量的增加而爆炸性增長,那些能使分析師有效搜索到最佳模型的方法和技術(shù)就會非常有用。1.3.1
大數(shù)據(jù)的影響“種類”意味著所處理的數(shù)據(jù)不是矩陣或表格形式的結(jié)構(gòu)化數(shù)據(jù)。本質(zhì)上,這不是新的,分析師已經(jīng)處理許多不同格式的數(shù)據(jù)多年,而文本挖掘也是一個成熟的領(lǐng)域。大數(shù)據(jù)趨勢下帶來的最重要的變化是分析數(shù)據(jù)存儲中非結(jié)構(gòu)化格式的大規(guī)模應(yīng)用,以及越來越多的人認(rèn)識到非結(jié)構(gòu)化數(shù)據(jù)——網(wǎng)絡(luò)日志、醫(yī)療服務(wù)提供者記錄、社會媒體評論等,為預(yù)測建模提供了顯著的價(jià)值。這意味著分析師規(guī)劃和建立公司分析架構(gòu)工具時(shí)必須考慮非結(jié)構(gòu)數(shù)據(jù)。1.3.1
大數(shù)據(jù)的影響“速度”在兩個方面影響著預(yù)測分析:數(shù)據(jù)源和目標(biāo)。分析師處理流數(shù)據(jù),例如賽車的遙測或者醫(yī)院ICU監(jiān)控設(shè)備的實(shí)時(shí)反饋,必須使用特殊的技術(shù)來采樣和觀測數(shù)據(jù)流,這些技術(shù)將連續(xù)的流轉(zhuǎn)換成一個獨(dú)立的時(shí)間序列以便于分析。當(dāng)分析師試圖對流數(shù)據(jù)應(yīng)用預(yù)測分析時(shí),例如在一個實(shí)時(shí)評分中,大多數(shù)組織在對單個交易進(jìn)行評分時(shí)將會使用一個能夠提供實(shí)時(shí)響應(yīng)的高性能決策引擎。1.3.2
大數(shù)據(jù)分析的定義大數(shù)據(jù)是一個含義廣泛的術(shù)語,是如此龐大而復(fù)雜的,需要專門設(shè)計(jì)的硬件和軟件工具進(jìn)行處理的大數(shù)據(jù)集。這些數(shù)據(jù)集收集自各種各樣的來源:傳感器,氣象信息,公開信息如雜志、報(bào)紙、文章等等。大數(shù)據(jù)產(chǎn)生的其他例子包括購買交易記錄、網(wǎng)絡(luò)日志、病歷、監(jiān)控、視頻和圖像檔案以及大型電子商務(wù)。傳統(tǒng)批處理數(shù)據(jù)分析的典型場景是這樣的:在整個數(shù)據(jù)集準(zhǔn)備好后,在整體中進(jìn)行統(tǒng)計(jì)抽樣。然而,出于理解流式數(shù)據(jù)的需求,大數(shù)據(jù)可以從批處理轉(zhuǎn)換成實(shí)時(shí)處理。這些流式數(shù)據(jù)、數(shù)據(jù)集不停地積累,并且以時(shí)間順序排序。由于分析結(jié)果有存儲期(保質(zhì)期),流式數(shù)據(jù)強(qiáng)調(diào)及時(shí)處理,無論是識別向當(dāng)前客戶繼續(xù)銷售的機(jī)會,還是在工業(yè)環(huán)境中發(fā)覺異常情況后需要進(jìn)行干預(yù)以保護(hù)設(shè)備或保證產(chǎn)品質(zhì)量,時(shí)間都是至關(guān)重要的。1.3.2
大數(shù)據(jù)分析的定義在不同行業(yè)中,那些專門從事行業(yè)數(shù)據(jù)的搜集、對收集的數(shù)據(jù)進(jìn)行整理、對整理的數(shù)據(jù)進(jìn)行深度分析,并依據(jù)數(shù)據(jù)分析結(jié)果做出行業(yè)的研究、評估、洞察和預(yù)測的工作被稱為數(shù)據(jù)分析。所謂大數(shù)據(jù)分析,是指用適當(dāng)?shù)姆椒▽κ占瘉淼拇罅繑?shù)據(jù)進(jìn)行分析,提取有用信息和形成結(jié)論,從而對數(shù)據(jù)加以詳細(xì)研究和概括總結(jié)的過程。或者,顧名思義,大數(shù)據(jù)分析是指對規(guī)模巨大的數(shù)據(jù)進(jìn)行分析。大數(shù)據(jù)分析是大數(shù)據(jù)到信息,再到知識的關(guān)鍵步驟。如果分析者熟悉行業(yè)知識、公司業(yè)務(wù)及流程,對自己的工作內(nèi)容有一定的了解,比如熟悉行業(yè)認(rèn)知和公司業(yè)務(wù)背景,這樣的分析結(jié)果就會有很大的使用價(jià)值。1.3.2
大數(shù)據(jù)分析的定義大數(shù)據(jù)分析結(jié)合了傳統(tǒng)統(tǒng)計(jì)分析方法和數(shù)據(jù)分析方法,在研究大量數(shù)據(jù)的過程中尋找有價(jià)值的模式和信息模式,用量化的方式幫助決策者做出更明智的決策以更好地適應(yīng)變化。首先,我們要列出搭建數(shù)據(jù)分析框架的要求,比如確定分析思路就需要用到營銷、管理等理論知識;另一方面是針對數(shù)據(jù)分析結(jié)論提出有指導(dǎo)意義的分析建議。能夠掌握數(shù)據(jù)分析基本原理與一些有效的數(shù)據(jù)分析方法,并能靈活運(yùn)用到實(shí)踐工作中,這對于開展數(shù)據(jù)分析起著至關(guān)重要的作用。數(shù)據(jù)分析方法是理論,而數(shù)據(jù)分析工具就是實(shí)現(xiàn)數(shù)據(jù)分析方法理論的工具,面對越來越龐大的數(shù)據(jù),必須依靠強(qiáng)大的數(shù)據(jù)分析工具幫我們完成數(shù)據(jù)分析工作。1.3.2
大數(shù)據(jù)分析的定義(1)數(shù)據(jù)分析可以讓人們對數(shù)據(jù)產(chǎn)生更加優(yōu)質(zhì)的詮釋,而具有預(yù)知意義的分析可以讓分析者根據(jù)可視化分析和數(shù)據(jù)分析后的結(jié)果做出一些預(yù)測性的推斷。(2)大數(shù)據(jù)的分析與存儲和數(shù)據(jù)的管理是一些數(shù)據(jù)分析層面的最佳實(shí)踐。通過規(guī)范的流程和工具對數(shù)據(jù)進(jìn)行分析,可以保證一個預(yù)先定義好的高質(zhì)量的分析結(jié)果。(3)不管使用者是數(shù)據(jù)分析領(lǐng)域中的專家還是普通的用戶,作為數(shù)據(jù)分析工具的數(shù)據(jù)可視化可以直觀地展示數(shù)據(jù),讓數(shù)據(jù)自己表達(dá),讓客戶在交互中獲得理想的結(jié)果。(4)只有經(jīng)過分析的數(shù)據(jù)才能對用戶產(chǎn)生重要的價(jià)值,所以大數(shù)據(jù)的分析方式在IT領(lǐng)域顯得格外重要,是決定最終信息是否有價(jià)值的決定性因素。定性分析與定量分析PART041.41.4定性分析與定量分析定性分析與定量分析都是一種數(shù)據(jù)分析技術(shù)。其中,定性分析專注于用語言描述不同數(shù)據(jù)的質(zhì)量。與定量分析相對比,定性分析涉及分析相對小而深入的樣本。由于樣本很小,這些分析結(jié)果不能適用于整個數(shù)據(jù)集,它們也不能測量數(shù)值或用于數(shù)值比較。例如,冰激凌銷量分析可能揭示了五月份銷量圖不像六月份一樣高。分析結(jié)果僅僅說明了“不像它一樣高”,而并未提供數(shù)字偏差。定性分析的結(jié)果是描述性的,即用語言對關(guān)系的描述。1.4定性分析與定量分析定量分析專注于量化從數(shù)據(jù)中發(fā)現(xiàn)的模式和關(guān)聯(lián)?;诮y(tǒng)計(jì)方法,這項(xiàng)技術(shù)涉及大量從數(shù)據(jù)集中得到的觀測結(jié)果。定量分析結(jié)果是絕對數(shù)值型的,因此可以被用在數(shù)值比較上。例如,對于冰激凌銷量的定量分析可能發(fā)現(xiàn):溫度上升5度,冰激凌銷量提升15%。1.4定性分析與定量分析此外,關(guān)鍵績效指標(biāo)(KPI)也是一種用來衡量一次業(yè)務(wù)過程是否成功的度量標(biāo)準(zhǔn)。它與企業(yè)整體的戰(zhàn)略目標(biāo)和任務(wù)相聯(lián)系。同時(shí),它常常用來識別經(jīng)營業(yè)績中的一些問題,以及闡釋一些執(zhí)行標(biāo)準(zhǔn)。因此,KPI通常是一個測量企業(yè)整體績效的特定方面的定量參考指標(biāo)。KPI常常通過專門的儀表板顯示。儀表板將多個
關(guān)鍵績效指標(biāo)聯(lián)合起來展示,并且將實(shí)測值與關(guān)鍵績
效指標(biāo)閾值相比較。圖1-7醫(yī)院服務(wù)綜合KPI四種數(shù)據(jù)分析方法PART051.51.5四種數(shù)據(jù)分析方法數(shù)據(jù)分析是一個通過處理數(shù)據(jù),從中發(fā)現(xiàn)一些深層知識、模式、關(guān)系或是趨勢的過程,它的總體目標(biāo)是做出更好的決策。通過數(shù)據(jù)分析,可以對分析過的數(shù)據(jù)建立起關(guān)系與模式。數(shù)據(jù)分析學(xué)是一個包含數(shù)據(jù)分析,且比數(shù)據(jù)分析更為寬泛的概念,這門學(xué)科涵蓋了對整個數(shù)據(jù)生命周期的管理,而數(shù)據(jù)生命周期包含了數(shù)據(jù)采集、數(shù)據(jù)存儲、數(shù)據(jù)傳輸、數(shù)據(jù)加工、數(shù)據(jù)利用、數(shù)據(jù)銷毀等過程。此外,數(shù)據(jù)分析學(xué)還包括數(shù)據(jù)分析用到的相關(guān)理論、方法、模型、技術(shù)和工具。在大數(shù)據(jù)環(huán)境下,數(shù)據(jù)分析學(xué)發(fā)展了數(shù)據(jù)分析在高度可擴(kuò)展的、分布式技術(shù)和框架中的應(yīng)用,使之有能力處理大量的來自不同信息源的數(shù)據(jù)。1.5四種數(shù)據(jù)分析方法不同的行業(yè)會以不同的方式使用大數(shù)據(jù)分析工具和技術(shù),例如:·在商業(yè)組織中,利用大數(shù)據(jù)的分析結(jié)果能降低運(yùn)營開銷,有助于優(yōu)化決策?!ぴ诳蒲蓄I(lǐng)域,大數(shù)據(jù)分析能夠確認(rèn)一個現(xiàn)象的起因,并且能基于此提出更為精確的預(yù)測?!ぴ诜?wù)業(yè)領(lǐng)域,比如公眾行業(yè),大數(shù)據(jù)分析有助于人們以更低的開銷提供更好的服務(wù)。1.5四種數(shù)據(jù)分析方法大數(shù)據(jù)分析使得決策有了科學(xué)基礎(chǔ),現(xiàn)在做決策可以基于實(shí)際的數(shù)據(jù)而不僅僅依賴于過去的經(jīng)驗(yàn)或者直覺。根據(jù)分析結(jié)果的不同,我們大致可以將分析歸為4類,即描述性分析、診斷性分析、預(yù)測性分析和規(guī)范性分析。不同的分析類型需要不同的技術(shù)和分析算法,這意味著在傳遞多種類型的分析結(jié)果的時(shí)候,可能會有大量不同的數(shù)據(jù)、存儲、處理要求,生成的高質(zhì)量分析結(jié)果將加大分析環(huán)境的復(fù)雜性和開銷。每一種分析方法都對業(yè)務(wù)分析具有很大的幫助,同時(shí)也應(yīng)用在數(shù)據(jù)分析的各個方面。圖1-8四種數(shù)據(jù)分析方法的價(jià)值和復(fù)雜性不斷提升1.5.3預(yù)測性分析1.5.1描述性分析1.5.4規(guī)范性分析1.5.2診斷性分析大數(shù)據(jù)分析使得決策有了科學(xué)基礎(chǔ),現(xiàn)在做決策可以基于實(shí)際的數(shù)據(jù)而不僅僅依賴于過去的經(jīng)驗(yàn)或者直覺。1.5四種數(shù)據(jù)分析方法1.5.1
描述性分析描述性分析是最常見的分析方法,是探索歷史數(shù)據(jù)并描述發(fā)生了什么,是對已經(jīng)發(fā)生的事件進(jìn)行問答和總結(jié)。這一層次包括對數(shù)據(jù)的總體統(tǒng)計(jì)規(guī)律(如總體分布的相關(guān)信息)進(jìn)行數(shù)量或可視化展示,為數(shù)據(jù)分析師提供了重要指標(biāo)和業(yè)務(wù)的衡量方法。這種形式的分析需要將數(shù)據(jù)置于生成信息的上下文中考慮,例如每月的營收和損失賬單,分析師可以通過這些賬單,獲取大量的客戶數(shù)據(jù)。如下
圖中可以明確地看到哪些商品的銷售達(dá)到了銷
售量預(yù)期。利用可視化工具,能夠有效地增強(qiáng)
描述型分析所提供的信息。
圖1-9各產(chǎn)品銷售量統(tǒng)計(jì)表預(yù)警圖1.5.1
描述性分析相關(guān)問題可能包括:·過去12個月的銷售量如何?·根據(jù)事件嚴(yán)重程度和地理位置分類,收到的求助電話的數(shù)量如何?·每一位銷售經(jīng)理的月銷售額是多少?據(jù)估計(jì),生成的分析結(jié)果80%都是自然可描述的。描述性分析提供的價(jià)值較低,但也只需要相對基礎(chǔ)的訓(xùn)練集。1.5.1
描述性分析進(jìn)行描述性分析常常借助OLTP(聯(lián)機(jī)事務(wù)處理過程)、CRM(客戶關(guān)系管理系統(tǒng))、ERP(企業(yè)資源規(guī)劃系統(tǒng))等信息系統(tǒng),經(jīng)過描述性分析工具的處理生成即席報(bào)表或者數(shù)據(jù)儀表板。報(bào)表常常是靜態(tài)的,并且是以數(shù)據(jù)表格或圖表形式呈現(xiàn)的歷史數(shù)據(jù)。查詢處理往往基于企業(yè)內(nèi)部存儲的可操作數(shù)據(jù),例如CRM或者ERP。1.5.2
診斷性分析診斷性分析旨在尋求一個已發(fā)生事件的發(fā)生原因。這類分析通過評估描述性數(shù)據(jù),利用診斷分析工具讓數(shù)據(jù)分析師深入分析數(shù)據(jù),鉆取數(shù)據(jù)核心。其目標(biāo)是通過獲取一些與事件相關(guān)的信息來回答有關(guān)的問題,最后得出事件發(fā)生的原因。相關(guān)的問題可能包括:·為什么Q2商品比Q1賣得多?·為什么來自東部地區(qū)的求助電話比來自西部地區(qū)的要多?·為什么最近三個月內(nèi)病人再入院的比率有所提升?1.5.2
診斷性分析診斷性分析是基于分析處理系統(tǒng)中的多維數(shù)據(jù)進(jìn)行的。與描述性分析相比,診斷性分析的查詢處理更加復(fù)雜,它比描述性分析提供了更加有價(jià)值的信息,但同時(shí)也要求更加高級的訓(xùn)練集。診斷性分析常常需要從不同信息源搜集數(shù)據(jù),并以一種易于進(jìn)行下鉆和上卷分析的結(jié)構(gòu)加以保存。診斷性分析的結(jié)果可以由交互式可視化界面顯示,讓用戶能夠清晰地了解模式與趨勢。良好設(shè)計(jì)的BI儀表板能夠整合信息,按照時(shí)間序列進(jìn)行數(shù)據(jù)讀入、特征過濾和鉆取數(shù)據(jù)等功能,以便更好地分析數(shù)據(jù)。例如從“銷售控制臺”圖中可以分析出“區(qū)域銷售構(gòu)成”“客戶分布情況”“產(chǎn)品類別構(gòu)成”和“預(yù)算完成情況”等信息。1.5.3
預(yù)測性分析預(yù)測性分析用于預(yù)測未來的概率和趨勢,例如基于邏輯回歸的預(yù)測、基于分類器的預(yù)測等。預(yù)測性分析預(yù)測事件未來發(fā)生的可能性、預(yù)測一個可量化的值,或者是預(yù)估事情發(fā)生的時(shí)間點(diǎn),這些都可以通過預(yù)測模型來完成。通過預(yù)測性分析,可以獲得參與建模的條件變量和目標(biāo)變量的映射規(guī)律,以及條件變量對于目標(biāo)變量的影響力和重要程度。這種影響力和重要程度構(gòu)成了基于過去事件對未來進(jìn)行預(yù)測的模型的基礎(chǔ)。通常,這些用于預(yù)測性分析的模型與過去已經(jīng)發(fā)生的事件的潛在條件是隱式相關(guān)的,如果這些潛在的條件改變了,那么用于預(yù)測性分析的模型也需要進(jìn)行更新。1.5.3
預(yù)測性分析預(yù)測模型通常會使用各種可變數(shù)據(jù)來實(shí)現(xiàn)預(yù)測。數(shù)據(jù)成員的多樣化與預(yù)測結(jié)果密切相關(guān)。在充滿不確定性的環(huán)境下,預(yù)測能夠幫助做出更好的決定。預(yù)測模型也是很多領(lǐng)域正在使用的重要方法。如下圖中的“銷售額和銷售量”,可以分析出全面的銷售量和銷售額基本呈上升趨勢,借此可推斷下一年的基本銷售趨勢。圖1-10預(yù)測基本銷售趨勢1.5.3
預(yù)測性分析預(yù)測性分析提出的問題常常以假設(shè)的形式出現(xiàn),例如:·離散型的,如銀行客戶風(fēng)險(xiǎn)等級預(yù)測;·連續(xù)型的,如國家外匯儲備預(yù)測。預(yù)測性分析嘗試著基于模式、趨勢以及來自于歷史數(shù)據(jù)和當(dāng)前數(shù)據(jù)的期望,來預(yù)測事件的結(jié)果,這將讓我們能夠分辨風(fēng)險(xiǎn)與機(jī)遇。這種類型的分析涉及包含外部數(shù)據(jù)和內(nèi)部數(shù)據(jù)的大數(shù)據(jù)集以及多種分析方法。與描述性分析和診斷性分析相比,這種分析顯得更有價(jià)值,同時(shí)也要求更加高級的訓(xùn)練集。1.5.4
規(guī)范性分析規(guī)范性分析建立在預(yù)測性分析的結(jié)果之上,基于對“發(fā)生了什么”、“為什么會發(fā)生”和“可能發(fā)生什么”的分析,規(guī)范需要執(zhí)行的行動,幫助用戶決定應(yīng)該采取什么措施。規(guī)范性分析根據(jù)期望的結(jié)果、特定場景、資源以及對過去和當(dāng)前事件的了解對未來的決策給出建議,例如基于模擬的復(fù)雜系統(tǒng)分析和基于給定約束的優(yōu)化解生成。規(guī)范性分析通常不會單獨(dú)使用,而是在前面方法都完成之后,最后需要完成的分析方法。它注重的不僅是哪項(xiàng)操作最佳,還包括了其原因。換句話說,規(guī)范性分析提供了經(jīng)得起質(zhì)詢的結(jié)果,因?yàn)樗鼈兦度肓饲榫忱斫獾脑?。因此,這種分析常常用來建立優(yōu)勢或者降低風(fēng)險(xiǎn)。1.5.4
規(guī)范性分析例如,交通規(guī)劃分析考量了每條路線的距離、每條線路的行駛速度、以及目前的交通管制等方面因素,來幫助選擇最好的回家路線。下面是兩個這類問題的樣例:·這三種藥品中,哪一種能提供最好的療效?·何時(shí)才是拋售一只股票的最佳時(shí)機(jī)?1.5.4
規(guī)范性分析規(guī)范性分析比其他三種分析的價(jià)值都高,同時(shí)還要求最高級的訓(xùn)練集,甚至是專門的分析軟件和工具。這種分析將計(jì)算大量可能出現(xiàn)的結(jié)果,并且推薦出最佳選項(xiàng)。解決方案從解釋性的到建議性的均有,同時(shí)還能包括各種不同情境的模擬。這種分析能將內(nèi)部數(shù)據(jù)與外部數(shù)據(jù)結(jié)合起來。內(nèi)部數(shù)據(jù)可能包括當(dāng)前和過去的銷售數(shù)據(jù)、消費(fèi)者信息、產(chǎn)品數(shù)據(jù)和商業(yè)規(guī)則。外部數(shù)據(jù)可能包括社會媒體數(shù)據(jù)、天氣情況、政府公文等等。如右圖所示,規(guī)范性分析涉及利用商業(yè)規(guī)則和大量的內(nèi)外部數(shù)據(jù)來模擬事件結(jié)果,并且提供最佳的做法。圖1-11規(guī)范性分析通過引入商業(yè)規(guī)則、內(nèi)部數(shù)據(jù)以及外部數(shù)據(jù)來進(jìn)行深入徹底的分析大數(shù)據(jù)分析的行業(yè)作用PART061.61.6大數(shù)據(jù)分析的行業(yè)作用大數(shù)據(jù)分析基于新的存儲和計(jì)算架構(gòu),是可在在結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)中使用以確定未來結(jié)果的算法和技術(shù),用于預(yù)測、優(yōu)化和模擬等許多用途。預(yù)測分析可幫助用戶評審和權(quán)衡潛在決策的影響力,用來分析歷史模式和概率,以預(yù)測未來業(yè)績并采取措施。1.6.3大數(shù)據(jù)分析的能力1.6.1大數(shù)據(jù)分析的決策支持價(jià)值1.6.4大數(shù)據(jù)分析面臨的問題1.6.2大數(shù)據(jù)分析的關(guān)鍵應(yīng)用大數(shù)據(jù)分析基于新的存儲和計(jì)算架構(gòu),是可在結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)中使用以確定未來結(jié)果的算法和技術(shù),用于預(yù)測、優(yōu)化和模擬等許多用途。1.6大數(shù)據(jù)分析的行業(yè)作用1.6.1
大數(shù)據(jù)分析的決策支持價(jià)值大數(shù)據(jù)分析的主要作用包括:(1)決策管理。這是用來優(yōu)化并自動化業(yè)務(wù)決策的一種卓有成效的成熟方法,通過預(yù)測分析讓組織能夠在制定決策以前有所行動,以便預(yù)測哪些行動在將來最有可能獲得成功,優(yōu)化成果并解決特定的業(yè)務(wù)問題。決策管理包括管理自動化決策設(shè)計(jì)和部署的各個方面,供組織管理其與客戶、員工和供應(yīng)商的交互。從本質(zhì)上講,決策管理使優(yōu)化的決策成為企業(yè)業(yè)務(wù)流程的一部分。由于閉環(huán)系統(tǒng)不斷將有價(jià)值的反饋納入到?jīng)Q策制定過程中,所以,對于希望對變化的環(huán)境做出即時(shí)反應(yīng)并最大化每個決策的組織來說,它是非常理想的方法。1.6.1
大數(shù)據(jù)分析的決策支持價(jià)值當(dāng)今世界,競爭的最大挑戰(zhàn)之一是組織如何在決策制定過程中更好地利用數(shù)據(jù)??捎糜谄髽I(yè)以及由企業(yè)生成的數(shù)據(jù)量非常高且以驚人的速度增長,而與此同時(shí),基于此數(shù)據(jù)制定決策的時(shí)間段卻非常短,且有日益縮短的趨勢。雖然業(yè)務(wù)經(jīng)理可能可以利用大量報(bào)告和儀表板來監(jiān)控業(yè)務(wù)環(huán)境,但是使用此信息來指導(dǎo)業(yè)務(wù)流程和客戶互動的關(guān)鍵步驟通常是手動的,因而不能及時(shí)響應(yīng)變化的環(huán)境。希望獲得競爭優(yōu)勢的組織必須尋找更好的方式。決策管理使用決策流程框架和分析來優(yōu)化并自動化決策,通常專注于大批量決策并使用基于規(guī)則和基于分析模型的應(yīng)用程序?qū)崿F(xiàn)決策。對于傳統(tǒng)上使用歷史數(shù)據(jù)和靜態(tài)信息作為業(yè)務(wù)決策基礎(chǔ)的組織來說這是一個突破性的進(jìn)展。1.6.1
大數(shù)據(jù)分析的決策支持價(jià)值(2)滾動預(yù)測。預(yù)測是定期更新對未來績效的當(dāng)前觀點(diǎn),以反映新的或變化中的信息的過程,是基于分析當(dāng)前和歷史數(shù)據(jù)來決定未來趨勢的過程。為應(yīng)對這一需求,許多公司正在逐步采用滾動預(yù)測方法。7×24小時(shí)的業(yè)務(wù)運(yùn)營影響造就了一個持續(xù)而又瞬息萬變的環(huán)境,風(fēng)險(xiǎn)、波動和不確定性持續(xù)不斷。并且,任何經(jīng)濟(jì)動蕩都具有近乎實(shí)時(shí)的深遠(yuǎn)影響。毫無疑問,對于這種變化感受最深的是CFO(財(cái)務(wù)總監(jiān))和財(cái)務(wù)部門。雖然業(yè)務(wù)戰(zhàn)略、產(chǎn)品定位、運(yùn)營時(shí)間和產(chǎn)品線改進(jìn)的決策可能是在財(cái)務(wù)部門外部做出,但制定這些決策的基礎(chǔ)是財(cái)務(wù)團(tuán)隊(duì)使用績效報(bào)告和預(yù)測提供的關(guān)鍵數(shù)據(jù)和分析。具有前瞻性的財(cái)務(wù)團(tuán)隊(duì)意識到傳統(tǒng)的戰(zhàn)略預(yù)測不能完成這一任務(wù),他們正在迅速采用更加動態(tài)的、滾動的和基于驅(qū)動因子的方法。1.6.1
大數(shù)據(jù)分析的決策支持價(jià)值在這種環(huán)境中,預(yù)測變?yōu)橐粋€極其重要的管理過程。為了抓住正確的機(jī)遇,為了滿足投資者的要求,以及在風(fēng)險(xiǎn)出現(xiàn)時(shí)對其進(jìn)行識別,很關(guān)鍵的一點(diǎn)就是深入了解潛在的未來發(fā)展,管理不能再依賴于傳統(tǒng)的管理工具。在應(yīng)對過程中,越來越多的企業(yè)已經(jīng)或者正準(zhǔn)備從靜態(tài)預(yù)測模型轉(zhuǎn)型到一個利用滾動時(shí)間范圍的預(yù)測模型。采取滾動預(yù)測的公司往往有更高的預(yù)測精度,更快的循環(huán)時(shí)間,更好的業(yè)務(wù)參與度和更多明智的決策制定。滾動預(yù)測可以對業(yè)務(wù)績效進(jìn)行前瞻性預(yù)測;為未來計(jì)劃周期提供一個基線;捕獲變化帶來的長期影響;與靜態(tài)年度預(yù)測相比,滾動預(yù)測能夠在覺察到業(yè)務(wù)決策制定的時(shí)間點(diǎn)得到定期更新,并減輕財(cái)務(wù)團(tuán)隊(duì)巨大的行政負(fù)擔(dān)。1.6.1
大數(shù)據(jù)分析的決策支持價(jià)值(3)預(yù)測分析與自適應(yīng)管理。穩(wěn)定、持續(xù)變化的工業(yè)時(shí)代已經(jīng)遠(yuǎn)去,現(xiàn)在是一個不可預(yù)測、非持續(xù)變化的信息時(shí)代。未來還將變得更加無法預(yù)測,企業(yè)員工需要具備更高技能,創(chuàng)新的步伐將進(jìn)一步加快,價(jià)格將會更低,顧客將具有更多發(fā)言權(quán)。為了應(yīng)對這些變化,CFO(財(cái)務(wù)總監(jiān))們需要一個能讓各級經(jīng)理快速做出明智決策的系統(tǒng)。他們必須將年度計(jì)劃周期替換為更加常規(guī)的業(yè)務(wù)審核,通過滾動預(yù)測提供支持,讓經(jīng)理能夠看到趨勢和模式,在競爭對手之前取得突破,在產(chǎn)品與市場方面做出更明智決策。具體來說,CFO需要通過持續(xù)計(jì)劃周期進(jìn)行管理,讓滾動預(yù)測成為主要的管理工具,每天和每周報(bào)告關(guān)鍵指標(biāo)。同時(shí)需要注意使用滾動預(yù)測改進(jìn)短期可見性,并將預(yù)測作為管理手段,而不是度量方法。1.6.2
大數(shù)據(jù)分析的關(guān)鍵應(yīng)用在應(yīng)用大數(shù)據(jù)的行業(yè)中,營銷分析、客戶和內(nèi)部運(yùn)管理是應(yīng)用最廣泛的三個領(lǐng)域:中國信息通訊研究院發(fā)布的《大數(shù)據(jù)白皮書》表明:61.7%的企業(yè)將大數(shù)據(jù)應(yīng)用于營銷分析,50.2%的企業(yè)將大數(shù)據(jù)應(yīng)用于客戶分析,近50%的企業(yè)將大數(shù)據(jù)應(yīng)用于內(nèi)部運(yùn)營管理。作為大數(shù)據(jù)時(shí)代的核心內(nèi)容,大數(shù)據(jù)的預(yù)測分析已在商業(yè)和社會中得到廣泛應(yīng)用。隨著越來越多的數(shù)據(jù)被記錄和整理,未來預(yù)測分析必定會成為所有領(lǐng)域的關(guān)鍵技術(shù)。例如:1.6.2
大數(shù)據(jù)分析的關(guān)鍵應(yīng)用(1)預(yù)測分析幫助制造業(yè)高效維護(hù)運(yùn)營并更好地控制成本。一直以來,制造業(yè)面臨的挑戰(zhàn)是在生產(chǎn)優(yōu)質(zhì)商品的同時(shí)在每一步流程中優(yōu)化資源。多年來,制造商已經(jīng)制定了一系列成熟的方法來控制質(zhì)量、管理供應(yīng)鏈和維護(hù)設(shè)備。如今,面對著持續(xù)的成本控制工作,管理人員、維護(hù)工程師和質(zhì)量控制的監(jiān)督執(zhí)行人員都希望知道如何在維持質(zhì)量標(biāo)準(zhǔn)的同時(shí)避免昂貴的非計(jì)劃停機(jī)時(shí)間或設(shè)備故障,以及如何控制維護(hù)、修理和大修業(yè)務(wù)的人力和庫存成本。此外,財(cái)務(wù)和客戶服務(wù)部門的管理人員,以及高級別的管理人員,與生產(chǎn)流程能否很好地交付成品息息相關(guān)。1.6.2
大數(shù)據(jù)分析的關(guān)鍵應(yīng)用(2)預(yù)測分析幫助電信運(yùn)營商更深入了解客戶。受技術(shù)和法規(guī)要求的推動,以及基于互聯(lián)網(wǎng)的通信服務(wù)提供商和模式的新型生態(tài)系統(tǒng)的出現(xiàn),電信提供商要想獲得新的價(jià)值來源,需要對業(yè)務(wù)模式做出根本性的轉(zhuǎn)變,并且必須有能力將戰(zhàn)略資產(chǎn)和客戶關(guān)系與旨在抓住新市場機(jī)遇的創(chuàng)新相結(jié)合。預(yù)測和管理變革的能力將是未來電信服務(wù)提供商的關(guān)鍵能力。1.6.2
大數(shù)據(jù)分析的關(guān)鍵應(yīng)用(3)犯罪預(yù)測與預(yù)防,預(yù)測分析利用先進(jìn)的分析技術(shù)營造安全的公共環(huán)境。為確保公共安全,執(zhí)法人員一直主要依靠個人直覺和可用信息來完成任務(wù)。為了能夠更加智慧地工作,許多警務(wù)組織正在充分合理地利用他們獲得和存儲的結(jié)構(gòu)化信息(如犯罪和罪犯數(shù)據(jù))和非結(jié)構(gòu)化信息(在溝通和監(jiān)督過程中取得的影音資料)。通過匯總、分析這些龐大的數(shù)據(jù),得出的信息不僅有助于了解過去發(fā)生的情況,還能夠幫助預(yù)測將來可能發(fā)生的事件。1.6.2
大數(shù)據(jù)分析的關(guān)鍵應(yīng)用利用歷史犯罪事件、檔案資料、地圖和類型學(xué)以及誘發(fā)因素(如天氣)和觸發(fā)事件(如假期或發(fā)薪日)等數(shù)據(jù),警務(wù)人員將可以:確定暴力犯罪頻繁發(fā)生的區(qū)域;將地區(qū)性或全國性流氓團(tuán)伙活動與本地事件進(jìn)行匹配;剖析犯罪行為以發(fā)現(xiàn)相似點(diǎn),將犯罪行為與有犯罪記錄的罪犯掛鉤;找出最可能誘發(fā)暴力犯罪的條件,預(yù)測將來可能發(fā)生這些犯罪活動的時(shí)間和地點(diǎn);確定重新犯罪的可能性。1.6.3
大數(shù)據(jù)分析的能力分析在大數(shù)據(jù)背景下,對數(shù)據(jù)的有效存儲以及良好地分析利用變得越來越急迫,而數(shù)據(jù)分析能力的高低決定了大數(shù)據(jù)中價(jià)值發(fā)現(xiàn)過程的好壞與成敗。從實(shí)際操作角度看,“大數(shù)據(jù)分析”需要通過對原始數(shù)據(jù)進(jìn)行分析來探究一種模式,尋找導(dǎo)致現(xiàn)實(shí)情況的根源因素,通過建立模型與預(yù)測進(jìn)行優(yōu)化,以實(shí)現(xiàn)社會運(yùn)行中的持續(xù)改善與創(chuàng)新。1.6.3
大數(shù)據(jù)分析的能力分析從行業(yè)實(shí)踐的角度看,只有少數(shù)幾個行業(yè)的部分企業(yè)能夠?qū)Υ髷?shù)據(jù)進(jìn)行基本分析和運(yùn)用,并在業(yè)務(wù)決策中以數(shù)據(jù)分析結(jié)果為依據(jù)。這些行業(yè)主要集中在銀行與保險(xiǎn),電信與電商等領(lǐng)域,但數(shù)據(jù)分析的深度尚可,廣度不夠,尚未擴(kuò)充到運(yùn)營管理的各個領(lǐng)域;而中小銀行在數(shù)據(jù)分析方面的人員與能力建設(shè)尚處于起步階段,多數(shù)行業(yè)在IT方向的開支還主要集中在公司日常的流程化管理領(lǐng)域。1.6.3
大數(shù)據(jù)分析的能力分析從技術(shù)發(fā)展的角度看,一些已經(jīng)較為成熟的數(shù)據(jù)分析處理技術(shù),例如商業(yè)智能和數(shù)據(jù)挖掘,在一些行業(yè)里得到廣泛和深入的應(yīng)用。最典型的就是電商行業(yè),運(yùn)用這些技術(shù)對行業(yè)數(shù)據(jù)進(jìn)行分析,對提高行業(yè)的整體運(yùn)行效率以及增加行業(yè)利潤都起到了極大的推動作用。但對于像Hadoop、非結(jié)構(gòu)化數(shù)據(jù)庫、數(shù)據(jù)可視化工具以及個性化推薦引擎這樣的新技術(shù),其較高的技術(shù)門檻和高昂的運(yùn)營維護(hù)成本使得只有少數(shù)企業(yè)能夠?qū)⑵溥\(yùn)用到深入分析行業(yè)數(shù)據(jù)中。1.6.3
大數(shù)據(jù)分析的能力分析從數(shù)據(jù)來源的角度看,在能夠?qū)崿F(xiàn)數(shù)據(jù)化運(yùn)營的企業(yè)中,絕大多數(shù)僅僅完成了依靠企業(yè)自身所產(chǎn)生的數(shù)據(jù)解決自身所面臨的問題,并且是依據(jù)問題來收集所需要的數(shù)據(jù)。而僅有極少數(shù)互聯(lián)網(wǎng)企業(yè)能夠發(fā)揮出大數(shù)據(jù)分析的真正價(jià)值:同時(shí)運(yùn)用企業(yè)外部和內(nèi)部的數(shù)據(jù)來解決企業(yè)自身的問題,通過數(shù)據(jù)分析預(yù)測可能出現(xiàn)的問題,并依據(jù)數(shù)據(jù)分析的結(jié)果進(jìn)行商業(yè)決策。在一定程度上實(shí)現(xiàn)了由數(shù)據(jù)化運(yùn)營向運(yùn)營數(shù)據(jù)的轉(zhuǎn)變。1.6.4
大數(shù)據(jù)分析面臨的問題大數(shù)據(jù)分析存在的主要問題是:(1)數(shù)據(jù)存儲問題。隨著技術(shù)不斷發(fā)展,數(shù)據(jù)量從TB上升至PB,EB量級,如果還用傳統(tǒng)的數(shù)據(jù)存儲方式,必將給大數(shù)據(jù)分析造成諸多不便,這就需要借助數(shù)據(jù)的動態(tài)處理技術(shù),即隨著數(shù)據(jù)的規(guī)律性變更和顯示需求,對數(shù)據(jù)進(jìn)行非定期的處理。同時(shí),數(shù)量極大的數(shù)據(jù)不能直接使用傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)庫進(jìn)行存儲,人們需要探索一種適合大數(shù)據(jù)的數(shù)據(jù)儲存模式,也是當(dāng)下應(yīng)該著力解決的一大難題。圖1-13分布式存儲方案1.6.4
大數(shù)據(jù)分析面臨的問題(2)分析資源調(diào)度問題。大數(shù)據(jù)產(chǎn)生的時(shí)間點(diǎn),數(shù)據(jù)量都是很難計(jì)算的,這就是大數(shù)據(jù)的一大特點(diǎn),不確定性。所以我們需要確立一種動態(tài)響應(yīng)機(jī)制,對有限的計(jì)算、存儲資源進(jìn)行合理的配置及調(diào)度。另外,如何以最小的成本獲得最理想的分析結(jié)果也是一個需要考慮的問題。(3)專業(yè)的分析工具。在發(fā)展數(shù)據(jù)分析技術(shù)的同時(shí),傳統(tǒng)的軟件工具不再適用,而距離開發(fā)出能夠滿足大數(shù)據(jù)分析需求的通用軟件還有一定距離。如若不能對這些問題做出處理,在不久的將來大數(shù)據(jù)的發(fā)展就會進(jìn)入瓶頸,甚至有可能出現(xiàn)一段時(shí)間的滯留期,難以持續(xù)起到促進(jìn)經(jīng)濟(jì)發(fā)展的作用。1.6.4
大數(shù)據(jù)分析面臨的問題(4)多源數(shù)據(jù)融合問題。這是指利用相關(guān)手段將調(diào)查、分析獲取到的所有信息全部綜合到一起,并對信息進(jìn)行統(tǒng)一的評價(jià),最后得到統(tǒng)一的信息的技術(shù),其目的是將各種不同的數(shù)據(jù)信息進(jìn)行綜合,吸取不同數(shù)據(jù)源的特點(diǎn)然后從中提取出統(tǒng)一的,比單一數(shù)據(jù)更好、更豐富的信息。圖1-14多源數(shù)據(jù)融合示例1.6.4
大數(shù)據(jù)分析面臨的問題例如在感知問題上,單一的傳感器總是有一定的不足,就像我們?nèi)艘粯?,需要用耳、鼻、眼、四肢等多“傳感器”協(xié)作(融合)來探索和感知世界,即“多元融合”,而在道路兩側(cè)或者車載感知中,則需要多種傳感器來共同感知路面環(huán)境。這個問題上,多源信息融合的目的,就是將各單一信號源的感知結(jié)果進(jìn)行組合優(yōu)化,從而輸出更有效的道路安全信息。第1章大數(shù)據(jù)分析基礎(chǔ)大數(shù)據(jù)分析與實(shí)踐——社會研究與數(shù)字治理第2章社會研究與方法大數(shù)據(jù)分析與實(shí)踐——社會研究與數(shù)字治理吉姆·格雷是一個傳奇人物。他是1998年圖靈獎得主,著名的計(jì)算
機(jī)科學(xué)家。2007年1月28日,他在自己酷愛的航海運(yùn)動中駕駛帆船失
蹤于茫茫大海之上。而就在短短17天之前,1月11日,他在加州山景城
召開的國家研究委員會—計(jì)算機(jī)科學(xué)和電信委員會會議上,發(fā)表了他的著名演講:科學(xué)方法的一次革命。演講中,吉姆·格雷將科學(xué)研究的范式分為四類——除了之前的實(shí)驗(yàn)范式、理論范式、仿真范式之外,信息技術(shù)已經(jīng)促使新的范式出現(xiàn)——數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)。這個第四范式,所謂的“數(shù)據(jù)密集型”,也就是現(xiàn)在我們所稱的“大數(shù)據(jù)”。第2章導(dǎo)讀案例第四范式:大數(shù)據(jù)對于科研的意義一、何謂“第四范式”“范式”一詞,一般指已經(jīng)形成模式的,可直接套用的某種特定方案或路線。在計(jì)算機(jī)科學(xué)界,編程有編程范式,數(shù)據(jù)庫有數(shù)據(jù)庫架構(gòu)的范式,不一而足??傊?,你將其認(rèn)為是某種必須遵循的規(guī)范或大家都在用的套路即可。在科學(xué)發(fā)現(xiàn)領(lǐng)域,第一范式是指以實(shí)驗(yàn)為基礎(chǔ)的科學(xué)研究模式。簡單說來,就是以伽利略為代表的文藝復(fù)興時(shí)期的科學(xué)發(fā)展初級階段。在這一階段,伽利略老師爬上比薩斜塔扔兩個鐵球,掐著脈搏為擺動計(jì)時(shí)等等我們耳熟能詳?shù)墓适拢瑸楝F(xiàn)代科學(xué)開辟了嶄新的領(lǐng)域,開啟了現(xiàn)代科學(xué)之門。第2章導(dǎo)讀案例第四范式:大數(shù)據(jù)對于科研的意義當(dāng)實(shí)驗(yàn)條件不具備的時(shí)候,為了研究更為精確的自然現(xiàn)象,第二范
式,即理論研究為基礎(chǔ)的科學(xué)研究模式隨之而來。在這個階段,科學(xué)
家們會將無法用實(shí)驗(yàn)?zāi)M的科學(xué)原理用模型簡化,去掉一些復(fù)雜的因素,
只留下關(guān)鍵因素,然后通過演算得到結(jié)論。比如我們熟知的牛頓第一定律:任何物體都要保持勻速直線運(yùn)動或靜止?fàn)顟B(tài),直到外力迫使它改
變運(yùn)動狀態(tài)為止。這個結(jié)論就是在假設(shè)沒有摩擦力的
情況下得出的。令人欣喜的是,當(dāng)時(shí)的理論科學(xué)與實(shí)
驗(yàn)科學(xué)結(jié)合得如此完美,任何一個理論都很容易被實(shí)
驗(yàn)所證實(shí)。因此第二范式很快成為重要的科研范式。圖2-1牛頓第一定律第2章導(dǎo)讀案例第四范式:大數(shù)據(jù)對于科研的意義第二范式發(fā)展到極致是19世紀(jì)末,當(dāng)時(shí)牛頓三大定律解釋了經(jīng)典力
學(xué),麥克斯韋理論解釋了電磁學(xué)。經(jīng)典物理學(xué)的大廈構(gòu)建得宏偉壯觀,
而且似乎毫無瑕疵。結(jié)果在20世紀(jì)初,天邊的兩朵烏云無情地破壞了它的完美。量子力學(xué)和相對論兩座嶄新的高山拔地而起,那是科學(xué)的另一個黃金時(shí)代。然而,不論是量子力學(xué)還是相對論,不約而同地以理論研究為主,超凡的頭腦和計(jì)算超越了實(shí)驗(yàn)。盡管在一段時(shí)間之后,經(jīng)過復(fù)雜設(shè)計(jì)的實(shí)驗(yàn)終究還是證實(shí)了計(jì)算的理論。因此,每一位中學(xué)物理老師都會把牛頓和愛因斯坦相提并論,并稱人類歷史上最偉大的兩位物理學(xué)家。第2章導(dǎo)讀案例第四范式:大數(shù)據(jù)對于科研的意義隨著驗(yàn)證理論的難度和經(jīng)濟(jì)投入越來越高,正在科學(xué)研究逐漸力不
從心之際,另一位頂尖科學(xué)家站了出來。馮·諾依曼在20世紀(jì)中期提出
了現(xiàn)代電子計(jì)算機(jī)的架構(gòu),并一直持續(xù)到今天。于是,隨著電子計(jì)算機(jī)的
高速發(fā)展,第三范式,即利用電子計(jì)算機(jī)對科學(xué)實(shí)驗(yàn)進(jìn)行模擬仿真的模式得到迅速普及。不論在基礎(chǔ)科學(xué)研究還是工程實(shí)驗(yàn)中,計(jì)算機(jī)仿真越來越多地取代實(shí)驗(yàn),成為科研的常用方法。半個世紀(jì)之后的2013年,諾貝爾化學(xué)獎甚至授予了用計(jì)算機(jī)模擬開發(fā)多尺度復(fù)雜化學(xué)系統(tǒng)模型的科學(xué)家卡普拉斯、萊維特和瓦謝勒。諾貝爾化學(xué)獎評選委員會在聲明中說:現(xiàn)在,對化學(xué)家來說,計(jì)算機(jī)是同試管一樣重要的工具,計(jì)算機(jī)對真實(shí)生命的模擬已為化學(xué)領(lǐng)域大部分研究成果的取得立下了“汗馬功勞”。第2章導(dǎo)讀案例第四范式:大數(shù)據(jù)對于科研的意義那么,時(shí)間進(jìn)入互聯(lián)網(wǎng)時(shí)代,吉姆·格雷認(rèn)為,鑒于數(shù)據(jù)的爆炸性增
長,數(shù)據(jù)密集范式理應(yīng)并且已經(jīng)從第三范式,即計(jì)算范式中分離出來成
為一個獨(dú)特的科學(xué)研究范式,即“第四范式”。第2章導(dǎo)讀案例第四范式:大數(shù)據(jù)對于科研的意義二、“第四范式”的特點(diǎn)同樣是計(jì)算,第四范式與第三范式有什么區(qū)別呢?最顯著的區(qū)別就是:計(jì)算范式是先提出可能的理論,再搜集數(shù)據(jù),然后通過計(jì)算仿真進(jìn)行理論驗(yàn)證。而數(shù)據(jù)密集型范式是先有大量已知數(shù)據(jù),然后通過計(jì)算得出之前未知的可信理論。第2章導(dǎo)讀案例第四范式:大數(shù)據(jù)對于科研的意義簡單舉個例子吧。以前我們對一個問題(比如霧霾)是這樣研究的:
首先,發(fā)現(xiàn)問題,比如出現(xiàn)霧霾了,想知道霧霾是什么,怎么預(yù)防。其
次,發(fā)現(xiàn)這個事兒好像不那么簡單,霧霾的形成機(jī)理除了源頭、成分等東
西之外,還包括氣象因素,如地形、風(fēng)向、濕度等,參數(shù)之多超出了我們的控制范圍。那么怎么辦呢?去除一些看起來不怎么重要的參數(shù),保留一些簡單的參數(shù),提出一個理論。然后搜集數(shù)據(jù),用計(jì)算機(jī)進(jìn)行模擬,并不斷對理論進(jìn)行修正。最后得出可信度比較高的結(jié)果,以此來對可能形成霧霾天氣的預(yù)測。這條途徑大家都熟悉,這就是第三范式。第2章導(dǎo)讀案例第四范式:大數(shù)據(jù)對于科研的意義但是,這條途徑中有一個看起來很小的問題:你如何確定哪些參數(shù)
是重要的,哪些是不重要的?那些看起來不重要的參數(shù),會不會在某
些特定條件下,起到至關(guān)重要的作用?畢竟南美洲的一只蝴蝶扇扇翅膀
都可能引起印度洋的風(fēng)暴啊不是么?從這一點(diǎn)來看,能夠獲取最全面的數(shù)據(jù),也許才能真正探尋到霧霾的成因,以及做出更科學(xué)的預(yù)測。那么第四范式就是這樣一個研究方法。第2章導(dǎo)讀案例第四范式:大數(shù)據(jù)對于科研的意義首先,布置海量的監(jiān)測點(diǎn),收集海量的數(shù)據(jù)。海量的意思就是比傳
統(tǒng)意義上多得多。傳統(tǒng)意義上我們在北京市布置幾十個上百個監(jiān)測點(diǎn),
海量的意思……嗯,我們假設(shè)每款手機(jī)都自帶PM2.5測量功能,這樣全北
京市就有2000萬個監(jiān)測點(diǎn),而且這些監(jiān)測點(diǎn)還有空間的移動信息。這樣相對于固定監(jiān)測點(diǎn)所產(chǎn)生的數(shù)據(jù),就是海量數(shù)據(jù)。其次,利用這些數(shù)據(jù),分析得出霧霾的形成原因和預(yù)測。最后,驗(yàn)證預(yù)測,從中總結(jié)出理論。大家已經(jīng)看到了,第二和第三步都只用了一句話。不是因?yàn)樗芎唵?,恰恰相反,而是因?yàn)樗珡?fù)雜,無法在這里給出詳細(xì)闡述。第2章導(dǎo)讀案例第四范式:大數(shù)據(jù)對于科研的意義事實(shí)上,在當(dāng)今,許多研究人員所面臨的最大問題,已經(jīng)不是缺少
數(shù)據(jù),而是面對太多的數(shù)據(jù),不知道怎么來使用它們。因?yàn)檫@種體量
的數(shù)據(jù),基本上可以認(rèn)為,已經(jīng)超出了普通人的理解和認(rèn)知能力。幸運(yùn)的是我們有了超級計(jì)算機(jī),有了計(jì)算集群,有了超大的分布式數(shù)據(jù)庫,還有了基于互聯(lián)網(wǎng)的云計(jì)算。這就使得運(yùn)用第四范式的科學(xué)研究成為可能。第2章導(dǎo)讀案例第四范式:大數(shù)據(jù)對于科研的意義三、“第四范式”的挑戰(zhàn)第四范式科研已經(jīng)在氣象和環(huán)境、生物和醫(yī)學(xué)方面取得了很大進(jìn)展,但
很明顯,隨著移動互聯(lián)網(wǎng)的發(fā)展,各行各業(yè)產(chǎn)生的數(shù)據(jù)呈現(xiàn)爆炸式的增長,
科研人員所面對的各個領(lǐng)域的數(shù)據(jù)只會越來越多。那么問題來了,實(shí)現(xiàn)第四范式的科研,從中發(fā)現(xiàn)更多更新的成果,所面臨的挑戰(zhàn)有哪些呢?第2章導(dǎo)讀案例第四范式:大數(shù)據(jù)對于科研的意義第一,不同結(jié)構(gòu)數(shù)據(jù)的整合。一個研究霧霾的人員需要?dú)庀髷?shù)據(jù),還需要工廠排放的數(shù)據(jù)、汽車尾氣
的數(shù)據(jù),這些不同來源的數(shù)據(jù)勢必有不同的形態(tài)。簡單點(diǎn)說,一個Excel表
跟一個Word文檔,怎么把它們結(jié)合起來使用(當(dāng)然實(shí)際情況比這個復(fù)雜得多)。這是一開始使用第四范式時(shí)就會面對的最大問題。第2章導(dǎo)讀案例第四范式:大數(shù)據(jù)對于科研的意義第二,海量數(shù)據(jù)的處理。使用Excel表可以處理多少條數(shù)據(jù)?很多人可能不知道,一個工作表是
65535行(2的16次方=65536)和255列(2的8次方=256)。使用Access數(shù)據(jù)
表呢?實(shí)際使用中基本上超過十萬條速度就會很慢了。在SQLServer或者Oracle這類商用數(shù)據(jù)庫中,百萬到千萬級數(shù)據(jù)記錄問題不大,過億甚至到千億的量級,憑借分布式處理也還可以支撐。但更多呢?千萬億量級呢?第2章導(dǎo)讀案例第四范式:大數(shù)據(jù)對于科研的意義不要以為千萬億量級是一個很遙遠(yuǎn)的概念。簡單起見,不按1024按
1000算,1MB就是1百萬Byte,1GB就是十億,1TB就是萬億,1PB就
是千萬億……PB后面是EB、ZB、YB。阿里巴巴2014年3月宣布其數(shù)據(jù)量已經(jīng)超過100PB。所以說,當(dāng)你想剁手的時(shí)候,想象一下你給這么多數(shù)據(jù)里所做的貢獻(xiàn)也不過是滄海一粟。為了解決這么多數(shù)據(jù)的問題,常見的數(shù)據(jù)庫肯定無能為力了。好在做搜索引擎的那些人早就要面對這個問題,然后他們也比較好地解決了這個問題。谷歌的MapReduce架構(gòu),阿帕奇在此基礎(chǔ)上弄出的Hadoop,幾年的工夫就席卷了計(jì)算機(jī)界,成為目前分析大數(shù)據(jù)的領(lǐng)先平臺。所以現(xiàn)在這個問題暫時(shí)算是解決了,當(dāng)然了,永遠(yuǎn)只能是“暫時(shí)”解決。第2章導(dǎo)讀案例第四范式:大數(shù)據(jù)對于科研的意義第三,算法的發(fā)展。其實(shí)針對大數(shù)據(jù)的算法基本上還是最開始的那些算法。最基本的,如
貝葉斯、決策樹、k-關(guān)聯(lián)算法、聚類分析等。值得一提的是人工智能,從
70年代發(fā)展以后,人工智能借著大數(shù)據(jù)的東風(fēng)發(fā)展了一把。因?yàn)槿斯ぶ悄苤饕揽看罅繑?shù)據(jù)的訓(xùn)練,所以數(shù)據(jù)越多,對人工智能的訓(xùn)練就越靠譜。因此,類似于人工智能、遺傳算法之類的分層次不太可控的算法,應(yīng)該是發(fā)展方向。第2章導(dǎo)讀案例第四范式:大數(shù)據(jù)對于科研的意義第四,研究結(jié)論的展現(xiàn)。這是值得一提的方面。對于大數(shù)據(jù)的分析,展現(xiàn)出的結(jié)論一般人未必能
直觀地了解。過億數(shù)量級的數(shù)據(jù),已經(jīng)超出了人類統(tǒng)計(jì)學(xué)的理解能力。如何
將其展現(xiàn)給人類(甲方/用戶/普通群眾),則是一個如何將神化的東西接地氣的問題。大數(shù)據(jù)分析結(jié)果的可視化,近年來是一個熱點(diǎn)。另一方面,移動互聯(lián)時(shí)代,讀圖比讀文字要直觀得多。因此,如何將研究結(jié)果展現(xiàn)出來,讓人腦能夠接受,這也是一個很重要的問題。第2章導(dǎo)讀案例第四范式:大數(shù)據(jù)對于科研的意義目錄社會研究的概念社會研究的主要過程調(diào)查研究實(shí)驗(yàn)研究12345利用文獻(xiàn)的定量研究6實(shí)地調(diào)查社會研究的概念PART012.12.1社會研究的概念社會研究的目的在于認(rèn)識客觀社會,解決社會中的各種問題,探討社會發(fā)展的客觀規(guī)律,推動社會的發(fā)展。社會研究的定義是:一種以經(jīng)驗(yàn)的方式,對社會世界人們的態(tài)度行為關(guān)系,以及由此形成的各種社會關(guān)系、社會產(chǎn)物所進(jìn)行的科學(xué)探究活動。社會研究分為基礎(chǔ)研究和應(yīng)用研究兩種?;A(chǔ)研究是尋求理論知識的純粹科學(xué)研究。它探討的問題是:是什么?怎么樣?為什么?應(yīng)用研究則是“求用”的研究,尋找實(shí)現(xiàn)其理論的路徑和方法,屬于應(yīng)用科學(xué),探究的問題是:
做什么?怎樣做?如何解決現(xiàn)實(shí)中的問題?;A(chǔ)研
究和應(yīng)用研究相輔相成。2.1.3社會研究的基本方法2.1.1社會研究的特征2.1.2社會研究的理論問題社會研究的目的在于認(rèn)識客觀社會,解決社會中的各種問題,探討社會發(fā)展的客觀規(guī)律,推動社會的發(fā)展。2.1社會研究的概念2.1.1
社會研究的特征社會研究的三個基本特征是,研究主題是社會的而非自然的,研究方式是經(jīng)驗(yàn)的而非思辨的,所面對的問題是科學(xué)的而非價(jià)值判斷的。同為科學(xué),社會研究和自然研究有著共同特點(diǎn):實(shí)證和邏輯。實(shí)證意味著要用事實(shí)說話,真理最終要靠時(shí)間來檢驗(yàn)。邏輯意味著要自圓其說,不可自相矛盾。2.1.1
社會研究的特征社會研究和自然研究有著共同的科學(xué)規(guī)范。首先,兩者共同要恪守的第一類基本規(guī)范有兩條:普遍主義和誠實(shí)。普遍主義是研究共同體的評價(jià)原則,即評價(jià)的唯一根據(jù)是研究者的結(jié)果,其他各種社會屬性不應(yīng)對此產(chǎn)生影響;誠實(shí)則是對每個研究者基本的道德要求,即從事研究必須具有嚴(yán)謹(jǐn)求實(shí)的科學(xué)態(tài)度。第二類規(guī)范則是用倡導(dǎo)或偏好的方式表達(dá)的,我們可以把它們歸結(jié)為公有性、無私性和有條理的懷疑注意。社會研究的主要困難包括:人具有特殊性;研究有干擾性;社會現(xiàn)象有復(fù)雜性;研究受特定的制約;保持客觀性的困難。2.1.2
社會研究的理論問題概念是構(gòu)建理論的“基石”和“基本材料”,是對現(xiàn)象的一種抽象,是客觀事物屬性的主觀反映。概念分為能直接觀察的,如房屋、黃金,還有不能直接觀察的,如階級、階層。概念的抽象層次有高有低。抽象層次越高,特征越模糊,覆蓋面越大。社會研究理論的構(gòu)成包括下面一些概念。2.1.2
社會研究的理論問題(1)變量:是概念的一種,由若干子概念構(gòu)成,擁有一個以上的取值。概念的常量是指其只包含自身。概念是理論的基礎(chǔ),變量是構(gòu)成理論的元素。可以將變量分為自變量:(x),引起其他變量發(fā)生變化;應(yīng)變量:(y),由于其他變量變化而導(dǎo)致自身發(fā)生變化;中介變量:表明自變量影響應(yīng)變量的方式。理論由變量語言構(gòu)成,目的在于描述不同變量之間的內(nèi)在邏輯關(guān)系。變量是構(gòu)成理論的元素。變量也可以分為類別變量,順序變量,間距
變量和比率變量。對應(yīng)著測量層次的定類,定序,
定距和定比。2.1.2
社會研究的理論問題(2)命題:直接由概念構(gòu)成。理論由一組命題構(gòu)成。(3)假設(shè):是社會研究中最為常用的命題形式,有關(guān)變量間關(guān)系的嘗試性陳述,或者一種可以用經(jīng)驗(yàn)事實(shí)檢驗(yàn)的命題。假設(shè)來源于常識,現(xiàn)有理論或個人推測等等。(4)指標(biāo):是指可以被觀察到的一個概念或一個變量??梢姡碚撚筛拍?、變量、命題、假設(shè)構(gòu)成。其中,變量是一種特殊的概念,假設(shè)是一種特殊的命題。2.1.2
社會研究的理論問題社會研究的理論問題一般包括以下方面。(1)理論的含義與特征:理論是一種以系統(tǒng)化的方式講經(jīng)驗(yàn)世界中的某些方面概念化并組織起來的一組內(nèi)在相關(guān)的命題;理論的本質(zhì)是命題,來源于經(jīng)驗(yàn)世界,特點(diǎn)是抽象的系統(tǒng)的,目的在于解釋經(jīng)驗(yàn)現(xiàn)實(shí)。(2)理論的層次,包括:宏觀理論,針對全部社會現(xiàn)象和社會行為。又稱之為一般理論或巨型理論;中觀理論,針對某一方面社會現(xiàn)象和社會行為;微觀理論是一組陳述若干概念之間關(guān)系,并在邏輯上相互聯(lián)系的命題。所以,微觀理論由一組命題組成,在邏輯上相互聯(lián)系,這些命題的一部分可以由經(jīng)驗(yàn)解釋之。值得注意的是,研究者一般研究中觀理論或微觀理論。2.1.2
社會研究的理論問題(3)判斷理論優(yōu)劣的標(biāo)準(zhǔn):解釋的范圍越廣,解釋越精確,結(jié)構(gòu)越精煉。(4)理論對經(jīng)驗(yàn)的作用:理論作為研究的基礎(chǔ)和背景,指導(dǎo)研究的方向,提供研究的解釋,為研究提供特定視野框架。(5)經(jīng)驗(yàn)對理論的作用:包括開創(chuàng)理論、重建理論、扭轉(zhuǎn)理論、澄清理論。(6)理論的建構(gòu)與檢驗(yàn)(華萊士科學(xué)環(huán)的邏輯)。2.1.2
社會研究的理論問題社會學(xué)家華萊士提出了社會研究的邏輯模型(1971年),即“科學(xué)環(huán)”。在這一模型中,華萊士用方框表示五個知識部分:①理論,②假設(shè),③經(jīng)驗(yàn)觀察,④經(jīng)驗(yàn)概括,⑤被檢驗(yàn)過的假設(shè);用橢圓表示研究各階段中使用的六套方法:①邏輯演繹方法,②操作方法,③量度、測定與分析方法,④檢驗(yàn)假設(shè)的方法,⑤邏輯推論的方法,⑥建立概念、命題和理論的方法。各個知識部分通過各種方法轉(zhuǎn)換為其他形式,圖中的箭頭表示知識形式轉(zhuǎn)換的階段。中心線的右邊是理論演繹的過程,即把理論應(yīng)用到現(xiàn)實(shí)中,在這一過程中使用演繹法。中心線的左邊是理論建構(gòu)的過程,它首先是運(yùn)用歸納法有經(jīng)驗(yàn)觀察概括出研究結(jié)論,然后再上升到抽象的概念和理論。在橫剖線的上方屬于理論研究,處于抽象層次。下方屬于經(jīng)驗(yàn)研究。2.1.2
社會研究的理論問題這一模型是對社會研究中各種邏輯過程的概括,表明了社會研究是從理論——假設(shè)——經(jīng)驗(yàn)觀察——經(jīng)驗(yàn)概括或檢
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 浸水擋土墻路堤邊坡穩(wěn)定性分析-課件(-精)
- 《逆全球化粗略綜述》課件
- 《輸卵管與子宮》課件
- 2024年甲乙雙方二手機(jī)床設(shè)備買賣合同
- 拉頭生產(chǎn)合同范本(2篇)
- 《OCTAVE評估方法》課件
- 2025年煙臺貨物從業(yè)資格證考試
- 2025年寶雞貨運(yùn)從業(yè)資格證試題庫及答案
- 2025年玉溪貨運(yùn)考試題目
- 2025年丹東c1貨運(yùn)從業(yè)資格證考試題
- 北京市海淀區(qū)2023-2024學(xué)年八年級上學(xué)期期末英語試卷
- 果品類原料的烹調(diào)應(yīng)用課件
- 24節(jié)氣中的傳統(tǒng)服飾與飾品
- 地彈簧行業(yè)分析
- 如何發(fā)揮采購在公司高質(zhì)量發(fā)展中作用
- 民事糾紛及其解決機(jī)制課件
- 美術(shù)高考總結(jié)匯報(bào)
- 北宋詞之臨江仙夜歸臨皋【宋】蘇軾課件
- 監(jiān)理質(zhì)量評估報(bào)告
- 《中國封建社會》課件
- 藥物代謝動力學(xué)-中國藥科大學(xué)中國大學(xué)mooc課后章節(jié)答案期末考試題庫2023年
評論
0/150
提交評論