大數(shù)據(jù)時(shí)代統(tǒng)計(jì)學(xué)面臨的機(jī)遇與挑戰(zhàn).pdf_第1頁
大數(shù)據(jù)時(shí)代統(tǒng)計(jì)學(xué)面臨的機(jī)遇與挑戰(zhàn).pdf_第2頁
大數(shù)據(jù)時(shí)代統(tǒng)計(jì)學(xué)面臨的機(jī)遇與挑戰(zhàn).pdf_第3頁
大數(shù)據(jù)時(shí)代統(tǒng)計(jì)學(xué)面臨的機(jī)遇與挑戰(zhàn).pdf_第4頁
大數(shù)據(jù)時(shí)代統(tǒng)計(jì)學(xué)面臨的機(jī)遇與挑戰(zhàn).pdf_第5頁
已閱讀5頁,還剩1頁未讀, 繼續(xù)免費(fèi)閱讀

大數(shù)據(jù)時(shí)代統(tǒng)計(jì)學(xué)面臨的機(jī)遇與挑戰(zhàn).pdf.pdf 免費(fèi)下載

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第3 l 卷第1 期 2 0 1 4 年1 月 統(tǒng)計(jì)研究 S t a t i s t i c a lR e s e a r c h V 0 1 3 1 N o 1 J a n 2 0 1 4 大數(shù)據(jù)時(shí)代統(tǒng)計(jì)學(xué)面臨的機(jī)遇與挑戰(zhàn) 耿直 內(nèi)容提要 大數(shù)據(jù)給統(tǒng)計(jì)學(xué)帶來了機(jī)遇 挑戰(zhàn)和緊迫感 本文描述大數(shù)據(jù)的環(huán)境 利用大數(shù)據(jù)的目的和大數(shù)據(jù) 帶來的變革 介紹國內(nèi)外有關(guān)大數(shù)據(jù)的研究動(dòng)向 探討大數(shù)據(jù)包含的信息 大數(shù)據(jù)的預(yù)處理 抽樣和分析方法 關(guān)鍵詞 大數(shù)據(jù) 抽樣 數(shù)據(jù)分析方法論 中圖分類號(hào) C 8 2 9 2文獻(xiàn)標(biāo)識(shí)碼 A文章編號(hào) 1 0 0 2 4 5 6 5 2 0 1 4 0 1 0 0 0 5 0 5 O p p o r t u n i t i e sa n dC h a l l e n g e si nt h eA g eo fB i gD a t af o rS t a t i s t i c s G e n gZ h i A b s t r a c t B i gd a t ab r i n g so p p o r t u n i t y c h a l l e n g e sa n du r g e n c yf o rs t a t i s t i c s T h i sp a p e rd e s c r i b e st h ee n v i r o n m e n t so f b i gd a t a t h eg o a lo fb i gd a t aa n dt h er e v o l u t i o nb yb i gd a t a A n di ta l s oi n t r o d u c e st h er e s e a r c ht r e n d sf o rb i gd a t aa th o m e a n da b r o a d T h ei n f o r m a t i o n p r e p r o c e s s s a m p l i n ga n da n a l y s i so fb i gd a t ah a v eb e e nd i s c u s s e d K e yw o r d s B i gD a t a S a m p l i n g M e t h o d o l o g yo fD a t aA n a l y s i s 一 引言 在人類利用觀察認(rèn)知自然的方法論發(fā)展的歷程 中 最初神學(xué) 哲學(xué)和科學(xué)合為一體 巫術(shù) 占星術(shù)和 宗教是哲學(xué)和科學(xué)的前身 人類舊石器期用神學(xué)解 釋自然 根據(jù)蛙鳴預(yù)測下雨 用巫術(shù)和占星術(shù)祈禱 預(yù)測和干預(yù)自然 中國古代利用陰陽太極圖和八卦 圖作為思辨模型 分析和解釋自然和人文社會(huì)的現(xiàn) 象 古希臘文明孕育了演繹邏輯 歸納邏輯 文藝 復(fù)興前后哲學(xué)家提出觀察和試驗(yàn)的方法 培根 F B a c o n 1 6 2 0 新工具 提出通過觀察實(shí)驗(yàn) 運(yùn)用三 表法 存在與具有表 差異表 程度表 穆勒 JS M i l l 1 8 4 3 邏輯體系 提出歸納四法 求同法 求異 法 共變法 剩余法 在統(tǒng)計(jì)方法論的發(fā)展中 貝葉 斯 TB a y e s 1 7 6 4 提出逆概率方法 利用觀察結(jié)果 推斷事件的概率 高爾頓 FG a h o n 1 8 8 6 將變量 間的相關(guān)關(guān)系進(jìn)行了形式化 提出了相關(guān)系數(shù) 進(jìn)一 步在相關(guān)性的基礎(chǔ)上提出了回歸預(yù)測的方法 皮爾 遜 KP e r s o n 1 9 0 0 提出了擬合優(yōu)度檢驗(yàn)的方法 使 得人們能夠利用概率度量觀測現(xiàn)象與科學(xué)假說的擬 合程度 在此后的一個(gè)多世紀(jì)中統(tǒng)計(jì)方法有了突飛 猛進(jìn)的發(fā)展 被廣泛地應(yīng)用到自然科學(xué) 經(jīng)濟(jì)金融和 人文社會(huì)科學(xué)的各個(gè)領(lǐng)域 在人類利用觀察探索自 然和社會(huì)規(guī)律的歷程中 從遠(yuǎn)古時(shí)代的觀察加臆想 古希臘時(shí)代的觀察加理性推理 文藝復(fù)興時(shí)代的試 驗(yàn)加理性推理 直到現(xiàn)代的抽樣加統(tǒng)計(jì)模型 當(dāng)今時(shí)代 二方面人們在主動(dòng)地獲取數(shù)據(jù) 各 個(gè)科學(xué)領(lǐng)域都在大量地獲取數(shù)據(jù) 自然科學(xué)領(lǐng)域收 集著從宏觀的天文數(shù)據(jù)到微觀的基因數(shù)據(jù) 經(jīng)濟(jì) 金 融和人文社會(huì)科學(xué)收集著大量的觀察和調(diào)查數(shù)據(jù) 一些人們在通宵達(dá)旦地制造和收集數(shù)據(jù) 他們相信 這些數(shù)據(jù)會(huì)對(duì)別人有用 也有一些人們脫離了實(shí)驗(yàn) 室 僅依靠網(wǎng)絡(luò)數(shù)據(jù)從事研究 另一方面人們在被 動(dòng)地囤積數(shù)據(jù) 隨著計(jì)算機(jī)互聯(lián)網(wǎng) 搜索引擎 電子 商務(wù) 多種傳感器和多媒體技術(shù)的發(fā)展和廣泛使用 各種形式的數(shù)據(jù)如江河流水般地涌來 當(dāng)今數(shù)據(jù)的 獲取和規(guī)模發(fā)生了根本的變化 統(tǒng)計(jì)學(xué)面臨著新的 機(jī)遇和挑戰(zhàn) 需要在方法論上有所突破 本文在第二部分描述大數(shù)據(jù)的形式和環(huán)境 以 及利用大數(shù)據(jù)的目的 第三部分描述大數(shù)據(jù)帶來的 變革 第四部分介紹國內(nèi)外有關(guān)大數(shù)據(jù)的研究動(dòng)向 第五部分探討大數(shù)據(jù)的信息問題 第六部分介紹大 本文獲國家自然科學(xué)基金項(xiàng)目 因果推斷的統(tǒng)計(jì)方法 批 準(zhǔn)號(hào)1 1 1 7 1 3 6 5 和 生物統(tǒng)計(jì) 批準(zhǔn)號(hào)1 1 3 3 1 0 1 1 的資助 本文為第十七次全國統(tǒng)計(jì)科學(xué)討論會(huì)特邀論文 萬方數(shù)據(jù) 6 統(tǒng)計(jì)研究2 0 1 4 年1 月 數(shù)據(jù)需要的預(yù)處理 抽樣和分析方法 特別地介紹了 網(wǎng)絡(luò)圖模型對(duì)大數(shù)據(jù)分析的潛在用途 最后一部分 是結(jié)束語 討論大數(shù)據(jù)給統(tǒng)計(jì)學(xué)帶來了機(jī)遇 挑戰(zhàn)和 緊迫感 二 大數(shù)據(jù)及其目的 狹義地講 大數(shù)據(jù)是一個(gè)大樣本和高維變量的 數(shù)據(jù)集合 針對(duì)樣本大的問題 統(tǒng)計(jì)學(xué)可以采用抽 樣減少樣本量 達(dá)到需要的精度 關(guān)于維數(shù)高的問 題 需要變量選擇 降維 壓縮 分解 但認(rèn)知高維小 樣本存在本質(zhì)的困難 廣義地講 大數(shù)據(jù)涵蓋多學(xué) 科領(lǐng)域 多源 混合的數(shù)據(jù) 自然科學(xué) 人文社會(huì) 經(jīng) 濟(jì)學(xué) 通訊 網(wǎng)絡(luò) 商業(yè)和娛樂等各領(lǐng)域的數(shù)據(jù)集相 互重疊連成了一片數(shù)據(jù)的海洋 各學(xué)科之間數(shù)據(jù)融 合和貫通 學(xué)科的邊界已重疊和模糊 大數(shù)據(jù)涉及 各種數(shù)據(jù)類型 包括文本與語言 錄像與圖像 時(shí)空 網(wǎng)絡(luò)與圖形 我認(rèn)為當(dāng)代的大數(shù)據(jù)不僅數(shù)據(jù)量大 還包括多種類型數(shù)據(jù)和大量數(shù)據(jù)項(xiàng)目集的覆蓋 重疊 大部分傳統(tǒng)的統(tǒng)計(jì)方法只適合分析單個(gè)計(jì)算機(jī) 存儲(chǔ)的數(shù)據(jù) 而目前大數(shù)據(jù)的環(huán)境包括了舊o 1 數(shù)據(jù)流環(huán)境 數(shù)據(jù)快速不斷涌來 現(xiàn)有存儲(chǔ) 設(shè)備和計(jì)算能力難以應(yīng)付這種洪水般的數(shù)據(jù)流 2 磁盤存儲(chǔ)環(huán)境 數(shù)據(jù)已不能完全存儲(chǔ)在內(nèi)存 中 需要硬盤存儲(chǔ) 3 分布存儲(chǔ)環(huán)境 數(shù)據(jù)分布存儲(chǔ)在多個(gè)計(jì)算 機(jī)中 4 多線條環(huán)境 數(shù)據(jù)存儲(chǔ)在一個(gè)計(jì)算機(jī)中 多 個(gè)處理器共享內(nèi)存 大數(shù)據(jù)的目的是將數(shù)據(jù)轉(zhuǎn)化為知識(shí) B i gD a t a t oK n o w l e d g e B D 2 K 探索數(shù)據(jù)的產(chǎn)生機(jī)制 進(jìn)行 預(yù)測和制定政策舊 6 7 把信息轉(zhuǎn)變?yōu)橛杏玫闹R(shí) 還需漫長的時(shí)間 J 預(yù)測 不同于 制定政策 一個(gè)兒童的鞋子越大 可以預(yù)測他掌握的詞匯量越 多 但是 制定政策強(qiáng)制他穿大鞋子并不能提高他的 詞匯量 進(jìn)一步 大數(shù)據(jù)有記錄保存自然與社會(huì)現(xiàn)狀的 作用 現(xiàn)在有些人收集著大量數(shù)據(jù) 盡管他們還不 清楚如何分析這些數(shù)據(jù) 但是他們相信需要保存現(xiàn) 今社會(huì)和經(jīng)濟(jì)高速發(fā)展的過程 期待著今后分析和 解釋這段歷史 還有些人將百歲老人的血液和其他 各種生物標(biāo)本等存放在冰箱里 他們認(rèn)為當(dāng)今的技 術(shù)還不足以測試和分析這些資源 期待著今后更先 進(jìn)的測試技術(shù) 大數(shù)據(jù)就如同自然和社會(huì)的血液那 樣記錄著社會(huì)的現(xiàn)狀和發(fā)展過程 1 7 世紀(jì)望遠(yuǎn)鏡和顯微鏡的發(fā)明使人類看到了 以前從來沒有看到過的宇宙空間和微生物 擴(kuò)大了 人類對(duì)自然的認(rèn)識(shí) 大數(shù)據(jù)就像 望眼鏡 和 顯微 鏡 那樣 使得人們能夠通過數(shù)據(jù)觀察分析豐富的 自然 經(jīng)濟(jì) 社會(huì)的現(xiàn)象 借助互聯(lián)網(wǎng)數(shù)據(jù) 可以及 時(shí)了解疾病疫情 科學(xué)動(dòng)態(tài) 社會(huì)動(dòng)態(tài) 谷歌借助頻 繁檢索詞條能及時(shí)判斷流感從哪傳播 哪些人可能 感染了流感MJ 大數(shù)據(jù)將形成自然和人文社會(huì)的 歷史長河 不但能用于探索當(dāng)代的科學(xué)問題 將來可 以用于研究人們食用轉(zhuǎn)基因食品對(duì)子孫后代的影響 等追蹤研究問題 為未來留下現(xiàn)今的歷史資料 三 大數(shù)據(jù)帶來的變革 大數(shù)據(jù)給我們的時(shí)代帶來了變革 目前 人們 習(xí)慣于根據(jù) 研究問題 來驅(qū)動(dòng) 收集數(shù)據(jù) 今后 大數(shù)據(jù)到處可得 人們將會(huì)用 數(shù)據(jù) 驅(qū)動(dòng) 研究問 題 就像我們出遠(yuǎn)門前常常查詢目的地的天氣 交通和賓館那樣 未來人們在研究和決策前將會(huì)通 過查詢數(shù)據(jù)做決定 目前已經(jīng)有科學(xué)家開始使用軟 件搜索和匯總已發(fā)表論文中的成果 古希臘文明時(shí) 代哲學(xué)家是百科全書式的人物 文藝復(fù)興以來學(xué)科 的分裂和細(xì)化產(chǎn)生了單一學(xué)科的專家 大數(shù)據(jù)時(shí) 代 將可能再次出現(xiàn)百科全書式的人物 大數(shù)據(jù)將 減弱專家在各個(gè)領(lǐng)域的影響 甚至導(dǎo)致專家的消 亡 1 例如目前已經(jīng)有很多統(tǒng)計(jì)學(xué)家 物理學(xué)家和 計(jì)算機(jī)專家憑著他們對(duì)數(shù)據(jù)的敏銳和處理能力進(jìn)入 了生命科學(xué)領(lǐng)域 假若我們有了成千上萬本中文書 和它們的阿拉伯語譯本 即使我們不懂阿拉伯語 我 們也能采用匹配文本的方法將中文翻譯成阿拉伯 語 谷歌機(jī)器翻譯團(tuán)隊(duì)并不會(huì)說他們翻譯出的語 言 大數(shù)據(jù)中包含有各種不同目的的數(shù)據(jù)集 綜 合利用它們可以做出原來目的之外的意外成果 例 如 將醫(yī)院病歷數(shù)據(jù)與信用卡消費(fèi)數(shù)據(jù)結(jié)合 我們能 發(fā)現(xiàn)食品與健康的相關(guān)關(guān)系 指導(dǎo)人們進(jìn)行健康飲 食 假若再加上手機(jī)和G P S 等數(shù)據(jù) 還能隨時(shí)對(duì)人 們進(jìn)行體檢 指導(dǎo)健身 減少猝死 幫助醫(yī)生診斷疾 病等 應(yīng)用大數(shù)據(jù)可以設(shè)想的用途不計(jì)其數(shù) 四 大數(shù)據(jù)的研究動(dòng)向 美國科學(xué)院全國研究理事會(huì)的 大數(shù)據(jù)分析委 萬方數(shù)據(jù) 第3 1 卷第1 期耿直 大數(shù)據(jù)時(shí)代統(tǒng)計(jì)學(xué)面臨的機(jī)遇與挑戰(zhàn) 7 員會(huì)舊1 提出了大數(shù)據(jù)的挑戰(zhàn)問題 處理高度分布的 數(shù)據(jù)資源 追蹤數(shù)據(jù)的來源 核實(shí)數(shù)據(jù) 處理樣本偏 倚和異質(zhì)性 處理不同格式和結(jié)構(gòu)的數(shù)據(jù) 開發(fā)并行 和分布式算法 數(shù)據(jù)的完整性 安全性 一體化和共 享 開發(fā)大數(shù)據(jù)的可視化方法和可擴(kuò)展算法 處理實(shí) 時(shí)分析和決策制定 美國國家衛(wèi)生研究院 N I H 1 提出將數(shù)據(jù)轉(zhuǎn)換為知識(shí) B D 2 K 的使命 設(shè)立生物 醫(yī)學(xué)大數(shù)據(jù)研究中心基金 在我國 科技部組織召開了兩次香山會(huì)議 2 0 1 2 年5 月 大數(shù)據(jù)科學(xué)與工程 2 0 1 3 年5 月 數(shù)據(jù)科 學(xué)與大數(shù)據(jù)的科學(xué)原理及發(fā)展前景 設(shè)立了大數(shù) 據(jù)的 9 7 3 專項(xiàng)研究計(jì)劃 國家自然科學(xué)基金委 2 0 1 3 年3 月組織了雙清論壇 大數(shù)據(jù)技術(shù)與應(yīng)用中 的挑戰(zhàn)性科學(xué)問題 國家自然科學(xué)基金委的數(shù)理 學(xué)部 信息學(xué)部 管理學(xué)部都計(jì)劃設(shè)立大數(shù)據(jù)的重大 項(xiàng)目和重點(diǎn)項(xiàng)目群 國家社科基金計(jì)劃設(shè)立大數(shù)據(jù) 的重大項(xiàng)目 另外 業(yè)界 咨詢公司和投資商都在尋 找大數(shù)據(jù)的機(jī)會(huì) 大數(shù)據(jù)分析的方法研究超出了單一學(xué)科領(lǐng)域 需多學(xué)科聯(lián)合 統(tǒng)計(jì)學(xué)家需要關(guān)注計(jì)算機(jī)資源和實(shí) 時(shí)決策 計(jì)算機(jī)學(xué)家需要了解統(tǒng)計(jì)推斷和算法的復(fù) 雜性 另外 利用大數(shù)據(jù)還需要相關(guān)領(lǐng)域?qū)<业膶?業(yè)知識(shí) 五 大數(shù)據(jù)的信息和問題 大數(shù)據(jù)是多源異質(zhì)的 覆蓋不同范圍的數(shù)據(jù) 為了融合各種數(shù)據(jù) 需要對(duì)數(shù)據(jù)來源 數(shù)據(jù)的獲取方 式和數(shù)據(jù)描述進(jìn)行形式化 以支撐數(shù)據(jù)分析 大數(shù) 據(jù)來自多種渠道 存在抽樣偏倚 隨機(jī)的和非隨機(jī)的 誤差 無意的和有意的錯(cuò)誤 數(shù)據(jù)收集的準(zhǔn)則與數(shù) 據(jù)分析和決策的準(zhǔn)則不相符合 有些數(shù)據(jù)不是原始 數(shù)據(jù) 而是推斷的結(jié)果 如填補(bǔ)的缺失數(shù)據(jù) 數(shù)據(jù) 的循環(huán)使用導(dǎo)致偏差和噪音被放大 數(shù)據(jù)量大不一 定有用的信息多 大量的含偏差數(shù)據(jù)甚至?xí)茐男?息 應(yīng)意識(shí)到分析大數(shù)據(jù)也許會(huì)得到虛假知識(shí) 而 自己卻不知情 在大數(shù)據(jù)環(huán)境下 收集數(shù)據(jù)的人也 許不清楚未來使用數(shù)據(jù)的人要做什么 使用數(shù)據(jù)建 模的人也許不清楚數(shù)據(jù)是如何得到的 使用模型的 人也許不知道模型是從什么數(shù)據(jù)得出來的 因此 難免人們會(huì)根據(jù)自己的意圖過分地解釋模型 超出 了原始數(shù)據(jù)所包含的信息范圍 獲取的數(shù)據(jù)也可能存在選擇偏倚 如醫(yī)院就診的 病人和使用互聯(lián)網(wǎng)的人不能代表研究總體 大數(shù)據(jù) 難免存在不響應(yīng)和缺失數(shù)據(jù) 有些數(shù)據(jù)是隨機(jī)缺失 的 非隨機(jī)缺失的 因?yàn)槊舾袉栴}或隱私問題而缺失 的 不同研究收集不同的 有重疊變量的數(shù)據(jù)集 例 如 經(jīng)濟(jì) 保險(xiǎn) 社會(huì) 醫(yī)學(xué) 生物 化學(xué)等研究的問題 不同 收集數(shù)據(jù)的變量集合不同 x Y z x Y U V 等 但是它們也許有共同感興趣的變量交集 另外 來自觀察的數(shù)據(jù)和來自試驗(yàn)的數(shù)據(jù)具有 不同的信息 不同信息導(dǎo)致不同的認(rèn)知范圍 數(shù)據(jù) 本身含有的信息是有邊界的 決定了數(shù)據(jù)分析解釋 的范圍 模型只是數(shù)據(jù)信息的精練 不能向外延展 數(shù)據(jù)的信息 利用模型進(jìn)行超出數(shù)據(jù)信息之外的推 斷 需要額外的假定 而這些假定不能被數(shù)據(jù)證偽 六 大數(shù)據(jù)的處理 抽樣與分析 一 數(shù)據(jù)的預(yù)處理 大數(shù)據(jù)的預(yù)處理包括數(shù)據(jù)清洗 不完全數(shù)據(jù)填 補(bǔ) 數(shù)據(jù)糾偏與矯正 利用隨機(jī)抽樣數(shù)據(jù)矯正雜亂 的 非標(biāo)準(zhǔn)的數(shù)據(jù)源 統(tǒng)計(jì)機(jī)構(gòu)的數(shù)據(jù)是經(jīng)過嚴(yán)格 抽樣設(shè)計(jì)獲取的 具有總體的代表性和系統(tǒng)誤差小 的優(yōu)勢 但是數(shù)據(jù)獲取和更新的周期長 盡管調(diào)查項(xiàng) 目有代表性 但難以無所不包 而互聯(lián)網(wǎng)數(shù)據(jù)的獲 取速度快 量大 項(xiàng)目繁細(xì) 但是難以避免數(shù)據(jù)獲取 的偏倚性 將統(tǒng)計(jì)機(jī)構(gòu)的數(shù)據(jù)作為金標(biāo)準(zhǔn)和框架對(duì) 互聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行矯正 將互聯(lián)網(wǎng)數(shù)據(jù)作為補(bǔ)充資源 對(duì)統(tǒng)計(jì)機(jī)構(gòu)的數(shù)據(jù)進(jìn)行實(shí)時(shí)更新 也許是解決問題 的一個(gè)思路 研究利用多源數(shù)據(jù)的重疊關(guān)系整合多 數(shù)據(jù)庫資源的方法 多種專題 p a n e l s 的數(shù)據(jù)可以 相互聯(lián)合 實(shí)現(xiàn)單一專題數(shù)據(jù)不能完成的目標(biāo) 二 大數(shù)據(jù)環(huán)境的抽樣 大數(shù)據(jù)的抽樣方法有待研究 1 樣本 不必 使用所有 數(shù)據(jù) 不管鍋有多大 只要充分?jǐn)噭?品 嘗一小勺就知道其滋味 針對(duì)大數(shù)據(jù)流環(huán)境 需要 探索從源源不斷的數(shù)據(jù)流中抽取足以滿足統(tǒng)計(jì)目的 和精度的樣本 需要研究新的適應(yīng)性 序貫性和動(dòng) 態(tài)的抽樣方法 根據(jù)已獲得的樣本逐步調(diào)整感興趣 的調(diào)查項(xiàng)目和抽樣對(duì)象 使得最近頻繁出現(xiàn)的 熱 門 數(shù)據(jù) 也是感興趣的數(shù)據(jù)進(jìn)入樣本 建立數(shù)據(jù) 流的緩沖區(qū) 記錄新發(fā)生數(shù)據(jù)的頻數(shù) 動(dòng)態(tài)調(diào)整不在 樣本中的數(shù)據(jù)進(jìn)入樣本的概率 對(duì)于罕見案例 如 果采用簡單隨機(jī)抽樣將會(huì)抽到很少的案例和過多的 非案例數(shù)據(jù) 需要研究大數(shù)據(jù)的案例抽樣方法 萬方數(shù)據(jù) 8 統(tǒng)計(jì)研究 2 0 1 4 年1 月 C a s e b a s e ds a m p l i n g 探索基于事件的抽樣方法 E v e n t b a s e ds a m p l i n g 設(shè)置信號(hào)強(qiáng)度門檻值 僅 抽樣超過門檻值的數(shù)據(jù) 利用其他各種抽樣技術(shù) 例如 捕獲一再捕獲 不等概率抽樣 將注意力放到 總體中難以觀測到的部分 在大數(shù)據(jù)環(huán)境中采用非 隨機(jī)抽樣方法 如滾雪球方法 從種子開始逐步擴(kuò)大 樣本 研究對(duì)社會(huì)關(guān)系網(wǎng)絡(luò)和圖的抽樣方法 從隨 機(jī)種子出發(fā) 不斷加入新種子 了解網(wǎng)絡(luò)性質(zhì)和結(jié) 構(gòu) 需要研究發(fā)現(xiàn)稀疏信號(hào)的方法和壓縮感知方 法 成組檢測是發(fā)現(xiàn)稀疏信號(hào)的一個(gè)特別方法 例 如美國1 9 4 3 年對(duì)新兵驗(yàn)血檢查梅毒感染時(shí) 由于梅 毒是罕見疾病 采用了將一組人群的血液混合在一 起進(jìn)行檢測的高效快捷方法 三 大數(shù)據(jù)的分析與整合 針對(duì)大數(shù)據(jù)的高維問題 需要研究降維和分解 的方法 探討壓縮大數(shù)據(jù)的方法 直接對(duì)壓縮的數(shù) 據(jù)核進(jìn)行傳輸 運(yùn)算和操作 除了常規(guī)的統(tǒng)計(jì)分析 方法 包括高維矩陣 降維方法 變量選擇之外 需要 研究大數(shù)據(jù)的實(shí)時(shí)分析 數(shù)據(jù)流算法 d a t as t r e a m c o m p u t i n g 不用保存數(shù)據(jù) 僅掃描一遍數(shù)據(jù)的數(shù) 據(jù)流算法 考慮計(jì)算機(jī)內(nèi)存和外存的數(shù)據(jù)傳送問題 分布數(shù)據(jù)和并行計(jì)算的方法 如何無信息損失或無 統(tǒng)計(jì)信息損失地分解大數(shù)據(jù)集 獨(dú)立并行地在分布 計(jì)算機(jī)環(huán)境進(jìn)行推斷 各個(gè)計(jì)算機(jī)的中間計(jì)算結(jié)果 能相互聯(lián)系溝通 構(gòu)造全局統(tǒng)計(jì)結(jié)果 研究多個(gè)數(shù) 據(jù)資源的融合算法 研究利用數(shù)據(jù)流尋找模型變化 時(shí)間點(diǎn)的動(dòng)態(tài)變化模型 針對(duì)多種不同數(shù)據(jù)庫的環(huán)境 利用關(guān)系數(shù)據(jù)庫 技術(shù) 根據(jù)關(guān)鍵字 例如 身份證 將很多小數(shù)據(jù)庫 連接成一個(gè)大數(shù)據(jù)庫 另一方面 能無信息損失地 將大數(shù)據(jù)庫拆分為多個(gè)小數(shù)據(jù)庫 組合多數(shù)據(jù)庫的 不同數(shù)據(jù)集合 可以做出有創(chuàng)意的東西 丹麥有一 個(gè)手機(jī)用戶的數(shù)據(jù)庫 共3 5 8 4 0 3 人 另一個(gè)記錄了 癌癥患者的數(shù)據(jù)庫 有1 0 7 2 9 名中樞神經(jīng)系統(tǒng)患者 的信息 將兩個(gè)數(shù)據(jù)庫結(jié)合 研究手機(jī)與癌癥之間 的關(guān)系 發(fā)現(xiàn)使用手機(jī)和癌癥之間不存在任何關(guān) 系 其結(jié)果發(fā)表在2 0 1 1 年的 英國醫(yī)學(xué)雜志 1 在大數(shù)據(jù)環(huán)境 很多數(shù)據(jù)集不再有標(biāo)識(shí)個(gè)體的 關(guān)鍵字 傳統(tǒng)的關(guān)系數(shù)據(jù)庫連接方法不再適用 需要 探討利用數(shù)據(jù)庫之間的重疊項(xiàng)目來結(jié)合不同的數(shù)據(jù) 庫 利用變量間的條件獨(dú)立性整合多個(gè)不同變量集 的數(shù)據(jù)為一個(gè)完整變量集的大數(shù)據(jù)庫的方法 探索 不必經(jīng)過整合多數(shù)據(jù)庫 直接利用局部數(shù)據(jù)進(jìn)行推 斷和各推斷結(jié)果傳播的方法 另一方面 利用統(tǒng)計(jì) 性質(zhì)無信息損失地分解和壓縮大數(shù)據(jù) 在多源和多專題的數(shù)據(jù)庫環(huán)境 各個(gè)數(shù)據(jù)集的 獲取條件不同 項(xiàng)目不同又有所重疊 在這種情況 下 一種分析方法是分別利用各個(gè)數(shù)據(jù)集得到各自 的統(tǒng)計(jì)結(jié)論 然后整合來自這些數(shù)據(jù)集的統(tǒng)計(jì)結(jié)論 如薈萃分析方法 我們曾提出 中間變量悖論 指 出統(tǒng)計(jì)結(jié)論不具備傳遞性 1 例如 變量A 對(duì)變量 B 有正作用 并且變量B 對(duì)變量C 有正作用 但是 可能變量A 對(duì)變量C 有負(fù)作用 為了避免 中間變 量悖論 的現(xiàn)象發(fā)生 可以先整合數(shù)據(jù) 再利用整合 的數(shù)據(jù)進(jìn)行推斷 我們提出了判斷已有的各種條件 數(shù)據(jù)集是否能識(shí)別所有變量聯(lián)合分布的算法 例如 有5 個(gè)數(shù)據(jù)庫 包含的變量的模式為 D E F I A B C G A D G I B C D E I F B I A C D G c I D E 一個(gè)字母表示一個(gè)變量 D E l F 表示在給定變量F 條件下獲得的變量D 和E 的 數(shù)據(jù) 根據(jù)我們的算法可以判斷由這些條件數(shù)據(jù)庫 可以識(shí)別和估計(jì)所有變量 A B C D E F G 的聯(lián) 合分布 四 網(wǎng)絡(luò)圖模型 網(wǎng)絡(luò)圖模型用圖的結(jié)構(gòu)描述高維變量之間的相 互關(guān)系 包括無向圖概率模型 貝葉斯網(wǎng)絡(luò) 因果網(wǎng) 絡(luò)等舊J 網(wǎng)絡(luò)圖模型是處理和分析高維大數(shù)據(jù)和 多源數(shù)據(jù)庫的有效工具 目前已經(jīng)有豐富的圖模型 的軟件系統(tǒng) 例如M S B N B NT o o l b o x W i n B U G S H u g i n T e t r a d M I M C o C o 等 無向圖模型利用有 或無一條無方向邊來描述變量之間的關(guān)聯(lián)關(guān)系和條 件獨(dú)立性 可以將高維變量的統(tǒng)計(jì)推斷問題 例如 參數(shù)估計(jì)和假設(shè)檢驗(yàn) 分解為低維變量的統(tǒng)計(jì)推斷 問題 貝葉斯網(wǎng)絡(luò)是一個(gè)有向無環(huán)圖 用于計(jì)算大 網(wǎng)絡(luò)中信息的收集和傳播 在一個(gè)由眾多變量作為 結(jié)點(diǎn)的大網(wǎng)絡(luò)中 當(dāng)收集到一部分變量的信息后 不 用計(jì)算高維聯(lián)合概率 而是采用網(wǎng)絡(luò)傳播信息流的 方法有效地計(jì)算目標(biāo)變量的后驗(yàn)概率 P e a r l 2 0 1 1 年圖靈獎(jiǎng)獲得者 提出因果網(wǎng)絡(luò) 采用有向圖刻畫 變量間的因果關(guān)系 利用數(shù)據(jù)學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu) 發(fā)現(xiàn)產(chǎn) 生數(shù)據(jù)的機(jī)制和因果關(guān)系網(wǎng)絡(luò) 網(wǎng)絡(luò)圖模型可以用于分解大數(shù)據(jù)集合 處理多 源數(shù)據(jù)庫 利用局部數(shù)據(jù) 進(jìn)行并行計(jì)算 網(wǎng)絡(luò)圖模 型還可以引入隱變量簡化復(fù)雜的關(guān)聯(lián)關(guān)系 利用關(guān) 萬方數(shù)據(jù) 第3 1 卷第1 期耿直 大數(shù)據(jù)時(shí)代統(tǒng)計(jì)學(xué)面臨的機(jī)遇與挑戰(zhàn) 9 聯(lián)網(wǎng)絡(luò)圖進(jìn)行基于關(guān)聯(lián)關(guān)系的預(yù)測 例如 樸素貝葉 斯分類器和貝葉斯網(wǎng)絡(luò)分類器 利用因果網(wǎng)絡(luò)圖可 以進(jìn)行基于因果關(guān)系的預(yù)測和政策制定 我們提出 盲人摸象 方法 利用多個(gè)不完全數(shù) 據(jù)庫學(xué)習(xí)整體網(wǎng)絡(luò)結(jié)構(gòu)的算法 o 1 1 首先分別利 用各個(gè)數(shù)據(jù)庫學(xué)習(xí)各自的局部網(wǎng)絡(luò)結(jié)構(gòu) 然后將這 些局部結(jié)構(gòu)相互交流配合 最終整合一個(gè)全局的網(wǎng) 絡(luò)結(jié)構(gòu) 當(dāng)因果關(guān)系不能完全根據(jù)數(shù)據(jù)確定時(shí) 我 們提出采用主動(dòng)學(xué)習(xí)的方法 抓住主要變量進(jìn)行干 預(yù)試驗(yàn) 確定整個(gè)網(wǎng)絡(luò)的因果關(guān)系 達(dá)到 壹引起 綱 萬目皆張 的作用 我們提出利用因果關(guān)系 制定干預(yù)政策的 尋根問題 順謄摸瓜 的方 法 這個(gè)方法不必構(gòu)造高維變量的完整因果網(wǎng) 絡(luò) 而是從一個(gè)目標(biāo)結(jié)點(diǎn)出發(fā) 逐步進(jìn)行局部變量選 擇和局部網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí) 最終確定并能區(qū)分該目標(biāo) 節(jié)點(diǎn)的原因與結(jié)果 七 結(jié)束語 一個(gè)新生事物的出現(xiàn)將必定導(dǎo)致傳統(tǒng)觀念和技 術(shù)的革命 數(shù)碼照相機(jī)的出現(xiàn)導(dǎo)致傳統(tǒng)相片膠卷和 影像業(yè)的已近消亡 如果大數(shù)據(jù)包含了所有父親和 兒子的身高數(shù)據(jù) 只要計(jì)算給定的父親身高下所有 兒子的平均身高就可以預(yù)測其兒子身高了 模型不 再重要 當(dāng)年統(tǒng)計(jì)學(xué)最得意的回歸預(yù)測方法將被淘 汰 大數(shù)據(jù)的到來將對(duì)傳統(tǒng)的統(tǒng)計(jì)方法進(jìn)行考驗(yàn) 統(tǒng)計(jì)學(xué)會(huì)不會(huì)象科學(xué)哲學(xué)那樣 只佩戴著歷史的光 環(huán) 而不再主導(dǎo)和引領(lǐng)人們分析和利用大數(shù)據(jù)資源 現(xiàn)在其他學(xué)科和行業(yè)涌人大數(shù)據(jù)的熱潮 如果統(tǒng)計(jì) 學(xué)不抓緊參與的話 將面臨著被邊緣化的危險(xiǎn) 現(xiàn)今統(tǒng)計(jì)學(xué)的目標(biāo)是通過獲取數(shù)據(jù)和分析數(shù)據(jù) 發(fā)現(xiàn)真理 總體的參數(shù)和性質(zhì) 統(tǒng)計(jì)方法和理論對(duì) 數(shù)據(jù)有過高的要求 而大數(shù)據(jù)充滿了各種隨機(jī)的 非隨機(jī)的誤差和偏倚 不能滿足這些苛刻的要求 按照波普的科學(xué)劃界準(zhǔn)則 只要我們能從大數(shù)據(jù)中 提煉出具有可證偽的結(jié)論 那么這個(gè)結(jié)論還是科學(xué) 的 可以用于知識(shí)積累 這些可證偽的大數(shù)據(jù)結(jié)論 可作為進(jìn)一步科學(xué)研究的假說 以數(shù)據(jù)驅(qū)動(dòng)研究 我們在看到大數(shù)據(jù)給統(tǒng)計(jì)學(xué)帶來了機(jī)遇的同 時(shí) 也應(yīng)該看到現(xiàn)在的統(tǒng)計(jì)方法普遍只適用于全部 數(shù)據(jù)放在單個(gè)計(jì)算機(jī)內(nèi)存的環(huán)境 分布式大數(shù)據(jù)和 數(shù)據(jù)流的環(huán)境給統(tǒng)計(jì)學(xué)帶來了挑戰(zhàn) 統(tǒng)計(jì)學(xué)家不應(yīng) 該固守傳統(tǒng)數(shù)據(jù)的環(huán)境 必須積極學(xué)習(xí)新生事物 適 應(yīng)新的大數(shù)據(jù)環(huán)境 擴(kuò)展統(tǒng)計(jì)學(xué)的應(yīng)用領(lǐng)域 創(chuàng)造出 迎合大數(shù)據(jù)的新統(tǒng)計(jì)方法 機(jī)遇 與 挑戰(zhàn) 并存 參考文獻(xiàn) 1 C h e nH G e n gZ J i aJ C r i t e r i af o rs u r r o g a t ee n dp o i n t s J J R o y a lS t a t i s tS o cS e r 2 0 0 7 B6 9 9 1 9 9 3 2 2 C o m m i t t e eo nt h eA n a l y s i so fM a s s i v eD a t ae ta 1 2 0 1 3 F r o n t i e r si n M a s s i v eD a t aA n a l y s i s J N a t i o n a lA c a d e m i e sP r e s s W a s h i n g t o n h t t p w w w n a p e d u e a t a l o g p h p r e c o r d i d 1 8 3 7 4 3 D e n gK G e n gz L i uJ A s s o c i a t i o nP a t t e r nD i s c o v e r yv i aT h e m e D i c t i o n a r yM o d e l s J T oa p p e a ri nJR o y a lS t a t i s tS o cB 2 0 1 3 4 H eY G e n gZ A c t i v el e a r n i n go fc a u s a ln e t w o r k sw i t hi n t e r v e n t i o n e x p e r i m e n t s a n d o p t i m a ld e s i g n s J JM a c h i n eL e a r n i n g R e s e a r c h 2 0 0 8 9 2 5 2 3 2 5 4 7 5 J i aJ G e n gz W a n gM I d e n t i f i a b i l i t ya n de s t i m a t i o no f p r o b a b i l i t i e sf r o mm u l t i p l ed a t a b a s e sw i t hi n c o m p l e t ed a t aa n d s a m p l i n gs e l e c t i o n J L e c t u r eN o t e si nC o m p u t e rS c i e n c e s 2 0 0 6 4 1 0 9 7 9 2 7 9 8 6 維克托 邁爾一舍恩伯格 肯尼思 庫克耶 大數(shù)據(jù)時(shí)代一生活 工作與思維的大變革 M 盛楊燕 周濤譯 杭州 浙江人民出 版社 7 N I HB i gD a t at oK n o w l e d g e 2 0 1 3 h t t p b d 2 k n i h g o v i n d e x h t m l s t h a s h Y u 5 H x j c M d p b s 8 P e a r lJ C a u s a l i t y2 e dC a m b r i d g eU n i v e r s i t yP r e s s 2 0 0 9 9 納特 西

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論