版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
大數(shù)據(jù)時代索引與數(shù)據(jù)庫
事業(yè)的發(fā)展與創(chuàng)新大綱結語大數(shù)據(jù)時代索引與數(shù)據(jù)庫事業(yè)面臨的挑戰(zhàn)及創(chuàng)新索引與數(shù)據(jù)庫的發(fā)展現(xiàn)狀大數(shù)據(jù)時代引言“大數(shù)據(jù)”(BigData)已經(jīng)在全球引起了廣泛關注,正在引領了又一輪數(shù)據(jù)技術的革命。美國EMC公司于2011年5月在美國拉斯維加斯舉辦第11屆EMCWorld大會,大會的核心是幫助企業(yè)利用IT變革的重要趨勢。此次大會以“云計算相遇大數(shù)據(jù)(CloudMeetsBigData)”為主題,著重展現(xiàn)當今兩個最重要的技術趨勢,正式提出了“大數(shù)據(jù)”概念。1引言根據(jù)IDC《數(shù)字世界》研究項目在2012年的統(tǒng)計,2010年全球數(shù)字資源的規(guī)模首次突破了ZB(1ZB=1萬億GB)級別,達到了1.227ZB;而2005年只有130Eb,五年增長了10倍。如果保持這種爆炸式的增長速度,到了2020年,我們的數(shù)字資源規(guī)模將超過40ZB,相當于世界上每個人擁有超過5200GB的數(shù)據(jù)。無疑,我們已進入了大數(shù)據(jù)時代。1引言單位:ZB在2011年12月,我國工信部發(fā)布了物聯(lián)網(wǎng)“十二五”規(guī)劃,提出了4項關鍵技術創(chuàng)新工程。信息處理技術的內(nèi)容包括海量數(shù)據(jù)存儲、數(shù)據(jù)挖掘、圖像視頻智能分析等,都是大數(shù)據(jù)技術的重要組成部分;另外3項關鍵技術創(chuàng)新工程,包括信息感知技術、信息傳輸技術、信息安全技術,這些也都與“大數(shù)據(jù)”密切相關。我國也對大數(shù)據(jù)技術給予了足夠的重視。1引言基于以上概述,我們認為,大數(shù)據(jù)時代已經(jīng)到來,已經(jīng)對我們的社會產(chǎn)生了重大影響。本文將嘗試對大數(shù)據(jù)時代我國的索引和數(shù)據(jù)庫事業(yè)的發(fā)展與創(chuàng)新進行研究和展望。1引言2.1大數(shù)據(jù)的定義和特征許多權威機構和企業(yè)對大數(shù)據(jù)給予了不同的定義。麥肯錫認為,“大數(shù)據(jù)所涉及的數(shù)據(jù)集規(guī)模已經(jīng)超過了傳統(tǒng)數(shù)據(jù)庫軟件獲取、存儲、管理和分析的能力。”2大數(shù)據(jù)時代IBM公司認為,可以用3個特征相結合來定義大數(shù)據(jù):數(shù)量(Volume)、種類(Variety)和速度(Velocity),即龐大容量、極快速度和種類豐富的數(shù)據(jù)。IDC公司認為,“大數(shù)據(jù)不是一個事物,而是一個跨多個信息技術領域的現(xiàn)象。大數(shù)據(jù)技術描述了新一代的技術和架構,通過使用高速(Velocity)的采集、發(fā)現(xiàn)或分析方法,從超大容量(Volume)的多樣(Variety)數(shù)據(jù)中經(jīng)濟地提取價值(Value)?!?大數(shù)據(jù)時代綜合以上幾種不同的見解,我們認為,具備以下特征的就是大數(shù)據(jù)。(1)數(shù)量大(Volume)。大數(shù)據(jù)所包含的數(shù)據(jù)量很大,而且在急劇增長之中。但是,在可供使用的數(shù)據(jù)數(shù)量不斷增長的同時,可處理、理解和分析的數(shù)據(jù)比例卻在不斷下降。2大數(shù)據(jù)時代(2)種類多(Variety)。隨著技術的發(fā)展,數(shù)據(jù)源不斷增多,數(shù)據(jù)的類型也不斷增加。不僅包含傳統(tǒng)的關系型數(shù)據(jù),還包含來自網(wǎng)頁、互聯(lián)網(wǎng)、搜索引擎、論壇、電子郵件、傳感器數(shù)據(jù)等原始的、半結構化和非結構化數(shù)據(jù)。(3)速度快(Velocity)。除了收集數(shù)據(jù)的數(shù)量和種類發(fā)生變化,需要處理和生成數(shù)據(jù)的速度也在變化。數(shù)據(jù)流動的速度在加快,要有效的處理大數(shù)據(jù),需要在數(shù)據(jù)變化的過程中實時的對其進行分析,而不是滯后的進行處理。2大數(shù)據(jù)時代(4)價值量((Value)。在信息息時代,,信息具具有很重重要的商商業(yè)價值值。但是是,信息息具有生生命周期期,數(shù)據(jù)據(jù)的價值值會隨時時間快速速減少。。另外,,大數(shù)據(jù)據(jù)的數(shù)量量龐大,,種類繁繁多,變變化也快快,數(shù)據(jù)據(jù)的價值值密度很很低。如如何從大大量多樣樣的數(shù)據(jù)據(jù)中盡快快的分析析出有價價值的信信息非常常重要。。對海量量的數(shù)據(jù)據(jù)進行挖挖掘和分分析,這這也是大大數(shù)據(jù)技技術的難難點。2大數(shù)據(jù)時時代(5)真實性((Veracity)。這是一一個衍生生特征。。真實有有效的數(shù)數(shù)據(jù)才具具有意義義。隨著著新數(shù)據(jù)據(jù)源的增增加,信信息量的的爆炸式式增長,,我們很很難對數(shù)數(shù)據(jù)的真真實性和和安全性性進行控控制,因因此需要要對大數(shù)數(shù)據(jù)進行行有效的的信息治治理。大數(shù)據(jù)在在結構類類型上也也有其特特點:大多數(shù)的的大數(shù)據(jù)據(jù)都是半半結構化化或非結結構化的的。2大數(shù)據(jù)時時代半結構化化的數(shù)據(jù)據(jù)是指具有有一定的的結構性性并可被被解析或或者通過過使用工工具可以以使之格格式化的的數(shù)據(jù),,如包含含不一致致的數(shù)據(jù)據(jù)和格式式的員工工薪酬數(shù)數(shù)據(jù)。非結構化的數(shù)數(shù)據(jù)是指沒有固定定結構,通常常無法直接知知道其內(nèi)容,,保存為不同同類型文件的的數(shù)據(jù),如各各種圖像、視視頻文件。根據(jù)目前大數(shù)數(shù)據(jù)的發(fā)展狀狀況,未來數(shù)據(jù)增長長的絕大部分分將是半結構構化或非結構構化的數(shù)據(jù)。2大數(shù)據(jù)時代2.2大數(shù)據(jù)時代已已經(jīng)到來(1)大數(shù)據(jù)時代代已經(jīng)到來理論的提出:2008年,《Nature》雜志出版一期期???,專門門討論未來的的大數(shù)據(jù)(BigData)處理相關的的一系列技術術問題和挑戰(zhàn)戰(zhàn)?,F(xiàn)實的節(jié)點:2007年是人類創(chuàng)造造的信息量有有史以來第一一次在理論上上超過可用存存儲空間總量量的一年。2大數(shù)據(jù)時代(2)大數(shù)據(jù)時代代到來的原因首先,信息技術和計計算機網(wǎng)絡技技術的發(fā)展,,為大數(shù)據(jù)時時代的到來奠奠定了堅實的的技術基礎。各種技術的發(fā)發(fā)展,使得數(shù)數(shù)據(jù)的來源、、類型、數(shù)量量變得越來越越多,由此產(chǎn)產(chǎn)生出了的數(shù)數(shù)目龐大且不不斷急劇增長長的非結構化化數(shù)據(jù)、半結結構化數(shù)據(jù),,整個社會發(fā)發(fā)展進入到了了大數(shù)據(jù)時代代。2大數(shù)據(jù)時代其次,大量智能終端端的廣泛應用用與網(wǎng)絡應用用的不斷增長長,為大數(shù)據(jù)據(jù)時代的到來來奠定了堅實實的物質基礎礎。通過互聯(lián)網(wǎng)和和社交網(wǎng)絡、、數(shù)碼相機等等工具,每個個人的日常生生活正在被數(shù)數(shù)字化,人們們可以隨時方方便的根據(jù)自自己的需要,,產(chǎn)生大量的的非結構化數(shù)數(shù)據(jù)、半結構構化數(shù)據(jù)。特特別是智能手手機和筆記本本電腦的普及及,是當前數(shù)數(shù)據(jù)量爆炸增增長的一個重重要原因。2大數(shù)據(jù)時代最后,信息社會的快快速建立,信信息成為越來來越重要的經(jīng)經(jīng)濟資源,也也是大數(shù)據(jù)時時代到來的重重要原因。在信息時代,,數(shù)據(jù)已經(jīng)成成為社會資源源的重要組成成部分,基于于數(shù)據(jù)的處理理、分析、挖挖掘等服務都都被信息服務務機構廣泛應應用和開展,,信息的經(jīng)濟濟價值越來越越大,人們對對數(shù)據(jù)的重視視程度越來越越高,由此也也產(chǎn)生了大量量的數(shù)據(jù)。2大數(shù)據(jù)時代(3)大數(shù)據(jù)時代的的到來,必定定會對索引和和數(shù)據(jù)庫事業(yè)業(yè)也產(chǎn)生重大大影響。本文將論述大大數(shù)據(jù)為索引引和數(shù)據(jù)庫帶帶來的機遇和和挑戰(zhàn),探討討大數(shù)據(jù)時代代索引和數(shù)據(jù)據(jù)庫事業(yè)的發(fā)發(fā)展與創(chuàng)新,,以引起業(yè)界界學者對相關關問題的關注注與探討。2大數(shù)據(jù)時代3.1索引事業(yè)的發(fā)發(fā)展現(xiàn)狀按照錢亞新教教授的說法,,“將一種書書報或一套書書報中討論所所及的人名、、物名、事名名、地名、時時名或篇名等等分析而組合合,用一定的的方法排列它它們的次序,,并表明它們們在書報中所所在的地位的的表,叫作索索引。換言之之,索引是一一種檢查指定定范圍內(nèi)的書書報所有特項項知識的工具具?!?索引與數(shù)據(jù)庫庫的發(fā)展現(xiàn)狀狀一般來說,索索引的編制有有手工和計算算機編制兩種種方式,隨著科科技和時代的的發(fā)展,目前前基本都使用用計算機編制制索引的方式式。九十年代以來來,隨著當代代數(shù)字化、網(wǎng)網(wǎng)絡化、智能能化技術的發(fā)發(fā)展,索引研研究對象也隨隨之從傳統(tǒng)的的印刷型擴大大到了數(shù)字型型,出現(xiàn)了索索引數(shù)據(jù)庫、、文摘數(shù)據(jù)庫庫、全文數(shù)據(jù)據(jù)庫,以及網(wǎng)網(wǎng)頁索引、網(wǎng)網(wǎng)址索引、搜搜索引擎、學3索引與數(shù)據(jù)庫庫的發(fā)展現(xiàn)狀狀目前使用最多多的索引產(chǎn)品品是數(shù)據(jù)庫索索引,南京政治學學院上海分院院信息管理系系的張琪玉教教授直接提出出了現(xiàn)代的索索引就是數(shù)據(jù)據(jù)庫的判斷。。目前國內(nèi)外外的索引事事業(yè)隨著計計算機和網(wǎng)網(wǎng)絡技術的的發(fā)展也取取得了很大大的進展。。3索引與數(shù)據(jù)據(jù)庫的發(fā)展展現(xiàn)狀在國際,SCI等三大索引引在科技界界形成了重重大影響,,其他領域域的索引應應用也取得得了廣泛的的成果。在國內(nèi),各各種類型的的中文全文文文獻數(shù)據(jù)據(jù)庫紛紛上上網(wǎng),為科科研工作者者提供了很很好的幫助助,傳統(tǒng)索索引事業(yè)也也穩(wěn)步發(fā)展展。網(wǎng)絡信信息檢索工工具是國內(nèi)內(nèi)外索引研研究和應用用的熱點,,影響越來來越大。3索引與數(shù)據(jù)據(jù)庫的發(fā)展展現(xiàn)狀根據(jù)本中心心的研究,,目前國內(nèi)外外在索引領領域的研究究表現(xiàn)出明明顯的差異異性,但發(fā)發(fā)展趨勢基基本一致。具體表現(xiàn)在在以下四個個方面:第一,國內(nèi)內(nèi)外對電子子索引技術術的研究日日益成熟,,在國內(nèi)正正處于研究究網(wǎng)絡的中中心,而在在國外已逐逐漸處于網(wǎng)網(wǎng)絡邊緣。。這與國內(nèi)內(nèi)信息技術術研究比國國外起步稍稍晚的原因因是分不開開的。3索引與數(shù)據(jù)據(jù)庫的發(fā)展展現(xiàn)狀第二,傳統(tǒng)統(tǒng)的索引理理論的研究究仍然占據(jù)據(jù)重要地位位。國內(nèi)外外學者對傳傳統(tǒng)索引理理論的研究究仍然非常常重視。相相對而言,,國外學者者的理論研研究更具全全面性和系系統(tǒng)性。第三,索引引的應用研研究將成為為索引研究究中的重要要內(nèi)容,國國外的應用用研究相對對國內(nèi)更為為廣泛。國國外對索引引的實踐與與應用的研研究已經(jīng)深深入到了引引文分析、、文獻計量量學、科學學計量學、、評價、績績效評估、、醫(yī)學等多多個具體領領域。3索引與數(shù)據(jù)據(jù)庫的發(fā)展展現(xiàn)狀第四,與其其他學科相相結合開展展研究可能能成為未來來索引研究究的發(fā)展趨趨勢之一。。在索引研研究的過程程中注重與與其他學科科的結合,,一方面可可以引入新新的理論與與方法,如如社會學、、本體、知知識地圖、、元數(shù)據(jù)等等,為索引引理論和方方法的研究究帶來新的的視角;另另一方面,,索引的方方法與研究究成果也可可以應用于于其他學科科,為促進進其他學科科研究的發(fā)發(fā)展做出貢貢獻。3索引與數(shù)據(jù)據(jù)庫的發(fā)展展現(xiàn)狀此外,自從從改革開放放到現(xiàn)在,,我國的索索引從業(yè)人人員數(shù)量一一直在穩(wěn)步步增加,這這一方面與與國家重視視圖書館的的建設有關關,另一方方面也是索索引事業(yè)發(fā)發(fā)展的需要要。但是我們與與國外相比比,索引事事業(yè)的從業(yè)業(yè)人員仍然然數(shù)量偏少少,素質有有待提高。。特別是在在索引教育育方面,我我們?nèi)〉玫牡某煽冞€不不夠,比如如我們至今今沒有一本本公認的比比較權威的的索引學教教材。3索引引與與數(shù)數(shù)據(jù)據(jù)庫庫的的發(fā)發(fā)展展現(xiàn)現(xiàn)狀狀3.2數(shù)據(jù)據(jù)庫庫事事業(yè)業(yè)的的發(fā)發(fā)展展現(xiàn)現(xiàn)狀狀數(shù)據(jù)據(jù)庫庫((Database)是是按按照照數(shù)數(shù)據(jù)據(jù)結結構構來來組組織織、、存存儲儲和和管管理理數(shù)數(shù)據(jù)據(jù)的的倉倉庫庫。。相對對于于索索引引事事業(yè)業(yè),,數(shù)數(shù)據(jù)據(jù)庫庫事事業(yè)業(yè)的的發(fā)發(fā)展展更更為為迅迅猛猛。目目前前,,全全世世界界大大約約有有書書目目型型數(shù)數(shù)據(jù)據(jù)庫庫、、參參考考型型數(shù)數(shù)據(jù)據(jù)庫庫、、參參考考文文獻獻數(shù)數(shù)據(jù)據(jù)庫庫、、全全文文型型數(shù)數(shù)據(jù)據(jù)庫庫等等幾幾十十種種不不同同類類型型的的數(shù)數(shù)據(jù)據(jù)庫庫。。各各種種數(shù)數(shù)據(jù)據(jù)庫庫的的具具體體數(shù)數(shù)量量更更是是難難以以估估計計。。3索引引與與數(shù)數(shù)據(jù)據(jù)庫庫的的發(fā)發(fā)展展現(xiàn)現(xiàn)狀狀1980年以以前前,,數(shù)數(shù)據(jù)據(jù)庫庫技技術術的的發(fā)發(fā)展展,,主主要要體體現(xiàn)現(xiàn)在在數(shù)據(jù)據(jù)庫庫的的模模型型設設計計上。。進入90年代后,計計算機領域域中其它新興技技術的發(fā)展展對數(shù)據(jù)庫庫技術產(chǎn)生生了重大影影響。數(shù)據(jù)庫技技術與網(wǎng)絡絡通信技術術、人工智智能技術、、多媒體技技術等相互互滲透,相相互結合,,使數(shù)據(jù)庫庫技術的新新內(nèi)容層出出不窮。3索引與數(shù)據(jù)據(jù)庫的發(fā)展展現(xiàn)狀至今,數(shù)據(jù)據(jù)庫的許多多概念、應應用領域,,甚至某些些原理都有有了重大的的發(fā)展和變變化,形成成了數(shù)據(jù)庫庫領域眾多多的研究分分支和課題題,產(chǎn)生了一系系列新型數(shù)數(shù)據(jù)庫。如:分布布式數(shù)據(jù)庫庫、聯(lián)合數(shù)數(shù)據(jù)庫、大大規(guī)模并行行處理數(shù)據(jù)據(jù)庫等。國外數(shù)據(jù)庫庫的發(fā)展大大致經(jīng)歷了了四個階段段:3索引與數(shù)據(jù)據(jù)庫的發(fā)展展現(xiàn)狀1970年以前為初初步發(fā)展階階段;1970-1980年數(shù)據(jù)庫數(shù)數(shù)量迅速增增加,開始始進入聯(lián)機機檢索階段段;1980年至2010年數(shù)據(jù)庫數(shù)數(shù)量劇增,,類型也發(fā)發(fā)生了巨大大變化,而而且開始全全球化,是是數(shù)據(jù)庫的的深入發(fā)展展階段;2010年至今,數(shù)數(shù)據(jù)的類型型和數(shù)量均均發(fā)生了重重大變化,,數(shù)據(jù)庫也也必須隨之之發(fā)生改變變,于是進進入了變革革發(fā)展階段段。3索引與數(shù)據(jù)據(jù)庫的發(fā)展展現(xiàn)狀我國數(shù)據(jù)庫庫的研究和和應用相對國外來來說,起步步較晚,也也可以大致致參照國外外的發(fā)展狀狀況劃分為為四個時期期:介紹學習時時期(70-80年代)、初初步發(fā)展時時期(80-90年代)、穩(wěn)穩(wěn)定發(fā)展時時期(1990-2010年)、變革革發(fā)展時期期(2010年至今)。。總的來說,,國內(nèi)外的的數(shù)據(jù)庫技技術發(fā)展非非常迅猛。。3索引與數(shù)據(jù)據(jù)庫的發(fā)展展現(xiàn)狀分析我國數(shù)數(shù)據(jù)庫建設設現(xiàn)狀,目目前仍處于較低低的發(fā)展階階段。雖然已經(jīng)建建立了種類類眾多的數(shù)數(shù)據(jù)庫,全全國各高校校的計算機機和信息管管理專業(yè)都都開設了數(shù)數(shù)據(jù)庫課程程,數(shù)據(jù)庫庫、商業(yè)數(shù)數(shù)據(jù)庫的建建設和使用用越來越廣廣泛。3索引與數(shù)據(jù)據(jù)庫的發(fā)展展現(xiàn)狀但是,我國國的數(shù)據(jù)庫庫建設仍然然普遍存在在以下一些些制約因素素:政府缺乏統(tǒng)統(tǒng)一的整體體規(guī)劃;各地的信息息機構對數(shù)數(shù)據(jù)庫的建建設不夠重重視;數(shù)據(jù)庫的技技術發(fā)展仍仍滯后于國國外;商業(yè)數(shù)據(jù)庫庫的建設和和應用不夠夠廣泛;數(shù)據(jù)庫技術術人員的素素質還有待待提高等。。3索引與數(shù)據(jù)據(jù)庫的發(fā)展展現(xiàn)狀而在國外,,從六十年年代末期開開始,數(shù)據(jù)據(jù)庫系統(tǒng)的的研究和開開發(fā)已經(jīng)走走過了四十十多年的歷歷程,取得得了輝煌的的成就,形成了龐大大的產(chǎn)業(yè)。數(shù)據(jù)庫技術術和系統(tǒng)已已經(jīng)成為世世界各國信信息基礎設設施的核心心技術和重重要基礎。。3索引與數(shù)據(jù)據(jù)庫的發(fā)展展現(xiàn)狀進入大數(shù)據(jù)據(jù)時代,當當我國還在在研究大數(shù)數(shù)據(jù)的概念念時,英國國的維克托托?邁爾?舍恩恩伯伯格格早早在在2010年就就在在《經(jīng)濟濟學學人人》上發(fā)發(fā)布布了了長長達達14頁對對大大數(shù)數(shù)據(jù)據(jù)應應用用的的前前瞻瞻性性研研究究,,已已寫寫出出了了《大數(shù)數(shù)據(jù)據(jù)時時代代》這本本對對大大數(shù)數(shù)據(jù)據(jù)系系統(tǒng)統(tǒng)研研究究的的先先河河之之作作,,并并被被譽譽為為““大大數(shù)數(shù)據(jù)據(jù)商商業(yè)業(yè)應應用用第第一一人人””。。3索引引與與數(shù)數(shù)據(jù)據(jù)庫庫的的發(fā)發(fā)展展現(xiàn)現(xiàn)狀狀4.1面臨臨的的挑挑戰(zhàn)戰(zhàn)大數(shù)數(shù)據(jù)據(jù)對對于于索索引引和和數(shù)數(shù)據(jù)據(jù)庫庫事事業(yè)業(yè)而而言言,,既既是是巨巨大大的的機機遇遇,,又又是是巨巨大大的的挑挑戰(zhàn)戰(zhàn)。。面對對海海量量的的種種類類繁繁多多的的半半結結構構化化和和非非結結構構化化數(shù)數(shù)據(jù)據(jù),,從從中中迅迅速速的的進進行行分分析析,,找找出出有有效效的的價價值值,,這這一一方方面面具具有有重重大大的的經(jīng)經(jīng)濟濟意意義義,,另另一一方方面面也也要要求求我我們們必必須須改改進進現(xiàn)現(xiàn)有有的的技技術術,,使使用用新新方方法法來來從從數(shù)數(shù)據(jù)據(jù)中中提提取取價價值值。大數(shù)數(shù)據(jù)據(jù)時時代代對對索索引引和和數(shù)數(shù)據(jù)據(jù)庫庫事事業(yè)業(yè)提提出出了了如如下下的的重大大挑挑戰(zhàn)戰(zhàn):4大數(shù)數(shù)據(jù)據(jù)時時代代索索引引與與數(shù)數(shù)據(jù)據(jù)庫庫事業(yè)業(yè)面面臨臨的的挑挑戰(zhàn)戰(zhàn)及及創(chuàng)創(chuàng)新新(1)理念念更更新新。大大數(shù)數(shù)據(jù)據(jù)帶帶來來的的是是一一種種全全新新的的模模式式,,索索引引和和數(shù)數(shù)據(jù)據(jù)庫庫的的觀觀念念也也要要隨隨之之跟跟隨隨變變化化,,以以適適應應時時代代的的需需要要。。同同時時要要更更加加注注重重商商業(yè)業(yè)思思維維,,充充分分利利用用大大數(shù)數(shù)據(jù)據(jù),,獲獲取取經(jīng)經(jīng)濟濟利利益益。。(2)及時有效。大數(shù)據(jù)時代代的數(shù)據(jù)產(chǎn)生生迅速,數(shù)據(jù)據(jù)的價值生命命周期卻很短短暫,如何能能夠及時有效效的從數(shù)據(jù)中中發(fā)現(xiàn)商機并并付諸行動才才能獲取價值值。4大數(shù)據(jù)時代索索引與數(shù)據(jù)庫庫事業(yè)面臨的挑挑戰(zhàn)及創(chuàng)新(3)集成分析。如果將分析析集成到與數(shù)數(shù)據(jù)所面臨的的環(huán)境中,將將加快信息分分析的速度,,使分析結果果能夠更快的的實現(xiàn)可操作作化。(4)可擴展。面對大數(shù)據(jù)據(jù)必須采取新新方法來處理理數(shù)據(jù),要實實現(xiàn)從規(guī)模較較小的數(shù)據(jù)集集到大規(guī)模數(shù)數(shù)據(jù)集的分析析,因為我們們不能控制所所面臨的數(shù)據(jù)據(jù)源產(chǎn)生數(shù)據(jù)據(jù)的規(guī)模。4大數(shù)據(jù)時代索索引與數(shù)據(jù)庫庫事業(yè)面臨的挑挑戰(zhàn)及創(chuàng)新4.2技術的創(chuàng)新目前,大數(shù)據(jù)據(jù)時代的索引引和數(shù)據(jù)庫事事業(yè)已經(jīng)創(chuàng)造出了了很多重要的的基礎性的新新技術,如下:4大數(shù)據(jù)時代索索引與數(shù)據(jù)庫庫事業(yè)面臨的挑挑戰(zhàn)及創(chuàng)新云計算虛擬化數(shù)據(jù)存儲智能索引數(shù)據(jù)分析(1)云計算(cloudcomputing)云計算是在分分布式處理、、并行處理和和網(wǎng)格計算等等技術的基礎礎上發(fā)展起來來的,是一種種新興的共享享基礎架構的的方法。它可可以自我維護護和管理龐大大的虛擬計算算資源(包括括計算服務器器、存儲服務務器、寬帶資資源等等),,為我們提供供了跨地域、、高可靠、按按需付費、快快速部署的能能力。甚至可可以說,云數(shù)數(shù)據(jù)庫是數(shù)據(jù)據(jù)庫技術的未未來發(fā)展方向向。4大數(shù)據(jù)時代索索引與數(shù)據(jù)庫庫事業(yè)面臨的挑挑戰(zhàn)及創(chuàng)新云數(shù)據(jù)庫具有有以下特性::動態(tài)可擴展展,理論上,,云數(shù)據(jù)庫具具有無限可擴擴展性;高可可用性,不存存在單點失效效問題;較低低使用代價,,可以實現(xiàn)按按需付費;可可以大規(guī)模并并行處理。云計算和大數(shù)數(shù)據(jù)之間關聯(lián)聯(lián)非常緊密,,大數(shù)據(jù)為云云計算提供了了應用空間,,云計算為大大數(shù)據(jù)提供了了處理工具。。4大數(shù)據(jù)時代索索引與數(shù)據(jù)庫庫事業(yè)面臨的挑挑戰(zhàn)及創(chuàng)新(2)虛擬化(virtualization)虛擬化技術是是云計算所有有要素中最重重要的部分,,主要包括計計算虛擬化、、存儲虛擬化化和網(wǎng)絡虛擬擬化。利用虛擬化技技術可以在一一臺主機上運運行多臺虛擬擬計算機,允允許很多用戶戶共享一臺高高性能設備的的使用,可以以極大的節(jié)約約成本,也為為云計算的實實現(xiàn)奠定了技技術基礎。4大數(shù)據(jù)時代索索引與數(shù)據(jù)庫庫事業(yè)面臨的挑挑戰(zhàn)及創(chuàng)新(3)數(shù)據(jù)存儲大數(shù)據(jù)的特征征,需要新的的數(shù)據(jù)存儲技技術和數(shù)據(jù)存存儲工具來滿滿足。目前已已經(jīng)出現(xiàn)了一一些新型的大大數(shù)據(jù)存儲系系統(tǒng),具有優(yōu)優(yōu)秀可擴展能能力的分布式式存儲成為大大數(shù)據(jù)存儲的的主流架構方方式。大數(shù)據(jù)存儲還還需解決一些些問題:如何何對數(shù)據(jù)進行行去重;如何何更好地實現(xiàn)現(xiàn)分層存儲;;如何解決數(shù)數(shù)據(jù)的安全性性問題等。4大數(shù)據(jù)時代索索引與數(shù)據(jù)庫庫事業(yè)面臨的挑挑戰(zhàn)及創(chuàng)新(4)數(shù)據(jù)分析大數(shù)據(jù)時代的的數(shù)據(jù)分析需需要滿足及時時有效的要求求,既要能處處理高速的數(shù)數(shù)據(jù),又要能能夠實現(xiàn)實時時的分析。目前產(chǎn)生了一一些新型的在在線事務處理理系統(tǒng),如NoSQL方案和NewSQL方案。4大數(shù)據(jù)時代索索引與數(shù)據(jù)庫庫事業(yè)面臨的挑挑戰(zhàn)及創(chuàng)新NoSQL方案通過消除除SQL的語言查詢來來實現(xiàn)性能的的提高和擴展展性的增加。。有以下特征征:不需要預預定的模式;;沒有共享架架構;具有彈彈性可擴展性性;可對數(shù)據(jù)據(jù)進行分區(qū)處處理;能夠異異步復制等。。常用的產(chǎn)品品有HBase、MongoDB等。NewSQL方案是既能保保留SQL查詢的方便性性,又能提供供高性能和高高擴展性的新新型數(shù)據(jù)分析析工具,是一一種新型的關關系數(shù)據(jù)庫管管理系統(tǒng)。常常見的系統(tǒng)有有GoogleSpanner、Clustrix、VoltDB等。4大數(shù)據(jù)時代索索引與數(shù)據(jù)庫庫事業(yè)面臨的挑挑戰(zhàn)及創(chuàng)新對大數(shù)據(jù)進行行處理,目前前有兩大主流流的方向:一一個是MPP數(shù)據(jù)庫(大規(guī)規(guī)模并行數(shù)據(jù)據(jù)庫)為首的的并列關系數(shù)數(shù)據(jù)庫方向,,一個是以MapReduce為首的分布式式NoSQL方向。除此之外,流流數(shù)據(jù)管理也也是大數(shù)據(jù)處處理分析的一一種解決方案案。4大數(shù)據(jù)時代索索引與數(shù)據(jù)庫庫事業(yè)面臨的挑挑戰(zhàn)及創(chuàng)新為了成功的實實現(xiàn)對大數(shù)據(jù)據(jù)的分析,還還要建立具有有敏捷的計算算平臺,線性性擴展能力,,全方位、協(xié)協(xié)作性用戶體體驗的大數(shù)據(jù)據(jù)分析平臺,,還需要聚類類分析等高級級的分析理論論和方法以及及方便易用的的數(shù)據(jù)可視化化技術。4大數(shù)據(jù)時代索索引與數(shù)據(jù)庫庫事業(yè)面臨的挑挑戰(zhàn)及創(chuàng)新(5)智能索索引技技術當前硬硬、軟軟件環(huán)環(huán)境越越來越越好,,從而而為索索引技技術向向智能能化、、多語語種化化、索索引手手段的的自動動化的的方向向發(fā)展展提供供了物物質條條件,,使搜搜索引引擎向向高層層次發(fā)發(fā)展成成為可可能。。目前前在搜搜索引引擎智智能化化、用用戶接接口的的多語語種化化、索索引手手段的的自動動化等等方面面已取取得了了一定定的成成果。。4大數(shù)據(jù)據(jù)時代代索引引與數(shù)數(shù)據(jù)庫庫事業(yè)面面臨的的挑戰(zhàn)戰(zhàn)及創(chuàng)創(chuàng)新4.3事業(yè)的的發(fā)展展與創(chuàng)創(chuàng)新索引和和數(shù)據(jù)據(jù)庫事事業(yè)的的發(fā)展展和創(chuàng)創(chuàng)新,,既離離不開開技術術的發(fā)發(fā)展,,又需需要理理念的的轉變變,方方式的的創(chuàng)新新和人人才的的培養(yǎng)養(yǎng)。4大數(shù)據(jù)時代索索引與數(shù)據(jù)庫庫事業(yè)面臨的挑挑戰(zhàn)及創(chuàng)新(1)技術的創(chuàng)新新需要進一步滿滿足對容量大大、種類多、、變化快的數(shù)數(shù)據(jù)進行及時時有效分析的的要求。進一一步拓展對NoSQL方案和NewSQL方案的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度PVC管材智能化制造技術合作合同
- 二零二五年度智慧交通系統(tǒng)設計合同3篇
- 二零二五年度文化教育節(jié)目制作合作協(xié)議3篇
- 2025年度新型建筑材料供貨與施工監(jiān)理合同
- 二零二五年度辦公樓租賃合同租賃物租賃用途與使用規(guī)范
- 海南外國語職業(yè)學院《影視創(chuàng)作與剪輯》2023-2024學年第一學期期末試卷
- 二零二五年度智慧社區(qū)廣告安裝與智慧家居服務協(xié)議3篇
- 脫硫塔課程設計三視圖
- 瑜伽筋膜伸展課程設計
- 落葉漚肥課程設計思路
- 2024年國考行測真題-言語理解與表達真題及完整答案1套
- 2024屆高考數(shù)學復習 立體幾何考情分析及備考策略
- 基于課程標準的學生創(chuàng)新素養(yǎng)培育的學科教學改進研究課題申報評審書
- 醫(yī)療人員廉潔從業(yè)九項準則
- ISO13485內(nèi)部審核檢查表+內(nèi)審記錄
- 培訓費收款收據(jù)模板
- 2024年《藥物臨床試驗質量管理規(guī)范》(GCP)網(wǎng)絡培訓題庫
- 2023-2024學年湖南長沙市中學雅培粹學校數(shù)學七年級第一學期期末預測試題含解析
- 小學道德與法治課程標準與教材研究 課件 第1-5章 小學道德與法治課程標準研究-道德教育
- 酒店行政人事年工作總結
- 鈍感力讀后感課件
評論
0/150
提交評論