十個(gè)海量數(shù)據(jù)處理方法總結(jié)

上傳人：d*** IP屬地：天津上傳時(shí)間：2021-05-15 格式：DOCX 頁數(shù)：7 大?。?9.60KB 積分：15 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩2頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、如有幫助，歡迎下載支持十個(gè)海量數(shù)據(jù)處理方法大總結(jié)ok，看了上面這么多的面試題，是否有點(diǎn)頭暈。是的，需要一個(gè)總結(jié)。接下來，本文將簡單總結(jié)下一些處理海量數(shù)據(jù)問題的常見方法，而日后，本BLOG內(nèi)會具體闡述這些方法。下面的方法全部來自博客，對海量數(shù)據(jù)的處理方法進(jìn)行了一個(gè)一般性的總結(jié)，當(dāng)然這些方法可能并不能完全覆蓋所有的問題，但是這樣的一些方法也基本可以處理絕大多數(shù)遇到的問題。下面的一些問題基本直接來源于公司的面試筆試題目，方法不一定最優(yōu)，如果你有更好的處理方法，歡迎討論。、Bloom filter適用范圍：可以用來實(shí)現(xiàn)數(shù)據(jù)字典，進(jìn)行數(shù)據(jù)的判重，或者集合求交集基本原理及要點(diǎn)：對于原理來說很簡單，位

2、數(shù)組+k個(gè)獨(dú)立hash函數(shù)。將hash函數(shù)對應(yīng)的值的位數(shù)組置 1，查找時(shí)如果發(fā)現(xiàn)所有hash函數(shù)對應(yīng)位都是1說明存在，很明顯這個(gè)過程并不保證查找的結(jié)果是100%正確的。同時(shí)也不支持刪除一個(gè)已經(jīng)插入的關(guān)鍵字，因?yàn)樵撽P(guān)鍵字對應(yīng)的位會牽動到其他的關(guān)鍵字。所以一個(gè) 簡單的改進(jìn)就是 counting Bloom filter ，用一個(gè)counter數(shù)組代替位數(shù)組，就可以支持刪除了。還有一個(gè)比較重要的問題，如何根據(jù)輸入元素個(gè)數(shù)n,確定位數(shù)組 m的大小及hash函數(shù)個(gè)數(shù)。當(dāng)hash函數(shù)個(gè)數(shù)k=(ln2)*(m/n)時(shí)錯(cuò)誤率最小。在錯(cuò)誤率不大于 E的情況下，m至少要等于n*lg(1/E) 才能表示任意n個(gè)元素

3、的集合。但 m還應(yīng)該更大些，因?yàn)檫€要保證 bit數(shù)組里至少一半為 0,則m應(yīng) 該=門1 g(1/E)*lge 大概就是nlg(1/E)1.44 倍(lg表示以2為底的對數(shù))。舉個(gè)例子我們假設(shè)錯(cuò)誤率為0.01，則此時(shí)m應(yīng)大概是n的13倍。這樣k大概是8個(gè)。注意這里m與n的單位不同，m是bit為單位，而n則是以元素個(gè)數(shù)為單位(準(zhǔn)確的說是不同元素的個(gè)數(shù))。通常單個(gè)元素的長度都是有很多bit的。所以使用bloom filter內(nèi)存上通常都是節(jié)省的。擴(kuò)展：Bloom filter將集合中的元素映射到位數(shù)組中，用k (k為哈希函數(shù)個(gè)數(shù))個(gè)映射位是否全1表示元素在不在這個(gè)集合中。Counting bloo

4、m filter( CBF )將位數(shù)組中的每一位擴(kuò)展為一個(gè)counter，從而支持了元素的刪除操作。Spectral Bloom Filter (SBF )將其與集合元素的出現(xiàn)次數(shù)關(guān)聯(lián)。SBF采用counter中的最小值來近似表示元素的出現(xiàn)頻率。問題實(shí)例：給你 A,B兩個(gè)文件，各存放 50億條URL，每條URL占用64字節(jié)，內(nèi)存限制是 4G, 讓你找出A,B文件共同的URL。如果是三個(gè)乃至 n個(gè)文件呢？根據(jù)這個(gè)問題我們來計(jì)算下內(nèi)存的占用，4G=232大概是40億*8大概是340億，n=50億，如果按出錯(cuò)率0.01算需要的大概是650億個(gè)bit?，F(xiàn)在可用的是340億，相差并不多，這樣可能會使出

5、錯(cuò)率上升些。另外如果這些 urlip是一一對應(yīng)的，就可以轉(zhuǎn)換成ip，則大大簡單了。二、Hashing適用范圍：快速查找，刪除的基本數(shù)據(jù)結(jié)構(gòu)，通常需要總數(shù)據(jù)量可以放入內(nèi)存基本原理及要點(diǎn)：hash函數(shù)選擇，針對字符串，整數(shù)，排列，具體相應(yīng)的hash方法。碰撞處理，一種是 open hashing，也稱為拉鏈法；另一種就是closed hashing ，也稱開地址法，ope ned address ing 。擴(kuò)展：d-left hashing 中的d是多個(gè)的意思，我們先簡化這個(gè)問題，看一看 2-left hashing 。2-left hashing 指的是將一個(gè)哈希表分成長度相等的兩半，分別叫做T

6、1和T2，給T1和T2分別配備一個(gè)哈希函數(shù)，h1和h2。在存儲一個(gè)新的key時(shí)，同時(shí)用兩個(gè)哈希函數(shù)進(jìn)行計(jì)算，得出兩個(gè)地址h1key和h2key。這時(shí)需要檢查 T1中的h1key位置和T2中的h2key位置，哪一個(gè)位置已經(jīng)存儲的（有碰撞的）key比較多，然后將新 key存儲在負(fù)載少的位置。如果兩邊一樣多，比如兩個(gè)位置都為空或者都存儲了一個(gè)key，就把新key存儲在左邊的T1子表中，2-left也由此而來。在查找一個(gè)key時(shí)，必須進(jìn)行兩次hash，同時(shí)查找兩個(gè)位置。問題實(shí)例：1）.海量日志數(shù)據(jù)，提取出某日訪問百度次數(shù)最多的那個(gè)IP。IP的數(shù)目還是有限的，最多2A32個(gè)，所以可以考慮使用hash將

7、ip直接存入內(nèi)存，然后進(jìn)行統(tǒng)計(jì)。三、bit-map適用范圍：可進(jìn)行數(shù)據(jù)的快速查找，判重，刪除，一般來說數(shù)據(jù)范圍是int的10倍以下基本原理及要點(diǎn)：使用bit數(shù)組來表示某些元素是否存在，比如8位電話號碼擴(kuò)展：bloom filter可以看做是對 bit-map的擴(kuò)展問題實(shí)例：1) 已知某個(gè)文件內(nèi)包含一些電話號碼，每個(gè)號碼為8位數(shù)字，統(tǒng)計(jì)不同號碼的個(gè)數(shù)。8位最多99 999 999，大概需要99m個(gè)bit，大概10幾m字節(jié)的內(nèi)存即可。2) 2.5億個(gè)整數(shù)中找出不重復(fù)的整數(shù)的個(gè)數(shù)，內(nèi)存空間不足以容納這2.5億個(gè)整數(shù)。將bit-map擴(kuò)展一下，用2bit表示一個(gè)數(shù)即可，0表示未出現(xiàn)，1表示出現(xiàn)一次，2

8、表示出現(xiàn)2次及以上?；蛘呶覀儾挥?2bit來進(jìn)行表示，我們用兩個(gè)bit-map即可模擬實(shí)現(xiàn)這個(gè) 2bit-map。四、堆適用范圍：海量數(shù)據(jù)前n大，并且n比較小，堆可以放入內(nèi)存基本原理及要點(diǎn)：最大堆求前n小，最小堆求前n大。方法，比如求前 n小，我們比較當(dāng)前元素與最大堆里的最大元素，如果它小于最大元素，則應(yīng)該替換那個(gè)最大元素。這樣最后得到的n個(gè)元素就是最小的n個(gè)。適合大數(shù)據(jù)量，求前n小，n的大小比較小的情況，這樣可以掃描一遍即可得到所有的前n元素，效率很高。擴(kuò)展：雙堆，一個(gè)最大堆與一個(gè)最小堆結(jié)合，可以用來維護(hù)中位數(shù)。問題實(shí)例：1)100w個(gè)數(shù)中找最大的前100個(gè)數(shù)。用一個(gè)100個(gè)元素大小的最小

9、堆即可。五、雙層桶劃分-其實(shí)本質(zhì)上就是【分而治之】的思想，重在分”的技巧上！適用范圍：第k大，中位數(shù)，不重復(fù)或重復(fù)的數(shù)字基本原理及要點(diǎn)：因?yàn)樵胤秶艽?，不能利用直接尋址表，所以通過多次劃分，逐步確定范圍，然后最后在一個(gè)可以接受的范圍內(nèi)進(jìn)行?？梢酝ㄟ^多次縮小，雙層只是一個(gè)例子。擴(kuò)展：問題實(shí)例：1) 25億個(gè)整數(shù)中找出不重復(fù)的整數(shù)的個(gè)數(shù)，內(nèi)存空間不足以容納這2.5億個(gè)整數(shù)。有點(diǎn)像鴿巢原理，整數(shù)個(gè)數(shù)為 2A32,也就是，我們可以將這 2A32個(gè)數(shù)，劃分為2A8個(gè)區(qū)域(比如用單個(gè)文件代表一個(gè)區(qū)域)，然后將數(shù)據(jù)分離到不同的區(qū)域，然后不同的區(qū)域在利用bitmap就可以直接解決了。也就是說只要有足夠

10、的磁盤空間，就可以很方便的解決。2) .5億個(gè)int找它們的中位數(shù)。這個(gè)例子比上面那個(gè)更明顯。首先我們將int劃分為2A16個(gè)區(qū)域，然后讀取數(shù)據(jù)統(tǒng)計(jì)落到各個(gè)區(qū)域里的數(shù)的個(gè)數(shù)，之后我們根據(jù)統(tǒng)計(jì)結(jié)果就可以判斷中位數(shù)落到那個(gè)區(qū)域，同時(shí)知道這個(gè)區(qū)域中的第幾大數(shù)剛好是中位數(shù)。然后第二次掃描我們只統(tǒng)計(jì)落在這個(gè)區(qū)域中的那些數(shù)就可以了。實(shí)際上，如果不是int是int64 ,我們可以經(jīng)過 3次這樣的劃分即可降低到可以接受的程度。即可以先將int64分成2A24個(gè)區(qū)域，然后確定區(qū)域的第幾大數(shù)，在將該區(qū)域分成2人20個(gè)子區(qū)域，然后確定是子區(qū)域的第幾大數(shù)，然后子區(qū)域里的數(shù)的個(gè)數(shù)只有2A20，就可以直接利用 dir

11、ect addr table 進(jìn)行統(tǒng)計(jì)了。六、數(shù)據(jù)庫索引適用范圍：大數(shù)據(jù)量的增刪改查基本原理及要點(diǎn)：利用數(shù)據(jù)的設(shè)計(jì)實(shí)現(xiàn)方法，對海量數(shù)據(jù)的增刪改查進(jìn)行處理。七、倒排索引(Inverted index)適用范圍：搜索引擎，關(guān)鍵字查詢基本原理及要點(diǎn)：為何叫倒排索引？一種索引方法，被用來存儲在全文搜索下某個(gè)單詞在一個(gè)文檔或者一組文檔中的存儲位置的映射。以英文為例，下面是要被索引的文本：TO = it is what it isT1 = what is itT2 = it is a banana我們就能得到下面的反向文件索引：a: 2ba nana: 2is: 0, 1,2it: 0, 1,2what

12、: 0, 1檢索的條件what,is和it將對應(yīng)集合的交集。正向索引開發(fā)出來用來存儲每個(gè)文檔的單詞的列表。正向索引的查詢往往滿足每個(gè)文檔有序頻繁的全文查詢和每個(gè)單詞在校驗(yàn)文檔中的驗(yàn)證這樣的查詢。在正向索引中，文檔占據(jù)了中心的位置，每個(gè)文檔指向了一個(gè)它所包含的索引項(xiàng)的序列。也就是說文檔指向了它包含的那些單詞，而反向索引則是單詞指向了包含它的文檔，很容易看到這個(gè)反向的關(guān)系。擴(kuò)展：問題實(shí)例：文檔檢索系統(tǒng)，查詢那些文件包含了某單詞，比如常見的學(xué)術(shù)論文的關(guān)鍵字搜索。八、外排序適用范圍：大數(shù)據(jù)的排序，去重基本原理及要點(diǎn)：外排序的歸并方法，置換選擇敗者樹原理，最優(yōu)歸并樹擴(kuò)展：問題實(shí)例：1).有一個(gè)1G

13、大小的一個(gè)文件，里面每一行是一個(gè)詞，詞的大小不超過16個(gè)字節(jié)，內(nèi)存限制大小是1M。返回頻數(shù)最高的100個(gè)詞。這個(gè)數(shù)據(jù)具有很明顯的特點(diǎn)，詞的大小為16個(gè)字節(jié)，但是內(nèi)存只有 1m做hash有些不夠，所以可以用來排序。內(nèi)存可以當(dāng)輸入緩沖區(qū)使用。九、trie樹適用范圍：數(shù)據(jù)量大，重復(fù)多，但是數(shù)據(jù)種類小可以放入內(nèi)存基本原理及要點(diǎn)：實(shí)現(xiàn)方式，節(jié)點(diǎn)孩子的表示方式擴(kuò)展：壓縮實(shí)現(xiàn)。問題實(shí)例：1) .有10個(gè)文件，每個(gè)文件1G ,每個(gè)文件的每一行都存放的是用戶的query，每個(gè)文件的query都可能重復(fù)。要你按照 query的頻度排序。2) .1000萬字符串，其中有些是相同的(重復(fù)),需要把重復(fù)的全部去掉，保留

14、沒有重復(fù)的字符串。請問怎么設(shè)計(jì)和實(shí)現(xiàn)？3) .尋找熱門查詢：查詢串的重復(fù)度比較高，雖然總數(shù)是1千萬，但如果除去重復(fù)后，不超過3百萬個(gè)，每個(gè)不超過 255字節(jié)。十、分布式處理 mapreduce適用范圍：數(shù)據(jù)量大，但是數(shù)據(jù)種類小可以放入內(nèi)存基本原理及要點(diǎn)：將數(shù)據(jù)交給不同的機(jī)器去處理，數(shù)據(jù)劃分，結(jié)果歸約。擴(kuò)展：問題實(shí)例：1) .The canoni cal example applicati on of MapReduce is a process to count the appeara nces ofeach differe nt word in a set of docume nts:2)

15、.海量數(shù)據(jù)分布在100臺電腦中，想個(gè)辦法高效統(tǒng)計(jì)出這批數(shù)據(jù)的TOP10。3) . 一共有N個(gè)機(jī)器，每個(gè)機(jī)器上有N個(gè)數(shù)。每個(gè)機(jī)器最多存 O(N)個(gè)數(shù)并對它們操作。如何找到NA2個(gè)數(shù)的中數(shù)(median) ？經(jīng)典問題分析上千萬or億數(shù)據(jù)(有重復(fù))，統(tǒng)計(jì)其中出現(xiàn)次數(shù)最多的前N個(gè)數(shù)據(jù)，分兩種情況：可一次讀入內(nèi)存，不可一次讀入?？捎盟悸罚簍rie樹+堆，數(shù)據(jù)庫索引，劃分子集分別統(tǒng)計(jì)，hash，分布式計(jì)算，近似統(tǒng)計(jì)，外排序所謂的是否能一次讀入內(nèi)存，實(shí)際上應(yīng)該指去除重復(fù)后的數(shù)據(jù)量。如果去重后數(shù)據(jù)可以放入內(nèi)存，我們可以為數(shù)據(jù)建立字典，比如通過map， hashmap , trie，然后直接進(jìn)行統(tǒng)計(jì)即可。當(dāng)然在

16、更新每條數(shù)據(jù)的出現(xiàn)次數(shù)的時(shí)候，我們可以利用一個(gè)堆來維護(hù)出現(xiàn)次數(shù)最多的前N個(gè)數(shù)據(jù)，當(dāng)然這樣導(dǎo)致維護(hù)次數(shù)增加，不如完全統(tǒng)計(jì)后在求前N大效率高。如果數(shù)據(jù)無法放入內(nèi)存。一方面我們可以考慮上面的字典方法能否被改進(jìn)以適應(yīng)這種情形，可以做的改變就是將字典存放到硬盤上，而不是內(nèi)存，這可以參考數(shù)據(jù)庫的存儲方法。當(dāng)然還有更好的方法，就是可以采用分布式計(jì)算，基本上就是map-reduce過程，首先可以根據(jù)數(shù)據(jù)值或者把數(shù)據(jù) hash(md5)后的值，將數(shù)據(jù)按照范圍劃分到不同的機(jī)子，最好可以讓數(shù)據(jù)劃分后可以一次讀入內(nèi)存，這樣不同的機(jī)子負(fù)責(zé)處理各種的數(shù)值范圍，實(shí)際上就是map。得到結(jié)果后，各個(gè)機(jī)子只需拿出各自的出現(xiàn)次數(shù)

17、最多的前N個(gè)數(shù)據(jù)，然后匯總，選出所有的數(shù)據(jù)中出現(xiàn)次數(shù)最多的前N個(gè)數(shù)據(jù)，這實(shí)際上就是 reduce過程。實(shí)際上可能想直接將數(shù)據(jù)均分到不同的機(jī)子上進(jìn)行處理，這樣是無法得到正確的解的。因?yàn)橐粋€(gè)數(shù)據(jù)可能被均分到不同的機(jī)子上，而另一個(gè)則可能完全聚集到一個(gè)機(jī)子上，同時(shí)還可能存在具有相同數(shù)目的數(shù)據(jù)。比如我們要找出現(xiàn)次數(shù)最多的前100個(gè)，我們將1000萬的數(shù)據(jù)分布到10臺機(jī)器上，找到每臺出現(xiàn)次數(shù)最多的前100個(gè)，歸并之后這樣不能保證找到真正的第100個(gè)，因?yàn)楸热绯霈F(xiàn)次數(shù)最多的第100個(gè)可能有1萬個(gè)，但是它被分到了 10臺機(jī)子，這樣在每臺上只有1千個(gè)，假設(shè)這些機(jī)子排名在1000個(gè)之前的那些都是單獨(dú)分布在一臺機(jī)子上的，比如有 1001個(gè)，這樣本來具有 1萬個(gè)的這個(gè)就會被淘汰，即使我們讓每臺機(jī)子選出出現(xiàn)次數(shù)最多的1000個(gè)再歸并，仍然會出錯(cuò)，因

人人文庫> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

十個(gè)海量數(shù)據(jù)處理方法總結(jié)

文檔簡介

溫馨提示

最新文檔

評論

十個(gè)海量數(shù)據(jù)處理方法總結(jié)

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔