版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
Word第第頁常見的數(shù)據(jù)分析師筆試題目及答案1、海量日志數(shù)據(jù),提取出某日訪問百度次數(shù)最多的那個IP。
首先是這一天,并且是訪問百度的日志中的IP取出來,逐個寫入到一個大文件中。留意到IP是32位的,最多有個2^32個IP。同樣可以采納映射的方法,比方模1000,把整個大文件映射為1000個小文件,再找出每個小文中消失頻率最大的IP(可以采納hash_map進(jìn)行頻率統(tǒng)計,然后再找出頻率最大的幾個)及相應(yīng)的頻率。然后再在這1000個最大的IP中,找出那個頻率最大的IP,即為所求。
或者如下闡述:
算法思想:分而治之+Hash
1.IP地址最多有2^32=4G種取值狀況,所以不能完全加載到內(nèi)存中處理;
2.可以考慮采納"分而治之'的思想,根據(jù)IP地址的Hash(IP)24值,把海量IP日志分別存儲到1024個小文件中。這樣,每個小文件最多包含4MB個IP地址;
3.對于每一個小文件,可以構(gòu)建一個IP為key,消失次數(shù)為value的Hashmap,同時記錄當(dāng)前消失次數(shù)最多的那個IP地址;
4.可以得到1024個小文件中的消失次數(shù)最多的IP,再根據(jù)常規(guī)的排序算法得到總體上消失次數(shù)最多的IP;
2、搜尋引擎會通過日志文件把用戶每次檢索使用的全部檢索串都記錄下來,每個查詢串的長度為1-255字節(jié)。
假設(shè)目前有一千萬個記錄(這些查詢串的重復(fù)度比較高,雖然總數(shù)是1千萬,但假如除去重復(fù)后,不超過3百萬個。一個查詢串的重復(fù)度越高,說明查詢它的用戶越多,也就是越熱門。),請你統(tǒng)計最熱門的10個查詢串,要求使用的內(nèi)存不能超過1G。
典型的TopK算法,還是在這篇文章里頭有所闡述,
文中,給出的最終算法是:
第一步、先對這批海量數(shù)據(jù)預(yù)處理,在O(N)的時間內(nèi)用Hash表完成統(tǒng)計(之前寫成了排序,特此訂正。July、2023.04.27);
其次步、借助堆這個數(shù)據(jù)結(jié)構(gòu),找出TopK,時間冗雜度為NlogK。
即,借助堆結(jié)構(gòu),我們可以在log量級的時間內(nèi)查找和調(diào)整/移動。因此,維護(hù)一個K(該題目中是10)大小的小根堆,然后遍歷300萬的Query,分別和根元素進(jìn)行對比所以,我們最終的時間冗雜度是:O(N)+N*O(logK),(N為1000萬,N為300萬)。ok,更多,詳情,請參考原文。
或者:采納trie樹,關(guān)鍵字域存該查詢串消失的次數(shù),沒有消失為0。最終用10個元素的最小推來對消失頻率進(jìn)行排序。
3、有一個1G大小的一個文件,里面每一行是一個詞,詞的大小不超過16字節(jié),內(nèi)存限制大小是1M。返回頻數(shù)最高的100個詞。
方案:挨次讀文件中,對于每個詞x,取hash(x)P00,然后根據(jù)該值存到5000個小文件(記為x0,x1,x4999)中。這樣每個文件也許是200k左右。
假如其中的有的文件超過了1M大小,還可以根據(jù)類似的方法連續(xù)往下分,直到分解得到的小文件的大小都不超過1M。
對每個小文件,統(tǒng)計每個文件中消失的詞以及相應(yīng)的.頻率(可以采納trie樹/hash_map等),并取出消失頻率最大的100個詞(可以用含100個結(jié)點的最小堆),并把100個詞及相應(yīng)的頻率存入文件,這樣又得到了5000個文件。下一步就是把這5000個文件進(jìn)行歸并(類似與歸并排序)的過程了。
4、有10個文件,每個文件1G,每個文件的每一行存放的都是用戶的query,每個文件的query都可能重復(fù)。要求你根據(jù)query的頻度排序。
還是典型的TOPK算法,解決方案如下:
方案1:
挨次讀取10個文件,根據(jù)hash(query)的結(jié)果將query寫入到另外10個文件(記為)中,資料共享平臺《常見的數(shù)據(jù)分析師筆試題目及答案》(https://.)。這樣新生成的文件每個的大小大約也1G(假設(shè)hash函數(shù)是隨機(jī)的)。
找一臺內(nèi)存在2G左右的機(jī)器,依次對用hash_map(query,query_count)來統(tǒng)計每個query消失的次數(shù)。利用快速/堆/歸并排序根據(jù)消失次數(shù)進(jìn)行排序。將排序好的query和對應(yīng)的query_cout輸出到文件中。這樣得到了10個排好序的文件(記為)。
對這10個文件進(jìn)行歸并排序(內(nèi)排序與外排序相結(jié)合)。
方案2:
一般query的總量是有限的,只是重復(fù)的次數(shù)比較多而已,可能對于全部的query,一次性就可以加入到內(nèi)存了。這樣,我們就可以采納trie樹/hash_map等直接來統(tǒng)計每個query消失的次數(shù),然后按消失次數(shù)做快速/堆/歸并排序就可以了。
方案3:
與方案1類似,但在做完hash,分成多個文件后,可以交給多個文件來處理,采納分布式的架構(gòu)來處理(比方MapReduce),最終再進(jìn)行合并。
5、給定a、b兩個文件,各存放50億個url,每個url各占64字節(jié),內(nèi)存限制是4G,讓你找出a、b文件共同的url?
方案1:可以估量每個文件安的大小為5G64=320G,遠(yuǎn)遠(yuǎn)大于內(nèi)存限制的4G。所以不行能將其完全加載到內(nèi)存中處理??紤]實行分而治之的方法。
遍歷文件a,對每個url求取hash(url)00,然后依據(jù)所取得的值將url分別存儲到1000個小文件(記為a0,a1,,a999)中。這樣每個小文件的大約為300M。
遍歷文件b,實行和a相同的方式將url分別存儲到1000小文件(記為b0,b1,,b999)。這樣處理后,全部可能相同的url都在對應(yīng)的小文件(a0vsb0,a1vsb1,,a999vsb999)中,不對應(yīng)的小文件不行能有相同的url。然后我們只要求出1000對小文件中相同的url即可。
求每對小文件中相同的url時,可以把其中一個小文件的url存儲到hash_set中。然后遍歷另一個小文件的每個url,看其是否在剛剛構(gòu)建的hash_set中,假如是,那么就是共同的url,存到文件里面就可以了。
方案2:假如允許有肯定的錯誤率,可以使用Bloomfilter,4G內(nèi)存也許可以表示340億bit。將其中一個文件中的url使用Bloomfilter映射為這340億bit,然后挨個讀取另外一個文件的url,檢查是否與Bloomfilter,假如是,那么該url應(yīng)當(dāng)是共同的url(留意會有肯定的錯誤率)。
Bloomfilter日后會在本BLOG內(nèi)具體闡述。
6、在2.5億個整數(shù)中找出不重復(fù)的整數(shù),注,內(nèi)存缺乏以容納這2.5億個整數(shù)。
方案1:采納2-Bitmap(每個數(shù)安排2bit,00表示不存在,01表示消失一次,10表示多次,11無意義)進(jìn)行,共需內(nèi)存2^32*2bit=1GB內(nèi)存,還可以接受。然后掃描這2.5億個整數(shù),查看Bitmap中相對應(yīng)位,假如是00變01,01變10,10保持不變。所描完事后,查看bitmap,把對應(yīng)位是01的整數(shù)輸出即可。
方案2:也可采納與第1題類似的方法,進(jìn)行劃分小文件的方法。然后在小文件中找出不重復(fù)的整數(shù),并排序。然后再進(jìn)行歸并,留意去除重復(fù)的元素。
7、騰訊〔面試〕題:給40億個不重復(fù)的unsignedint的整數(shù),沒排過序的,然后再給一個數(shù),如何快速推斷這個數(shù)是否在那40億個數(shù)當(dāng)中?
與上第6題類似,我的第一反應(yīng)時快速排序+二分查找。以下是其它更好的方法:
方案1:oo,申請512M的內(nèi)存,一個bit位代表一個unsignedint值。讀入40億個數(shù),設(shè)置相應(yīng)的bit位,讀入要查詢的數(shù),
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 《來之不易的糧食》教學(xué)設(shè)計
- 中國歷史上的十大科學(xué)家為人類進(jìn)步作出重要貢獻(xiàn)的學(xué)者
- 2024年溫州科技職業(yè)學(xué)院高職單招職業(yè)適應(yīng)性測試歷年參考題庫含答案解析
- 中考數(shù)學(xué)總復(fù)習(xí)策略知識講稿
- 農(nóng)業(yè)標(biāo)準(zhǔn)化與農(nóng)業(yè)現(xiàn)代化講解材料
- 2024年浙江舟山群島新區(qū)旅游與健康職業(yè)學(xué)院高職單招職業(yè)適應(yīng)性測試歷年參考題庫含答案解析
- 第一講何謂藝術(shù)史教材課程
- 感染性休克搶救的程序課件
- 四年級語文上冊第五單元第17課爬山都峰習(xí)題課件新人教版
- 2024年泊頭職業(yè)學(xué)院高職單招語文歷年參考題庫含答案解析
- 車位款抵扣工程款合同
- 《完善中國特色社會主義法治體系》課件
- 耳穴壓豆課件
- 鄉(xiāng)鎮(zhèn)宣傳思想文化工作經(jīng)驗交流材料
- 2023年江蘇省南京市中考化學(xué)真題(原卷版)
- 二年級道德與法治《下冊教材分析解讀》部編人教版完整課件
- 江蘇省無錫市2024-2025學(xué)年高二英語上學(xué)期期末考試試題含解析
- 2024年越南分布式光伏發(fā)電行業(yè)現(xiàn)狀及前景分析2024-2030
- JGT 160-2017 混凝土用機(jī)械錨栓
- 檢驗專業(yè)三基考核試題
- 演藝培訓(xùn)項目商業(yè)計劃書
評論
0/150
提交評論