知乎23屆校招數(shù)據(jù)分析試題_第1頁
知乎23屆校招數(shù)據(jù)分析試題_第2頁
知乎23屆校招數(shù)據(jù)分析試題_第3頁
知乎23屆校招數(shù)據(jù)分析試題_第4頁
知乎23屆校招數(shù)據(jù)分析試題_第5頁
已閱讀5頁,還剩8頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

知乎23屆校招數(shù)據(jù)分析試題1.現(xiàn)在想篩選出一些優(yōu)質(zhì)的內(nèi)容,篩選的標準是:內(nèi)容作者的評級大于5級、或者盡管內(nèi)容作者評級小于5級,但內(nèi)容本身的評級大于5級或者內(nèi)容獲得的喜歡數(shù)大于1000,同時,所篩選出來的內(nèi)容類型要求為1,下列SQL中,where條件可行的是()A.whereauthor_level>5or(author_level<=5and(content_level>5orlike>1000))andtype=1B.where(author_level>5orauthor_level<=5)and(content_level>5orlike>1000)andtype=1C.where(author_level>5or(author_level<=5andcontent_level>5orlike>1000))andtype=1D.where(author_level>5orauthor_level<=5and(content_level>5orlike>1000))andtype=1正確答案:D解析:這道題考查SQL語句中篩選條件的邏輯。優(yōu)質(zhì)內(nèi)容的篩選有明確規(guī)則,D選項準確涵蓋了所有條件:作者評級大于5級,或作者評級小于等于5級但內(nèi)容本身評級大于5級或喜歡數(shù)大于1000,同時內(nèi)容類型為1。A、B、C選項在條件組合或表述上存在偏差,不符合題目要求。

2.如果想監(jiān)控一段時間內(nèi),不同活躍頻次的用戶貢獻的APP時長的比例變化,下列哪中展現(xiàn)形式更好()A.堆積面積圖B.餅圖C.條形圖D.直方圖正確答案:A解析:這道題考察的是對數(shù)據(jù)可視化圖表的理解和應(yīng)用。要監(jiān)控不同活躍頻次用戶貢獻的APP時長比例變化,需要一種能清晰展示各部分占比及其隨時間變化的圖表。堆積面積圖能很好地展示不同類別數(shù)據(jù)隨時間的變化趨勢和占比,適合本題需求。餅圖主要用于展示靜態(tài)的比例關(guān)系,條形圖用于比較不同類別的數(shù)據(jù)大小,直方圖則用于展示數(shù)據(jù)的分布情況,均不適合本題需求。因此,A選項堆積面積圖是最合適的展現(xiàn)形式。

3.有下列兩張表,表1記錄著每個作者的id和這個作者的等級,表2記錄著每個等級對應(yīng)等階劃分,現(xiàn)想在表1中添加C列,記錄該作者的對應(yīng)的等階,在EXCEL中,可以在C列輸入哪個函數(shù)()A.=vlookup(B:B,D:E,2,1)B.=IF(B1="1","初級",B1="2","初級",B1="3","中級",B1="4","中級",B1="5","高級")C.=vlookup(A:B,D:E,2,1)D.=IF(B:B=D:D,E:E,0)正確答案:A解析:暫無解析

4.A、B、C三個人在五一假期外出旅行的概率分別為1/2、1/3、1/4,假設(shè)三個人的行動相互之間沒有有影響,那這三人中至少有一個在五一假期外出旅游的概率是()A.1/24B.11/24C.2/3D.3/4正確答案:D解析:這道題考查概率的計算。三人都不外出旅行的概率為:(1-1/2)×(1-1/3)×(1-1/4)=1/4。至少有一人外出旅行的概率用1減去都不外出的概率,即1-1/4=3/4。選項A明顯過小,B也不符合計算結(jié)果,C也不正確,所以答案是D。

5.假設(shè)有一種病毒,它的攜帶率為1/2000。有一種化驗方法可以精準地檢測到這種病毒,也就是說,如果一個人攜帶這種病毒,一定可以被檢測出來。但是該項化驗的假陽性率為1%,即健康人接受該項化驗,會有1%的可能性被誤診為病毒攜帶者。假設(shè)從人群中隨機選擇一人進行檢測,化驗結(jié)果為陽性(陽性意味著受檢者可能是該病毒攜帶者)。那么,在不考慮其它變量的情況下,此人攜帶該病毒的概率最接近下列哪個數(shù)據(jù)?()A.99%B.5%C.2%D.1%正確答案:B解析:這道題考察的是對概率論中貝葉斯定理的應(yīng)用。首先,我們知道病毒的攜帶率為1/2000,即0.0005,假陽性率為1%,即0.01。根據(jù)貝葉斯定理,我們可以計算出在化驗結(jié)果為陽性的情況下,此人真正攜帶病毒的概率。這個概率等于(攜帶率*檢測準確率)/(攜帶率*檢測準確率+健康率*假陽性率),即(0.0005*1)/(0.0005*1+0.9995*0.01),計算后得到的結(jié)果最接近5%。

6.從隨機數(shù)字表抽得50個(各取兩位數(shù)字)隨機數(shù)作為兩個樣本,求得則理論上()A.B.作兩方差齊性的F檢驗,必然方差齊C.做兩樣本均數(shù)的t檢驗,檢驗必得出無差別的結(jié)論D.分別從兩樣本求出的總體均數(shù)的95%的置信區(qū)間,很可能有重疊正確答案:D解析:暫無解析

7.某個工程開展6天之后,因突發(fā)狀況停工4天,之后工程隊提速20%,并按原計劃完成了工作,則原計劃工期為()A.27天B.30天C.36天D.45天正確答案:B解析:這道題考查工程問題中的工作效率和時間的關(guān)系。設(shè)原計劃每天完成的工作量為1,提速20%后每天完成1.2的工作量。工程開展6天后停工4天,剩下的工作按提速后的效率完成,與原計劃時間相同。通過設(shè)原計劃工期為x天,可列方程求解,計算得出原計劃工期為30天。

8.有AB兩組用戶,A組有4人,B組有5人,現(xiàn)在從AB兩組用戶中共抽取3個用戶進行用戶訪談,抽取時要保證兩組用戶都至少有1人參加訪談,這種情況下,有多少種抽取方法()A.105B.90C.80D.70正確答案:D解析:暫無解析

9.假設(shè)隨機變量X,Y相互獨立,且X~N(25,16),Y~N(25,9),則Z=2X+3Y+10的分布為()A.N(25,145)B.N(25,59)C.N(135,145)D.N(135,59)正確答案:C解析:本題考察的是正態(tài)分布的性質(zhì),特別是相互獨立的正態(tài)分布隨機變量的線性組合的分布。已知隨機變量X和Y是相互獨立的,且分別服從N(25,16)和N(25,9)的正態(tài)分布。根據(jù)正態(tài)分布的性質(zhì),兩個相互獨立的正態(tài)分布隨機變量的線性組合仍然服從正態(tài)分布,其期望和方差可以通過線性組合的系數(shù)來計算。對于Z=2X+3Y+10,其期望E(Z)=2E(X)+3E(Y)+10=2*25+3*25+10=135,方差D(Z)=2^2*D(X)+3^2*D(Y)=4*16+9*9=145。因此,Z的分布為N(135,145),選項C正確。

10.假設(shè)總體X的概率分布為其中,是未知參數(shù),利用總體X的如下樣本值3,1,3,0,3,1,2,3求θ的矩估計值()A.1B.1/2C.1/4D.1/8正確答案:C解析:暫無解析

11.下列關(guān)于線性回歸說法錯誤的是()A.多重共線性會使得參數(shù)估計值方差變小B.在違背基本假設(shè)時,普通最小二乘法估計量不再是最佳線性無偏估計量C.可以用DW檢驗殘差是否存在序列相關(guān)性D.自變量和殘差要相互獨立正確答案:A解析:這道題考察的是線性回歸模型的相關(guān)知識點。首先,多重共線性是一個常見問題,它會導致參數(shù)估計值的方差變大,而不是變小,所以A選項的說法是錯誤的。其次,普通最小二乘法估計量在違背基本假設(shè)時,確實不再是最佳線性無偏估計量,B選項正確。再次,DW檢驗是用來檢驗殘差是否存在序列相關(guān)性的常用方法,C選項正確。最后,自變量和殘差要相互獨立是線性回歸模型的一個基本假設(shè),D選項正確。綜上所述,A選項是錯誤的。

12.通過監(jiān)督學習進行二分類模型訓練過程中,可能會遇到正負樣本數(shù)量不平衡的情況(比如正樣本有10萬但是負樣本有100萬),以下哪個方法最不恰當?shù)模浚ǎ〢.對正樣本進行重復(fù)抽B.從100萬負樣本中隨機抽取10萬C.將所有數(shù)據(jù)加入訓練集,充分利用全部數(shù)據(jù)D.正樣本的權(quán)重設(shè)置為10,負樣本權(quán)重設(shè)置為1正確答案:C解析:這道題考察的是處理不平衡數(shù)據(jù)集的方法。在機器學習中,當正負樣本數(shù)量不平衡時,直接將所有數(shù)據(jù)加入訓練集可能會導致模型偏向于多數(shù)類(即負樣本),從而影響模型的性能。A選項提出對正樣本進行重復(fù)抽樣,這是一種過采樣技術(shù),可以增加正樣本的數(shù)量,使其與負樣本數(shù)量接近,從而改善模型性能。B選項提出從100萬負樣本中隨機抽取10萬,這是一種欠采樣技術(shù),可以減少負樣本的數(shù)量,使其與正樣本數(shù)量接近,同樣有助于改善模型性能。D選項提出對正樣本和負樣本設(shè)置不同的權(quán)重,這是一種權(quán)重調(diào)整方法,可以通過增加少數(shù)類(即正樣本)的權(quán)重來抵消多數(shù)類(即負樣本)的影響,從而改善模型性能。相比之下,C選項提出將所有數(shù)據(jù)加入訓練集,充分利用全部數(shù)據(jù),這種方法在不進行任何處理的情況下直接訓練模型,很可能會導致模型偏向于多數(shù)類,因此是最不恰當?shù)姆椒ā?/p>

13.這個商店的競爭對手宣稱,該商店在以那些價錢甩賣那些襯衫的過程中,既沒有賺到任何利潤,也沒有收支平衡。所以顧客們必定能夠以低于商店成本的價錢買到襯衫。上述推理的錯誤推理模式與下面哪一個論證的模式最為相似?A.規(guī)則規(guī)定,參賽者既要被考察外在形式又要被考察精確性。最后的獲勝者在上述兩項中都不是最高的,因此,必定會有另外一個可以自由使用的判定標準。B.產(chǎn)品說明上確定,這種殺蟲劑對于人和寵物都是安全的。所以,這種殺蟲劑對于鹿和野兔這樣的野生哺乳動物也是安全的。C.博物館的值夜班的保安堅持認為,盜竊那幅名畫的人沒有從地面上或者高于地面的任何地方進入博物館,因此,竊賊就必定是從地底下進入博物館的。D.如果這次人口普查要獲得人們的信任,那么已婚男子的百分比就會高于已婚女子的百分比。于是,這次人口普查必定顯示出,男人的數(shù)量多于女人。正確答案:C解析:這是一道識別論證模式的問題。我們需要先理解背景信息和問題核心,再仔細分析每個選項,并將其與問題中給出的信息進行對比。理解背景信息:首先,理解題干中的推理模式——商店的競爭對手宣稱商店在甩賣襯衫的過程中沒有賺到利潤也沒有收支平衡,所以顧客們必定能夠以低于商店成本的價錢買到襯衫。這是一種排除法的邏輯謬誤,即因為否定了兩種可能性(賺到利潤和收支平衡),就錯誤地推斷出第三種可能性(低于成本價銷售)必定為真。理解問題核心:我們需要找出與題干論證模式最為相似的選項。接下來,我們逐一分析選項:-A選項(規(guī)則規(guī)定參賽者要考察兩項,獲勝者在兩項中都不是最高的,所以必定有另外一個判定標準):這個選項的推理是基于規(guī)則的解讀,并未使用排除法來推斷出另一種可能性,所以與題干的論證模式不同。-B選項(產(chǎn)品說明確定殺蟲劑對人和寵物安全,所以也對野生哺乳動物安全):這個選項的推理是基于一種類比,即認為如果某物對一類生物安全,那么對另一類相似的生物也安全,并未使用排除法,所以與題干的論證模式不同。-C選項(保安認為竊賊沒有從地面或高于地面的地方進入博物館,所以竊賊必定是從地底下進入的):這個選項的推理是:否定了兩種可能性(從地面或高于地面的地方進入),然后錯誤地推斷出第三種可能性(從地底下進入)必定為真,這與題干的論證模式完全一致。-D選項(如果人口普查要獲得信任,那么已婚男子的百分比會高于已婚女子,所以人口普查必定顯示出男人多于女人):這個選項的推理是基于一種假設(shè)的條件關(guān)系,并未使用排除法,所以與題干的論證模式不同。綜上所述,C選項(博物館的值夜班的保安堅持認為,盜竊那幅名畫的人沒有從地面上或者高于地面的任何地方進入博物館,因此,竊賊就必定是從地底下進入博物館的)的推理模式與題干中的推理模式最為相似,都使用了排除法來錯誤地推斷出第三種可能性。

14.只要待在學術(shù)界,小說家就不能變偉大。學院生活的磨煉所積累起來的觀察和分析能力對小說家非常有用。但是,只有沉浸在日常生活中,才能靠直覺把握生活的種種情感,而學院生活顯然與之不相容。以下哪項陳述是上述論證所依賴的假設(shè)A.偉大的小說家都有觀察和分析能力。B.對日常生活中情感的把握不可能只通過觀察和分析來獲得。C.沒有對日常生活中情感的直覺把握,小說家就不能成就其偉大。D.伴隨著對生活的投入和理智的觀察,會使小說家變得偉大。正確答案:C解析:根據(jù)題干可知,待在學術(shù)界會積累觀察和分析能力,但會失去對日常生活中情感的直覺把握,而要成為偉大的小說家,需要同時具備這兩種能力。據(jù)此,我們可以推測出,題干中的論證基于以下假設(shè):沒有對日常生活中情感的直覺把握,小說家就不能成就其偉大。A項與題干信息不符,題干中并未提及偉大的小說家都有觀察和分析能力;B項不能作為假設(shè),因為題干中并沒有否認可以通過觀察和分析獲得對日常生活中情感的把握;D項也與題干信息不符,題干中并未表明對生活的投入和理智的觀察會使小說家變得偉大。因此,正確答案是C。

15.我們對分享面板進行了優(yōu)化,預(yù)期提升用戶的分享意愿,以下指標中,你認為哪個指標可以衡量該優(yōu)化的效果()A.人均分享次數(shù)B.閱讀到分享的轉(zhuǎn)化率C.分享人數(shù)占閱讀人數(shù)比例D.以上均可正確答案:D解析:這道題考察的是對衡量分享功能優(yōu)化效果的指標的理解。在評估分享功能的優(yōu)化效果時,我們需要關(guān)注那些能夠直接反映用戶分享行為的指標。-人均分享次數(shù)(A選項)可以反映用戶分享的頻率,優(yōu)化后如果此指標提升,說明用戶更愿意分享。-閱讀到分享的轉(zhuǎn)化率(B選項)表示在閱讀內(nèi)容后,有多少比例的用戶進行了分享,這也是衡量優(yōu)化效果的一個重要指標。-分享人數(shù)占閱讀人數(shù)比例(C選項)反映了在閱讀的用戶中,有多少人進行了分享,同樣可以衡量優(yōu)化對用戶分享意愿的影響。由于這三個指標都能從不同角度衡量分享功能的優(yōu)化效果,所以D選項“以上均可”是正確的。

16.現(xiàn)有下列三張表,現(xiàn)在想統(tǒng)計出粉絲CTR,請寫出對應(yīng)的SQL語句;15分注:①CTR為點擊率,總閱讀次數(shù)/總曝光次數(shù)②表a:是創(chuàng)作者和粉絲關(guān)系表;表b:是創(chuàng)作者和內(nèi)容關(guān)系表;表c:是粉絲在內(nèi)容上的行為明細表正確答案:暫無答案解析:暫無解析

17.有下列三張表,現(xiàn)在想統(tǒng)計出「粉絲CTR」,請寫出對應(yīng)的SQL語句;15分注:①CTR為點擊率,總閱讀次數(shù)/總曝光次數(shù)②表a:是創(chuàng)作者和粉絲關(guān)系

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論