



下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、首先,附上百度業(yè)務(wù)運營部_數(shù)據(jù)分析師(產(chǎn)品運營)崗位的招聘詳情:、lk務(wù)運荇部_數(shù)據(jù)分析師(產(chǎn)品運苦)所屬部門:百度工作地點:北京市招聘人數(shù):若干公司:tt度職位類別:產(chǎn)品發(fā)亦時間:2016-04-11工作職責:-對百度重點行業(yè)的行業(yè)現(xiàn)狀、核心企業(yè)、市場動態(tài)、發(fā)展趨勢、互聯(lián)網(wǎng)營銷推廣等做深入分析, 形成數(shù)裾研究報告-解讀分析報告,并根裾分析結(jié)論,與運營一起商討運營策略-運用數(shù)據(jù)分析手段,對百度的客戶行業(yè)和屈性形成匕的分類方式職責要求:-人三或者研一、研二在校生,數(shù)學(xué)、計算機或者統(tǒng)計學(xué)專業(yè),對行業(yè)市場奮一定的了解 -理解統(tǒng)計學(xué)和數(shù)據(jù)挖掘算法原理,了解數(shù)據(jù)倉庫思想,會寫sql,熟悉spss、sas
2、,r等數(shù)據(jù)挖掘 軟件之一-熟練使用excel,能夠處理大量的數(shù)據(jù)了解決策樹、聚類、邏輯冋歸,關(guān)聯(lián)分析、svm, w葉斯等數(shù)據(jù)挖掘算法-能夠保證每周至少四個工作口的實ai時間重點解析這個崗位中職責要求里的重點技術(shù)要求:理解統(tǒng)計學(xué)和數(shù)據(jù)挖掘算法原理,了解數(shù)據(jù)倉庫思想,會寫sql,熟悉spss、sas,r等數(shù)據(jù)挖掘 軟件之一-熟練使pjexcel,能夠處理人量的數(shù)裾-了解決策樹、聚類、邏輯回歸,關(guān)聯(lián)分析、svm, w葉斯等數(shù)裾挖掘算法提取屮的關(guān)鍵詞:統(tǒng)計學(xué)、數(shù)裾挖掘算法、數(shù)裾侖庫、sql、spss、sas、r、excel、 決策樹、聚類、邏輯冋歸、關(guān)聯(lián)分析、svm、貝葉斯,然后人致的分類:一、數(shù)據(jù)挖
3、掘算法:(百科:http:/baike. baidu. com/1 ink?url=hjhlcpod cl.bz7mnbm4 bplcvzvkmj427nmrtiat2cx3h6xry6jc01ipkiuumacl 1116gnzh 扎 ql-u6mewr ik)數(shù)據(jù)挖掘:是數(shù)據(jù)昨知識發(fā)現(xiàn)屮的個步驟。數(shù)據(jù)挖掘般是指從人:s:的數(shù)裾屮通過算法搜索隱藏于;h:屮 信息的過程。數(shù)據(jù)挖掘通常與計算機科學(xué)冇關(guān),并通過統(tǒng)計、在線分析處現(xiàn)、情報檢索、機器學(xué)、專家系統(tǒng)(依常過去的經(jīng)驗法則)和模式識別等渚多方法來實現(xiàn)上述丨j標。數(shù)據(jù)挖掘算法:見根擬數(shù)裾創(chuàng)迚數(shù)裾挖掘模徹的一組試探法和計算。為了創(chuàng)述模邯,算法將竹先
4、分析您提 供的數(shù)據(jù),并查找特定類型的模式和趨勢、算法使用此分析的結(jié)果來定義用于創(chuàng)建挖掘模.型的域佳參數(shù)。然后,這些參數(shù)應(yīng)用于整個數(shù)據(jù)集,以便提 取可行模式和詳細統(tǒng)汁信息。數(shù)據(jù)挖掘十大算法概念補充:決策樹算法:決策樹(decision tree)是在己知各種情況發(fā)生概率的®礎(chǔ)上,通過構(gòu)成決策樹來求取凈現(xiàn)ffl 的期盥位人于等于零的概率,評價項m風(fēng)險,判斷其可行性的決策分析方法。所分析的數(shù)據(jù)樣本足集成為 一個樹根,經(jīng)過層層分枝,最終形成若千個節(jié)點,每個節(jié)點代表一個結(jié)論。聚類:將觀招對象的群體按照相似性和相異性進行不同群組的劃分。聚類分析的算法釘:劃分的力法(k-means),層次的方法(
5、依次讓圾相似的數(shù)據(jù)對象ww合并)、基于密 度的方法、基于網(wǎng)格的方法、基于模型的方法。1)c4.5 (分類算法)c4.5足一個決策樹算法,它足決策樹核心算法id3的改進算法。決策樹構(gòu)造方法就足每次選擇一個好的特 征以及分裂點作為當前節(jié)點的分類條件。1d3以信息熵和信息增益度為衡罱的標準,從而實現(xiàn)對數(shù)裾的歸 納分類、1d3計算毎個屬性的倍息增益,并選取具打圾高增益的屬性作為給定的測試屬性。c4.5兌服丫川 信息增益選擇屈性時偏句選擇取值多的屈性的不足。在樹構(gòu)造過程屮進行剪枝,在構(gòu)造決策樹的吋候,對 于那些掛著兒個元素的節(jié)點,千脆不考慮敁好,不然很容易導(dǎo)致overfittingo對非離散數(shù)據(jù)都能處理
6、, 這個其實就足一個個式,看對于連續(xù)型的位在哪里分裂好。也就足把連續(xù)性的數(shù)據(jù)轉(zhuǎn)化為離散的位進行處 理。能夠?qū)Σ煌暾麛?shù)裾進行處理,尋找一個代替數(shù)據(jù)來填充。c4. 5算法優(yōu)點:產(chǎn)生的分類ii于理解,準確率高;缺點:a)構(gòu)造樹過程屮,需對數(shù)據(jù)集進行多次的順序掃描排序,導(dǎo)致算法低效;b)只適合于能夠駐留丁內(nèi)存的數(shù)據(jù)集,當數(shù)據(jù)粱人得無法w內(nèi)存中容納吋,程序無法運行。2)cart (classification and regression tree,分類與回歸樹)(分類算法)cakt也是一種決策樹算法,著眼于總體優(yōu)化。相對于那些實現(xiàn)一個節(jié)點下面有多個子樹的多元分類,cart 只是分類w個子樹,這樣實現(xiàn)起
7、來稍稍簡便些。所以說cart算法少成的決策樹是結(jié)構(gòu)簡潔的二叉樹。3)knn(k nearest neighbours, k 最鄰近)(分類算法)從訓(xùn)練樣本中找出k個與其敁相近的樣本,是top-k個訓(xùn)練樣本出來,看這k個樣本中哪個類別的多些, 則待判定的值(或:抽樣)就w于這個類別。缺點:a)k值盂要預(yù)先設(shè)定,不能自適應(yīng);b)當樣木不平衡時,如某個類的樣木容量很火,而其他類樣本量小時,可能導(dǎo)致輸入的新樣木的k 個鄰居屮大容量的樣本心多數(shù)。該算法適用于樣本容量較人的類域進行自動分類。4)naive bayes (樸素貝葉斯nb)(分炎算注)是基于w葉斯定理和特征條件獨立假設(shè)的分類方法。它的基礎(chǔ)是概
8、率問題。分類原理:通過某對象的 先驗概率,利用w葉斯公式計算驗概率,即:該對象屬于某一類的概率,選抒具行圾人識驗概率的 類作為該對象所屈的類。5)support vector machine(支持向量機svm)(統(tǒng)計學(xué)習(xí)算法)svm足基于分類邊界的方法。就是想找一個分類得最”好”的分類線/分類面(最近的一些兩類樣本到這個” 線”的距離遠),將空間屮的點按其分類聚集在不同的區(qū)域。常用的工具包是libsvm、svmlight、mysvm。 原理:將低維空間的點映射到高維空間,使它們成為線性可分,再使用線性劃分原現(xiàn)來判斷分類邊界。6)em(期望最大化)(統(tǒng)計學(xué)習(xí)算法)基于模袱的聚類方法,我概率模蝌屮
9、徉找參數(shù)®大似然佔計的算法,k屮概率模艱依賴于尤法觀測的隱藏 變量。例如:假設(shè)數(shù)據(jù)是由幾個高斯分布俎成的,所以最后就是要求幾個高斯分布的參數(shù)。通過先假設(shè)幾 個值,然后通過反復(fù)迭代,以期望得到最好的擬合。優(yōu)點:計算結(jié)澩穩(wěn)定、準確;缺點:計算女雜、收斂慢,不適合大規(guī)模計算。7)apriori (關(guān)聯(lián)分析)一種挖掘關(guān)聯(lián)規(guī)則的算法,用于挖掘芄內(nèi)含的、未知的卻又實際存在的數(shù)據(jù)關(guān)系。不知道為什么,一提高 關(guān)聯(lián)規(guī)則我就想到購物籃數(shù)據(jù)。核心:基于網(wǎng)階段頻集思想的遞推算法、兩個階段:a)尋找頻繁項集;(支持度)b)由頻繁項集找出關(guān)聯(lián)規(guī)則。(可信度)缺點:a)在每一步產(chǎn)生候選項集時,循環(huán)產(chǎn)生的組合過多,
10、沒奮排除不應(yīng)參與組合的元索: b)每次計算項集的支持度時,都對數(shù)裾痄的全部w錄進行了一遍掃描比較,盂要很大的1/0負載。8)pagerank (數(shù)據(jù)挖掘)是google的頁而排序算法,基于從許多優(yōu)質(zhì)的網(wǎng)貝鏈接過來的網(wǎng)貝,必定是優(yōu)質(zhì)網(wǎng)頁的回歸關(guān)系,來判定 網(wǎng)頁的繭耍性。例如:如災(zāi)我指句你(網(wǎng)頁則的連接)則表示我承認你,則在汁算你的繭盟性的吋候可以 加上我的一部分重要性(到底多少,要看我自己喻多少和我共承汄多少個人)。通過反這樣來,可以求 的一個穩(wěn)定的衡景各個人(網(wǎng)頁)重要性的值。不過這里必須要做些限制(一個人的開始默認1r要性都是 1),不然那些值會越來越人越來越人、優(yōu)點:完全獨立于杳詢,只依賴
11、于網(wǎng)頁鏈接結(jié)構(gòu),可離線計算;缺點:a)忽略了網(wǎng)頁搜索的吋效性;b)舊網(wǎng)頁的排序髙、存在時間長,積累了大®的in-links,拙備新資訊的新網(wǎng)頁排名第,兒乎無in-links。9)k-means (聚類)k-means是一種域經(jīng)典也是使川撾廣泛的聚類力*法,時至今日扔然行很多基于其的改進模型捉出。k-.vieans 的思想很簡單,對于一個聚類任務(wù),首先隨機選擇k個簇中心,然后反復(fù)計算下而的過程宜到所冇簇屮心 不改變(簇集合不改變)為止:步驟1:對于每個對象,計兌其與每個族中心的相似度,把其歸入與其最相似的那個族中。步驟2:更新簇屮心,新的簇屮心通過計算所窗;4于該簇的對象的平均值符到。
12、k-means算法的工作過程說明如下:首先從n個數(shù)據(jù)對象任意選擇k個對象作為初始聚類屮心;而對于所 剩下其它對象,則根據(jù)它們與這些聚類中心的相以度(距離),分別將它們分配給與其最相似的(聚類中 心所代表的)聚類;然后再計算每個所獲新聚類的聚類中心(該聚類中所有對象的均位);不斷繭w這一 過程直到標準測度函數(shù)幵始收斂為止。-般都采川均方差作為標準測度函數(shù).k個聚類其宥以下特點:各 聚類本身盡可能的緊湊,而各聚類之間盡可能的分開。10)adaboost (袋裝與分類)adaboost做分類的一般知道,它是-種boosting方法。這個不能說是一種算法,應(yīng)該是一種方法,因為 它可以建立在任何一種分類算法上,可以足決策樹,nb, svm等。adaboost足一種迭代算法,其核心思想足針對同一個訓(xùn)練®訓(xùn)練不同的分類器(弱分類器),然后把這些弱 分類
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度宅基地房屋贈與受贈方后續(xù)使用協(xié)議
- 2025年度海景房房屋買賣協(xié)議書
- 二零二五年度學(xué)校食堂炊事員崗位聘用及食品安全責任保險服務(wù)合同
- 2025年度能源行業(yè)人員派遣勞務(wù)合同
- 二零二五年度文化活動免責的舉辦協(xié)議
- 二零二五年度餐廳租賃服務(wù)及品牌合作協(xié)議
- 二零二五年度企業(yè)資產(chǎn)質(zhì)押貸款合同
- 臨時工用工合同-2025年度制造業(yè)合作協(xié)議
- 2025年度旅游意外傷害保險責任免除合同
- 二零二五年度勞動合同解除協(xié)議書-員工合同續(xù)簽協(xié)商解除
- 道路運輸應(yīng)急救援與救援設(shè)備考核試卷
- 中國文化概況chapter-1
- 大學(xué)生職業(yè)素養(yǎng)訓(xùn)練(第六版)課件全套 宋賢鈞 第1-14單元 選擇職業(yè)目標- 堅守安全底線
- 期中測試卷(1~4單元)(試題)2024-2025學(xué)年四年級上冊數(shù)學(xué)北師大版
- 2024-2025學(xué)年初中勞動七年級下冊人教版教學(xué)設(shè)計合集
- 煤礦煤炭銷售管理制度
- 《語文綜合實踐:重溫革命歷史 賡續(xù)紅色血脈》教案- 2023-2024學(xué)年高教版(2023)中職語文基礎(chǔ)模塊下冊
- 2024年公開招聘事業(yè)單位工作人員報名登記表
- 植樹節(jié)英文主題課件
- 微觀經(jīng)濟學(xué):緒論
- 2024年全國高考數(shù)學(xué)試題及解析答案(新課標Ⅱ卷)
評論
0/150
提交評論