社交電商數(shù)據(jù)分析與應用-基于拼多多平臺的數(shù)據(jù)分析策略、方法與應用 課件 項目三 社交電商數(shù)據(jù)采集_第1頁
社交電商數(shù)據(jù)分析與應用-基于拼多多平臺的數(shù)據(jù)分析策略、方法與應用 課件 項目三 社交電商數(shù)據(jù)采集_第2頁
社交電商數(shù)據(jù)分析與應用-基于拼多多平臺的數(shù)據(jù)分析策略、方法與應用 課件 項目三 社交電商數(shù)據(jù)采集_第3頁
社交電商數(shù)據(jù)分析與應用-基于拼多多平臺的數(shù)據(jù)分析策略、方法與應用 課件 項目三 社交電商數(shù)據(jù)采集_第4頁
社交電商數(shù)據(jù)分析與應用-基于拼多多平臺的數(shù)據(jù)分析策略、方法與應用 課件 項目三 社交電商數(shù)據(jù)采集_第5頁
已閱讀5頁,還剩49頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

項目三社交電商數(shù)據(jù)采集“一切勞動者,只要肯學肯干肯鉆研,練就一身真本領,掌握一手好技術(shù),就能立足崗位成長成才,就都能在勞動中發(fā)現(xiàn)廣闊的天地,在勞動中體現(xiàn)價值、展現(xiàn)風采、感受快樂?!睌?shù)據(jù)采集工作在入行初期是一件“苦差事”,需要更多的耐心、專心、細心、用心。在學習過程中,要引導學生養(yǎng)成肯學肯干肯鉆研、嚴謹認真的職業(yè)素養(yǎng),學會分析問題、解決問題,從多渠道獲取信息,全面把握原始數(shù)據(jù),掌握數(shù)據(jù)采集的基本能力,增強職業(yè)自信心。思政與素質(zhì)目標項目引入小美是拼多多某服飾企業(yè)店鋪的運營專員,負責該企業(yè)拼多多店鋪的整體規(guī)劃、營銷、推廣、客戶關系管理等系統(tǒng)性運營工作。最近企業(yè)要推出一款新品,運營主管要小美去收集關于該產(chǎn)品的關鍵詞信息及運營有關的相關數(shù)據(jù),為該產(chǎn)品的商品標題確定,文案描述,關聯(lián)銷售、產(chǎn)品設計等提供決策參考。已經(jīng)初步掌握數(shù)據(jù)分析流程的小美意識到,沒有數(shù)據(jù)無法展開分析,基于移動端的拼多多平臺數(shù)據(jù)是如何采集的呢,商品標題的主打關鍵詞數(shù)據(jù)又是如何去尋找呢?項目引入2課時:

課時1任務拆解任務拆解3這是典型的通過數(shù)據(jù)分析在解決企業(yè)實際運營問題的應用場景,通過數(shù)據(jù)分析讓運營人員了解該產(chǎn)品的核心關鍵詞數(shù)據(jù),平臺熱搜關鍵詞等情況,為企業(yè)進行運營規(guī)劃選擇提供參考。這個數(shù)據(jù)分析的最重要的一個階段就是數(shù)據(jù)采集,基于移動端的數(shù)據(jù)采集如何去實現(xiàn),就是該分析任務的一個重要階段,因此該項目圍繞拼多多數(shù)據(jù)采集需求拆解成兩個任務,分別為了解HTML源碼解析及網(wǎng)絡抓包體驗,采集拼多多產(chǎn)品搜索關鍵詞,最終形成產(chǎn)品熱搜詞庫。任務目錄HTML源碼解析及網(wǎng)絡抓包3.1采集數(shù)據(jù),形成產(chǎn)品關鍵詞數(shù)據(jù)3.2分析思路

任務1HTML源碼解析及網(wǎng)絡抓包在瀏覽互聯(lián)網(wǎng)上的信息時,人們可以輕松地獲取到相關的內(nèi)容,但是這個簡單行為的背后卻是后臺經(jīng)過一系列的工作才得以實現(xiàn)的。簡而言之,人們眼前的信息是經(jīng)過服務器的請求和響應實現(xiàn)的,涉及網(wǎng)絡爬蟲、TCP/IP協(xié)議、HTTP協(xié)議以及URL等相關知識,本節(jié)任務將詳細介紹相關內(nèi)容。網(wǎng)絡爬蟲URL構(gòu)成原理網(wǎng)頁的構(gòu)成HTML請求與響應靜態(tài)網(wǎng)頁和動態(tài)網(wǎng)頁知識準備任務1HTML源碼解析及網(wǎng)絡抓包網(wǎng)絡爬蟲,也稱為網(wǎng)頁抓取和網(wǎng)頁數(shù)據(jù)提取,基本上是指通過超文本傳輸協(xié)議(HTTP)或通過網(wǎng)頁瀏覽器獲取萬維網(wǎng)上可用的數(shù)據(jù)。(摘自Wikipedia)網(wǎng)絡爬蟲實際上是由網(wǎng)頁機器人/爬蟲驅(qū)動的,其功能與搜索引擎相同。簡單來說就是,抓取和復制。唯一的不同可能是規(guī)模。網(wǎng)絡爬蟲抓取是從特定的網(wǎng)站提取特定的數(shù)據(jù),而搜索引擎通常能夠爬取全Internet規(guī)模的網(wǎng)頁。網(wǎng)絡爬蟲簡單的來講,URL是UniformResourceLocator的縮寫,譯為“統(tǒng)一資源定位符”。就是在瀏覽器端輸入的

這個字符串。采用URL可以用一種統(tǒng)一的格式來描述各種信息資源,包括文件、服務器的地址和目錄等?;靖袷脚e例:/gywm/cbsjj/2010-11-19/47.shtml其中https:網(wǎng)絡協(xié)議:主機名,可以理解為一臺主機名叫,這臺主機在域名下gywm/cbsjj/2010-11-19/47.shtml訪問資源的路徑注意:在瀏覽器中請求一個URL,瀏覽器會對這個URL進行一個編碼。(除英文字母、數(shù)字和部分標識,其他的全部用%加十六進制碼進行編碼)例如:/hxedu/hg/book/bookInfo.html?code=G0421020URL構(gòu)成原理不管是基于PC端的網(wǎng)站還是基于移動端的各種APP,其最基本的要素就是每個頁面,也就是用戶點擊看到的各類頁面,這些頁面都可以統(tǒng)稱為網(wǎng)頁,而一個基本的網(wǎng)頁組成大體上分為HTML、CSS、JavaScript三大部分。 HTML:決定了網(wǎng)頁的框架結(jié)構(gòu),就像一頁書的內(nèi)容排版; CSS:決定了網(wǎng)頁的風格樣式,就像一頁書的字體大小,顏色等;JavaScript:決定了網(wǎng)頁的功能,這讓頁面可以和用戶交互,比如搜索,點贊,收藏等。網(wǎng)頁的構(gòu)成HTML的工作機制是當用戶在瀏覽器的地址欄輸入一個網(wǎng)址(URL)并按【ENTER】鍵之后,瀏覽器會向HTTP服務器發(fā)送HTTP請求。HTML請求與響應靜態(tài)網(wǎng)頁:通俗來講,只有HTML格式的網(wǎng)頁通常被稱為靜態(tài)網(wǎng)頁。這些網(wǎng)頁的數(shù)據(jù)比較容易獲取,由于所有的數(shù)據(jù)都顯示在網(wǎng)頁的HTML代碼中。靜態(tài)網(wǎng)頁,隨著html代碼的生成,頁面的內(nèi)容和顯示效果就基本上不會發(fā)生變化了——除非你修改頁面代碼。在用數(shù)據(jù)采集的過程中,只要研究HTML源碼即可,不管是用采集工具還是自編采集代碼,實現(xiàn)起來都相對容易,比如在用python抓取的過程中,就有一個強大的Request庫能夠輕易地發(fā)送HTTP請求,供我們進行爬取靜態(tài)網(wǎng)頁。靜態(tài)網(wǎng)頁和動態(tài)網(wǎng)頁動態(tài)網(wǎng)頁:不只有HTML代碼寫出的網(wǎng)頁被稱為動態(tài)網(wǎng)頁,這些網(wǎng)頁一般由CSS,JavaScript代碼和HTML代碼一起構(gòu)成網(wǎng)頁,它們用Ajax動態(tài)加載網(wǎng)頁的數(shù)據(jù)不一定出現(xiàn)在HTML代碼中,這就需要復雜的操作。與靜態(tài)網(wǎng)頁不同,動態(tài)頁面代碼雖然沒有變,但是顯示的內(nèi)容卻是可以隨著時間、環(huán)境或者數(shù)據(jù)庫操作的結(jié)果而發(fā)生改變的。靜態(tài)網(wǎng)頁和動態(tài)網(wǎng)頁

一、確定社交電商APP的URL二、解構(gòu)頁面源碼三、抓包動態(tài)數(shù)據(jù)任務實施

數(shù)據(jù)采集?1.確定社交電商APP的URL

方法1:在在搜索引擎上搜索手機應用APP網(wǎng)址,并觀察搜索結(jié)果,發(fā)現(xiàn)有兩個拼多多網(wǎng)址鏈接日期格式。?1.確定社交電商APP的URL

點擊這兩個鏈接進入確定URL指向的頁面,發(fā)現(xiàn)兩個網(wǎng)址打開后網(wǎng)頁內(nèi)容完全一致,且兩個頁面都有一個明顯的“在APP打開”的紅色提示按鈕??梢耘袛嗥炊喽郃PP的url地址有兩個,一個是Y,另一個地址是:?確定社交電商APP的URL

方法2:在手機上打開拼多多APP,點擊任意商品,點擊右上角的分享按鈕,在手機的底部會出現(xiàn)分享方式選擇,這里我們點擊分享給“QQ好友”?1.確定社交電商APP的URL

在電腦端點擊好友分享過來的拼多多商品鏈接,與QQ相關聯(lián)的瀏覽器打開該商品鏈接,而在URL中出現(xiàn)的地址欄即為拼多多產(chǎn)品頁面觀察此URL地址為:?2解構(gòu)頁面源碼

在電腦瀏覽器中,輸入步驟1找到的URL地址,例如拼多多網(wǎng)頁端/,在網(wǎng)頁頁面空白處單擊鼠標右鍵,彈出菜單中選擇“查看網(wǎng)頁源代碼”(不同瀏覽器表述可能有所不同,可能是“查看源”,其功能含義相同)?2解構(gòu)頁面源碼

在打開的代碼頁面中,左側(cè)是HTML的行號,右側(cè)是HTML代碼,選擇鍵盤的CTRL+F鍵組合鍵,可以調(diào)出頁面搜索框,在搜索框中可以輸入想要查找的關鍵詞,此時源碼頁面會高亮顯示匹配的關鍵詞,而通過源代碼查找的數(shù)據(jù)又被稱作靜態(tài)數(shù)據(jù)?3抓包動態(tài)數(shù)據(jù)

打開/,任意空白位置,右鍵選擇“檢查”(有的瀏覽器可能是“審查元素”,或者按鍵盤F12)進入開發(fā)者模式,單擊【Network】(網(wǎng)絡)選項?3抓包動態(tài)數(shù)據(jù)

刷新瀏覽頁面(也可按鍵盤F5鍵),并觀察開發(fā)【Network】中的變化,可以看到窗口中獲取到許多文件,這個過程也稱之為抓包?3抓包動態(tài)數(shù)據(jù)

在搜索框中輸入“草莓”關鍵詞,搜索下拉框會有關鍵詞推薦,與HTML源碼解析時搜索出的信息不同,這些關鍵詞并不是靜態(tài)的(圖中兩個藍色方框中的內(nèi)容是相同的),因為系統(tǒng)并不知道用戶會搜索什么詞,所以無法提前埋在HTML中。通過動態(tài)交互的方式,用戶產(chǎn)生了操作,系統(tǒng)從服務器獲取對應的數(shù)據(jù)包,使用開發(fā)者模式可以觀察到這些數(shù)據(jù)包。任務目錄HTML源碼解析及網(wǎng)絡抓包3.1采集數(shù)據(jù),形成產(chǎn)品關鍵詞數(shù)據(jù)3.2任務2市場趨勢分析任務1我們通過觀察拼多多頁面源碼,了解了HTML請求與響應的機理,知道如果根據(jù)UTL找到需要采集數(shù)據(jù)目標數(shù)據(jù)的接口,接下來就是需要掌握如何把源碼中或者動態(tài)抓包中看到的數(shù)據(jù),下載并整理。數(shù)據(jù)一般可以通過數(shù)據(jù)產(chǎn)品和頁面收集,收集數(shù)據(jù)時如果使用手動方式將耗費大量的時間和精力,因此使用軟件構(gòu)建采集腳本可極大節(jié)約時間成本。下面我們將帶領大家體驗通過傳統(tǒng)的源碼采集方式實現(xiàn)數(shù)據(jù)采集。分析思路

任務3.2采集數(shù)據(jù),形成產(chǎn)品關鍵詞數(shù)據(jù)采集數(shù)據(jù)的流程數(shù)據(jù)采集的法律問題搜索框下拉詞知識準備任務3.2采集數(shù)據(jù),形成產(chǎn)品關鍵詞數(shù)據(jù)任務2市場趨勢分析完整的采集數(shù)據(jù)流程可包括采集、存儲和清洗三個環(huán)節(jié)。(1)采集:將整個HTML或者JS文件下載到本地,此時數(shù)據(jù)在文件中,文件可轉(zhuǎn)換成文本這種可讀的類型。(2)存儲:存儲數(shù)據(jù)一般將下載的文件或者文本整個存入數(shù)據(jù)庫。(3)清洗:從文件或者文本中提取目標資料,并組織成表格形式,形成可供分析的原始資料。采集數(shù)據(jù)的流程任務2市場趨勢分析數(shù)據(jù)信息收集分為兩種主要場景,一種是提供產(chǎn)品給用戶從而收集用戶的個人信息或用戶的使用數(shù)據(jù),另一種是頁面公開數(shù)據(jù)的收集。在收集頁面公開數(shù)據(jù)方面,對于主體沒有明確限制,由于數(shù)據(jù)本來就是公開的,只要不影響數(shù)據(jù)公開方的正常運作即可,數(shù)據(jù)公開方也可以拒絕公開數(shù)據(jù)被采集,使用技術(shù)手段防止數(shù)據(jù)被采集,比如網(wǎng)站根目錄下面的robots.txt的爬蟲權(quán)限聲明。數(shù)據(jù)采集的法律問題任務2市場趨勢分析搜索框下拉詞默認是平臺搜索框的詞匯或是搜索框推薦詞,再或是搜索框下方的一些顯示詞匯,它默認是系統(tǒng)自行設置與推薦而存在的。在關鍵詞下拉框中,出現(xiàn)的下拉詞,都是一個熱門研究關鍵詞,有很高的點擊率。就像我們搜索查詢爆款夏裝“連衣裙”時,會出現(xiàn)連衣裙2021新款夏、連衣裙女、連衣裙女春秋、連衣裙仙女超仙甜美等關鍵詞,這些問題都是下拉詞,也是中國最近一段工作時間數(shù)據(jù)的熱門關鍵詞。針對以上這些下拉詞,方便買家們?nèi)ふ宜麄冏约浩髽I(yè)需要的風格和款式。對于一些賣家一般來說,可以進行合理有效利用學習這些社會熱門的下拉詞,放到實現(xiàn)自己的商品標題中,得到滿足更多的展示這個機會。搜索框下拉詞

一、明確采集目標鏈接

二、構(gòu)建采集數(shù)劇表三、利用函數(shù)采集與提取四、整理列表,優(yōu)化關鍵詞下拉提取模型任務實施

任務實施任務2市場趨勢分析分析思路

任務3.2采集數(shù)據(jù)形成產(chǎn)品關鍵詞數(shù)據(jù)拼多多搜索下拉推薦詞據(jù)買家當前的輸入,自動提供一個關鍵詞候選列表,供用戶選擇,關鍵詞下拉詞在搜索引擎和廣告競價平臺中已經(jīng)是標配的產(chǎn)品,能提取相關產(chǎn)品關鍵詞的下拉詞對于社交電商運營者來說非常重要。① 理解下拉詞在拼多多網(wǎng)頁版地址

輸入搜索關鍵詞籃球(需要手機登錄后才能進行搜索),搜索推薦詞出現(xiàn)在搜索框下面?1明確采集目標鏈接②觀察動態(tài)網(wǎng)頁變化,實現(xiàn)抓包在任務1中,我們已經(jīng)明確關鍵詞下拉詞頁面屬于動態(tài)網(wǎng)頁數(shù)據(jù)采集,動態(tài)網(wǎng)頁采集的第一步就是要找到目標鏈接URL。右鍵點擊【檢查】,進入【network】界面,為觀察動態(tài)網(wǎng)頁情況變化,點擊【clear】清除已發(fā)生的記錄文件,讓“name”區(qū)域記錄為零?1明確采集目標鏈接②觀察動態(tài)網(wǎng)頁變化,實現(xiàn)抓包由于動態(tài)頁面的地址變化主要在XHR和JS頁面中發(fā)生變化,因此我們改變搜索框的關鍵詞為“口紅”,觀察這兩個頁面的Name區(qū)域的變化。經(jīng)觀察發(fā)現(xiàn)改變關鍵詞后XHR頁面(用XMLHttpRequest方法來獲取JavaScript)出現(xiàn)大量抓包信息,其中三條記錄為明細的URL地址信息?1明確采集目標鏈接③找到URL并驗證信息選中該URL鼠標右擊,復制鏈接地址到瀏覽器地址欄,瀏覽器顯示內(nèi)容和代碼頁展現(xiàn)內(nèi)容完全一致?1明確采集目標鏈接④輸入不同關鍵詞,尋找URL變化規(guī)律清除記錄,在搜索框中繼續(xù)輸入其他關鍵詞,比如芒果,繼續(xù)在Name記錄區(qū)抓包,復制新目標URL地址?1明確采集目標鏈接對比URL,構(gòu)建采集URL框架將幾個關鍵詞URL地址復制到一個空白記事本,進行對比分析?1明確采集目標鏈接經(jīng)觀察發(fā)現(xiàn),中文關鍵詞在URL中都發(fā)生了編碼轉(zhuǎn)化,URL的變化主要就是對應輸入關鍵詞的變化,因此確定下一步構(gòu)建采集數(shù)據(jù)集需要建立關鍵詞→編碼→URL的關聯(lián),這一階段的核心內(nèi)容就是要完成中文關鍵詞到編碼的對應關系。① 構(gòu)建查詢產(chǎn)品關鍵詞表新建Excel工作簿,【輸入】關鍵詞數(shù)據(jù)表,并選中數(shù)據(jù)記錄在插入菜單欄中選擇【表格】,將關鍵詞表轉(zhuǎn)換為表格形式?2構(gòu)建采集數(shù)劇表

利用PowerQuery構(gòu)建采集數(shù)據(jù)源進入【數(shù)據(jù)】菜單選中【自表格/區(qū)域】,進入PowerQuery編輯器界面?2構(gòu)建采集數(shù)劇表

③構(gòu)建編碼列在【添加列】菜單欄中,選中【自定義列】,彈出自定義列公式窗口,在彈窗中,將自定義列命名為“編碼”,在【公式欄】中輸入Uri.EscapeDataString()函數(shù),選擇右邊【可用列】中的“關鍵詞”列插入,選擇確定,利用PQ編輯器窗口完成關鍵詞到編碼的轉(zhuǎn)化?2構(gòu)建采集數(shù)劇表

④構(gòu)建URL列在【添加列】菜單欄中,選中【自定義列】,彈出自定義列公式窗口,在彈窗中,將自定義列命名為“URL”,在【公式欄】中復制URL信息到公式欄中,并將編碼字段用為“&[編碼]&”替代,(編碼也可以通過可用列中的“編碼”列插入),選擇確定,PQ編輯器窗口完成關鍵詞到編碼的轉(zhuǎn)化?2構(gòu)建采集數(shù)劇表

① 利用Web.Contents()函數(shù)建立采集列在【添加列】菜單欄中,選中【自定義列】,彈出自定義列公式窗口,在彈窗中,將自定義列命名為“采集”,【公式欄】中輸入=Web.Contents([URL])(URL也可以通過可用列中的“URL”列插入)?3利用函數(shù)采集與提取① 利用Web.Contents()函數(shù)建立采集列按照步驟完成設置并選擇確定后,PQ會跳出隱私提示窗口,點擊【繼續(xù)】,在隱私級別提示窗口中,勾選“忽略”后?3利用函數(shù)采集與提取按照步驟完成設置并選擇確定后,PQ會跳出隱私提示窗口,點擊【繼續(xù)】確定,在隱私級別提示窗口中,勾選“忽略”后

① 利用Web.Contents()函數(shù)建立采集列點擊保存后PQ編輯器出現(xiàn)新的【采集】列,字段以“Binary”形式出現(xiàn)?3利用函數(shù)采集與提取按照步驟完成設置并選擇確定后,PQ會跳出隱私提示窗口,點擊【繼續(xù)】確定,在隱私級別提示窗口中,勾選“忽略”后

② Json.Document()函數(shù)建立提取列在【添加列】菜單欄中,選中【自定義列】,彈出自定義列公式窗口,在彈窗中,將自定義列命名為“提取”,【公式欄】中輸入=Json.Document([采集])(采集也可以通過可用列中的“URL”列插入),具體操作步驟如同所示,點擊確定后PQ編輯器出現(xiàn)新的【提取】列,字段以“Record”形式出現(xiàn)?3利用函數(shù)采集與提取按照步驟完成設置并選擇確定后,PQ會跳出隱私提示窗口,點擊【繼續(xù)】確定,在隱私級別提示窗口中,勾選“忽略”后

③ 選擇必要信息,完成提取點擊【提取】列右邊的展開按鈕,在彈出勾選視窗中勾選“suggest”字段?3利用函數(shù)采集與提取按照步驟完成設置并選擇確定后,PQ會跳出隱私提示窗口,點擊【繼續(xù)】確定,在隱私級別提示窗口中,勾選“忽略”后

③ 選擇必要信息,完成提取提取“列名變?yōu)椤碧崛?Suggest“名稱,記錄中變?yōu)椤癓ist“?3利用函數(shù)采集與提取按照步驟完成設置并選擇確定后,PQ會跳出隱私提示窗口,點擊【繼續(xù)】確定,在隱私級別提示窗口中,勾選“忽略”后

③ 選擇必要信息,完成提

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論