




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
公眾號(hào)文章信息采集公眾號(hào)文章信息的采集
本實(shí)例主要采集公眾號(hào)內(nèi)的所有文章信息,如圖所示。通過搜索“讀悅文摘”公眾號(hào),采集公眾號(hào)內(nèi)的所有文章,要求使用提取數(shù)據(jù)的“自定義數(shù)據(jù)合并方式”保留文章格式,文章圖片位置轉(zhuǎn)化為圖片鏈接保存,并且在鏈接前加“<img>”標(biāo)簽,后加“</img>”標(biāo)簽。采集字段為文章標(biāo)題、文章正文、采集時(shí)間及頁面網(wǎng)址。步驟1:新建自定義采集任務(wù)
輸入公眾號(hào)名稱。單擊網(wǎng)頁界面中的輸入框,在“操作提示”面板中單擊“輸入文字”選項(xiàng),輸入公眾號(hào)名稱“讀悅文摘”,單擊“確定”按鈕。步驟2:輸入實(shí)例網(wǎng)址并保存網(wǎng)址步驟3公眾號(hào)文章信息的采集步驟4
單擊搜公眾號(hào)。單擊網(wǎng)頁界面中的“搜公眾號(hào)”按鈕,在“操作提示”面板中單擊“點(diǎn)擊該按鈕”選項(xiàng)。公眾號(hào)文章信息的采集步驟5
單擊進(jìn)入公眾號(hào)。單擊網(wǎng)頁界面中的“讀悅文摘”公眾號(hào)標(biāo)題,并在“操作提示”面板中單擊“點(diǎn)擊該元素”選項(xiàng)。步驟6
循環(huán)單擊商品標(biāo)題。連續(xù)單擊兩個(gè)文章標(biāo)題,八爪魚采集器會(huì)選中所有標(biāo)題,在“操作提示”面板中單擊“循環(huán)點(diǎn)擊每個(gè)元素”選項(xiàng)。公眾號(hào)文章信息的采集步驟7
提取標(biāo)題。單擊網(wǎng)頁界面中的文章標(biāo)題,在“操作提示”面板中單擊“采集該元素的文本”選項(xiàng),修改字段名稱為“文章標(biāo)題”,單擊“確定”按鈕。公眾號(hào)文章信息的采集步驟8
建立文章內(nèi)容循環(huán)。為了保留文章原格式,需要對(duì)文章每一段內(nèi)容單獨(dú)提取,然后追加至一個(gè)字段內(nèi)容。從流程圖左側(cè)的工具欄中拖動(dòng)一個(gè)循環(huán)放入指定位置,選中“不固定元素列表”單選項(xiàng),如圖所示。在下方的“不固定元素列表”文本框中輸入對(duì)應(yīng)XPath來匹配文章的每一段內(nèi)容。本實(shí)例的XPath為“//div[@class="rich_media_content"]//p”。公眾號(hào)文章信息的采集步驟9
判斷每段內(nèi)容是否為圖片。數(shù)據(jù)采集需要將文章內(nèi)的圖片保存為鏈接,可使用判斷條件來判斷每段內(nèi)容是否為圖片。添加判斷條件如圖所示。從流程圖左側(cè)的工具欄中拖動(dòng)判斷條件放入指定位置,在左側(cè)的條件分支中選擇當(dāng)前循環(huán)項(xiàng)包含元素,然后在“元素XPath”文本框中輸入“//img”,單擊“確定”按鈕進(jìn)行保存。公眾號(hào)文章信息的采集步驟10
配置圖片提取數(shù)據(jù)。圖片的提取內(nèi)容為圖片鏈接,并且需要進(jìn)行字段內(nèi)容的格式化,添加前綴“<img>”和后綴“</img>”。單擊文章內(nèi)的任一圖片,在“操作提示”面板中單擊“采集該圖片地址”選項(xiàng),如上圖所示。將“提取數(shù)據(jù)”模塊拖動(dòng)至左側(cè)的條件分支中,并修改“字段名稱”為文章內(nèi)容,在“高級(jí)選項(xiàng)”區(qū)域中設(shè)置“使用循環(huán)”,這里選中“采集當(dāng)前循環(huán)中設(shè)置的元素”復(fù)選框,如下圖所示。公眾號(hào)文章信息的采集步驟10
要修改“提取數(shù)據(jù)”模塊的自定義元素方式,首先選中文章內(nèi)容字段,待字段變藍(lán)后單擊下方的“自定義數(shù)據(jù)字段”按鈕,然后選擇“自定義定位元素方式”選項(xiàng),在打開的界面中選中“相對(duì)XPath”復(fù)選框,在右側(cè)的文本框中輸入“//img”,最后單擊“確定”按鈕進(jìn)行保存,如上圖所示。單擊“自定義數(shù)據(jù)字段”按鈕,選擇“格式化數(shù)據(jù)”選項(xiàng),在打開的界面中單擊“添加步驟”按鈕,選擇“添加前綴”選項(xiàng),輸入前綴內(nèi)容“<img>”后單擊“確定”按鈕,如下圖所示。添加后綴的方法和添加前綴的方法類似,選擇“添加后綴”選項(xiàng),輸入后綴內(nèi)容“</img>”。公眾號(hào)文章信息的采集步驟11
正文文本采集。單擊文字部分進(jìn)行提取,拖動(dòng)“提取數(shù)據(jù)”模塊至右側(cè)的分支條件中,無須修改分支內(nèi)容,修改“字段名稱”為“文章內(nèi)容”,在彈出的提示框中詢問已存在同名字段是否繼續(xù)進(jìn)行命名操作,單擊“是”按鈕,選中“采集當(dāng)前循環(huán)中設(shè)置的元素”復(fù)選框。選中文章內(nèi)容字段,待字段變藍(lán)后單擊“自定義數(shù)據(jù)字段”按鈕,然后選擇“自定義定位元素方式”選項(xiàng),在打開的界面中選中“相對(duì)XPath”復(fù)選框。公眾號(hào)文章信息的采集步驟12
修改自定義數(shù)據(jù)合并方式。分別單擊兩側(cè)“提取數(shù)據(jù)”模塊中的文章內(nèi)容字段,單擊下方的“自定義數(shù)據(jù)字段”按鈕,選擇“自定義數(shù)據(jù)合并方式”選項(xiàng),然后選中“同一字段多次提取合并為一行,即追加到同一字段。例如正文頁合并?!眴芜x項(xiàng),單擊“確定”按鈕。公眾號(hào)文章信息的采集步驟
13
啟動(dòng)本地采集。單擊“開始采集”按鈕,單擊“啟動(dòng)本地采集”按鈕。公眾號(hào)文章信息的采集步驟
14
導(dǎo)出數(shù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度國內(nèi)白糖市場(chǎng)穩(wěn)定供應(yīng)合同
- 年產(chǎn)2萬噸氰尿酸聯(lián)產(chǎn)1.5萬噸消毒劑項(xiàng)目節(jié)能評(píng)估報(bào)告
- 2025年螺螄青魚干行業(yè)深度研究分析報(bào)告-20241226-185507
- 2025年度企業(yè)借款收據(jù)定制與財(cái)務(wù)對(duì)接合同
- 2025年度電子產(chǎn)品試用及市場(chǎng)分析合同
- 2025年5LED自行車燈行業(yè)深度研究分析報(bào)告
- 中國端子連接片項(xiàng)目投資可行性研究報(bào)告
- 2024年2月份中國APP活躍用戶排行榜
- 2025年中國地氯雷他定行業(yè)市場(chǎng)全景評(píng)估及發(fā)展戰(zhàn)略規(guī)劃報(bào)告
- Module1 Unit1 We lived in a small house(教學(xué)設(shè)計(jì))-2023-2024學(xué)年外研版(三起)英語五年級(jí)下冊(cè)
- 包莖包皮過長精選課件
- QSB質(zhì)量體系基礎(chǔ)課件
- 小兒高熱驚厥精品課件
- 優(yōu)秀員工榮譽(yù)證書模板
- 三維電生理導(dǎo)航系統(tǒng)技術(shù)參數(shù)
- 三年級(jí)下冊(cè)科學(xué)活動(dòng)手冊(cè)
- 《交通工程CAD》課程教學(xué)大綱(本科)
- 人教版數(shù)學(xué)五年級(jí)下冊(cè) 全冊(cè)各單元教材解析
- 換班申請(qǐng)表(標(biāo)準(zhǔn)模版)
- 者陰村戰(zhàn)友紀(jì)念者陰山對(duì)越自衛(wèi)還擊作戰(zhàn)30周年聯(lián)誼會(huì)計(jì)劃2
- 基于單片機(jī)的電子廣告牌設(shè)計(jì)畢業(yè)設(shè)計(jì)論文
評(píng)論
0/150
提交評(píng)論