每周一數丨(贈送數據+規則)旅游網站數據采集,小采陪你一起看看這世界

2019-11-15 14:21:14 瀏覽:650

點擊關注▲火車采集器

導讀每周一數活動是小采贈送給所有商業版本用戶的一個福利,每周都會篩選用戶需求選擇網站進行爬取數據,并會附帶采集規則,讓用戶舉一反三,在更多場景中更好的使用小采。
領取范圍:火車采集器、火車瀏覽器、觸控精靈三款軟件的商業用戶,軟件需在服務期限內。
領取規則:添加文章內火車運營微信后,將會被拉入“每周一數福利群”,加群后私聊 客服·雅 就可。
領取內容:網站旅游文章數據以及采集規則,如下圖

QQ截圖20191115141548.png

1、下載火車采集器
輸入網址 比分网球探篮球 進入火車官網,隨后點擊下載來獲取火車采集器最新版本

QQ截圖20191115141625.png

2、注冊并登錄火車采集器
在網站進行注冊,注冊好賬號直接登錄即可。
3、確定今日爬取的網站
采集網址://bbs.52sahala.com/forum-118-1.html

QQ截圖20191115141659.png

采集字段: 城市、標題、內容(前兩頁樓主發布的內容)
保存:導出到HTML
4、開啟爬取
首先,起始網址的設置
點擊下一頁地址,可以發現變化的只有最后一個數字,所以分頁設置可以使用批量網址功能

QQ截圖20191115141732.png

Ctrl+U查看源碼,城市和標題可以在列表頁標簽采集

QQ截圖20191115141756.png

因為帖子下面還有其他網友的回答,為了方便只采集作者發布的內容,我們可以點擊只看作者
這個的鏈接我們在二級列表里采集,只看該作者的鏈接提取第一個就可以,可以在寫提取規則時多寫一部分來讓它只能匹配到一個,如下圖所示

QQ截圖20191115141819.png

5、接下來,進入內容頁采集
列表頁設置的城市標簽 內容沒做處理,會采集到a標簽,這里在數據處理里將標簽過濾

QQ截圖20191115141843.png

這里需要采集前兩頁的內容,需要設置內容分頁,也是從源碼中查看分頁地址

QQ截圖20191115141907.png

因為只采集前兩頁內容,所以需要設置下,點擊內容分頁設置下面的其他設置,可以修改采集的內容分頁數量
內容頁提取規則,這里我們選擇的是使用 xpath 提?。ü賾趚path的寫法,大家百度下就可以找到),數據來源記得要改成從默認頁和內容分頁源碼中獲取

QQ截圖20191115141930.png

然后使用數據處理功能清洗數據,將一些不需要的內容刪除,內容里圖片可以點擊下面的文件下載,如圖設置,即可將圖片下載到本地,由于網址中圖片太多,本次實際沒有勾選下載

QQ截圖20191115141954.png

6、最后我們將采集的數據導出到本地HTML文件里,可以根據需要修改模板文件

QQ截圖20191115142029.png


本次每周一數贈送的依然是數據+采集規則,僅限火車軟件的商業版本用戶哦!
領取時間:2019年11月14 日發文后5個工作日內(節假日除外)
領取方式:掃碼加運營微信,運營會拉您進每周一數群,群內加:【火車數據咨詢客服.雅】,經驗證為商業用戶后,即可領取。

QQ截圖20191115142048.png

長按二維碼回復:資源


掃碼關注微信
最受歡迎的網頁采集軟件! X

您好,如需了解軟件或有數據采集問題請直接聯系我們~

{ganrao}