爬虫任务配置说明
1. 前置条件
打开转换任务 > 新建爬虫任务。
2. 登录信息
登录URL:https://passport.fang.com/?backurl=https%3A%2F%2Fjn.fang.com%2F |
3. 目标页面信息
目标页面URL:https://jn.esf.fang.com/house/a211/ xpath表达式1:/html/body/div[3]/div[1]/div[4]/div[6] 下一页URL:https://jn.esf.fang.com/house/a211/ 保存文件名称:page_${HDICURRENTTIME} 详情页URL:https://jn.esf.fang.com/chushou/\w+.htm |
说明:
ü xpath表达式1:/html/body/div[3]/div[1]/div[4]/div[6],是为了更精确到定位详情页URL,如下图:
ü 详情页URL:https://jn.esf.fang.com/chushou/\w+.htm,是以正则表达式的形式体现的,代表抽取https://jn.esf.fang.com/house/a211/这个列表页所有符合这个地址的详情页。同理,https://jn.esf.fang.com/house/a211-i32/ 列表页也可写成正则的形式https://jn.esf.fang.com/house/a211-i\d+/ 代表爬取所有分页数据。
ü 保存文件名称:page_${HDICURRENTTIME},为避免保存文件名称有重复,这里引入了系统全局变量${HDICURRENTTIME},最终会转换为page_20190412144337333这种格式的文件名称
4. 数据库信息
5. 爬虫参数配置
title /html/body/div[4]/div[1]/div[1]/h1/text() 标题 price //div[@class="tr-line clearfix"][1]/div[@class="trl-item1 w132"]/div[1]/text() 单价 total_prices /html/body/div[4]/div[1]/div[4]/div[1]/div[1]/div[1]/i/text() 总售价 house_type //div[@class="tr-line clearfix"][1]/div[@class="trl-item1 w146"]/div[1]/text() 户型 covered_area //div[@class="tr-line clearfix"][1]/div[@class="trl-item1 w182"]/div[1]/text() 建筑面积 orientation //div[@class="tr-line clearfix"][2]/div[@class="trl-item1 w146"]/div[1]/text() 朝向 floor //div[@class="tr-line clearfix"][2]/div[@class="trl-item1 w182"]/div[1]/text() 楼层 fitment //div[@class="tr-line clearfix"][2]/div[@class="trl-item1 w132"]/div[1]/text() 装修 area //*[@id="kesfyzwtxq_A01_01_07"]/text() 区域 school //*[@id="kesfyzwtxq_C03_09"]/div[2]/a/text() 学校 |
![clip_image002[10] clip_image002[10]](https://img2018.cnblogs.com/blog/1691126/201905/1691126-20190517141509143-1105213764.jpg)
![clip_image004[10] clip_image004[10]](https://img2018.cnblogs.com/blog/1691126/201905/1691126-20190517141510260-301591817.jpg)
![clip_image006[11] clip_image006[11]](https://img2018.cnblogs.com/blog/1691126/201905/1691126-20190517141511740-1636555785.jpg)
![clip_image008[8] clip_image008[8]](https://img2018.cnblogs.com/blog/1691126/201905/1691126-20190517141513034-1580901972.jpg)
![clip_image010[8] clip_image010[8]](https://img2018.cnblogs.com/blog/1691126/201905/1691126-20190517141514168-413367248.jpg)
![clip_image012[8] clip_image012[8]](https://img2018.cnblogs.com/blog/1691126/201905/1691126-20190517141516762-1491678461.jpg)
![clip_image014[9] clip_image014[9]](https://img2018.cnblogs.com/blog/1691126/201905/1691126-20190517141518188-935544243.jpg)
浙公网安备 33010602011771号