爬虫任务配置说明

1. 前置条件

打开转换任务 > 新建爬虫任务。

2. 登录信息

登录URL：https://passport.fang.com/?backurl=https%3A%2F%2Fjn.fang.com%2F

3. 目标页面信息

目标页面URL：https://jn.esf.fang.com/house/a211/

xpath表达式1：/html/body/div[3]/div[1]/div[4]/div[6]

下一页URL：https://jn.esf.fang.com/house/a211/

保存文件名称：page_${HDICURRENTTIME}

详情页URL：https://jn.esf.fang.com/chushou/\w+.htm

说明：

ü xpath表达式1：/html/body/div[3]/div[1]/div[4]/div[6]，是为了更精确到定位详情页URL，如下图：

ü 详情页URL：https://jn.esf.fang.com/chushou/\w+.htm，是以正则表达式的形式体现的，代表抽取https://jn.esf.fang.com/house/a211/这个列表页所有符合这个地址的详情页。同理，https://jn.esf.fang.com/house/a211-i32/ 列表页也可写成正则的形式https://jn.esf.fang.com/house/a211-i\d+/ 代表爬取所有分页数据。

ü 保存文件名称：page_${HDICURRENTTIME}，为避免保存文件名称有重复，这里引入了系统全局变量${HDICURRENTTIME}，最终会转换为page_20190412144337333这种格式的文件名称

4. 数据库信息

5. 爬虫参数配置

title

/html/body/div[4]/div[1]/div[1]/h1/text()

标题

price

//div[@class="tr-line clearfix"][1]/div[@class="trl-item1 w132"]/div[1]/text()

单价

total_prices

/html/body/div[4]/div[1]/div[4]/div[1]/div[1]/div[1]/i/text()

总售价

house_type

//div[@class="tr-line clearfix"][1]/div[@class="trl-item1 w146"]/div[1]/text()

户型

covered_area

//div[@class="tr-line clearfix"][1]/div[@class="trl-item1 w182"]/div[1]/text()

建筑面积

orientation

//div[@class="tr-line clearfix"][2]/div[@class="trl-item1 w146"]/div[1]/text()

朝向

floor

//div[@class="tr-line clearfix"][2]/div[@class="trl-item1 w182"]/div[1]/text()

楼层

fitment

//div[@class="tr-line clearfix"][2]/div[@class="trl-item1 w132"]/div[1]/text()

装修

area

//*[@id="kesfyzwtxq_A01_01_07"]/text()

区域

school

//*[@id="kesfyzwtxq_C03_09"]/div[2]/a/text()

学校

6. 库表字段映射

7. 爬虫参数配置

posted @ 2019-05-17 14:15 Senger 阅读(178) 评论(0) 收藏举报

刷新页面返回顶部