爬虫任务配置说明

1. 前置条件

打开转换任务 > 新建爬虫任务。

2. 登录信息

clip_image002[10]

登录URL:https://passport.fang.com/?backurl=https%3A%2F%2Fjn.fang.com%2F

3. 目标页面信息

clip_image004[10]

目标页面URL:https://jn.esf.fang.com/house/a211/

xpath表达式1:/html/body/div[3]/div[1]/div[4]/div[6]

下一页URL:https://jn.esf.fang.com/house/a211/

保存文件名称:page_${HDICURRENTTIME}

详情页URL:https://jn.esf.fang.com/chushou/\w+.htm

说明:

ü xpath表达式1:/html/body/div[3]/div[1]/div[4]/div[6],是为了更精确到定位详情页URL,如下图:

clip_image006[11]

ü 详情页URL:https://jn.esf.fang.com/chushou/\w+.htm,是以正则表达式的形式体现的,代表抽取https://jn.esf.fang.com/house/a211/这个列表页所有符合这个地址的详情页。同理,https://jn.esf.fang.com/house/a211-i32/ 列表页也可写成正则的形式https://jn.esf.fang.com/house/a211-i\d+/ 代表爬取所有分页数据。

ü 保存文件名称:page_${HDICURRENTTIME},为避免保存文件名称有重复,这里引入了系统全局变量${HDICURRENTTIME},最终会转换为page_20190412144337333这种格式的文件名称

4. 数据库信息

clip_image008[8]

5. 爬虫参数配置

clip_image010[8]

title

/html/body/div[4]/div[1]/div[1]/h1/text()

标题

price

//div[@class="tr-line clearfix"][1]/div[@class="trl-item1 w132"]/div[1]/text()

单价

total_prices

/html/body/div[4]/div[1]/div[4]/div[1]/div[1]/div[1]/i/text()

总售价

house_type

//div[@class="tr-line clearfix"][1]/div[@class="trl-item1 w146"]/div[1]/text()

户型

covered_area

//div[@class="tr-line clearfix"][1]/div[@class="trl-item1 w182"]/div[1]/text()

建筑面积

orientation

//div[@class="tr-line clearfix"][2]/div[@class="trl-item1 w146"]/div[1]/text()

朝向

floor

//div[@class="tr-line clearfix"][2]/div[@class="trl-item1 w182"]/div[1]/text()

楼层

fitment

//div[@class="tr-line clearfix"][2]/div[@class="trl-item1 w132"]/div[1]/text()

装修

area

//*[@id="kesfyzwtxq_A01_01_07"]/text()

区域

school

//*[@id="kesfyzwtxq_C03_09"]/div[2]/a/text()

学校

6. 库表字段映射

clip_image012[8]

7. 爬虫参数配置

clip_image014[9]

posted @ 2019-05-17 14:15  Senger  阅读(178)  评论(0)    收藏  举报