摘要:
之前我们使用了selenium加Firefox作为下载中间件来实现爬取京东的商品信息。但是在大规模的爬取的时候,Firefox消耗资源比较多,因此我们希望换一种资源消耗更小的方法来爬取相关的信息。 下面就使用selenium加PhantomJS来实现之前的相同的逻辑。 这里需要修改的就是spider 阅读全文
posted @ 2017-09-21 19:10
cnkai
阅读(2457)
评论(0)
推荐(1)
摘要:
在之前的一篇实战之中,我们已经爬取过京东商城的文胸数据,但是前面的那一篇其实是有一个缺陷的,不知道你看出来没有,下面就来详细的说明和解决这个缺陷。 我们在京东搜索页面输入关键字进行搜索的时候,页面的返回过程是这样的,它首先会直接返回一个静态的页面,页面的商品信息大致是30个,之所以说是大致,因为有几 阅读全文
posted @ 2017-09-21 18:39
cnkai
阅读(14479)
评论(0)
推荐(0)
摘要:
创建scrapy项目 填充 item.py文件 在这里定义想要存储的字段信息 填充middlewares.py文件 中间件主要实现添加随机user agent的作用。 填充pipelines.py文件 将我们爬取到的结果存储在mongo数据库中 设置settings.py文件 下面的这些信息需要简单 阅读全文
posted @ 2017-09-21 17:29
cnkai
阅读(1393)
评论(1)
推荐(0)
摘要:
设置PhantomJS请求头 默认情况下: 设置User Agent User Agent已经变成指定的内容 设置PhantomJS不加载图片 SERVICE_ARGS 常用的参数 更多设置可以参考官网 "参数设置" 阅读全文
posted @ 2017-09-21 17:24
cnkai
阅读(1973)
评论(0)
推荐(0)