随笔分类 -  爬虫

摘要:目前,为了加速页面的加载速度,页面的很多部分都是用JS生成的,而对于用scrapy爬虫来说就是一个很大的问题,因为scrapy没有JS engine,所以爬取的都是静态页面,对于JS生成的动态页面都无法获得。 解决方案: 利用第三方中间件来提供JS渲染服务: "scrapy splash" 等。 利 阅读全文
posted @ 2016-10-19 09:13 清水汪汪 阅读(31182) 评论(1) 推荐(3)
摘要:1. 安装Scrapy包 pip install scrapy, "安装教程" Mac下可能会出现:OSError: [Errno 13] Permission denied: '/Library/Python/2.7/site packages/pyasn1' 应该是权限问题,解决方案:sudo 阅读全文
posted @ 2016-10-19 09:12 清水汪汪 阅读(797) 评论(0) 推荐(1)
摘要:关于八爪鱼 "八爪鱼" , 是一款简单易操作的爬虫工具。当然这种工具也有一定的局限性,可定制性肯定没有用一些爬虫框架(scrapy等)好(毕竟代码是自己写的,哈哈)。 使用八爪鱼 最近,使用八爪鱼爬取了一些微博的热门评论。当然,使用 "新浪微博API" 也是可以的。但是,自己为了快嘛,也想了解一下这 阅读全文
posted @ 2016-10-19 09:01 清水汪汪 阅读(5227) 评论(0) 推荐(0)