随笔分类 - 爬虫
摘要:目前,为了加速页面的加载速度,页面的很多部分都是用JS生成的,而对于用scrapy爬虫来说就是一个很大的问题,因为scrapy没有JS engine,所以爬取的都是静态页面,对于JS生成的动态页面都无法获得。 解决方案: 利用第三方中间件来提供JS渲染服务: "scrapy splash" 等。 利
阅读全文
摘要:1. 安装Scrapy包 pip install scrapy, "安装教程" Mac下可能会出现:OSError: [Errno 13] Permission denied: '/Library/Python/2.7/site packages/pyasn1' 应该是权限问题,解决方案:sudo
阅读全文
摘要:关于八爪鱼 "八爪鱼" , 是一款简单易操作的爬虫工具。当然这种工具也有一定的局限性,可定制性肯定没有用一些爬虫框架(scrapy等)好(毕竟代码是自己写的,哈哈)。 使用八爪鱼 最近,使用八爪鱼爬取了一些微博的热门评论。当然,使用 "新浪微博API" 也是可以的。但是,自己为了快嘛,也想了解一下这
阅读全文