随笔分类 -  Python网络爬虫

摘要:(一) 分析网页 下载下面这个链接的销售数据 https://item.jd.com/6733026.html#comment 1、 翻页的时候,谷歌F12的Network页签可以看到下面的请求。(这里的翻页指商品评价中1、2、3页等) 从Preview页签可以看出,这个请求是获取评论信息的 2、 阅读全文
posted @ 2018-04-19 19:22 free赖权华 阅读(2599) 评论(2) 推荐(0)
摘要:(一) 说明 上一篇只能下载一页的数据,第2、3、4....100页的数据没法获取,在上一篇的基础上修改了下,使用selenium去获取所有页的href属性值。 使用selenium去模拟浏览器有点麻烦,例如有300页就要点300次(按博客园这种一页20条,也就是6000条数据。要是几百万条,这个就 阅读全文
posted @ 2018-04-13 18:46 free赖权华 阅读(1881) 评论(0) 推荐(0)
摘要:(一) 说明 在上一篇的基础上修改了下,使用lxml提取博客园随笔正文内容,并保存到Word文档中。 操作Word文档会用到下面的模块: pip install python-docx 修改的代码(主要是在link_crawler()的while循环中增加了下面这段) (二) 完整代码(delaye 阅读全文
posted @ 2018-04-10 18:36 free赖权华 阅读(2733) 评论(0) 推荐(0)
摘要:(一)代码1(link_crawler()和get_links()实现链接爬虫) (二)delayed.py(实现下载限速的类) 阅读全文
posted @ 2018-04-10 12:23 free赖权华 阅读(2262) 评论(0) 推荐(0)
摘要:(一) 三种网页抓取方法 1、 正则表达式: 模块使用C语言编写,速度快,但是很脆弱,可能网页更新后就不能用了。 2、 Beautiful Soup 模块使用Python编写,速度慢。 安装: pip install beautifulsoup4 3、 Lxml 模块使用C语言编写,即快速又健壮,通 阅读全文
posted @ 2018-04-09 10:19 free赖权华 阅读(2110) 评论(0) 推荐(1)