第一个小爬虫

摘要: 例子是爬取 豆瓣打分排名前250的电影(https://movie.douban.com/top250) 我自己是一个新手,我说说我的做法,供新手参考: 1、首先打开网页,对要爬去的内容进行分析。主要是分析html的结构,你要获取的内容在那个Tab下,他有没特殊的规则。 2、一般的爬去都要获取下一页 阅读全文
posted @ 2018-10-09 16:26 zhangrx 阅读(134) 评论(0) 推荐(0)

Beautiful Soup 4.4.0 文档

摘要: 原文地址:https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/ Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮 阅读全文
posted @ 2018-10-08 18:00 zhangrx 阅读(197) 评论(0) 推荐(0)

python 正则表达式学习笔记

摘要: 参考下面两篇博客:https://www.cnblogs.com/yyyg/p/5498803.html ,https://www.cnblogs.com/chuxiuhong/p/5885073.html。 1).+ 与.+?的区别 .+ 首先表示匹配任意数量的任意字符,其次参考资料中还会说.+是 阅读全文
posted @ 2018-10-06 21:49 zhangrx 阅读(217) 评论(0) 推荐(0)