zhangrx - 博客园

第一个小爬虫

摘要：例子是爬取豆瓣打分排名前250的电影（https://movie.douban.com/top250）我自己是一个新手，我说说我的做法，供新手参考： 1、首先打开网页，对要爬去的内容进行分析。主要是分析html的结构，你要获取的内容在那个Tab下，他有没特殊的规则。 2、一般的爬去都要获取下一页阅读全文

posted @ 2018-10-09 16:26 zhangrx 阅读(134) 评论(0) 推荐(0)

Beautiful Soup 4.4.0 文档

摘要：原文地址：https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/ Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮阅读全文

posted @ 2018-10-08 18:00 zhangrx 阅读(197) 评论(0) 推荐(0)

python 正则表达式学习笔记

摘要：参考下面两篇博客：https://www.cnblogs.com/yyyg/p/5498803.html ，https://www.cnblogs.com/chuxiuhong/p/5885073.html。 1).+ 与.+?的区别 .+ 首先表示匹配任意数量的任意字符，其次参考资料中还会说.+是阅读全文

posted @ 2018-10-06 21:49 zhangrx 阅读(218) 评论(0) 推荐(0)

苦修路

第一个小爬虫

Beautiful Soup 4.4.0 文档

python 正则表达式学习笔记

导航

公告