随笔分类 -  【4】Python爬虫

python网络爬虫的学习
摘要:实例需求:运用python语言爬取http://kaijiang.zhcw.com/zhcw/html/ssq/list_1.html这个开奖网站所有的信息,并且保存为txt文件。 实例环境:python3.7 BeautifulSoup库、XPath(需手动安装) urllib库(内置的pytho 阅读全文
posted @ 2019-01-02 22:12 |旧市拾荒| 阅读(758) 评论(0) 推荐(0)
摘要:XPath 使用路径表达式来选取 XML 文档中的节点或节点集。节点是通过沿着路径(path)或者步(steps)来选取的。 XML实例文档 我们将在下面的例子中使用这个XML文档。 选取节点 XPath 使用路径表达式在 XML 文档中选取节点。节点是通过沿着路径或者 step 来选取的。 下面列 阅读全文
posted @ 2018-12-30 00:13 |旧市拾荒| 阅读(429) 评论(0) 推荐(1)
摘要:一、Scrapy简介 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。 其最初是为了 页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates 阅读全文
posted @ 2018-12-28 16:47 |旧市拾荒| 阅读(1561) 评论(0) 推荐(0)
摘要:实例需求:运用python语言爬取http://kaijiang.zhcw.com/zhcw/html/ssq/list_1.html这个开奖网站所有的信息,并且保存为txt文件和excel文件。 实例环境:python3.7 BeautifulSoup库、xlwt库(需手动安装) urllib库、 阅读全文
posted @ 2018-12-26 15:10 |旧市拾荒| 阅读(1116) 评论(0) 推荐(0)
摘要:这次的代码就是一个日志记录模块,代码很容易懂,注释很详细,也不需要安装什么库。提供的功能是日志可以显示在屏幕上并且保存在日志文件中。调用的方式也很简单,测试代码里面有。 源代码: 测试结果: 阅读全文
posted @ 2018-12-19 20:53 |旧市拾荒| 阅读(1784) 评论(0) 推荐(0)
摘要:一、正则表达式 1. 正则表达式是字符串处理的有力工具和技术。 2. 正则表达式使用某种预定义的模式去匹配一类具有共同特征的字符串,主要用于处理字符串,可以快速、准确地完成复杂的查找、替换等处理要求,在文本编辑与处理、网页爬虫之类的场合中有重要应用。 3. Python中,re模块提供了正则表达式操 阅读全文
posted @ 2018-12-18 23:06 |旧市拾荒| 阅读(843) 评论(0) 推荐(0)
摘要:实例需求:运用python语言爬取http://www.eastmountyxz.com/个人博客的基本信息,包括网页标题,网页所有图片的url,网页文章的url、标题以及摘要。 实例环境:python3.7 requests库(内置的python库,无需手动安装) re库(内置的python库,无 阅读全文
posted @ 2018-12-17 11:24 |旧市拾荒| 阅读(552) 评论(0) 推荐(0)
摘要:实例需求:运用python语言在http://www.ip138.com/post/网站爬取全国各个省市县级城市的邮政编码,并且保存在excel文件中 实例环境:python3.7 requests库(内置的python库,无需手动安装) xlwt库(需要自己手动安装) 实例网站: 第一步,在htt 阅读全文
posted @ 2018-11-24 13:40 |旧市拾荒| 阅读(3462) 评论(0) 推荐(0)
摘要:话不多说,直接上代码吧。 效果展示: 阅读全文
posted @ 2018-11-14 21:31 |旧市拾荒| 阅读(3477) 评论(0) 推荐(1)