摘要: python3.4学习笔记(十三) 网络爬虫实例代码,使用pyspider抓取多牛投资吧里面的文章信息,抓取政府网新闻内容 PySpider:一个国人编写的强大的网络爬虫系统并带有强大的WebUI,采用Python语言编写,分布式架构,支持多种数据库后端,强大的WebUI支持脚本编辑器,任务监视器,项目管理器以及结果查看器。 用pyspider的demo页面创建了一个爬虫,写一个正则表达式抓取多牛网站上特定的URL,很容易就得到想要的结果了,可以非常方便分析抓取页面里面的内容 阅读全文
posted @ 2015-07-02 00:50 大自然的流风 阅读(13107) 评论(4) 推荐(2) 编辑
摘要: python3.4学习笔记(十二) python正则表达式的使用,使用pyspider匹配输出带.html结尾的URL 实战例子:使用pyspider匹配输出带.html结尾的URL: matchObj = re.match( r'(.*).html', each.attr.href, re.M|re.I) if matchObj: 正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配。Python 自1.5版本起增加了re 模块,它提供 Perl 风格的正则表达式模式。 re 模块使 Python 语言拥有全部的正则表达式功能。 compile 函数根据一个模式字符串和可选的标志参数生成一个正则表达式对象。该对象拥有一系列方法用于正则表达式匹配和替换。 re 模块也提供了与这些方法功能完全一致的函数,这些函数使用一个模式字符串做为它们的第一个参数。 阅读全文
posted @ 2015-07-02 00:41 大自然的流风 阅读(5019) 评论(0) 推荐(0) 编辑