Python——Crawler - 随笔分类 - 星影L

Scraper_compare（'NoneType' object has no attribute 'group'）

摘要：三种解析网页的方法各有所用，各有特点。通过，对比三种方式更能明白在什么情况之下采用什么方法。其中，运行代码时，可能会遇到一个bug（），这其实是有一个参数没有对，如果删除之后，运行顺利！输出结果是： Regular expressions: 3.82 secondsBeautifulSoup: 阅读全文

posted @ 2017-05-12 10:08 星影L 阅读(757) 评论(0) 推荐(0)

Scraper——BeautifulSoup and LXML

摘要：爬虫解析方式除了正则表达式，还有BeautifulSoup包和LXML模块。现在分别来介绍这两种方式。1.BeautifulSoup包功能比正则表达式很多，且要简洁明白一些。但是，由于它是用python编写出来的包，速度会慢一些。 2.LXML模块这此模块中有一个CSS选择器。在使用前，必须先要安阅读全文

posted @ 2017-05-10 10:51 星影L 阅读(833) 评论(0) 推荐(0)

Scraping_regex

摘要：上面链接爬虫只是能将我们所需的网页下载下来，但是，我们没办法得到我们想要的数据。因此，我们只有URL管理器和URL下载器是不足以组成一个完整的网络爬虫的。我们还需要URL解析器，对数据进行提取。数据抓取（Scraping）有三种方式：1.正则表达式；2.第三方包——BeautifulSoup；3. 阅读全文

posted @ 2017-05-07 10:09 星影L 阅读(210) 评论(0) 推荐(0)

Crawler——链接爬虫

摘要：对数据的提取和收集也是数据分析中一大重点，所以，学习爬虫是非常有用的。完成数据采集，对后面的数据分析做下基础。今天，要介绍的是来自《Web Scraping With Python》中的一个示例——链接爬虫。对于此类进行了简单的总结，便于相互学习。阅读全文

posted @ 2017-05-05 23:40 星影L 阅读(705) 评论(0) 推荐(0)

星影L

人生的坎坷，一半是生活挖的坑，一半是自己的棱角刺的洞！

随笔分类 - Python——Crawler

公告