随笔分类 -  Python——Crawler

摘要:三种解析网页的方法各有所用,各有特点。通过,对比三种方式更能明白在什么情况之下采用什么方法。其中,运行代码时,可能会遇到一个bug( ),这其实是有一个参数没有对,如果删除之后,运行顺利! 输出结果是: Regular expressions: 3.82 secondsBeautifulSoup: 阅读全文
posted @ 2017-05-12 10:08 星影L 阅读(757) 评论(0) 推荐(0)
摘要:爬虫解析方式除了正则表达式,还有BeautifulSoup包和LXML模块。现在分别来介绍这两种方式。1.BeautifulSoup包功能比正则表达式很多,且要简洁明白一些。但是,由于它是用python编写出来的包,速度会慢一些。 2.LXML模块 这此模块中有一个CSS选择器。在使用前,必须先要安 阅读全文
posted @ 2017-05-10 10:51 星影L 阅读(833) 评论(0) 推荐(0)
摘要:上面链接爬虫只是能将我们所需的网页下载下来,但是,我们没办法得到我们想要的数据。因此,我们只有URL管理器和URL下载器是不足以组成一个完整的网络爬虫的。我们还需要URL解析器,对数据进行提取。 数据抓取(Scraping)有三种方式:1.正则表达式;2.第三方包——BeautifulSoup;3. 阅读全文
posted @ 2017-05-07 10:09 星影L 阅读(210) 评论(0) 推荐(0)
摘要:对数据的提取和收集也是数据分析中一大重点,所以,学习爬虫是非常有用的。完成数据采集,对后面的数据分析做下基础。 今天,要介绍的是来自《Web Scraping With Python》中的一个示例——链接爬虫。对于此类进行了简单的总结,便于相互学习。 阅读全文
posted @ 2017-05-05 23:40 星影L 阅读(705) 评论(0) 推荐(0)