摘要: ### 背景 学习使用工具实际上不难,不过我们应该通过阅读工具源码来提升自己的水平。多读代码,读好代码。很不错,robobrowser的代码简单易懂,值得学习。### 预备知识* [源码地址](https://github.com/jmcarp/robobrowser)* 一起其实是从[brows... 阅读全文
posted @ 2015-01-11 10:07 乙醇 阅读(1633) 评论(0) 推荐(0) 编辑
摘要: ### 背景 有一些站点是需要登录之后才能抓取内容的,另外做web测试的时候登录是家常便饭。这一节里我们就以登陆testerhome为例,讲解一下robobrowser中form的操作。### 预备知识* ```get_form```方法用来抓取form;* ```submit_form```方法... 阅读全文
posted @ 2015-01-11 10:06 乙醇 阅读(1526) 评论(0) 推荐(0) 编辑
摘要: ### 背景 在做spider的时候,我们经常会有点击链接的需求。考虑这样的一个简单spider:获取qq.com主页上的**今日话题**中的内容。一般思路是先去qq.com首页上找到**今日话题**的链接,然后点击这个链接到内容页面,最后抓取里面的内容就好了。这一节里我们就要实现这个功能。###... 阅读全文
posted @ 2015-01-11 10:05 乙醇 阅读(1329) 评论(0) 推荐(0) 编辑
摘要: ### 背景 本节的知识还是属于Beautiful Soup的内容。Beautiful Soup的find和find_all方法非常强大,他们支持下面一些类型的过滤器。### 字符串最简单的过滤器是字符串.在搜索方法中传入一个字符串参数,Beautiful Soup会查找与字符串完整匹配的内容,下... 阅读全文
posted @ 2015-01-11 09:32 乙醇 阅读(1604) 评论(0) 推荐(0) 编辑
摘要: ### 背景 本节的知识实际上是属于Beautiful Soup的内容。robobrowser支持Beautiful Soup,一般来说通过下面3个方法获取页面上感兴趣的内容* find* find_all* select这一节主要通过一些例子来讲解这几个方法### 预备知识一般来说学习Beaut... 阅读全文
posted @ 2015-01-11 09:31 乙醇 阅读(2490) 评论(0) 推荐(0) 编辑

友情链接 虫师的blog  测试教程网  重定向科技  省略