摘要: Mechanize 本文仅为学习笔记,欢迎大家交流和指出错误 以下是基本操作: 从上图可以看出,只有一个名字为 f 的框架。有的时候框架并没有名字,那就只能按顺序排序,第一个就是 nr = 0 ,第二个就是 nr = 1,以此类推 运行结果如下: mechanize初始化Browser()的时候,如 阅读全文
posted @ 2017-10-19 20:26 过眼成灰 阅读(766) 评论(0) 推荐(0) 编辑
摘要: Scrapy是用于抓取网站并提取结构化数据的应用程序框架。 本文将以一个简单的scrapy项目,爬取http://www.tianqi.com 上的北京的天气信息 本文仅为学习笔记,欢迎指出错误和交流 第一步 创建工程 之后查看一下weather工程的结构 上面的文件结构就是scrapy工程的基本结 阅读全文
posted @ 2017-10-18 22:13 过眼成灰 阅读(269) 评论(0) 推荐(0) 编辑
摘要: BeautifulSoup是用于解析html/xml的python库。它将html解析为树结构。每一个接节点都是一个python对象。 在这棵树上,共有四种对象:Tag, NavigableString, BeautifulSoup, Comment. 本随笔仅为学习笔记,欢迎大家交流和指出错误 T 阅读全文
posted @ 2017-10-16 23:51 过眼成灰 阅读(460) 评论(0) 推荐(0) 编辑
摘要: urllib2 python用来处理URL的模块,在爬虫中的功能就是打开URL来获取response(请求)网页的代码,然后我们可以通过对网页代码的操作来获取更多的东西。 本文为学习笔记,希望大家指出错误和交流 1.response = urllib2.urlopen(url,[timeout]) 阅读全文
posted @ 2017-10-15 20:38 过眼成灰 阅读(269) 评论(0) 推荐(0) 编辑
摘要: 1.列表 列表是python内置的数据类型,是一个可变容器模型,可以储存任意类型的变量。 list简单来说就是两个中括号[ ]包起来的有序集合,里面的元素可以使任意类型。 1.1创建列表 一共有两种方式 使用len()函数,可以得到列表的长度 列表中每个元素都有它对应的索引,索引正向从0开始,反向从 阅读全文
posted @ 2017-06-20 10:58 过眼成灰 阅读(5239) 评论(0) 推荐(0) 编辑
摘要: python中一切数据都是对象。对象是类的实例。 就好比 人 是一个物种,就先当于一个类, 某个人就是 一个对象。 对于所有人,它们都能 吃 , 都能 喝 ,都能 排泄,都能 啪啪啪 ... 对于 人 这个类所能做的就是类的内置方法,就是一堆能实现各种功能的函数。 以下是python基本的数据类型, 阅读全文
posted @ 2017-06-19 22:02 过眼成灰 阅读(217) 评论(0) 推荐(0) 编辑