摘要: http错误: import urllib.requestreq = urllib.request.Request('http://www.python.org/fish.html')try:urllib.request.urlopen(req)except urllib.error.HTTPErr 阅读全文
posted @ 2016-07-20 11:24 你若精彩,蝴蝶自来 阅读(1634) 评论(0) 推荐(0)
摘要: 当url地址含有中文,或者参数有中文的时候,这个算是很正常了,但是把这样的url作为参数传递的时候(最常见的callback),需要把一些中文甚至'/'做一下编码转换。 所以对于一些中文或者字符,url不识别的,则需要进行转换,转换结果如下: 一、urlencode urllib库里面有个urlen 阅读全文
posted @ 2016-07-20 11:00 你若精彩,蝴蝶自来 阅读(143141) 评论(0) 推荐(9)
摘要: 根据上一节的内容的衔接 一:urllib.request的使用 headers的一些属性 User-Agent : 有些服务器或 Proxy 会通过该值来判断是否是浏览器发出的请求Content-Type : 在使用 REST 接口时,服务器会检查该值,用来确定 HTTP Body 中的内容该怎样解 阅读全文
posted @ 2016-07-20 10:45 你若精彩,蝴蝶自来 阅读(1865) 评论(0) 推荐(0)
摘要: 爬虫分为几个步骤,首先是获得url,然后下载url里面的源码,然后再去分析该源码里面我们所需要的东西。 首先学习的是urlopen(url,data,timeout),后两者可以不写,来打开数据 import urllib.request response = urllib.request.urlo 阅读全文
posted @ 2016-07-20 10:22 你若精彩,蝴蝶自来 阅读(453) 评论(0) 推荐(0)