摘要:
Cookie,指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据(通常经过加密) 比如说有些网站需要登录后才能访问某个页面,在登录之前,你想抓取某个页面内容是不允许的。那么我们可以利用Urllib2库保存我们登录的Cookie,然后再抓取其他页面就达到目的了。 在此之前呢 阅读全文
posted @ 2017-06-21 14:14
AlamZ
阅读(224)
评论(0)
推荐(0)
摘要:
1.URLError 首先解释下URLError可能产生的原因: 网络无连接,即本机无法上网 连接不到特定的服务器 服务器不存在 在代码中,我们需要用try-except语句来包围并捕获相应的异常。下面是一个例子,先感受下它的风骚 import urllib2 requset = urllib2.R 阅读全文
posted @ 2017-06-21 13:59
AlamZ
阅读(1495)
评论(0)
推荐(0)
摘要:
1.设置Headers 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Headers 的属性。 另外,我们还有对付”反盗链”的方式,对付防盗链,服务器会识别headers中的referer是不是它自己,如果不是,有的 阅读全文
posted @ 2017-06-21 13:51
AlamZ
阅读(327)
评论(0)
推荐(0)
摘要:
1.简单使用 2.运行结果是完全一样的,只不过中间多了一个request对象,推荐大家这么写,因为在构建请求时还需要加入好多内容,通过构建一个request,服务器响应请求得到应答,这样显得逻辑上清晰明确。 3.POST方式 4.GET方式 阅读全文
posted @ 2017-06-21 13:46
AlamZ
阅读(181)
评论(0)
推荐(0)

浙公网安备 33010602011771号