2020年3月8日
摘要: python3中的urllib库进行模拟登录人人网,这里主要是登录人人网成功后,把登录后的cookie复制到headers里,进行模拟登陆,然后保存到本地html。 from urllib import request url ="http://www.renren.com/967952300/pr 阅读全文
posted @ 2020-03-08 11:10 共感的艺术 阅读(215) 评论(0) 推荐(0) 编辑
摘要: python3中urllib库进行模拟登录,这里主要是保存cookie,以访问人人网为例: import http.cookiejar from urllib import parse #创建一个对象,存储cookie cookie = http.cookiejar.CookieJar() #创建一 阅读全文
posted @ 2020-03-08 11:06 共感的艺术 阅读(301) 评论(0) 推荐(0) 编辑
摘要: python3中的urllib库对于cookie使用,下面整理了四种方法: 一、readcookie import urllib.request import http.cookiejar URL_ROOT = "http://www.baidu.com" cookie = http.cookiej 阅读全文
posted @ 2020-03-08 11:03 共感的艺术 阅读(572) 评论(0) 推荐(0) 编辑
摘要: 之前访问百度的时候,代码总会出现请求超时,不知道什么原因,学了的https后,解决了这个问题: import urllib import urllib.request import ssl #导入Python SSL处理模块 #如果网站的SSL证书是经过CA认证,就需要单独处理SSL证书,让程序忽略 阅读全文
posted @ 2020-03-08 10:51 共感的艺术 阅读(1332) 评论(0) 推荐(0) 编辑
摘要: python3中的urllib库里的重定向判断,响应码出现302为重定向,以访问百度为例: from urllib import request class NoRedirHandler(request.HTTPRedirectHandler): def http_error_302(self, r 阅读全文
posted @ 2020-03-08 10:47 共感的艺术 阅读(360) 评论(0) 推荐(0) 编辑
摘要: python3中的urllib库下载功能,这里主要用到了urlretrieve,以下载百度图片为例,前面为url地址,后面为文件名。 import urllib.request urllib.request.urlretrieve("https://timgsa.baidu.com/timg?ima 阅读全文
posted @ 2020-03-08 10:44 共感的艺术 阅读(211) 评论(0) 推荐(0) 编辑
摘要: python3中的urllib设置本地代理: import urllib.request import urllib.parse # 113.79.75.104:9797 # 创建handler handler = urllib.request.ProxyHandler({'http': '114. 阅读全文
posted @ 2020-03-08 10:40 共感的艺术 阅读(298) 评论(0) 推荐(0) 编辑
摘要: python3中的requests访问百度的Android手机浏览器: import requests def downloadasAndroid(url): headers={"User-Agent":"Mozilla/5.0 (Linux; U; Android 8.1.0; zh-cn; BL 阅读全文
posted @ 2020-03-08 10:38 共感的艺术 阅读(1337) 评论(0) 推荐(0) 编辑
摘要: python3中的urllib库和requests库的使用,这里主要介绍下什么是Ajax,以及对于网页Ajax的爬取,以豆瓣电影为例,分别用urllib库和requests库进行抓取。 一、什么是Ajax? “Ajax 即“Asynchronous Javascript And XML”(异步 Ja 阅读全文
posted @ 2020-03-08 10:29 共感的艺术 阅读(668) 评论(0) 推荐(0) 编辑
摘要: python3中的urllib的post请求的使用,以访问拉钩为例,虽然出现操作太频繁的运行,但是也可以熟悉下相关post请求的操作。 import urllib.request #拉钩fiddle抓包POST https://www.lagou.com/jobs/positionAjax.json 阅读全文
posted @ 2020-03-08 10:20 共感的艺术 阅读(977) 评论(0) 推荐(0) 编辑
摘要: python3中的urllib库的get使用,以访问智联为例,虽然现在智联需要验证码了,但是也不妨我们做个练习,巩固下get的使用。 #如果一个网站屏蔽了你 #解决办法: (1)模拟浏览器 ; (2)伪装浏览器 import urllib import urllib.request from url 阅读全文
posted @ 2020-03-08 10:15 共感的艺术 阅读(216) 评论(0) 推荐(0) 编辑
摘要: 下面为python3中的urllib库对于get请求的使用方法,接口的地方需要拼接地址,以访问百度为例,附上代码: import urllib from urllib import request from urllib import parse #导入编码 解码 headers={"User-Ag 阅读全文
posted @ 2020-03-08 10:11 共感的艺术 阅读(629) 评论(0) 推荐(0) 编辑
摘要: python3中的urllib网页的编码(urlencode)、解码(unquote),以访问百度为例,在接口输入字符的时候为中文,但是计算机需要编码才能识别。 from urllib import request from urllib import parse #导入编码 解码包 #百度url 阅读全文
posted @ 2020-03-08 10:03 共感的艺术 阅读(957) 评论(0) 推荐(0) 编辑
摘要: 下面主要是python3中的urllib库中的相关知识及User-Agent设置: 一、什么是User-Agent? User-Agent是Http协议中的一部分,属于头域的组成部分,User Agent也简称UA。用较为普通的一点来说,是一种向访问网站提供你所使用的浏览器类型、操作系统及版本、CP 阅读全文
posted @ 2020-03-08 09:57 共感的艺术 阅读(1462) 评论(0) 推荐(0) 编辑
摘要: 总结下昨天学习的代码知识,主要是python3的urllib的基础知识。 下面为urllib库中的response、error的使用介绍: import urllib.request from urllib import error #error 异常 error下有2个异常 except erro 阅读全文
posted @ 2020-03-08 09:46 共感的艺术 阅读(882) 评论(0) 推荐(0) 编辑