随笔分类 - Python-爬虫
摘要:需求: 获取一个展位号和公司名称,具体链接如下 http://www.cr expo.com/cn/zhanshang.aspx?id=2020 实现
阅读全文
摘要:1.Timeout设置超时 只能修改Socket设置全局Timeout 2.获取HTTP响应码 3、异常处理1 4、异常处理2 5.重定向 import urllib.request proxy_support = urllib.request.ProxyHandler({'sock5': 'loc
阅读全文
摘要:Cookie的使用 用 Python 来登录网站, 用Cookies记录登录信息, 然后就可以抓取登录之后才能看到的信息。 什么是cookies? Cookie,指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据(通常经过加密)。比如说有些网站需要登录后才能访问某个页面,
阅读全文
摘要:1,实现一个完整的请求和响应模型 post请求 2.请求头headers处理 将上面的代码修改,设置一下请求头中的User-Agent域和Referer域信息 User Agent中文名为用户代理,简称 UA,它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版
阅读全文
摘要:网络爬虫的基本工作流 1)首先选取url 2)将urll放到待抓取的url队列中 3)从待抓取url队列中读取url 》解析dns 》获取主机IP--》下载对应的网页 》存储到已经下载的网页库中 》将url放到已经抓取的url队列中 4)分析已经抓取的url队列中的url 》重已经下载的网页数据中提
阅读全文