Python-爬虫 - 随笔分类 - mrwuzs

摘要：需求：获取一个展位号和公司名称,具体链接如下 http://www.cr expo.com/cn/zhanshang.aspx?id=2020 实现阅读全文

posted @ 2020-04-12 12:59 mrwuzs 阅读(341) 评论(0) 推荐(0)

urllib的实现---timeout,获取http响应码，重定向，proxy的设置

摘要：1.Timeout设置超时只能修改Socket设置全局Timeout 2.获取HTTP响应码 3、异常处理1 4、异常处理2 5.重定向 import urllib.request proxy_support = urllib.request.ProxyHandler({'sock5': 'loc 阅读全文

posted @ 2017-12-10 21:46 mrwuzs 阅读(810) 评论(0) 推荐(0)

urllib的实现---cookie处理

摘要：Cookie的使用用 Python 来登录网站, 用Cookies记录登录信息, 然后就可以抓取登录之后才能看到的信息。什么是cookies? Cookie，指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据（通常经过加密）。比如说有些网站需要登录后才能访问某个页面，阅读全文

posted @ 2017-12-10 21:27 mrwuzs 阅读(9499) 评论(0) 推荐(0)

urllib的实现---请求响应and请求头处理

摘要：1，实现一个完整的请求和响应模型 post请求 2.请求头headers处理将上面的代码修改，设置一下请求头中的User-Agent域和Referer域信息 User Agent中文名为用户代理，简称 UA，它是一个特殊字符串头，使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版阅读全文

posted @ 2017-12-10 21:16 mrwuzs 阅读(3066) 评论(0) 推荐(0)

网络爬虫结构

摘要：网络爬虫的基本工作流 1）首先选取url 2）将urll放到待抓取的url队列中 3）从待抓取url队列中读取url 》解析dns 》获取主机IP--》下载对应的网页》存储到已经下载的网页库中》将url放到已经抓取的url队列中 4）分析已经抓取的url队列中的url 》重已经下载的网页数据中提阅读全文

posted @ 2017-12-10 20:22 mrwuzs 阅读(787) 评论(0) 推荐(0)

成长日记

清醒时做事，糊涂时读书，大怒时睡觉，独处时思考；做一个幸福的人，读书，旅行，努力工作，关心身体和心情，成为最好的自己。

随笔分类 - Python-爬虫

公告

成长日记

清醒时做事，糊涂时读书，大怒时睡觉，独处时思考；做一个幸福的人，读书，旅行，努力工作，关心身体和心情，成为最好的自己。 ​​​

随笔分类 - Python-爬虫

公告

清醒时做事，糊涂时读书，大怒时睡觉，独处时思考；做一个幸福的人，读书，旅行，努力工作，关心身体和心情，成为最好的自己。