随笔分类 -  爬虫

摘要:一、cookie & session 1、cookie: cookie 就是由服务器发送给客户端的特殊信息,而这些信息以文本的方式存放在客户端,然后客户端每次向服务器发送请求都会带上这些特殊信息。让服务器来识别你的计算机。例如:你访问某些网站的时候,一些网站登录界面问是否保存密码,如果你选择保存后再 阅读全文
posted @ 2018-09-15 15:11 月光男神 阅读(429) 评论(0) 推荐(0)
摘要:一、UserAgent UserAgent 中文意思是用户代理,简称UA,它是一个特殊字符串头,使得服务器能够识别用户 设置UA的两种方式: 1、heads 2、使用add_header 二、ProxyHandler(代理服务器) 由于很多网站会监测某一段时间内某个IP的访问次数,如果访问次数过多过 阅读全文
posted @ 2018-09-13 08:03 月光男神 阅读(344) 评论(0) 推荐(0)
摘要:一、请求一个网页内容打印 爬取某个网页: 爬取一个网页的基本流程: 1、获取所需网页request.urlopen("网页链接") 2、读取返回页面 rsp.read() 3、解码:html.decode() 二、自动识别网页编码 第7行返回一个类似{'encoding': 'utf-8', 'co 阅读全文
posted @ 2018-09-11 16:56 月光男神 阅读(559) 评论(0) 推荐(0)