爬虫基础总结2

headers

形式字典

User-Agent，Cookies

使用User-Agent能够模拟浏览器

如果因为参数问题爬取不到数据，添加更多参数

params

形式字典

键是=前面的内容，值是=后面的内容

字符串格式化：'wenshao{}'.format('dashuabi')

post

发送post请求 requests.post(url, data=data)

data形式，字典

proxies(代理)

形式字典

键：协议

值：协议+ip+port

不是所有代理都支持https的请求和post请求

拨号方式获取的代理ip质量最高

模拟登录

cookies和session的区别

1.cookie储存在浏览器上 2.session储存在服务器上

2.cookie不安全，session更安全

3.session占用服务器性能

4.cookie存储的数据有上限，session没有上限

模拟登录的三种方式

使用session

1.实例化一个session session=requests.session()

2.使用session发送post请求

此时session保存的有对方服务器设置的cookie

3.再使用session请求登录之后才能访问的页面 session.get(url)

将cookie字符串放在headers中

Cookie过期时间很久

cookie过期之前能获取全部的数据

配合其他的程序一起使用，边获取cookie边获取数据

把cookie组成字典，放在请求方法中

字典推导式 {i['name']: i['value'] for i in Cookies }

posted @ 2020-04-20 10:13 wsilj 阅读(98) 评论(0) 收藏举报

刷新页面返回顶部