反爬机制

robots        防君子不防小人

UA伪装      request 设置headers参数

ajax           动态数据json

图片懒加载  src2/origin

数据加密    js代码里面一些function 加密算法

验证码       云打码/超级鹰12306

cookie       session会话

哈希值       xpath element 里面搜索

# 抓包工具
fiddler
青花瓷
anyproxy
#安卓手机连接fiddler 请看 https://www.cnblogs.com/bobo-zhang/p/10068994.html
网络配置/fiddler证书
基于手机数据一般就是json
https://www.bilibili.com/video/av46090991/?p=10
https://www.jianshu.com/p/7f2be7eed247  爬虫的增量式抓取和数据更新
# requests 的UA
import requests
res = requests.get('https://www.baidu.com')
print(res.request.headers)
#{'User-Agent': 'python-requests/2.21.0', 'Accept-Encoding': 'gzip, deflate', 'Accept': '*/*', 'Connection': 'keep-alive'}

 

posted @ 2019-05-12 18:55  追风zz  阅读(230)  评论(0编辑  收藏  举报