爬虫的实战例子:
1.百度图片:
百度图片是ajax的数据,其中gsm是十六进制的
2.梨视频:
梨视频的参数filter不需要直接请求其他的参数
3.搜狐科技:
获取搜狐科技的内容
4.QQmusic的爬取:
获取QQmusic歌单里面的所有歌曲
5.淘宝实战:
selenium抓取淘宝的图片
6.彩票网站:
抓取彩票网站的信息,并对中奖号码进行可实话呈像
7.喜马拉雅:
获取喜马拉雅网站上面的音频
8.不羞涩网站图片的抓取:
抓取不羞涩往网站上面的图片
源码地址:
https://github.com/pzq7025/Spider
乱码处理:
此处的乱码所指的是,request.get时候的乱码,对于这种情况,获取目标网站的二进制码,在镜二进制码用decode('utf-8')进行编码
就可以解决出现的乱码,百度图片的爬取就会出现乱码。