爬虫的实战例子:

1.百度图片:
  百度图片是ajax的数据,其中gsm是十六进制的

2.梨视频:

  梨视频的参数filter不需要直接请求其他的参数
3.搜狐科技:

  获取搜狐科技的内容
4.QQmusic的爬取:

  获取QQmusic歌单里面的所有歌曲
5.淘宝实战:
  selenium抓取淘宝的图片

 6.彩票网站:

  抓取彩票网站的信息,并对中奖号码进行可实话呈像

7.喜马拉雅:

  获取喜马拉雅网站上面的音频

8.不羞涩网站图片的抓取:

  抓取不羞涩往网站上面的图片

源码地址:

https://github.com/pzq7025/Spider

 

乱码处理:
  此处的乱码所指的是,request.get时候的乱码,对于这种情况,获取目标网站的二进制码,在镜二进制码用decode('utf-8')进行编码

就可以解决出现的乱码,百度图片的爬取就会出现乱码。

posted on 2019-02-23 21:22  蔚蓝色の天空  阅读(883)  评论(0编辑  收藏  举报