网络爬虫

一、webmagic

使用webmagic搭建一个简单的爬虫

WebMagic(一)--抓取一个简单的页面

 

 

二、python爬虫

老司机教你下载tumblr上视频和图片的正确姿势

VideoSpider

 

三、原理

爬虫(爬虫原理与数据抓取)

Python 爬虫一 简介

爬虫基本原理

 

四、示例

python爬虫(爬取视频)

Bilibili视频爬虫

腾讯视频爬虫

爱奇艺视频下载爬虫

今日头条爬虫记录

 

五、其他

You-Get 使用方法

网络爬虫一定要用代理IP吗

Jack Cui

python-spider

Python3网络爬虫入门

Python3 网络爬虫(四):视频下载,那些事儿!

Python3网络爬虫(十一):爬虫黑科技之让你的爬虫程序更像人类用户的行为(代理IP池等)

 

六、常见反爬手段

1、禁用鼠标右键

解决方案:查看页面源码:在连接前加个view-source:。

view-source:https://www.dmzj.com/view/yaoshenji/41917.html

 2、禁用F12

解决方案:鼠标移动到浏览器边框栏,再按F12

3、Header

3.1、Referer:来路

解决方案:按要求指定Referer

3.2、user-agent

3.3、cookie

4、同一ip访问频次限制

代理IP

 

七、工具

F12:浏览器开发者工具

you-get

FFmpeg:有非常强大的功能包括视频采集、视频格式转换、视频抓图、给视频加水印等功能。分段视频合成。

Beautiful Soup:py版html解析工具

jSoup:java版html解析工具

Selenium:自动化测试工具。它支持各种浏览器

Fiddler:一个http协议调试代理工具

Scrapy:框架

posted @ 2017-11-21 17:19  风过无痕521  阅读(142)  评论(0)    收藏  举报