爬虫技术学习大纲
第一课 爬虫的基础技术:静态网页爬取
-
HTML
-
HTTP 协议
-
爬虫相关的 JavaScript
-
Python 网络请求
-
第一个爬虫:蚂蜂窝的游记
第二课 网站评估、正则表达式、网页标签的使用、验证码的处理
-
网站规模评估
-
网站结构分析
-
正则表达式
-
网页标签的使用
-
lxml 及 XPath
-
图片识别的基本原理
-
基于 TesseractOcr 的数字识别
-
其它验证码识别方法
第三课 多线程与分布式爬虫的实现
-
线程与进程
-
Python 的多线程限制
-
从多线程爬虫到多进程爬虫
-
Socket 编程
-
Master 设计
-
Slave 设计
-
任务调度及通信协议
-
分布式集群部署的爬虫
-
分布式部署的爬虫集群实现
第四课 数据库系统与爬虫的数据存储
-
SQL 与 NoSQL
-
Redis
-
MySQL
-
MongoDB
-
基于分布式数据库系统的爬虫实现
第五课 数据库及优化
-
MySQL 数据库架构
-
数据库存储引擎及结构
-
数据库查询过程
-
数据库优化案例
-
翻页查询及优化
第六课 PageRank、网页动态重拍及应对反爬虫技术
-
PageRank 计算模型及推导
-
网页抓取顺序重排
-
网站服务架构
-
寻找与利用分布式服务器
-
多IP技术与路由控制
-
应对大多数反爬规则的爬虫系统架构
第七课 Taobao 针对 WebDriver 的识别方案及应对,淘宝、京东网站数据的抓取
-
Selenium + PhantomJS 架构
-
Selenium + Headless Chrome
-
应对淘宝对 WebDriver 的检查
-
京东网站结构分析
-
淘宝数据抓取
第八课 微博的抓取与结构化存储
-
微博网站分布及结构分析
-
通过动态页面来抓取
-
微博网络接口的逆向分析
-
利用API来抓取微博
第九课 登录、日志系统及守护进程
-
表单
-
登录
-
守护进程
-
日志系统
第十课 微信:结构分析、AnyProxy 介绍
-
AnyProxy 抓包工具
-
微信公众号接口分析
-
利用 NodeJS 重定向接口
第十一课 微信:抓取策略、代码讲解
-
后台数据获取及保存
-
利用接口直接获取所有历史消息
-
应对微信公众号反爬虫的架构设计
第十二课 Scrapy 爬虫框架介绍
-
Sample
-
框架分析
-
自动生成爬虫
-
控制台
-
流水线
-
中间件
第十三课 网页自动化分类:机器学习和神经网络实践
-
人工智能的分类问题
-
自然语言处理的实体识别
-
利用 Google 获取实体分类的先验信息
-
批量分类数据的获取
第十四课 爬虫数据的搜索:ElasticSearch的应用
-
搜索引擎架构介绍
-
正排表与倒排表
-
Bool 模型
-
Vector 模型
-
概率模型
-
TF/IDF
-
利用神经网络抽取特征并对结果排序
-
Elastic Search

浙公网安备 33010602011771号