《C# 爬虫破境之道》：第一境爬虫原理 — 第六节：第一境尾声

在第一境中，我们主要了解了爬虫的一些基本原理，说原理也行，说基础知识也罢，结果就是已经知道一个小爬虫是如何诞生的了~那么现在，请默默回想一下，在第一境中，您都掌握了哪些内容？哪些还比较模糊？如果还有什么不清楚或不牢固的地方，建议还是先返回去再看一遍，毕竟看比我写要快得多~

如果都掌握差不多了，OK，本着本书”看完丢掉“的理念，就不用再去想它了，那么，恭喜各位已经阅读过本书第一境的朋友们，已经可以正式突破第一境，进入到爬虫境界的第二境了，接下来不要懈怠，让我们继续新的征程！

我们在第一境中，一直都是在使用WebRequest和WebResponse这两个抽象类。它们两个在是Web爬虫领域的核心内容，毫不夸张的说，熟练掌握了它们，就相当于成功了一大半：）

注意在这里，我还是很小心谨慎的用词，在“Web爬虫领域”，而不是爬虫领域，本书的抽象概念（从讲解的角度出发，划分层级）下，爬虫领域可以划分为以下几个层级，目前只打算以Windows平台入手，对于跨平台的朋友，可能要失望了，但我毕竟个人精力有限，还请多海涵了。

Windows系统平台
扩展分布式层级	主要包含多节点爬虫的任务分配计划、负载等等。
⇪
应用层级	主要用来控制采集配置、计划、管理以及对采集后的数据的后续处理。也算是为之后扩展到分布式体系的一个准备吧。
⇪
Web层级	以WebRequest及WebResponse为基础的Web数据采集。
⇪
Socket层级	直接建立Socket连接进行数据采集，可以支持大部分协议及自定义协议数据采集。
⇪
驱动层级	从系统驱动出发，主要通过过滤网络数据包来实现数据采集。

从上面的表格可以看出，Web层级，处于中间位置，那么为什么要从中间位置开始呢，因为再往下沉甸的Socket层级以及驱动层级，使用的场景还是比较少的，而且处理Socket，C#还好，但是处理驱动，C#就力不从心了。我们就从大部分同学关注的重点开始，也是对市场的有所适应吧。Web层级与应用层级，在范例上，其实是很难分开的，所以，我们在讲解过程中，也是一起的。说完Web层级+应用层级，主要是说说怎么扩展到分布式爬虫体系，这个也是很多人关注的点；另外再将Socket层级作为一个框架的补充；至于驱动层级，可以用C++来实现，不过要是放在本书中，好像又有点与书名冲突，我再考虑考虑，如果另立一本专门写驱动的书呢：P

好，再次恭喜大家完成了第一境的阅读，在第二境中，主要是了解Web层级及应用层级的内容，结合多个案例，以实操为基础，将会对爬虫在实际工作中的套路有更多的了解。就让我们继续前进，开启第二境之旅吧！

喜欢本系列丛书的朋友,可以点击链接加入QQ交流群(994761602)【C# 破境之道】
方便各位在有疑问的时候可以及时给我个反馈。同时，也算是给各位志同道合的朋友提供一个交流的平台。
需要源码的童鞋，也可以在群文件中获取最新源代码。

posted @ 2020-01-13 21:35 MikeCheers 阅读(352) 评论(0) 收藏举报

刷新页面返回顶部

Mike Cheers 的技术乐园

核心矛盾在于，我们必须了解最微小的细节，才有可能解决规模化问题。

《C# 爬虫破境之道》：第一境爬虫原理 — 第六节：第一境尾声

感谢您的阅读。

《ASP.NET MVC 5 破境之道》