随笔分类 - 爬虫
摘要:最近研究了下如何抓取为知笔记的内容,在抓取笔记里的图片内容时,老是提示403错误,用Chorme的开发者工具看了下: 这里的Cookie来自两个域,估计为知那边是验证了token(登录后才能获取到token) 下载图片的代码: [csharp] view plain copy var path =
阅读全文
摘要:前段时间写了 爬取美团商家信息的博客 爬虫抓取美团网上所有商家信息 ,这次说说爬取糯米网,由于某些原因无法提供源代码,但是,代码不是关键,最关键的是思想,懂了思想,代码是很容易写的. 爬虫最重要的是分析请求过程,按照实际请求过程去请求数据. 分析是否需要处理cookie,有些网站比较严格请求某些接口
阅读全文
摘要:proxy简介 proxy即为代理,我们爬虫的时候肯定会有频繁访问某一网站的情况,这个时候有些服务器会识别到我们是非正常访问,就会把我们的IP禁掉,这个时候就需要用代理了。 就好比现实生活中,我需要向A借一件东西,但是我跟A是仇人,直接向他借的话他不会借给我,这个时候我就让B帮我像A借,就说他要用,
阅读全文
摘要:准备工作: 从github上download工程。 安装VS2017。 安装 .net core 2.0。 编译通过。 基础架构: 调度器 Scheduler 从根site开始,向 Downloader 分配请求任务。 Downloader 根据分配到的请求任务,向目标site 下载 page,并交
阅读全文
摘要:** 温馨提示:如需转载本文,请注明内容出处。** 本文连接:http://www.cnblogs.com/grom/p/8968905.html 接上一篇,在原项目的基础上进行改造,为EntitySpider设置Downloader。 自定义Downloader类: public class At
阅读全文
摘要:本文连接:http://www.cnblogs.com/grom/p/8931650.html 受业务影响,决定将Downloader单独分层,做出修改。 最近在做爬虫,之前一直在使用 HttpWebRequest 和 WebClient ,很方便快捷,也很适合新手,但随着抓取任务的增多,多任务,多
阅读全文