爬虫 - 随笔分类 - 左正

C# webrequest 抓取数据时，多个域Cookie的问题

摘要：最近研究了下如何抓取为知笔记的内容，在抓取笔记里的图片内容时，老是提示403错误，用Chorme的开发者工具看了下：这里的Cookie来自两个域，估计为知那边是验证了token(登录后才能获取到token) 下载图片的代码： [csharp] view plain copy var path = 阅读全文

posted @ 2018-05-13 13:58 左正阅读(776) 评论(0) 推荐(0)

爬虫实战|记一次对美团餐饮商家的信息爬取

该文被密码保护。

posted @ 2018-05-10 13:54 左正阅读(1) 评论(0) 推荐(0)

爬虫抓取糯米网上所有商家数据

摘要：前段时间写了爬取美团商家信息的博客爬虫抓取美团网上所有商家信息 ,这次说说爬取糯米网,由于某些原因无法提供源代码,但是,代码不是关键,最关键的是思想,懂了思想,代码是很容易写的. 爬虫最重要的是分析请求过程,按照实际请求过程去请求数据. 分析是否需要处理cookie,有些网站比较严格请求某些接口阅读全文

posted @ 2018-05-10 13:51 左正阅读(805) 评论(0) 推荐(0)

爬虫抓取美团网上所有商家信息

该文被密码保护。

posted @ 2018-05-10 13:50 左正阅读(0) 评论(0) 推荐(0)

爬虫之proxy（代理）

摘要：proxy简介 proxy即为代理，我们爬虫的时候肯定会有频繁访问某一网站的情况，这个时候有些服务器会识别到我们是非正常访问，就会把我们的IP禁掉，这个时候就需要用代理了。就好比现实生活中，我需要向A借一件东西，但是我跟A是仇人，直接向他借的话他不会借给我，这个时候我就让B帮我像A借，就说他要用，阅读全文

posted @ 2018-05-10 12:05 左正阅读(1330) 评论(1) 推荐(0)

dotNetSpider 手记

摘要：准备工作：从github上download工程。安装VS2017。安装 .net core 2.0。编译通过。基础架构：调度器 Scheduler 从根site开始，向 Downloader 分配请求任务。 Downloader 根据分配到的请求任务，向目标site 下载 page，并交阅读全文

posted @ 2018-05-09 10:12 左正阅读(1201) 评论(0) 推荐(0)

DotnetSpider (二) Downloader的设置 Request自定义数据字典

摘要：** 温馨提示：如需转载本文，请注明内容出处。** 本文连接:http://www.cnblogs.com/grom/p/8968905.html 接上一篇，在原项目的基础上进行改造，为EntitySpider设置Downloader。自定义Downloader类: public class At 阅读全文

posted @ 2018-05-09 09:59 左正阅读(790) 评论(0) 推荐(0)

DotnetSpider (一) 架构的理解、应用、搭建

摘要：本文连接:http://www.cnblogs.com/grom/p/8931650.html 受业务影响，决定将Downloader单独分层，做出修改。最近在做爬虫，之前一直在使用 HttpWebRequest 和 WebClient ,很方便快捷，也很适合新手，但随着抓取任务的增多，多任务，多阅读全文

posted @ 2018-05-09 09:58 左正阅读(3635) 评论(0) 推荐(1)

左正

随笔分类 - 爬虫

公告