摘要:
目录链接:C# 爬虫框架实现 概述 对比通用爬虫结构,我将自己写的爬虫分为五个类实现: Spider主类:负责设置爬虫的各项属性 Scheduler类:负责提供URL到下载类,接收URL并做去重 Downloader类:负责下载页面并提供下载到的HTML内容 PageProgress类:HTML解析 阅读全文
posted @ 2016-06-22 08:50
thought
阅读(1540)
评论(0)
推荐(0)
摘要:
目录: 开发目的:写这个程序主要是为了找工作。因为没项目在简历上吃大亏,空口无凭,只能做出点东西证明自己能做事情。其次是为了练习使用MVC做的博客网站提供素材。 需自定义: patternlist匹配项定义 定义结果输出方式:本地sqlserver 的spider数据库,或者终端 种子库 需要: 开 阅读全文
posted @ 2016-06-22 08:49
thought
阅读(2210)
评论(0)
推荐(0)

浙公网安备 33010602011771号