随笔分类 - 爬虫

爬虫开发（一）

摘要：爬虫主要用来做数据采集，又名网络蜘蛛，内容网站很多就是用爬虫来抓取数据的。本系列（现在还不知道有几篇）旨在实现一个基本的爬虫程序(框架)。开发语言：C# 爬虫是要从源源不断的抓取到的页面中过滤出我需要的目标数据。既然要源源不断的抓取数据，那么我们就要有一个各个页面的URL的集合，去模拟访问这些URL，来分析返回的数据，从而再根据我们分析的HTML DOM结构获取到我们需要的数据。 URL的获取，通常，我们应该有一个Root节点，也就是根URL，然后就像树形结构一样去遍历他的各个子节点。说的形象一点，比如，一个网站的首页，上面有各个导航的URL1、URL2，URL3……也就是说只要我们获... 阅读全文

posted @ 2013-03-24 12:37 Null Pointer 阅读(2173) 评论(9) 推荐(1)

Null Pointer

Do something cool.

随笔分类 - 爬虫

公告