摘要: HtmlAgilityPack是一款将HTML转换为XML,再通过XPATH来实现网页抓取的动态链接库。在解析DOM前先需要加载HTML的网页,可以用HtmlDocument类,此类封装了该方法。就拿博客园首页的各个文章的抓取为例,简单的加载为:WebClient wc = new WebClient(); using (MemoryStream ms = new MemoryStream(wc.DownloadData(@"http://www.cnblogs.com"))) { HtmlDocument doc = new HtmlDoc... 阅读全文
posted @ 2012-05-09 11:18 世界很灰暗 阅读(612) 评论(0) 推荐(1)