张子浩

导航

统计
  • 随笔 - 244
  • 文章 - 0
  • 评论 - 319
  • 引用 - 0
公告
 

HtmlAgilityPack简介

HtmlAgilityPack是一个开源的解析HTML元素的类库,最大的特点是可以通过XPath来解析HMTL,如果您以前用C#操作过XML,那么使用起HtmlAgilityPack也会得心应手。目前版本更新的是非常的快,最新更新时间还是19年的呢!

 XPath介绍

XPath即为XML路径语言,它是一种用来确定XML(标准通用标记语言的子集)文档中某部分位置的语言。XPath基于XML的树状结构,提供在数据结构树中找寻节点的能力。起初 XPath 的提出的初衷是将其作为一个通用的、介于XPointer与XSL间的语法模型。但是 XPath 很快的被开发者采用来当作小型查询语言。

具体代码

using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using System.Threading.Tasks;
using HtmlAgilityPack;
using System.IO;
using System.Net;

namespace DataGridViewDemo
{
    public class HttpHelper
    {
        static readonly string urlTemplate = "http://yun.java1234.com/search?page={0}&q={1}";
        public static List<BDWPResource> Request(string key, string start)
        {
            string url = string.Format(urlTemplate, key, start);
            HttpWebRequest httpRequest = (HttpWebRequest)WebRequest.Create(url);
            httpRequest.Accept = "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8";
            httpRequest.UserAgent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36";
            try
            {
                HtmlWeb webClient = new HtmlWeb();
                HtmlDocument doc = webClient.Load(url);
                if (doc != null)
                {
                    //加载文档对象
                    {
                        var content = doc.DocumentNode.SelectSingleNode("/html/body/div[2]/div[3]/div/div/div[2]/ul");
                        if (content != null)
                        {
                            List<BDWPResource> list = new List<BDWPResource>();
                            var targetLi = content.SelectNodes(@"li");
                            foreach (var item in targetLi)
                            {
                                list.Add(new BDWPResource()
                                {
                                    title = item.SelectSingleNode("span[1]/a").InnerText,
                                    unescapedUrl = "http://yun.java1234.com/" + item.SelectSingleNode("span[1]/a").Attributes["href"].Value.Trim(),
                                    content = item.SelectSingleNode("span[2]").InnerText.Trim()
                                });
                            }
                            return list;
                        }
                    }
                    return null;
                }
                else
                {
                    return null;
                }
            }
            catch
            {
                return null;
            }
        }
    }
}

效果图

 

posted on 2019-01-18 17:06 张子浩 阅读(...) 评论(...) 编辑 收藏