代码改变世界

.NET中获取HTML页面并提取其中的超链接

2010-08-09 15:25  ※森林小居※  阅读(1383)  评论(0编辑  收藏  举报

下列的函数分别用于获取HTML页面和提取页面中的超链接。

using System.Net;
using System.IO;
using System.Text;
using System.Text.RegularExpressions;

string[] GetLink(string strHtml)
{

  string RegexStr = "(?<=href[\\s\\r]*=[\\s\\r]*[\"\'])([^\"\'\\s\\r>]*)(?<=[\"\'\\s\\r]{0,1})";

    Regex reg = new Regex(RegexStr, RegexOptions.IgnoreCase);
    MatchCollection mc = reg.Matches(strHtml);
    if (mc.Count > 0)
    {
        string[] strHref = new string[mc.Count];
        int i = 0;
        foreach (Match m in mc)
        {
            strHref[i] = m.Groups[1].Value;
            ++i;
        }
        return strHref;
    }
    return null;
}

string GetHttp(string strUrl)
{
    string strHtml = "";
    WebResponse wrp = null;

    try
    {
        WebRequest wrq = WebRequest.Create(strUrl);
        wrq.Timeout = 60000;
        wrp = wrq.GetResponse();
    }
    catch (WebException e)
    {

    }
    catch (Exception e)
    {

    }
    finally
    {
        if (wrp != null)
        {
            StreamReader sr = new StreamReader(wrp.GetResponseStream(), Encoding.GetEncoding("GB2312"));
            strHtml = sr.ReadToEnd();
            sr.Close();
            wrp.Close();
        }
    }

    return strHtml;
}
可首先使用GetHttp获取指定URL的页面内容,然后将此内容作为参数传给GetLink,GetLink返回的String数组中的每个元素代表一个超链接。