一个用于抓取和分析网页的类

主要功能有:
1、提取网页的纯文本,去所有html标签和javascript代码
2、提取网页的链接,包括href和frame及iframe
3、提取网页的title等(其它的标签可依此类推,正则是一样的)
4、可以实现简单的表单提交及cookie保存
using System;
using System.Data;
using System.Configuration;
using System.Net;
using System.IO;
using System.Text;
using System.Collections.Generic;
using System.Text.RegularExpressions;
using System.Threading;
using System.Web;
/// <summary>
/// 网页类
/// </summary>

public class WebPage
{

    
私有成员


    
私有方法


    
公有文法


    
构造函数


    
属性
}


/// <summary>
/// 链接类
/// </summary>

public class Link
{
    
public string url;   //链接网址
    public string text;  //链接文字
    public Link(string _url, string _text)
    
{
        url 
= _url;
        text 
= _text;
    }

}


posted on 2006-06-07 11:45  冷月孤峰  阅读(591)  评论(0)    收藏  举报