c# 取出HTML源代码以及去掉HTML标记

使用 axWebBrowser 控件
引用 mshtml
[1)去掉HTML标记及其标记中的属性
[2)axWebBrower 打开某个页面
[3)取出HTML源代码


1)去掉HTML标记及其标记中的属性
private string getOneValue(string TempStr)
  {
   if(TempStr.Length >0)
   {
    TempStr = regularExpressionsOfHTML(TempStr);
    TempStr = TempStr.Substring(0,TempStr.Length-1);
   }
   return TempStr;
  }
public static string regularExpressionsOfHTML(string TempContent)
  {
   //TempContent = System.Text.RegularExpressions.Regex.Replace(TempContent,"<[^>]+>",""); //任意多个
   TempContent = System.Text.RegularExpressions.Regex.Replace(TempContent,"<[^>]*>",""); //匹配一个
   return TempContent;
  }

2)axWebBrower 打开某个页面
   string Url = "**********";
   object Zero = 0;
   object EmptyString = "";

   axWebBrowser.Navigate(Url ,ref Zero, ref EmptyString, ref EmptyString, ref EmptyString);

3)取出HTML源代码
   在axWebBrower_DocumentComplete事件中比较好
   引用:using mshtml;

   IHTMLDocument2 HTMLDocument =(IHTMLDocument2) axWebBrowser1.Document;
    string strHtml = HTMLDocument.body.innerHTML.ToString(); //Get HTML
    string[] arHtml = strHtml.Split('\n');
   此时arHtml中保存了所有的HTML source.
posted @ 2007-05-23 10:33 佳文 阅读(432) 评论(2)  编辑 收藏 所属分类: C#网络编程

  回复  引用    
#1楼  2007-06-09 23:29 | 阿杨女 [未注册用户]
没看懂,regularExpressionsOfHTML是方法吗?用来干嘛的?
偶的QQ是:21694653
  回复  引用  查看    
#2楼 [楼主] 2007-06-11 13:43 | 佳文      
不好意思.没帖全.
现在已经补上了.

标题  
姓名  
主页
Email (博主才能看到) 
验证码 *  看不清,换一张 [登录][注册]
内容(请不要发表任何与政治相关的内容)  
  登录  使用高级评论  新用户注册  返回页首  恢复上次提交      
该文被作者在 2007-11-29 13:14 编辑过


相关链接: