贫民窟里的程序高手

  博客园 :: 首页 :: 博问 :: 闪存 :: 新随笔 :: 联系 :: 订阅 订阅 :: 管理 ::

2012年3月10日

摘要: public string NoHTML(string Htmlstring) { Htmlstring = Regex.Replace(Htmlstring, @"<script[^>]*?>.*?</script>", "", RegexOptions.IgnoreCase); Htmlstring = Regex.Replace(Htmlstring, @"<(.[^>]*)>", "", RegexOptions.IgnoreCase); Htmlstring 阅读全文
posted @ 2012-03-10 16:56 贫民窟里的程序高手 阅读(547) 评论(0) 推荐(0)

摘要: HttpUtility.UrlDecode(par, Encoding.GetEncoding("utf-8"));HttpUtility是一个帮助类,可以用它在gb2312编码下的页面里接受utf8编码的参数,用法如上。 阅读全文
posted @ 2012-03-10 16:51 贫民窟里的程序高手 阅读(271) 评论(0) 推荐(0)

摘要: 本文转载自:http://www.cnblogs.com/phishine/articles/1599258.html1.Heritrix简介Heritrix是一个专门为互联网上的网页进行存档而开发的网页检索器。它使用Java编写并且完全开源。它主要的用户界面可以通过一个web流量器来访问并通过它来控制检索器的行为,另外,它还有一个命令行工具来供用户选择调用。Heritrix是由互联网档案馆和北欧国家图书馆联合规范化编写于2003年初。第一次正式发布是在2004年1月,并不断的被互联网档案馆和其他感兴趣的第三方改进着。到现在已经成为一个成熟的开源爬虫,并被广泛使用。Heritrix的操作模型: 阅读全文
posted @ 2012-03-10 00:27 贫民窟里的程序高手 阅读(3627) 评论(0) 推荐(0)