• 博客园logo
  • 会员
  • 众包
  • 新闻
  • 博问
  • 闪存
  • 赞助商
  • HarmonyOS
  • Chat2DB
    • 搜索
      所有博客
    • 搜索
      当前博客
  • 写随笔 我的博客 短消息 简洁模式
    用户头像
    我的博客 我的园子 账号设置 会员中心 简洁模式 ... 退出登录
    注册 登录
繁星
不要浪费时间
博客园    首页    新随笔    联系   管理    订阅  订阅
2008年4月22日
抓取url,getHref方法的实现
摘要: getHref方法的实现 // 从中获得Href private String getHref(string a) { try { string p = @"href\s*=\s*('[^']*'|""[^""]*""|\S+\s+)"; // 获得Href的正则表达式 MatchCollection matches = Regex.Matches(a, p, RegexOptions.Ignor... 阅读全文
posted @ 2008-04-22 23:20 ※繁星※ 阅读(803) 评论(0) 推荐(0)
用C#2.0实现网络蜘蛛(WebSpider)
摘要: 用C#2.0实现网络蜘蛛(WebSpider) 阅读全文
posted @ 2008-04-22 23:16 ※繁星※ 阅读(197) 评论(0) 推荐(0)
不知道“开源的定义”的来补补课
摘要: 今天在网上找开源程序作为自己程序的参考时,突然想到一个问题:编程这么久了,用了这么多开源程序,自己也贡献了一些开放源代码的程序,但是到现在要是问我什么是开源软件?什么是开源?那我可就钻地洞去了。 太惭愧了,想必很多人也和我一样。落后不要紧,赶紧补补才是真。于是我打开http://www.opensource.org/ 这个最出名的开源网站之一(人家域名就是叫开源啊,呵呵),如果这个... 阅读全文
posted @ 2008-04-22 20:34 ※繁星※ 阅读(638) 评论(0) 推荐(0)
抓取Web网页数据分析
摘要: 通过程序自动的读取其它网站网页显示的信息,类似于爬虫程序。比方说我们有一个系统,要提取BaiDu网站上歌曲搜索排名。分析系统在根据得到的数据进行数据分析。为业务提供参考数据。 为了完成以上的需求,我们就需要模拟浏览器浏览网页,得到页面的数据在进行分析,最后把分析的结构,即整理好的数据写入数据库。那么我们的思路就是: 1、发送HttpRequest请求。 2、接收HttpResponse... 阅读全文
posted @ 2008-04-22 20:32 ※繁星※ 阅读(174) 评论(0) 推荐(0)
如何抓取网页数据、分析并且去除Html标签(C#)
摘要: 由于自己的搜索引擎中做到了这一块内容,所以今天说说如何抓取网页数据、分析并且去除Html标签,给大家提供一个参考。我的平台是Visual Studio2005,C#。 —————————————————————割————————————————————————— 首先将网页内容整个抓取下来,这个我就不说了,不是本次话题的重点。假设抓取的数据放在RecvBuffe... 阅读全文
posted @ 2008-04-22 20:24 ※繁星※ 阅读(872) 评论(0) 推荐(0)
博客园  ©  2004-2025
浙公网安备 33010602011771号 浙ICP备2021040463号-3