数据采集通用组件:OverredGatherCom发布(并附带使用demo)2007/08/08更新:支持集合值

通用数据采集器:OverredGather(V1.0) 中抽出来的一个组件

作用:
以后写采集程序的时候再也不用写正则,我已经给你写好,你只管设置前后html标记即可!


适用范围:
winform 
web 

web版体验地址:http://www.zishuo.cn/og/Default.aspx

使用方法:
1)添加引用OverredGatherCom.dll和Interop.MSScriptControl.dll
2)调用方法:OverredGatherCom.OG.GetHtml(string start,string end,string html)
3)   没拉


在线演示:



Demo下载:/Files/overred/OGTest.rar

++++++++++更新说明+++++++++++++++++++++
2007-08-08
增加对集合值的支持,返回类为IList
IList list=OverredGatherCom.OG.GetHtmls(string start,string end,string html);



想看源代码的请使用反射器查看,dll没做任何处理
http://www.zishuo.cn/Archives/OverredGatherCom.aspx
posted @ 2007-08-07 15:57 overred 阅读(2706) 评论(27)  编辑 收藏 所属分类: ⑧ Asp.net C#

  回复  引用    
#1楼 2007-08-08 16:17 | 小小 [未注册用户]
哈哈,支持沙发
  回复  引用  查看    
#2楼 [楼主]2007-08-08 17:22 | overred      
@小小
谢谢
  回复  引用    
#3楼 2007-08-08 19:21 | 小小 [未注册用户]
这个只是提取两个标记之间代码吗,如果前后两个标志不是唯一的,我发现只提取出第一个的值
  回复  引用    
#4楼 2007-08-08 19:23 | 小小 [未注册用户]
<tr>
<td class=tdn>61</td>
</tr>
<tr>
<td class=tdn>62</td>
</tr>
<tr>
<td class=tdn>63</td>
</tr>
  回复  引用    
#5楼 2007-08-08 19:24 | 小小 [未注册用户]
上面那个应该怎么提取出61,62,63
  回复  引用  查看    
#6楼 [楼主]2007-08-08 20:30 | overred      
@小小
已经实现取集合值的v1.1版本
呵呵 暂未发布
  回复  引用  查看    
#7楼 [楼主]2007-08-08 21:39 | overred      
@小小
已经发布,其实里面早有,没被我提出来。呵呵
  回复  引用    
#8楼 2007-08-09 14:09 | 小小 [未注册用户]
很好,支持,继续壮大,楼主有没有度过用dom来处理,直接用xpath查找的效率怎么样,HtmlAgilityPack,我用这个感觉也很方便的,主要是技术xpath,查找也很方便
  回复  引用  查看    
#9楼 2007-08-10 14:13 | asboy      
增加对集合值的支持 这个功能很好噢
  回复  引用  查看    
#10楼 [楼主]2007-08-10 15:29 | overred      
@小小
js的比较慢 xpath应该快点

@asboy
谢谢
  回复  引用  查看    
#11楼 2007-08-17 11:42 | T.t.T!Ck.      
支持楼主
虽然比较简单,但是还是能解决一些问题
我是采用XPATH+正则来处理这个问题
逆向的xpath匹配和正向的正则匹配

不过还是对楼主的蜘蛛比较感兴趣
期待下一篇
  回复  引用  查看    
#12楼 [楼主]2007-08-17 13:58 | overred      
@T.t.T!Ck.
谢谢
条条大路通罗马
只要你保证你的XPath处理的结果非常完美,也可以做个通用组件

我没养蜘蛛撒 哈哈
  回复  引用  查看    
#13楼 2007-08-17 18:40 | T.t.T!Ck.      
@overred
没养蜘蛛?
那么你的数据如何来的?
没蜘蛛怎么采集啊?

  回复  引用  查看    
#14楼 [楼主]2007-08-17 22:53 | overred      
@T.t.T!Ck.
呵呵
^+^
  回复  引用    
#15楼 2007-09-10 12:06 | yinyiyong [未注册用户]
感谢!正需要!楼主好强啊
  回复  引用  查看    
#16楼 [楼主]2007-09-13 09:42 | overred      
@yinyiyong
谢谢
只是比较忙 没时间增加更多功能
  回复  引用  查看    
#17楼 2007-09-18 20:19 | afei2003      
你的个人主页
http://www.zishuo.cn/
打不开哦
最近正在研究用 webrequest+正则表达式抓点数据。
很想借鉴你的大作参考一下
我的mail
huxming1981@hotmail.com
谢谢啊!
  回复  引用  查看    
#18楼 2007-10-23 11:54 |       
lzlz。。。我觉得有点问题。。。你的匹配思路有问题。。要自己去设置 prefix,postfix才能匹配。

我以前做的是把html全部按照<>去解析,拆分,然后再分析html tag是什么类型,说白了就写了一个简单的ie一样。

感觉不通用。
  回复  引用  查看    
#19楼 2007-10-23 11:55 |       
另外,正则表达式非常浪费资源性能。建议从简单的字符串扫描开始,然后再细化 正则匹配。
  回复  引用  查看    
#20楼 [楼主]2007-10-23 19:39 | overred      
@afei2003
现在可以打开喽
@辰
我的匹配思路是采用“捕获组”,然后去解析。
对于性能,我的组件性能确实不好,因为它内部调用js,这样即使什么都不做效率也很低。(最近也没时间改进它,抱歉)
不过还是谢谢你。

正则是好的,实践可以证明
  回复  引用    
#21楼 2007-11-09 11:43 | 阿帕奇 [未注册用户]
数据采集通用组件
  回复  引用  查看    
#22楼 [楼主]2008-01-02 11:27 | overred      
@阿帕奇
ye
  回复  引用    
#23楼 2008-02-03 14:25 | lyricbus [未注册用户]
试试看!看样子不错
  回复  引用  查看    
#24楼 2008-02-06 01:56 | fox23      
不错,支持一个
  回复  引用    
#25楼 2008-03-28 00:42 | kyt.miami [未注册用户]
nice blog
  回复  引用  查看    
#26楼 [楼主]2008-03-28 09:38 | overred      
@lyricbus
@fox23
@kyt.miami
thx

标题  
姓名  
主页
Email (只有博主才能看到) 
验证码 *  看不清,换一张 [登录][注册]
内容(请不要发表任何与政治相关的内容)  
  登录  使用高级评论  新用户注册  返回页首  恢复上次提交      
该文被作者在 2008-04-13 10:57 编辑过
 
另存  打印