我的通用数据采集器:OverredGather(V1.0)预览

花2天的业余时间写拉个通用数据采集--OverredGather,功能完善中!界面虽丑,但是不能以华丽论英雄,内心的美才能勾引你!
解决方案图:

主要知识点:
1。动态生成正则(正则捕获组)并匹配到目的html内容:StringTool.cs
2。泛型工厂模式实现组件模块加载:Factory.cs
3。js在winform中的使用

目前(V1.0)功能:
1。多线程采集新闻标题,作者,内容,来源(支持简体中文,繁体中文和UTF-8编码)。
2。采集数据信息可入库和生成txt文件选择。

下版本(V1.1)新增加功能:
1。增加手动设置线程个数并监视各线程工作状态并显示(类似讯雷的任务监视)

使用方法:
刚开始在设置中分别设置好名称,采集列表地址,以及各个你要的数据数据的前、后html代码(比如:一个html代码段为:<li><href="http://www.zishuo.cn/">overred的桃花源</a>,你想得到这个http://www.zishuo.cn/,你只需要在设置面扳中设置如下:
新闻网址前html为::
<li><href="
新闻网址后html为::"
>

两者之间的部分就是你的目的内容:http://www.zishuo.cn/
就这么简单,只要设置好,其他的就是动手点哪个采集按钮,然后躺床上睡觉去鸟



主界面:

设置界面:


PS:写这个小东西的时候主要的时间都花在生成正则上,走拉不少弯路。
开始:winform调js--->C#生成正则捕获组--->C#调用并匹配出目的html
后来:winform调js--->js生成正则捕获组并匹配出目的html
还是在js里处理会简单多点,苦海无边,思考是岸

过几天整理下发布v1.1

--------------------------------------------------------------------------------------------------------------------------------------------------------
8月7号增加说明:
自从本文发表后,很多朋友说哪个玩意到处都是,世面上多如牛毛。可我要说的是:我不会重复别人的劳动,其实我的og功能很强大。

有个朋友就站出来说采集下ku6的56的视频怎么样?并把flv下载下来,ok没问题:
拿ku6为例:
如这篇mtv的地址是:http://www.ku6.com/special/show_1634645/3TftZjhwR4VABAp-.html
他的视频地址就是:http://www.ku6.com/app/vxml_3TftZjhwR4VABAp-.xml
里面全是你要的,规律很明显拉
他们整天换规则,所以此规则也是暂时的

以上图中显示的为最初版本,新闻采集只是他一个功能。其它额外采集(如视频,图片,歌曲)你完全可以针对某个站点配置,然后引用我的类进行正则批对并得到目的html

另: http://www.zishuo.cn/Archives/OverredGather.aspx
posted @ 2007-08-06 23:11 overred 阅读(2095) 评论(38)  编辑 收藏

  回复  引用  查看    
#1楼 2007-08-07 08:31 | 针式个人知识库管理      
Up!
  回复  引用  查看    
#2楼 2007-08-07 09:25 | oxsoft.cn [未注册用户]
看看
  回复  引用  查看    
#3楼 [楼主]2007-08-07 10:00 | overred      
@针式个人知识库管理
@oxsoft.cn
谢谢 只能业余时间整理整理
  回复  引用  查看    
#4楼 2007-08-07 11:39 | 冷火      
楼让加油,我看好你
  回复  引用  查看    
#5楼 [楼主]2007-08-07 12:28 | overred      
@冷火
谢谢支持
  回复  引用  查看    
#6楼 2007-08-07 13:51 | 曾哲      
跟踪一下
  回复  引用  查看    
#7楼 2007-08-07 14:54 | 小小 [未注册用户]
支持开源啊
  回复  引用  查看    
#8楼 2007-08-07 14:55 | 小小 [未注册用户]
好像没进度条呢
  回复  引用  查看    
#9楼 [楼主]2007-08-07 16:03 | overred      
@曾哲
谢谢

@小小
上面有进度,但没进度条


  回复  引用  查看    
#10楼 2007-08-07 20:39 | 虎哥 [未注册用户]
把登陆也加上把,还有自定义header头
  回复  引用  查看    
#11楼 [楼主]2007-08-08 11:57 | overred      
@虎哥
^_^
  回复  引用  查看    
#12楼 2007-08-08 16:25 | 小小 [未注册用户]
@虎哥
同意,有的网站就需要验证才能查看

想知道一下什么时候可以有源码出来呢
  回复  引用  查看    
#13楼 [楼主]2007-08-08 17:27 | overred      
@小小
具体时间还不知道,不过我哪个组件OverredGatherCom发布后,我这个OVerredGather也就是个人表演拉,你可以使用哪个组件任意发挥。

至于验证,可以附加cookies模拟登陆,如有验证码,还得做验证识别。
时间有限
  回复  引用  查看    
#14楼 2007-08-10 14:10 | asboy      
overred 你这个组件太方便了
我以前也想自己做个 以为花一天就可以搞定了 谁知道正则很麻烦 而且对使用者要求高 郁闷 发现这个东西也不是一下子就能做出个顺手的的 拿你的去用着先 哈哈 谢谢
  回复  引用  查看    
#15楼 2007-08-10 14:20 | asboy      
对了 还有个建议 最好能在搜集完数据保存到数据库或生成文本前有个替换功能
这样 使用者还可以过去 1-N 次 采集到的数据 这个不错吧
其实很多人 我发现很多采集器都没这个功能
  回复  引用  查看    
#16楼 2007-08-10 14:50 | deerchao      
支持一下.
有些网站对防采集做得比较好,还是必须手写正则的.
另外,加上个登录功能对某些网站也很有必要.
  回复  引用  查看    
#17楼 [楼主]2007-08-10 15:31 | overred      
@asboy
谢谢

@deerchao
请举个例子 我去瞧瞧 呵呵
  回复  引用  查看    
#18楼 2007-08-10 15:35 | deerchao      
@overred
呵呵,你去搜索一下学生大,考试大,Exam8.
  回复  引用  查看    
#19楼 [楼主]2007-08-10 17:33 | overred      
@deerchao

有些网站对防采集做得比较好,还是必须手写正则的?不明白

  回复  引用  查看    
#20楼 2007-08-15 11:31 | 洪 [未注册用户]
可以给我一份吗hnlfh123@163.com
  回复  引用  查看    
#21楼 [楼主]2007-08-15 21:29 | overred      
@洪
谢谢鼓励 但是还是个半成品
  回复  引用  查看    
#22楼 2007-08-27 14:58 | 数据绑定者      
支持,有了成品发出来让大家学习下
  回复  引用  查看    
#23楼 2007-08-29 16:55 | 冷火      
楼猪,加油,看你的啦.等不及了
  回复  引用  查看    
#24楼 2007-09-05 15:52 | overred [未注册用户]
@冷火
谢谢各位支持
不过最近非常忙
  回复  引用  查看    
#25楼 2007-09-18 20:49 | afei2003      
期待啊................

本人正在为这个而学习 正则表达式里的 平衡组/递归匹配
里面似乎已经明白,但有用不起来
希望能在楼主那里讨一点经

  回复  引用  查看    
#26楼 2007-09-19 11:30 | 西煞魄工人      
我们的内容挺象呀!有机会一起研究一下!
http://www.cnblogs.com/xuzhong/archive/2006/12/08/585989.html
  回复  引用  查看    
#27楼 [楼主]2007-09-19 20:30 | overred      
@afei2003
谢谢支持

@西煞魄工人
你的采集器很好
我自己感觉非常惭愧啊
^_^
  回复  引用  查看    
#28楼 2007-09-20 09:47 | 西煞魄工人      
:) 功能都是被用户需求逼出来地 !!!
  回复  引用  查看    
#29楼 [楼主]2007-09-20 13:01 | overred      
@西煞魄工人
这个是我自己开发玩的 呵呵
希望交流
我的msn:overred2005@163.com
  回复  引用  查看    
#30楼 2007-09-27 13:16 | 方明 [未注册用户]
如何下载阿,朋友!能否提供供求、房产等信息方面的采集阿!谢谢啦!
  回复  引用  查看    
#31楼 [楼主]2007-09-27 21:40 | overred      
@方明
可以的
  回复  引用  查看    
#32楼 2007-10-04 13:06 | chinaeman [未注册用户]
楼主,我到那去下载原代码啊?好着急啊,我写一个采集系统写了一个星期,结果就是速度超慢无比,最后,个人认为奇烂无比,真希望可以得到你的帮助.我的邮箱是chinaeman@gmail.com,如果方便的话,麻烦大哥发一下,非常感谢!!!!!!!!!!!!!!!
  回复  引用  查看    
#33楼 2007-11-14 11:12 | wooeng [未注册用户]
楼主能不能给我 发一份源码啊,
坐牢长时间了 都做不出来
我的邮箱 woo_eng@163.com
  回复  引用  查看    
#34楼 2007-11-14 11:13 | wooeng [未注册用户]
楼主能不能给我 发一份源码啊,
做老长时间了 都做不出来
我的邮箱 woo_eng@163.com

  回复  引用  查看    
#35楼 2007-12-15 13:34 | cosmo2097 [未注册用户]
楼主能发一份给我吗谢谢
想做一个递归采集的程序
zhangchao51@163.com
  回复  引用  查看    
#36楼 [楼主]2007-12-17 08:46 | overred      
@cosmo2097
看我的那个采集组件吧

标题  
姓名  
主页
Email (只有博主才能看到) 
验证码 *  看不清,换一张
内容(请不要发表任何与政治相关的内容)  
  登录  使用高级评论  新用户注册  返回页首  恢复上次提交      
该文被作者在 2007-12-23 22:39 编辑过
 

另存  打印
最新IT新闻: