开往春天的地铁
------
模式研究 代码生成工具 信息采集工具 垂直搜索 IM机器人 基因分析软件开发
博客园
社区
首页
新随笔
联系
管理
订阅
随笔- 75 文章- 27 评论- 2406
我的通用数据采集器:OverredGather(V1.0)预览
花2天的业余时间写拉个通用数据采集--OverredGather,功能完善中!界面虽丑,但是不能以华丽论英雄,内心的美才能勾引你!
解决方案图:
主要知识点:
1。动态生成正则(正则捕获组)并匹配到目的html内容:StringTool.cs
2。泛型工厂模式实现组件模块加载:Factory.cs
3。js在winform中的使用
目前(V1.0)功能:
1。多线程采集新闻标题,作者,内容,来源(支持简体中文,繁体中文和UTF-8编码)。
2。采集数据信息可入库和生成txt文件选择。
下版本(V1.1)新增加功能:
1。增加手动设置线程个数并监视各线程工作状态并显示(类似讯雷的任务监视)
使用方法:
刚开始在设置中分别设置好名称,采集列表地址,以及各个你要的数据数据的前、后html代码(比如:一个html代码段为:
<
li
><
a
href
="http://www.zishuo.cn/"
>
overred的桃花源
</
a
>
,你想得到这个http://www.zishuo.cn/,你只需要在设置面扳中设置如下:
新闻网址前html为::
<
li
><
a
href
="
新闻网址后html为::"
>
两者之间的部分就是你的目的内容:http://www.zishuo.cn/
就这么简单,只要设置好,其他的就是动手点哪个采集按钮,然后躺床上睡觉去鸟
)
主界面:
设置界面:
PS:写这个小东西的时候主要的时间都花在生成正则上,走拉不少弯路。
开始:winform调js--->C#生成正则捕获组--->C#调用并匹配出目的html
后来:winform调js--->js生成正则捕获组并匹配出目的html
还是在js里处理会简单多点,
苦海无边,思考是岸
过几天整理下发布v1.1
--------------------------------------------------------------------------------------------------------------------------------------------------------
8月7号增加说明:
自从本文发表后,很多朋友说哪个玩意到处都是,世面上多如牛毛。可我要说的是:我不会重复别人的劳动,其实我的og功能很强大。
有个朋友就站出来说采集下ku6的56的视频怎么样?并把flv下载下来,ok没问题:
拿ku6为例:
如这篇mtv的地址是:http://www.ku6.com/special/show_1634645/3TftZjhwR4VABAp-.html
他的视频地址就是:http://www.ku6.com/app/vxml_3TftZjhwR4VABAp-.xml
里面全是你要的,规律很明显拉
他们整天换规则,所以此规则也是暂时的
以上图中显示的为最初版本,新闻采集只是他一个功能。其它额外采集(如视频,图片,歌曲)你完全可以针对某个站点配置,然后引用我的类进行正则批对并得到目的html
另:
http://www.zishuo.cn/Archives/OverredGather.aspx
posted @ 2007-08-06 23:11
overred
阅读(2095)
评论(38)
编辑
收藏
发表评论
回复
引用
查看
#1楼
2007-08-07 08:31 |
针式个人知识库管理
Up!
回复
引用
查看
#2楼
2007-08-07 09:25 |
oxsoft.cn [未注册用户]
看看
回复
引用
查看
#3楼
[
楼主
]2007-08-07 10:00 |
overred
@针式个人知识库管理
@oxsoft.cn
谢谢 只能业余时间整理整理
回复
引用
查看
#4楼
2007-08-07 11:39 |
冷火
楼让加油,我看好你
回复
引用
查看
#5楼
[
楼主
]2007-08-07 12:28 |
overred
@冷火
谢谢支持
回复
引用
查看
#6楼
2007-08-07 13:51 |
曾哲
跟踪一下
回复
引用
查看
#7楼
2007-08-07 14:54 |
小小 [未注册用户]
支持开源啊
回复
引用
查看
#8楼
2007-08-07 14:55 |
小小 [未注册用户]
好像没进度条呢
回复
引用
查看
#9楼
[
楼主
]2007-08-07 16:03 |
overred
@曾哲
谢谢
@小小
上面有进度,但没进度条
回复
引用
查看
#10楼
2007-08-07 20:39 |
虎哥 [未注册用户]
把登陆也加上把,还有自定义header头
回复
引用
查看
#11楼
[
楼主
]2007-08-08 11:57 |
overred
@虎哥
^_^
回复
引用
查看
#12楼
2007-08-08 16:25 |
小小 [未注册用户]
@虎哥
同意,有的网站就需要验证才能查看
想知道一下什么时候可以有源码出来呢
回复
引用
查看
#13楼
[
楼主
]2007-08-08 17:27 |
overred
@小小
具体时间还不知道,不过我哪个组件OverredGatherCom发布后,我这个OVerredGather也就是个人表演拉,你可以使用哪个组件任意发挥。
至于验证,可以附加cookies模拟登陆,如有验证码,还得做验证识别。
时间有限
回复
引用
查看
#14楼
2007-08-10 14:10 |
asboy
overred 你这个组件太方便了
我以前也想自己做个 以为花一天就可以搞定了 谁知道正则很麻烦 而且对使用者要求高 郁闷 发现这个东西也不是一下子就能做出个顺手的的 拿你的去用着先 哈哈 谢谢
回复
引用
查看
#15楼
2007-08-10 14:20 |
asboy
对了 还有个建议 最好能在搜集完数据保存到数据库或生成文本前有个替换功能
这样 使用者还可以过去 1-N 次 采集到的数据 这个不错吧
其实很多人 我发现很多采集器都没这个功能
回复
引用
查看
#16楼
2007-08-10 14:50 |
deerchao
支持一下.
有些网站对防采集做得比较好,还是必须手写正则的.
另外,加上个登录功能对某些网站也很有必要.
回复
引用
查看
#17楼
[
楼主
]2007-08-10 15:31 |
overred
@asboy
谢谢
@deerchao
请举个例子 我去瞧瞧 呵呵
回复
引用
查看
#18楼
2007-08-10 15:35 |
deerchao
@overred
呵呵,你去搜索一下学生大,考试大,Exam8.
回复
引用
查看
#19楼
[
楼主
]2007-08-10 17:33 |
overred
@deerchao
有些网站对防采集做得比较好,还是必须手写正则的?不明白
回复
引用
查看
#20楼
2007-08-15 11:31 |
洪 [未注册用户]
可以给我一份吗hnlfh123@163.com
回复
引用
查看
#21楼
[
楼主
]2007-08-15 21:29 |
overred
@洪
谢谢鼓励 但是还是个半成品
回复
引用
查看
#22楼
2007-08-27 14:58 |
数据绑定者
支持,有了成品发出来让大家学习下
回复
引用
查看
#23楼
2007-08-29 16:55 |
冷火
楼猪,加油,看你的啦.等不及了
回复
引用
查看
#24楼
2007-09-05 15:52 |
overred [未注册用户]
@冷火
谢谢各位支持
不过最近非常忙
回复
引用
查看
#25楼
2007-09-18 20:49 |
afei2003
期待啊................
本人正在为这个而学习 正则表达式里的 平衡组/递归匹配
里面似乎已经明白,但有用不起来
希望能在楼主那里讨一点经
回复
引用
查看
#26楼
2007-09-19 11:30 |
西煞魄工人
我们的内容挺象呀!有机会一起研究一下!
http://www.cnblogs.com/xuzhong/archive/2006/12/08/585989.html
回复
引用
查看
#27楼
[
楼主
]2007-09-19 20:30 |
overred
@afei2003
谢谢支持
@西煞魄工人
你的采集器很好
我自己感觉非常惭愧啊
^_^
回复
引用
查看
#28楼
2007-09-20 09:47 |
西煞魄工人
:) 功能都是被用户需求逼出来地 !!!
回复
引用
查看
#29楼
[
楼主
]2007-09-20 13:01 |
overred
@西煞魄工人
这个是我自己开发玩的 呵呵
希望交流
我的msn:overred2005@163.com
回复
引用
查看
#30楼
2007-09-27 13:16 |
方明 [未注册用户]
如何下载阿,朋友!能否提供供求、房产等信息方面的采集阿!谢谢啦!
回复
引用
查看
#31楼
[
楼主
]2007-09-27 21:40 |
overred
@方明
可以的
回复
引用
查看
#32楼
2007-10-04 13:06 |
chinaeman [未注册用户]
楼主,我到那去下载原代码啊?好着急啊,我写一个采集系统写了一个星期,结果就是速度超慢无比,最后,个人认为奇烂无比,真希望可以得到你的帮助.我的邮箱是chinaeman@gmail.com,如果方便的话,麻烦大哥发一下,非常感谢!!!!!!!!!!!!!!!
回复
引用
查看
#33楼
2007-11-14 11:12 |
wooeng [未注册用户]
楼主能不能给我 发一份源码啊,
坐牢长时间了 都做不出来
我的邮箱 woo_eng@163.com
回复
引用
查看
#34楼
2007-11-14 11:13 |
wooeng [未注册用户]
楼主能不能给我 发一份源码啊,
做老长时间了 都做不出来
我的邮箱 woo_eng@163.com
回复
引用
查看
#35楼
2007-12-15 13:34 |
cosmo2097 [未注册用户]
楼主能发一份给我吗谢谢
想做一个递归采集的程序
zhangchao51@163.com
回复
引用
查看
#36楼
[
楼主
]
2007-12-17 08:46 |
overred
@cosmo2097
看我的那个采集组件吧
社区
新闻
新用户注册
刷新评论列表
标题
姓名
主页
Email
(只有博主才能看到)
验证码
*
看不清,换一张
内容(请不要发表任何与政治相关的内容)
Remember Me?
登录
使用高级评论
新用户注册
返回页首
恢复上次提交
[使用Ctrl+Enter键可以直接提交]
该文被作者在 2007-12-23 22:39 编辑过
历史上的今天:
2006-08-06
Atlas July CTP and the Latest Atlas Control Toolkit(转)
另存
打印
最新IT新闻:
博客园新闻频道
博客园首页
社区
公告
MSN:overred2005@163.com
--------------------------
 
我的最新闪存
飞信聊天记录查看器发布
6-12 10:35
与我联系
发短消息
常用链接
我的随笔
我的空间
我的短信
我的评论
更多链接
我的参与
我的新闻
最新评论
我的标签
留言簿
给我留言
查看留言
我参加的小组
程序员音乐空间
LumaQQ.NET
机器人的世界
Web技术联盟
易书阁
CLR基础研究小组
我参与的团队
天津.NET俱乐部(0/763)
O/R Mapping团队(0/203)
CLR基础研究团队(0/336)
我的标签
Fetion(3)
c#版QQ机器人(2)
udp(1)
punycode(1)
Unity(1)
IOC(1)
sip(1)
robot(1)
随笔分类
(12)
① NET Framework (1)
(rss)
② SQLServer
(rss)
③ Orm Aop Ioc
(rss)
④ Decompile
(rss)
⑤ OpenSoft (2)
(rss)
⑥ My Daily Life (2)
(rss)
⑦ MSIL(1)
(rss)
⑧ Asp.net C#(2)
(rss)
⑨SIP协议分析(4)
(rss)
随笔档案
(79)
2008年6月 (1)
2008年5月 (2)
2008年4月 (1)
2008年3月 (2)
2008年2月 (3)
2007年12月 (2)
2007年10月 (1)
2007年8月 (3)
2007年7月 (1)
2007年6月 (7)
2007年5月 (2)
2007年4月 (2)
2006年12月 (1)
2006年11月 (2)
2006年10月 (1)
2006年8月 (2)
2006年7月 (1)
2006年6月 (5)
2006年5月 (2)
2006年4月 (9)
2006年3月 (13)
2006年2月 (11)
2005年10月 (5)
相册
UNIX
EnglishBlog
Aaron's blog
Ayende @ Rahien
Bitter Coder
Brad Abrams
craigshoemaker
Eric Gunnerson's C# Compendium
Jesse Ezell Blog
jigar.net
John's Blog
Lutz Roeder
Michael's Blog
nikhilk.net
ntoll.org
OvErRed's EngLIsH bLog
Scott Bellware [MVP]
scottgu
The Moth
The ORM Blog
The Wayward WebLog
vistadb blog
webdevtools
IIS
BillS' IIS Blog
LINQ
inqinaction
Mike Taulty's Blog
SEO
seobook
本人博客
技术学习
4guysfromrolla.com
aspfree.com
C# Books(amazon)
c# corner
codeguru.com
codeproject
csharpfriends.com
csharphelp
dofactory.com
learn csharp
WebCast
开源社区
http://csharp-source.net/
酷车带
prblogging.com
老师的站
jjshang
Linuxman
朋友的站
C#.NET新型报表工具
Luciano Castro
NOTUS
Terrylee的技术专栏
飞信机器人
幻想曲.Net
控件中国网
苦力搜索
鸟人
蛙蛙池塘
新闻与图片
seattletimes
意大利博客园
意大利人的博客园:.net技术社区
搜索
积分与排名
积分 - 254787
排名 - 105
最新评论
1. re: 信艳信遇:飞信聊天记录查看器--FetionLookerV2发布
怎么使用?
我下载完了,但是解压后打开都是显示错误的。
跪求楼主给个说明。
(奔奔)
2. re: 信艳信遇:飞信聊天记录查看器--FetionLookerV2发布
怎么使用?
我下载晚了,加压后打开都是显示错误的。 (奔奔)
3. re: 信艳信遇:飞信聊天记录查看器--FetionLookerV2发布
@xiner
可以。。但是位置要放对 (overred)
4. re: 信艳信遇:飞信聊天记录查看器--FetionLookerV2发布
可以把一台机器上的飞信聊天记录HISTORY.DAT拷贝出来到另一台机器上看吗?还是一定要在原机上看啊? (xiner)
5. re: 信艳信遇:飞信聊天记录查看器--FetionLookerV2发布
为什么只能看到好友列表
不能显示聊天记录呢 (陈晨)
6. re: {asp.net2.0}动网新闻(DvNews 4.3.210 正式版)破解版(已经升级到.NET2.0)
看一下 (杭州鲜花)
7. re: My Decompiler Code(提供下载)
楼主,希望要一份EasySearch的源码学习,thanks
wisdom21c@163.com (老严)
8. re: 地狱向左,飞信向右
程序名字很有创意呵呵。。。 (Applelure)
9. re: 徐静蕾,韩寒,当年明月喊你起床啦:博客更新短信提示助手
拿破仑的偶像是他自己,我也是. (何随风)
10. re: C#版QQ机器人组件源码发布(带示例程序)
谢谢分享,高人啊 (尚志浩)
阅读排行榜
1. {asp.net2.0}信息采集系统(附全部源码)(8397)
2. My Decompiler Code(提供下载)(8288)
3. C#版QQ机器人组件源码发布(带示例程序)(7142)
4. .NET FileUploader(C# and VB)[ASP.NET 大文件上传组件感冒奉献版](6648)
5. 如何使用DOTMSN开发简单的MSN机器人示例(附示例源码) (6389)
评论排行榜
1. {asp.net2.0}信息采集系统(附全部源码)(567)
2. {asp.net2.0}动网新闻(DvNews 4.3.210 正式版)破解版(已经升级到.NET2.0)(293)
3. My Decompiler Code(提供下载)(266)
4. 让咱们床上厨房里车顶上EasySearch (咱程序员自己的搜索引擎---并附带c#源码和实例)(165)
5. .NET FileUploader(C# and VB)[ASP.NET 大文件上传组件感冒奉献版](138)