面向.NET全面提高生产力

星期一到星期七,多劳多得,星期一到星期七,多学多得.
 
 
web hit counter
昵称:Jet.net
园龄:5年11个月
粉丝:2
关注:0

搜索

 
 

常用链接

  • 我的随笔
  • 我的评论
  • 我的参与
  • 最新评论
  • 我的标签

随笔分类

  • C#.net(4) (rss)

随笔档案

  • 2007年6月 (1)
  • 2007年3月 (3)
  • 2006年6月 (3)
  • 2006年2月 (3)

常用链接

  • channel9.msdn
  • http://Unix-Center.Net
  • 常用链接
  • 我的网摘

积分与排名

  • 积分 - 15464
  • 排名 - 6311

最新评论

阅读排行榜

评论排行榜

推荐排行榜


Powered by: 博客园
模板提供:沪江博客
博客园 | 首页 | 发新随笔 | 发新文章 | 联系 | 订阅订阅 | 管理

最新评论

Re:发几本电子书<> AlexTiffy 2010-04-01 11:23  
thanks ,but can't down it!
re: 数据采集程序(网页小偷)点滴心得 fg 2009-05-12 19:59  
发份到我邮件里,学习学习,谢谢
re: 数据采集程序(网页小偷)点滴心得 张波sun 2008-10-21 21:58  
关注
re: .NET下的FTP上传,下载文件(支持中文名) denli 2008-09-03 15:38  
如果我要实现多线程下载数据应该在哪一步实现呢?

以上,谢谢!!!!
re: .NET下的FTP上传,下载文件(支持中文名) wen.ye 2008-07-08 10:37  
[主机目录]--
怎么填
re: .NET下的FTP上传,下载文件(支持中文名) wen.ye 2008-07-08 10:26  
RemotePath
请 这个参数应该填写 ftp服务器的目录还是..?
re: 如何卸载微软反盗版补丁(KB905474)的解决办法解决方法 流浪2008 2007-11-20 22:20  
非常感谢!
re: 数据采集程序(网页小偷)点滴心得 曾伟群 2007-11-14 10:58  
我现在在做新闻抓取项目 那位大哥能给我发一份数据采集的源代码吗?
谢谢了


我的邮箱: kerro0506@sina.com
re: 数据采集程序(网页小偷)点滴心得 Rey 2007-09-12 10:42  
能不能也发给我份,我的邮箱是:zhanglei5415@163.com,谢谢先
re: 数据采集程序(网页小偷)点滴心得 TonnyX 2007-07-07 12:17  
如何获取需要登陆才能采集到的信息呢?能不能指教一下.谢谢.我的邮箱是
maverick9390@sina.com
re: 如何卸载微软反盗版补丁(KB905474)的解决办法解决方法[未登录] 123456 2007-06-30 15:46  
很感兴趣
re: 如何卸载微软反盗版补丁(KB905474)的解决办法解决方法 方云 2007-06-22 16:23  
解决盗版
re: 数据采集程序(网页小偷)点滴心得 startrace 2007-05-11 06:37  
如何获取需要登陆才能采集到的信息呢?介绍的没有很详细.能否指点下?急.我的邮箱是daybreak01@126.com
re: 数据采集程序(网页小偷)点滴心得[未登录] jing 2007-04-27 14:01  
Ethereal怎么得到session.
re: 数据采集程序(网页小偷)点滴心得[未登录] hehe 2007-04-16 13:32  
我现在也在做网页数据采集,能把你的代码发给我一份吗?谢谢,我的邮箱是:
hehe287321830@163.com
re: 数据采集程序(网页小偷)点滴心得[未登录] tong 2007-03-25 00:35  
请能发份源码,谢谢.tongweifang1@163.com
数据搜索那部分不是很明白
re: 数据采集程序(网页小偷)点滴心得 jet[匿名] 2007-01-08 01:01  
# re: 数据采集程序(网页小偷)点滴心得 回复 更多评论
分页采集是如何处理?采集对象有多页呢?

处理的话,上面已经提到过了,多少页那不是个问题
只是循环的次数,自己填写到循环里面就行了
re: 数据采集程序(网页小偷)点滴心得 ohr 2006-12-30 13:28  
分页采集是如何处理?采集对象有多页呢?
re: 发几本电子书> alex[匿名] 2006-12-04 10:20  
谢谢
re: 数据采集程序(网页小偷)点滴心得 Ray[匿名] 2006-11-13 23:55  
呵呵,,这种程序,我很早就开始做了,以前用ASP+XMLHTTP写,后来用VB.NET也写过的,现在用的一套采集系统就是的,现在采集的数据都有4G左右..一起交流,交流,www.feisha.cn
re: 数据采集程序(网页小偷)点滴心得 工 2006-11-11 16:16  
谁有做的采集程序能共用一下吗?谢谢!我的QQ:390289688
re: 数据采集程序(网页小偷)点滴心得 2ed 2006-08-19 02:45  
已经搞定,谢谢你的文章。
原来有DownloadFile,而且DownloadData下来也是可以的。
http://www.2ed.cn/
re: 数据采集程序(网页小偷)点滴心得 2ed 2006-08-19 01:38  
我想分析里面的图片,把图也下过来,应该怎么做?
www.2ed.cn
我来贴点代码 侠道西风客 2006-08-05 13:45  
<%
'声明取得目标信息的函数,通过XML组件进行实现。
Function GetURL(url)
Set Retrieval = CreateObject("Microsoft.XMLHTTP")
With Retrieval
Open "GET", url, False
Send
GetURL = bytes2bstr(.responsebody)
'对取得信息进行验证,如果信息长度小于100则说明截取失败
if len(.responsebody)<100 then
response.write "获取远程文件 <a href="&url&" target=_blank>"&url&"</a> 失败。"
response.end
end if

End With
Set Retrieval = Nothing
End Function
' 二进制转字符串,否则会出现乱码的!
function bytes2bstr(vin)
strreturn = ""
for i = 1 to lenb(vin)
thischarcode = ascb(midb(vin,i,1))
if thischarcode < &h80 then
strreturn = strreturn & chr(thischarcode)
else
nextcharcode = ascb(midb(vin,i+1,1))
strreturn = strreturn & chr(clng(thischarcode) * &h100 + cint(nextcharcode))
i = i + 1
end if
next
bytes2bstr = strreturn
end function
'声明截取的格式,从Start开始截取,到Last为结束
Function GetKey(HTML,Start,Last)
filearray=split(HTML,Start)
filearray2=split(filearray(1),Last)
GetKey=filearray2(0)
End Function

Dim Softid,Url,Html,Title

'获取要取页面的ID

SoftId=Request("Id")

  Url="http://www3.skycn.com/soft/"&SoftId&".html"

  Html = GetURL(Url)

'以截取天空软件的软件名为例子

  Title = GetKey(Html,"<font color='#004FC6' size='3'>","</font></b></td></tr>")

'打开数据库,准备入库

dim connstr,conn,rs,sql

connstr="DBQ="+server.mappath("db1.mdb")+";DefaultDir=;DRIVER={Microsoft Access Driver (*.mdb)};"

set conn=server.createobject("ADODB.CONNECTION")

conn.open connstr

set rs=server.createobject("adodb.recordset")

sql="select [列名] from [表名] where [列名]='"&Title&"'"

rs.open sql,conn,3,3

if rs.eof and rs.bof then

rs("列名")=Title

rs.update

set rs=nothing

end if

set rs=nothing

Response.Write"采集完毕!"

%>
re: 数据采集程序(网页小偷)点滴心得 哥哥.Net 2006-07-27 12:11  
给我也来一份,谢谢了.

cncost@gmail.com
re: 数据采集程序(网页小偷)点滴心得 能给我份吗.!谢谢.! 2006-07-21 22:18  
csharp_programmer@163.com
re: 数据采集程序(网页小偷)点滴心得 能把你代码发份给我,谢谢 2006-06-28 18:55  
qingqingpiaoye@126.com
qingqingpiaoye888@hotmail.com
re: 数据采集程序(网页小偷)点滴心得 wjun_8452 2006-06-24 15:29  
能给我发一份源码吗?我特想学这块东东,感激不尽。
re: 数据采集程序(网页小偷)点滴心得 Sadly.lee 2006-06-23 11:33  
我也正想写一个采集的呢,能把代码发来学习一下吗?
winlmh@163.com
re: 数据采集程序(网页小偷)点滴心得 学习采集 2006-06-15 15:09  

需要您的代码学习一下。.谢谢.

whjtoby@sohu.com
re: 数据采集程序(网页小偷)点滴心得 lilicc 2006-06-14 21:08  
大虾!可以把你代码也发我一份吗?我现在正为这个发愁呢。
谢谢。。。
lclc88com@163.com
re: 数据采集程序(网页小偷)点滴心得 詹改霞 2006-05-14 09:45  
太好了,能把你的代码给我吗?我现在正在做这方面的毕设,想参考一下
re: 数据采集程序(网页小偷)点滴心得 stars 2006-05-06 11:44  
我也想学习,能把你的代码发给我,研究一下,谢谢
x_s_l2004@163.com
re: 数据采集程序(网页小偷)点滴心得 stars 2006-05-06 11:43  
我也想学习,能把你的代码发给我,研究一下,谢谢
re: 数据采集程序(网页小偷)点滴心得 yadong 2006-04-30 10:43  
能发代码学习一下吗 感激不尽 shaoqiezi#hotmail.com
re: 数据采集程序(网页小偷)点滴心得 madongdong 2006-03-04 10:56  
很不错 !能不能把你的代码也发给我 让我借鉴一下啊 jobfindable@gmail.com 先说声谢谢了!
re: 数据采集程序(网页小偷)点滴心得 Jet.net 2006-02-28 19:03  
关键的几个部分我都写了出来了
截取的那部分我是用indexof函数计算出2个关键字的位置,然后用Substring截取出所要的的部分.
re: 数据采集程序(网页小偷)点滴心得 blueman 2006-02-28 13:08  
email: bluemanner#gmail.com
re: 数据采集程序(网页小偷)点滴心得 blueman 2006-02-28 12:42  
我也想用ASP.NET改写一个采集程序,能发你的代码我参考参考吗?感谢。
re: 数据采集程序(网页小偷)点滴心得 jet 2006-02-25 16:18  
我将部分的代码发到你的邮箱了,里面的都是核心的代码,其他的就要靠你自己了,其实我也是刚开始接触.NET这方面的东西.
re: 数据采集程序(网页小偷)点滴心得 terry0313 2006-02-25 10:27  
你好,我想学写采集,能把你的代码贴出来给我参考下吗?谢谢啊~~~~
我的e-mail:terry0313@163.com
re: 发几本电子书> 刘力文 2006-02-22 13:01  
谢谢了,收下载了
re: 数据采集程序(网页小偷)点滴心得 Jet.net 2006-02-19 22:56  
全都是英文的,有没中文的帮助文档啊?
re: 数据采集程序(网页小偷)点滴心得 无常 2006-02-19 22:36  
正则表达式用这个来验证
RegexBuddy 2.0
re: 数据采集程序(网页小偷)点滴心得 Jet.net 2006-02-19 21:55  
哦
你这样写我就看明白了,但是正则表达式那块比较痛苦
有什么好得资料介绍给我看下
谢谢你了
哈哈
XML配置那块想向你学习下
re: 数据采集程序(网页小偷)点滴心得 无常 2006-02-19 21:29  
还不明白呀?
下面这段是匹配出这个页面(http://news.sina.com.cn/china/sz/ )里所有新闻详细内容的链接的
如http://news.sina.com.cn/china/sz/这个页面中新闻列表的部分源代码是这的 
...
<div align=left class=title14>
<!--开始新闻列表-->
<li><a href=/c/2006-02-19/19568247131s.shtml TARGET=_blank>巴基斯坦总统穆沙拉夫抵京访华</a><FONT style="FONT-SIZE:12px"> (2006年2月19日 19:56)</FONT>
<li><a href=/c/2006-02-19/19258247124s.shtml TARGET=_blank>中国加大追责力度去年47306人受政纪处分</a><FONT style="FONT-SIZE:12px"> (2006年2月19日 19:25)</FONT>

...



byte[] data = webClient.DownloadData(@"http://news.sina.com.cn/china/sz/");
string content = Encoding.Default.GetString(data);
MatchCollection mc = Regex.Matches(content,@"<A\shref=(?<url>.*(?<date>(?<year>\d{4})-(?<month>\d{2})-(?<day>\d{2})).*shtml)\s*TARGET=_blank>(?<subject>.*)</a>",RegexOptions.IgnoreCase);

foreach (Match match in mc)
{
OriginalURL = match.Groups["url"].Value;//新闻内容链接,如"/c/2006-02-19/19568247131s.shtml "
Subject = match.Groups["subject"].Value;//新闻标题,如"巴基斯坦总统穆沙拉夫抵京访华"
date = match.Groups["year"];//新闻发布时间,从新闻链接中提取,如“2006-02-19”
...
}

re: 数据采集程序(网页小偷)点滴心得 高烧 2006-02-19 20:49  
能把简历发到csml.net@gmail.com 吗?兼职也可以
re: 数据采集程序(网页小偷)点滴心得 C# hack 2006-02-19 19:09  
支持!谢谢!
re: 数据采集程序(网页小偷)点滴心得 Jet.net 2006-02-19 16:09  
<A\shref=(?<url>.*(?<date>(?<year>\d{4})-(?<month>\d{2})-(?<day>\d{2})).*shtml)\s*TARGET=_blank>(?<subject>.*)</a>
这个表达式我放到C#里面匹配不出结果啊.
同时我想问下,如何用XML配置.
在抓取网页的是候,有很多多空格,例如:

////////////////////////////
匹配的还是用正则表达式方便些
比如下载sina国内新闻的新闻
这个页面是新闻列表
///////////////////////////

这些写到数据库就变了


匹配的还是用正则表达式方便些 比如下载sina国内新闻的新闻 这个页面是新闻列表



没了之前的换行,我想问下如何用SQL语句在数据库里面将多个或者1个的空格替换成1格换行符呢?
re: 数据采集程序(网页小偷)点滴心得 无常 2006-02-19 15:47  
前几天刚做了个
匹配的还是用正则表达式方便些
比如下载sina国内新闻的新闻
这个页面是新闻列表
http://news.sina.com.cn/china/sz/
用这个模式来匹配里面所有的新闻链接
<A\shref=(?<url>.*(?<date>(?<year>\d{4})-(?<month>\d{2})-(?<day>\d{2})).*shtml)\s*TARGET=_blank>(?<subject>.*)</a>

然后读出“url”组内容(如:http://news.sina.com.cn/c/2006-02-19/08468244075s.shtml)即新闻内容的网址
将些地址的内容下载,再用这个模式匹配出新闻内容
<p>(?<content>.*)<BR\sclear=all>

最后一步,替换掉新闻内容中的广告
用这个模式来替换就行了
<TABLE(?<ad>.*)</TABLE>


把这个匹配表达式放到一个xml配置文件里,
如果sina换版面时再修改配置文件即可