海纳百川 有容乃大(http://www.brtech.com.cn)

海纳百川,有容乃大(http://www.brtech.com.cn)

  :: 首页 :: 博问 :: 闪存 :: :: 联系 :: 订阅 订阅 :: 管理 ::

公告

2006年3月26日 #

摘要: 这是在博客园上看到的一篇文章,觉得不错,先帖上来。这个经过测试,使用上比较稳定,因为考虑到统一的错误处理,类里面没有catch任何错误,所有网络错误都在使用的时候捕获,以便决定重试或终止。支持get和post,支持自定义编码,支持cookie,但不支持上传文件。 Imports System.NetImports System.IOPublic Class HttpDriverClass Htt...阅读全文
posted @ 2006-03-26 06:41 阿昆 阅读(589) 评论(0) 编辑

摘要: 什么是网络蜘蛛 网络蜘蛛是一种能自动到网上查找信息的一种程序,该程序具有高度的自动性,只要告诉他一个网站,他就可以从这个网站开始依次通过该网站的链接自动抓取链接内容以及网址,然后就顺着这些链接一直抓下去。 网络蜘蛛可以方便的实现从网络中抓取信息并且保存到当地数据库。 智能型的网络蜘蛛甚至可以抓取您指定的信息并自动过滤掉不相关的信息,替代重复的人工操作。 网络蜘蛛运行时必须设置种子网站,设置的...阅读全文
posted @ 2006-03-26 06:18 阿昆 阅读(1328) 评论(2) 编辑

摘要: 前段时间做了一个网页爬虫,初次接触,收获了很多知识。其中关于HTTP协议的内容,记述如下: RFC2616中主要描述了HTTP 1.1协议。下面的描述没有实现其各个方面的内容,只提出了一种能够完成所有HTTP网页抓取的最小实现(不能够抓取HTTPS)。 1、首先提交一个URL地址,分为普通的GET网页获取,POST的数据提交两种基本模式。建立HttpWebReques实...阅读全文
posted @ 2006-03-26 06:11 阿昆 阅读(3697) 评论(0) 编辑

摘要: 引言: 在做无线项目的时候,与通讯公司的数据通讯有一部分是通过XML交互的,所以必须要动态抓取通讯公司提供的固定的Internet上的数据,便研究了一下如何抓取固定url上的数据,现与大家分享一下。 类名GetPageCode,有一个方法GetSource,通过属性传递参数,入参控制的是要取得URL的地址,代理服务器的设置及输出方式的控制,这里大家可以再扩展自己的需要,我这里只提供了两种方式,...阅读全文
posted @ 2006-03-26 06:08 阿昆 阅读(531) 评论(0) 编辑

摘要: 互联网发展的今天,一方面离不开其开放、共享的特性带给人们的全新体验,另一方面也离不开数以亿计的为其提供各类丰富内容的网络节点。互联网被普及前,人们查阅资料第一想到的便是拥有大量书籍资料的图书馆,到了今天你怎么想?或许今天的很多人都会选择一种更方便、快捷、全面、准确的方式——互联网。你可以坐在家里轻点几下鼠标就查到想要的各类信息,这在互联网没有被普及之前,还都仅是一个梦而已,但如今这一切已成为了可能...阅读全文
posted @ 2006-03-26 06:05 阿昆 阅读(410) 评论(0) 编辑

摘要: 1using System; 2using System.Text.RegularExpressions; 3 4namespace tool 5{ 6 /**//// 7 /// chs2py 的摘要说明。 8 /// 9 public class chs2py 10 { 11 12 private static int[] py...阅读全文
posted @ 2006-03-26 05:52 阿昆 阅读(270) 评论(0) 编辑

摘要: *********************************************************************************** * 版权声明 * 此文章为ocean所有,版权归ocean所有,任何网站 *和 媒体转载必须包含此段声明,否则将视为侵权,作者将 *...阅读全文
posted @ 2006-03-26 05:20 阿昆 阅读(512) 评论(0) 编辑

摘要: 示例下载 朋友问到这样一个问题,需要实现如下功能 1、 打开一家航空运输公司的查询网页,如http://www.skyteamcargo.com/en/tracking/,该页面有两个文本框,供用户输入业务代码,如180-36898035, 2、 然后单击“Go”按钮后,下一个页面显示查询出来的结果 现在要求以上步骤都用程序自动实现,并把查询结果提取出来,以备后面进一步...阅读全文
posted @ 2006-03-26 05:17 阿昆 阅读(650) 评论(0) 编辑

摘要: ——SSL协议由Netscape Communication公司设计开发,主要用于提高应用程序之间数据的安全性。该安全协议主要提供对用户和服务器的认证;对传送的数据进行加密和隐藏;确保数据在传送中不被改变。它能使客户一服务器应用之间的通信不被攻击者窃听。 ——(1) SSL协议的特性 ——SSL提供了两台机器间的安全连接。支付系统通过在SSL连接上传输信用卡卡号的方式来构建,在线银行和其他金融系统...阅读全文
posted @ 2006-03-26 05:12 阿昆 阅读(473) 评论(0) 编辑

摘要: 什么是 Cookie? Cookie 是一小段文本信息,伴随着用户请求和页面在 Web 服务器和浏览器之间传递。用户每次访问站点时,Web 应用程序都可以读取 Cookie 包含的信息。Cookie 最根本的用途是 Cookie 能够帮助 Web 站点保存有关访问者的信息。更概括地说,Cookie 是一种保持 Web 应用程序连续性(即执行“状态管理”)的方法。 我参考了 xxol.net 上一...阅读全文
posted @ 2006-03-26 05:10 阿昆 阅读(377) 评论(1) 编辑

摘要: 下面的代码中,加文字水印和加图片水印的代码不能共存我是为了方便显示才写在一块的 private void Btn_Upload_Click(object sender, System.EventArgs e) { if(UploadFile.PostedFile.FileName.Trim()!="") { ...阅读全文
posted @ 2006-03-26 05:05 阿昆 阅读(125) 评论(0) 编辑

摘要: using System;using System.Xml;using System.Text;using System.Net;using System.IO;using System.Collections;using System.Text.RegularExpressions; public class App{ public static void Main() { string ...阅读全文
posted @ 2006-03-26 05:03 阿昆 阅读(417) 评论(0) 编辑

摘要: 最近有个项目需要从网络上下载网页信息和文件,并且需要登录后才能下载,所以做了个下载的通用类,供大家参考。这个是文件下载类: using System; using System.Net; using System.Web; public class SRWebClient { CookieContainer cookie; public SRWe...阅读全文
posted @ 2006-03-26 04:59 阿昆 阅读(449) 评论(0) 编辑

摘要: 摘要:本文对中文全文检索系统中常用的索引项技术n元语法,字,n元语法,词进行了介绍并讨论了其各自的特点。然后着重介绍了以词为索引项的方法及全文检索中的汉字分词问题。最后给出了一种混合型最大匹配分词算法。 关键词:信息检索 中文信息处理 分词 The indexing term technology of Chinese information retrieval and implement of ...阅读全文
posted @ 2006-03-26 04:55 阿昆 阅读(448) 评论(0) 编辑

摘要: 搜索引擎的实现原理,可以看作四步:从互联网上抓取网页→建立索引数据库→在索引数据库中搜索→对搜索结果进行处理和排序。 1、从互联网上抓取网页 利用能够从互联网上自动收集网页的“网络蜘蛛”自动访问互联网,从互联网上抓取网页,把网页送入“网页数据库”,从网页中“提取URL”,把URL送入“URL数据库”,“蜘蛛控制”得到网页的URL,控制“网络蜘蛛”抓取其它网页,反复循环直到把所有...阅读全文
posted @ 2006-03-26 04:52 阿昆 阅读(395) 评论(0) 编辑

摘要: 一种面向搜索引擎的中文切分词方法 首先说一下搜索引擎切分词的产生的原因。 在进行全文检索时,首先将要检索的内容分割成较短的文字序列。然后生成在每个文字序列中所包含字符串的对应表(索引)。当输入检索语句后,也同样进行分割,与索引进行比较。也就是说,两者即使包含有同样的文字排列,但分割方法不同的话也不能正确检索。 文字的分割方法主要有两种,分别是 词语解析索引 和 文字索引 。 ...阅读全文
posted @ 2006-03-26 04:46 阿昆 阅读(308) 评论(0) 编辑

摘要: 在中文全文索引中为了建立反向索引需要对文档中的句子进行切分,相关理论请参见车东的介绍。 在lucene 1.3 以后的版本中支持中文建立索引了,他默认的切分规则是按一个个汉字分的。例子见后。 这里主要对比以下3种中文切分对lucene 索引的影响。 第一种:默认的单字切分; 第二种:二元切分(见车东的文章); 第三种:按照词义切分(使用小叮咚的逆向最大切分法)。 上面3种切分的效果如下...阅读全文
posted @ 2006-03-26 04:41 阿昆 阅读(229) 评论(0) 编辑

摘要: 有网友问及在ASP.NET中动态生成控件在回调时控件不复存在的问题(见帖子:☆★请教关于动态生成控件的问题!急等回复!!救命啊!!),针对这个问题,我提出的解决方案如下(由于工作原因,没有很好整理,改天稍有空闲再把这些内容整理一下形成一个完整解决方案的文档,相信这两个文档对大多数用户已经足够起到启发式的作用了*_*): 对于你的这个问题,我的解决方案是(没有办法实地测试,只能是根据你的描述和需求分...阅读全文
posted @ 2006-03-26 04:25 阿昆 阅读(503) 评论(0) 编辑

摘要: 这是看到一.net高手的写作,记录下来以便参考。(http://www.brtech.com.cn)本人阅书无数,几乎市面上所有评价还不错的.net相关书籍都买了。这些书的下场一般是这样的:写作或翻译得不行的,不买;一不小心买了,过几天基本上就被扫地出门了;写作、翻译得还行,但是印刷、装订质量不行的,不买,不小心买了,翻一翻就把它扔到故纸堆,不愿意再看了。俺还有些不良嗜好,比如,我一看Wrox的红...阅读全文
posted @ 2006-03-26 04:13 阿昆 阅读(274) 评论(1) 编辑

摘要: 几个月之前,在网上找到了一个中文词库素材(几百K),当时便想写一个分词程序了.我对汉语分词没有什么研究,也就凭自己臆想而写.若有相关方面专家,还请多给意见.一、词库 词库大概有5万多词语(google能搜到,类似的词库都能用),我摘要如下: 地区 82重要 81新华社 80技术 80会议 80自己 79干部 78职工 78群众 77没有 ...阅读全文
posted @ 2006-03-26 04:09 阿昆 阅读(204) 评论(1) 编辑