海纳百川 有容乃大(http://www.brtech.com.cn)

海纳百川,有容乃大(http://www.brtech.com.cn)

  :: 首页 :: 博问 :: 闪存 :: :: 联系 :: 订阅 订阅 :: 管理 ::

2006年3月26日

摘要: 这是在博客园上看到的一篇文章,觉得不错,先帖上来。这个经过测试,使用上比较稳定,因为考虑到统一的错误处理,类里面没有catch任何错误,所有网络错误都在使用的时候捕获,以便决定重试或终止。支持get和post,支持自定义编码,支持cookie,但不支持上传文件。 Imports System.NetImports System.IOPublic Class HttpDriverClass Htt... 阅读全文
posted @ 2006-03-26 06:41 阿昆 阅读(826) 评论(0) 推荐(0)

摘要: 什么是网络蜘蛛 网络蜘蛛是一种能自动到网上查找信息的一种程序,该程序具有高度的自动性,只要告诉他一个网站,他就可以从这个网站开始依次通过该网站的链接自动抓取链接内容以及网址,然后就顺着这些链接一直抓下去。 网络蜘蛛可以方便的实现从网络中抓取信息并且保存到当地数据库。 智能型的网络蜘蛛甚至可以抓取您指定的信息并自动过滤掉不相关的信息,替代重复的人工操作。 网络蜘蛛运行时必须设置种子网站,设置的... 阅读全文
posted @ 2006-03-26 06:18 阿昆 阅读(1559) 评论(2) 推荐(0)

摘要: 前段时间做了一个网页爬虫,初次接触,收获了很多知识。其中关于HTTP协议的内容,记述如下: RFC2616中主要描述了HTTP 1.1协议。下面的描述没有实现其各个方面的内容,只提出了一种能够完成所有HTTP网页抓取的最小实现(不能够抓取HTTPS)。 1、首先提交一个URL地址,分为普通的GET网页获取,POST的数据提交两种基本模式。建立HttpWebReques实... 阅读全文
posted @ 2006-03-26 06:11 阿昆 阅读(4358) 评论(0) 推荐(0)

摘要: 引言: 在做无线项目的时候,与通讯公司的数据通讯有一部分是通过XML交互的,所以必须要动态抓取通讯公司提供的固定的Internet上的数据,便研究了一下如何抓取固定url上的数据,现与大家分享一下。 类名GetPageCode,有一个方法GetSource,通过属性传递参数,入参控制的是要取得URL的地址,代理服务器的设置及输出方式的控制,这里大家可以再扩展自己的需要,我这里只提供了两种方式,... 阅读全文
posted @ 2006-03-26 06:08 阿昆 阅读(697) 评论(0) 推荐(0)

摘要: 互联网发展的今天,一方面离不开其开放、共享的特性带给人们的全新体验,另一方面也离不开数以亿计的为其提供各类丰富内容的网络节点。互联网被普及前,人们查阅资料第一想到的便是拥有大量书籍资料的图书馆,到了今天你怎么想?或许今天的很多人都会选择一种更方便、快捷、全面、准确的方式——互联网。你可以坐在家里轻点几下鼠标就查到想要的各类信息,这在互联网没有被普及之前,还都仅是一个梦而已,但如今这一切已成为了可能... 阅读全文
posted @ 2006-03-26 06:05 阿昆 阅读(794) 评论(0) 推荐(0)

摘要: 1using System; 2using System.Text.RegularExpressions; 3 4namespace tool 5{ 6 /**//// 7 /// chs2py 的摘要说明。 8 /// 9 public class chs2py 10 { 11 12 private static int[] py... 阅读全文
posted @ 2006-03-26 05:52 阿昆 阅读(481) 评论(0) 推荐(0)

摘要: *********************************************************************************** * 版权声明 * 此文章为ocean所有,版权归ocean所有,任何网站 *和 媒体转载必须包含此段声明,否则将视为侵权,作者将 *... 阅读全文
posted @ 2006-03-26 05:20 阿昆 阅读(642) 评论(0) 推荐(0)

摘要: 示例下载 朋友问到这样一个问题,需要实现如下功能 1、 打开一家航空运输公司的查询网页,如http://www.skyteamcargo.com/en/tracking/,该页面有两个文本框,供用户输入业务代码,如180-36898035, 2、 然后单击“Go”按钮后,下一个页面显示查询出来的结果 现在要求以上步骤都用程序自动实现,并把查询结果提取出来,以备后面进一步... 阅读全文
posted @ 2006-03-26 05:17 阿昆 阅读(877) 评论(0) 推荐(0)

摘要: ——SSL协议由Netscape Communication公司设计开发,主要用于提高应用程序之间数据的安全性。该安全协议主要提供对用户和服务器的认证;对传送的数据进行加密和隐藏;确保数据在传送中不被改变。它能使客户一服务器应用之间的通信不被攻击者窃听。 ——(1) SSL协议的特性 ——SSL提供了两台机器间的安全连接。支付系统通过在SSL连接上传输信用卡卡号的方式来构建,在线银行和其他金融系统... 阅读全文
posted @ 2006-03-26 05:12 阿昆 阅读(773) 评论(0) 推荐(0)

摘要: 什么是 Cookie? Cookie 是一小段文本信息,伴随着用户请求和页面在 Web 服务器和浏览器之间传递。用户每次访问站点时,Web 应用程序都可以读取 Cookie 包含的信息。Cookie 最根本的用途是 Cookie 能够帮助 Web 站点保存有关访问者的信息。更概括地说,Cookie 是一种保持 Web 应用程序连续性(即执行“状态管理”)的方法。 我参考了 xxol.net 上一... 阅读全文
posted @ 2006-03-26 05:10 阿昆 阅读(616) 评论(1) 推荐(0)

摘要: 下面的代码中,加文字水印和加图片水印的代码不能共存我是为了方便显示才写在一块的 private void Btn_Upload_Click(object sender, System.EventArgs e) { if(UploadFile.PostedFile.FileName.Trim()!="") { ... 阅读全文
posted @ 2006-03-26 05:05 阿昆 阅读(286) 评论(0) 推荐(0)

摘要: using System;using System.Xml;using System.Text;using System.Net;using System.IO;using System.Collections;using System.Text.RegularExpressions; public class App{ public static void Main() { string ... 阅读全文
posted @ 2006-03-26 05:03 阿昆 阅读(639) 评论(0) 推荐(1)

摘要: 最近有个项目需要从网络上下载网页信息和文件,并且需要登录后才能下载,所以做了个下载的通用类,供大家参考。这个是文件下载类: using System; using System.Net; using System.Web; public class SRWebClient { CookieContainer cookie; public SRWe... 阅读全文
posted @ 2006-03-26 04:59 阿昆 阅读(871) 评论(0) 推荐(0)

摘要: 摘要:本文对中文全文检索系统中常用的索引项技术n元语法,字,n元语法,词进行了介绍并讨论了其各自的特点。然后着重介绍了以词为索引项的方法及全文检索中的汉字分词问题。最后给出了一种混合型最大匹配分词算法。 关键词:信息检索 中文信息处理 分词 The indexing term technology of Chinese information retrieval and implement of ... 阅读全文
posted @ 2006-03-26 04:55 阿昆 阅读(655) 评论(0) 推荐(0)

摘要: 搜索引擎的实现原理,可以看作四步:从互联网上抓取网页→建立索引数据库→在索引数据库中搜索→对搜索结果进行处理和排序。 1、从互联网上抓取网页 利用能够从互联网上自动收集网页的“网络蜘蛛”自动访问互联网,从互联网上抓取网页,把网页送入“网页数据库”,从网页中“提取URL”,把URL送入“URL数据库”,“蜘蛛控制”得到网页的URL,控制“网络蜘蛛”抓取其它网页,反复循环直到把所有... 阅读全文
posted @ 2006-03-26 04:52 阿昆 阅读(584) 评论(0) 推荐(0)

摘要: 一种面向搜索引擎的中文切分词方法 首先说一下搜索引擎切分词的产生的原因。 在进行全文检索时,首先将要检索的内容分割成较短的文字序列。然后生成在每个文字序列中所包含字符串的对应表(索引)。当输入检索语句后,也同样进行分割,与索引进行比较。也就是说,两者即使包含有同样的文字排列,但分割方法不同的话也不能正确检索。 文字的分割方法主要有两种,分别是 词语解析索引 和 文字索引 。 ... 阅读全文
posted @ 2006-03-26 04:46 阿昆 阅读(636) 评论(0) 推荐(0)

摘要: 在中文全文索引中为了建立反向索引需要对文档中的句子进行切分,相关理论请参见车东的介绍。 在lucene 1.3 以后的版本中支持中文建立索引了,他默认的切分规则是按一个个汉字分的。例子见后。 这里主要对比以下3种中文切分对lucene 索引的影响。 第一种:默认的单字切分; 第二种:二元切分(见车东的文章); 第三种:按照词义切分(使用小叮咚的逆向最大切分法)。 上面3种切分的效果如下... 阅读全文
posted @ 2006-03-26 04:41 阿昆 阅读(339) 评论(0) 推荐(0)

摘要: 有网友问及在ASP.NET中动态生成控件在回调时控件不复存在的问题(见帖子:☆★请教关于动态生成控件的问题!急等回复!!救命啊!!),针对这个问题,我提出的解决方案如下(由于工作原因,没有很好整理,改天稍有空闲再把这些内容整理一下形成一个完整解决方案的文档,相信这两个文档对大多数用户已经足够起到启发式的作用了*_*): 对于你的这个问题,我的解决方案是(没有办法实地测试,只能是根据你的描述和需求分... 阅读全文
posted @ 2006-03-26 04:25 阿昆 阅读(666) 评论(0) 推荐(0)

摘要: 这是看到一.net高手的写作,记录下来以便参考。(http://www.brtech.com.cn)本人阅书无数,几乎市面上所有评价还不错的.net相关书籍都买了。这些书的下场一般是这样的:写作或翻译得不行的,不买;一不小心买了,过几天基本上就被扫地出门了;写作、翻译得还行,但是印刷、装订质量不行的,不买,不小心买了,翻一翻就把它扔到故纸堆,不愿意再看了。俺还有些不良嗜好,比如,我一看Wrox的红... 阅读全文
posted @ 2006-03-26 04:13 阿昆 阅读(391) 评论(1) 推荐(0)

摘要: 几个月之前,在网上找到了一个中文词库素材(几百K),当时便想写一个分词程序了.我对汉语分词没有什么研究,也就凭自己臆想而写.若有相关方面专家,还请多给意见.一、词库 词库大概有5万多词语(google能搜到,类似的词库都能用),我摘要如下: 地区 82重要 81新华社 80技术 80会议 80自己 79干部 78职工 78群众 77没有 ... 阅读全文
posted @ 2006-03-26 04:09 阿昆 阅读(349) 评论(1) 推荐(0)

摘要: 现在很多网页都是由数据库自动生成的,数据分散在html代码之中:有的位于URL链接中,有的位于之中,有的位于javascript代码之中.如何挖掘这些数据为我所用?小的不才,最近写了一个网络数据库挖掘程序,挖掘了几千万条数据.源代码不能公开,这里简单述说一下设计思路和基本结构吧. 本来是用.net写的,写了几天,因为找不到好的c#的html解析器,最后还是改成了java.在这里,我尽量从语言中性... 阅读全文
posted @ 2006-03-26 04:04 阿昆 阅读(693) 评论(0) 推荐(0)

摘要: 用Persistence为静态页面增加session功能 一般来说,只有服务器端的CGI程序(ASP、PHP、JSP)具有session会话功能,用来保存用户在网站期间(会话)的活动数据信息,而对于数量众多的静态页面(HTML)来说,只能使用客户端的cookies来保存临时活动数据,但对于cookies的操作是个很烦琐的过程,远没有对于session操作那样简便。为此,本文向读者推荐一种在DH... 阅读全文
posted @ 2006-03-26 03:44 阿昆 阅读(412) 评论(0) 推荐(0)

摘要: using System;using System.Drawing;using System.Collections;using System.ComponentModel;using System.Windows.Forms;using System.Data;using System.Text;using Microsoft.VisualBasic;using System.IO;usin... 阅读全文
posted @ 2006-03-26 03:27 阿昆 阅读(966) 评论(1) 推荐(0)

摘要: 案背景: 网站站内搜索引擎逐渐称为网站不可缺少的组成部分,同时也成为网站地位的象征。然而,随着网络的发展,组织和组织之间的关系越来越紧密,简单的站内搜索引擎已经不能满足网站的需求。特别是对于政府机构网站、行业门户网站等,除了在网站内部有自己的搜索引擎以外,还需要对于下属机构或兄弟机构的网站实现统一搜索。 因此,门户搜索成为了一个重要的组成部分。目前门户搜索主要需要满足以下功能: 1. 可以... 阅读全文
posted @ 2006-03-26 03:10 阿昆 阅读(877) 评论(0) 推荐(0)

摘要: 第十章 系统的实现与总结 10.1 系统实现情况 文本的研究工作是在中科院计算所领域前沿青年基金课题“构筑个性化信息空间的基础模型研究”的资助下进行的。系统是在原有基于站点采集的天罗采集系统的基础上改进实现的。 原有的天罗信息采集系统是一个采集性能较高的实用系统,它是我们“天罗”Internet/Intranet智能导航平台、搜索引擎、采集转播、内容安全、报警平台、主机攻击等项目的... 阅读全文
posted @ 2006-03-26 02:57 阿昆 阅读(883) 评论(0) 推荐(0)

摘要: 第八章 页面分析 在本信息采集的URL和页面的过滤判定过程中,主要处理HTML页面。因此,在页面分析中我们所做的工作主要包括对HTML页面进行语法分析,提取出正文、链接、链接的扩展元数据及其它相关内容;再把这些内容进行简单的加工和一致性处理;最后将处理结果保存在中间信息记录库中以供URL过滤处理和页面过滤处理。 8.1 HTML语法分析 因为采集到页面的语法分析基于HTML(Hyp... 阅读全文
posted @ 2006-03-26 02:56 阿昆 阅读(739) 评论(0) 推荐(0)

摘要: 第七章 Spider采集 信息采集系统的最前沿就是与Internet相连的Spider采集,也叫“网络蜘蛛”,是系统专门与具体的Web协议打交道的部分。主要通过各种Web协议来自动采集WWW站点内有效的信息(包括文本、超链接文本、图象、声音、影像、压缩包等各类文档)。这些Web协议包括HTTP、FTP以及BBS,我们还根据用户的需要,采集了Web Chat、ICQ等特殊信息。本章先... 阅读全文
posted @ 2006-03-26 02:54 阿昆 阅读(713) 评论(0) 推荐(0)

摘要: 第五章 基于主题的Web 信息采集系统模型及我们的对策 5.1 系统模型 基于主题的Web信息采集技术在应用需求的推动下,已经成为一个热门的研究课题,为了更好的研究这个课题,我们设计了一个基于主题的Web 信息采集系统模型,如图5.1所示。为实现对基于主题的信息自动采集,我们将整个处理过程分成五大模块:主题选择和初始URL选择、Spider采集、页面分析、URL与主题的性关性判定(... 阅读全文
posted @ 2006-03-26 02:52 阿昆 阅读(830) 评论(0) 推荐(0)

摘要: 第四章 基于主题的Web 信息采集基本问题研究 在本章里,我们主要围绕基于主题的Web信息采集基本问题展开了研究,这主要包括主题的Web信息采集的定义、优点、分类,主题页面在Web上的分布特征以及相关性判别算法,后两者是本章的重点。它们为在下一章中提出我们设计的基于主题的Web信息采集结构模型提供了必要的准备。 4.1 基于主题的Web信息采集的定义 在Web信息采集的大家庭中,有... 阅读全文
posted @ 2006-03-26 02:51 阿昆 阅读(1109) 评论(0) 推荐(0)

摘要: 第三章 Web信息采集的研究现状 目前,Web信息采集技术的发展正如火如荼,在传统的Web信息采集技术的基础上,又出现了许多轻型的各具特色的采集技术。我们根据国内外流行的看法,结合我们在这方面长期积累的实际经验,把Web信息采集的发展方向分为以下几种:基于整个Web的信息采集(Scalable Web Crawling),增量式Web信息采集(Incremental Web Cra... 阅读全文
posted @ 2006-03-26 02:49 阿昆 阅读(1223) 评论(0) 推荐(0)

摘要: 第二章 Web信息采集概述 在研究基于主题的Web信息采集之前,让我们先来看看Web信息采集的基本情况,这包括Web信息采集的基本原理、基本结构和主要难题。它们是从各类Web信息采集系统中抽象出来的,因此代表了比较本质和共性的特征,而对于每个实际的采集系统来说,又与它们有所差别。为了更好的了解采采集系统,我们在本章的最后列举了两个实例。 2.1 Web信息采集系统的基本原理 Web... 阅读全文
posted @ 2006-03-26 02:48 阿昆 阅读(1330) 评论(0) 推荐(0)

摘要: 目 录 第一章 引言……………………………………………………………………………….1 1.1 背景... 1 1.2 本文安排... 2 第二章 Web信息采集概述………………………………………………………………4 2.1 Web信息采集系统的基本原理... 4 2.2 Web信息采集系统的基本结构... 4 2.3 Web信息采集面临的主要困难和相应的技术手段: 6 2.4 采集... 阅读全文
posted @ 2006-03-26 02:43 阿昆 阅读(1248) 评论(0) 推荐(1)

摘要: Brett McLaughlin ,作家,编辑,O'Reilly Media Inc. 2006 年 2 月 16 日 多数 Web 应用程序都使用请求/响应模型从服务器上获得完整的 HTML 页面。常常是点击一个按钮,等待服务器响应,再点击另一个按钮,然后再等待,这样一个反复的过程。有了 Ajax 和 XMLHttpRequest 对象,就可以使用不必让用户等待服务器响应的请求/响应模型了。本文... 阅读全文
posted @ 2006-03-26 02:14 阿昆 阅读(845) 评论(1) 推荐(0)

摘要: XMLHTTP应用参考一、使用步骤:1、创建XMLHTTP对象 //需MSXML4.0支持2、打开与服务端的连接,同时定义指令发送方式,服务网页(URL)和请求权限等。客户端通过Open命令打开与服务端的服务网页的连接。与普通HTTP指令传送一样,可以用"GET"方法或"POST"方法指向服务端的服务网页。 3、发送指令。 4、等待并接收服务端返回的处理结果。 5、释放XMLHTTP对象 二、X... 阅读全文
posted @ 2006-03-26 02:06 阿昆 阅读(387) 评论(0) 推荐(0)

摘要: 作者: Jonathan Fenocchi时间:2005.10.25译者:Sheneyan英文原文:http://webreference.com/programming/javascript/jf/column12/index.html 在这个关于AJAX系列的第三部分中,我们将学习如何使用AJAX与服务端进行写作以及这些技术如何产生强大的web应用程序。如果你对学习如何构建类似GMail或者G... 阅读全文
posted @ 2006-03-26 02:05 阿昆 阅读(429) 评论(0) 推荐(0)

摘要: 作者: Jonathan Fenocchi时间:2005.10.26译者:Sheneyan英文原文:http://www.webreference.com/programming/javascript/jf/column13/ 在上一篇文章中,我们讨论了如何通过javascript从一个远程XML文件中取得数据。在这篇文章中,我们将学会怎样对数据作更复杂的处理。作为一个示例,我们会准备一组XML数... 阅读全文
posted @ 2006-03-26 02:05 阿昆 阅读(287) 评论(0) 推荐(0)

摘要: 作者: Jonathan Fenocchi时间:2005.10.25译者:Sheneyan英文原文:http://webreference.com/programming/javascript/jf/column12/index.html 在过去,由于为了获得新数据而不得不重新加载web页面(或者加载其他页面)导致web应用程序发展被限制。虽然有其他方法可用(不加载其他页面),但是这些技术都没有被... 阅读全文
posted @ 2006-03-26 02:04 阿昆 阅读(436) 评论(0) 推荐(0)

摘要: 5 服务器端:Lisp 5.1 CL-Ajax 网址:http://cliki.net/cl-ajax,实现Javascript直接调用服务器端Lisp函数。 ·如下输出函数: (export-函数 #’my-函数) ·可以产生带有参数的Javascript代理。 ·能回叫Javascript函数或者DOM对象。 ·可以被集成进SAJAX。 ·开源(定制,非常灵活,许可)。由[Richard N... 阅读全文
posted @ 2006-03-26 02:03 阿昆 阅读(228) 评论(0) 推荐(0)

摘要: 3 服务器端:多种语言 3.1 跨平台异步的接口工具箱(5月2005年) CPAINT:http://cpaint.sourceforge.net/,是一真正的支持PHP和ASP/Vbscript的Ajax实现和JSRS(JavaScript远程脚本)实现。CPAINT提供给你需求的代码在后台实现AJAX和JSRS,而返回的数据以JavaScript形式在前台操作,格式化和显示。这允许你创建能提供... 阅读全文
posted @ 2006-03-26 02:02 阿昆 阅读(231) 评论(0) 推荐(0)

摘要: 2 纯Javascript:基础结构框架 2.1 AjaxCaller(Alpha版本;自从5月2005年) 网址是:http://ajaxify.com/run/testAjaxCaller/,是一基本的线程安全的XMLHttpRequest包装器,主要针对Ajax新手,仍处于原始的alpha开发阶段,目前仅与AjaxPatterns的在线搜索范例一起打包。 ·实现对服务器的调用(GET/POS... 阅读全文
posted @ 2006-03-26 02:01 阿昆 阅读(253) 评论(0) 推荐(0)

摘要: 浏览器端框架被划分成两大类: ·应用程序框架:提供浏览器的功能,但是常以包括窗口小部件抽象和另外的部件而出名,其功能主要围绕桌面GUI框架。 ·基本结构框架:提供基本的管道和可移植的浏览器抽象,让开发者去创建内容。典型的功能: * 针对XMLHttpRequest的包装器以封装浏览器-服务器的交互。(所有的框架都提供这一功能)。 * XML操作和查询。 * 根据来自XMLHttpRequest的应... 阅读全文
posted @ 2006-03-26 02:00 阿昆 阅读(271) 评论(0) 推荐(0)

摘要: public DataSet GetData(string httpUrl) { string xmlPath = @"http地址"; // 该地址不能包含中文 DataSet ds = new DataSet(); WebClient wc = n... 阅读全文
posted @ 2006-03-26 01:55 阿昆 阅读(328) 评论(0) 推荐(0)

摘要: 一个信息采集系统的例子:http://www.brtech.com.cn/cn/ChannelDir/137.html 远程获取网页内容.经过一定的处理和灵活应用,可以开发成成体系网站内容采集系统.通常也叫做"新闻小偷"一般来说.做内容采集分为如下几个大致的步骤:1.远程获取页面的全部Html源文本.2.通过过滤处理,分析有效内容文本.(通常用正则表达式来截取有效数据)3.将格式有效的数据,根据自... 阅读全文
posted @ 2006-03-26 01:43 阿昆 阅读(660) 评论(0) 推荐(0)

摘要: 往事如烟:2003年,那时我还在念大三,像中国大多数学生一样,为到底是投诚Java还是效忠.net日夜争论,上下求索,迷茫中特别渴望有一盏明灯照亮我辈学子的前程,当时,各大媒体的报道是市场中.net和Java平分秋色,各领风骚,我的很多师哥多曾持此般言论:跟着微软有馒头吃,这些都或多或少的影响着我们的抉择。 我的很多同学基本是选择了.net,原因大部分是相同的:首先,我们为学校免费开发的成绩查... 阅读全文
posted @ 2006-03-26 00:53 阿昆 阅读(414) 评论(3) 推荐(0)