海纳百川 有容乃大(http://www.brtech.com.cn)

海纳百川,有容乃大(http://www.brtech.com.cn)

  :: 首页 :: 博问 :: 闪存 :: :: 联系 :: 订阅 订阅 :: 管理 ::

2006年3月26日

摘要: 第三章 Web信息采集的研究现状 目前,Web信息采集技术的发展正如火如荼,在传统的Web信息采集技术的基础上,又出现了许多轻型的各具特色的采集技术。我们根据国内外流行的看法,结合我们在这方面长期积累的实际经验,把Web信息采集的发展方向分为以下几种:基于整个Web的信息采集(Scalable Web Crawling),增量式Web信息采集(Incremental Web Cra... 阅读全文
posted @ 2006-03-26 02:49 阿昆 阅读(1151) 评论(0) 推荐(0) 编辑

摘要: 第二章 Web信息采集概述 在研究基于主题的Web信息采集之前,让我们先来看看Web信息采集的基本情况,这包括Web信息采集的基本原理、基本结构和主要难题。它们是从各类Web信息采集系统中抽象出来的,因此代表了比较本质和共性的特征,而对于每个实际的采集系统来说,又与它们有所差别。为了更好的了解采采集系统,我们在本章的最后列举了两个实例。 2.1 Web信息采集系统的基本原理 Web... 阅读全文
posted @ 2006-03-26 02:48 阿昆 阅读(1267) 评论(0) 推荐(0) 编辑

摘要: 目 录 第一章 引言……………………………………………………………………………….1 1.1 背景... 1 1.2 本文安排... 2 第二章 Web信息采集概述………………………………………………………………4 2.1 Web信息采集系统的基本原理... 4 2.2 Web信息采集系统的基本结构... 4 2.3 Web信息采集面临的主要困难和相应的技术手段: 6 2.4 采集... 阅读全文
posted @ 2006-03-26 02:43 阿昆 阅读(1230) 评论(0) 推荐(1) 编辑

摘要: Brett McLaughlin ,作家,编辑,O'Reilly Media Inc. 2006 年 2 月 16 日 多数 Web 应用程序都使用请求/响应模型从服务器上获得完整的 HTML 页面。常常是点击一个按钮,等待服务器响应,再点击另一个按钮,然后再等待,这样一个反复的过程。有了 Ajax 和 XMLHttpRequest 对象,就可以使用不必让用户等待服务器响应的请求/响应模型了。本文... 阅读全文
posted @ 2006-03-26 02:14 阿昆 阅读(836) 评论(1) 推荐(0) 编辑

摘要: XMLHTTP应用参考一、使用步骤:1、创建XMLHTTP对象 //需MSXML4.0支持2、打开与服务端的连接,同时定义指令发送方式,服务网页(URL)和请求权限等。客户端通过Open命令打开与服务端的服务网页的连接。与普通HTTP指令传送一样,可以用"GET"方法或"POST"方法指向服务端的服务网页。 3、发送指令。 4、等待并接收服务端返回的处理结果。 5、释放XMLHTTP对象 二、X... 阅读全文
posted @ 2006-03-26 02:06 阿昆 阅读(379) 评论(0) 推荐(0) 编辑

摘要: 作者: Jonathan Fenocchi时间:2005.10.25译者:Sheneyan英文原文:http://webreference.com/programming/javascript/jf/column12/index.html 在这个关于AJAX系列的第三部分中,我们将学习如何使用AJAX与服务端进行写作以及这些技术如何产生强大的web应用程序。如果你对学习如何构建类似GMail或者G... 阅读全文
posted @ 2006-03-26 02:05 阿昆 阅读(418) 评论(0) 推荐(0) 编辑

摘要: 作者: Jonathan Fenocchi时间:2005.10.26译者:Sheneyan英文原文:http://www.webreference.com/programming/javascript/jf/column13/ 在上一篇文章中,我们讨论了如何通过javascript从一个远程XML文件中取得数据。在这篇文章中,我们将学会怎样对数据作更复杂的处理。作为一个示例,我们会准备一组XML数... 阅读全文
posted @ 2006-03-26 02:05 阿昆 阅读(282) 评论(0) 推荐(0) 编辑

摘要: 作者: Jonathan Fenocchi时间:2005.10.25译者:Sheneyan英文原文:http://webreference.com/programming/javascript/jf/column12/index.html 在过去,由于为了获得新数据而不得不重新加载web页面(或者加载其他页面)导致web应用程序发展被限制。虽然有其他方法可用(不加载其他页面),但是这些技术都没有被... 阅读全文
posted @ 2006-03-26 02:04 阿昆 阅读(427) 评论(0) 推荐(0) 编辑

摘要: 5 服务器端:Lisp 5.1 CL-Ajax 网址:http://cliki.net/cl-ajax,实现Javascript直接调用服务器端Lisp函数。 ·如下输出函数: (export-函数 #’my-函数) ·可以产生带有参数的Javascript代理。 ·能回叫Javascript函数或者DOM对象。 ·可以被集成进SAJAX。 ·开源(定制,非常灵活,许可)。由[Richard N... 阅读全文
posted @ 2006-03-26 02:03 阿昆 阅读(222) 评论(0) 推荐(0) 编辑

摘要: 3 服务器端:多种语言 3.1 跨平台异步的接口工具箱(5月2005年) CPAINT:http://cpaint.sourceforge.net/,是一真正的支持PHP和ASP/Vbscript的Ajax实现和JSRS(JavaScript远程脚本)实现。CPAINT提供给你需求的代码在后台实现AJAX和JSRS,而返回的数据以JavaScript形式在前台操作,格式化和显示。这允许你创建能提供... 阅读全文
posted @ 2006-03-26 02:02 阿昆 阅读(226) 评论(0) 推荐(0) 编辑

摘要: 2 纯Javascript:基础结构框架 2.1 AjaxCaller(Alpha版本;自从5月2005年) 网址是:http://ajaxify.com/run/testAjaxCaller/,是一基本的线程安全的XMLHttpRequest包装器,主要针对Ajax新手,仍处于原始的alpha开发阶段,目前仅与AjaxPatterns的在线搜索范例一起打包。 ·实现对服务器的调用(GET/POS... 阅读全文
posted @ 2006-03-26 02:01 阿昆 阅读(249) 评论(0) 推荐(0) 编辑

摘要: 浏览器端框架被划分成两大类: ·应用程序框架:提供浏览器的功能,但是常以包括窗口小部件抽象和另外的部件而出名,其功能主要围绕桌面GUI框架。 ·基本结构框架:提供基本的管道和可移植的浏览器抽象,让开发者去创建内容。典型的功能: * 针对XMLHttpRequest的包装器以封装浏览器-服务器的交互。(所有的框架都提供这一功能)。 * XML操作和查询。 * 根据来自XMLHttpRequest的应... 阅读全文
posted @ 2006-03-26 02:00 阿昆 阅读(266) 评论(0) 推荐(0) 编辑

摘要: public DataSet GetData(string httpUrl) { string xmlPath = @"http地址"; // 该地址不能包含中文 DataSet ds = new DataSet(); WebClient wc = n... 阅读全文
posted @ 2006-03-26 01:55 阿昆 阅读(319) 评论(0) 推荐(0) 编辑

摘要: 一个信息采集系统的例子:http://www.brtech.com.cn/cn/ChannelDir/137.html 远程获取网页内容.经过一定的处理和灵活应用,可以开发成成体系网站内容采集系统.通常也叫做"新闻小偷"一般来说.做内容采集分为如下几个大致的步骤:1.远程获取页面的全部Html源文本.2.通过过滤处理,分析有效内容文本.(通常用正则表达式来截取有效数据)3.将格式有效的数据,根据自... 阅读全文
posted @ 2006-03-26 01:43 阿昆 阅读(641) 评论(0) 推荐(0) 编辑

摘要: 往事如烟:2003年,那时我还在念大三,像中国大多数学生一样,为到底是投诚Java还是效忠.net日夜争论,上下求索,迷茫中特别渴望有一盏明灯照亮我辈学子的前程,当时,各大媒体的报道是市场中.net和Java平分秋色,各领风骚,我的很多师哥多曾持此般言论:跟着微软有馒头吃,这些都或多或少的影响着我们的抉择。 我的很多同学基本是选择了.net,原因大部分是相同的:首先,我们为学校免费开发的成绩查... 阅读全文
posted @ 2006-03-26 00:53 阿昆 阅读(407) 评论(3) 推荐(0) 编辑

2006年3月23日

摘要: 背景 随着Internet的普及,网络信息正以极高的速度增长,在这么多数据中找到自己需要的信息是一件很繁琐的事情,找到需要的信息后如何获取也是件麻烦的事。这就需要Internet信息抓取程序来代替人工的操作。 所谓Internet信息抓取程序,就是程序会按照用户的关键词或关键网站来收集相应的信息,并提供给用户想要的信息格式。 信息量的增加会带来信息网站发布人员工作量的剧增,为实现信息发布系... 阅读全文
posted @ 2006-03-23 13:45 阿昆 阅读(379) 评论(1) 推荐(0) 编辑

2006年3月21日

摘要: 最近2003 Server升级到了Asp.Net 2.0,发现CPU占用总是接近100%,服务器响应严重降低。历经一番挫折,终于搞定了问题。下面把整个过程写下来与大家分享,希望对遇到同样问题的朋友有所帮助。开始怀疑是下载软件包的问题,.Net Framework 2(x86)是从微软网站下载的,重新检查,排除了下载软件包的问题。网上疯狂搜集资料也是不得法。无奈之下,尝试在IIS Web服务扩展里把... 阅读全文
posted @ 2006-03-21 14:42 阿昆 阅读(255) 评论(0) 推荐(0) 编辑

2006年3月16日

摘要: SiteServer站内检索系统(SiteServer Searcher)具有网站搜索深度深、采集精度高和抓取速度快等性能优势,能够全面高效采集站内网页信息,建立实时高速索引,让每一个网站获取像Google搜索引擎一样的强大搜索功能。 高速度网页实时增量采集,分秒监测网站信息变化动态 实时索引技术保证信息即时采集即时检索 亚秒级的检索速度,海量信息瞬间响应 每秒上百次的并发量支持 独有的... 阅读全文
posted @ 2006-03-16 13:33 阿昆 阅读(416) 评论(0) 推荐(0) 编辑

2006年3月6日

摘要: 百容科技(www.brtech.com.cn) SiteServer信息采集系统(SiteServer Information Gather System)以网络信息挖掘引擎为基础构建而成,它可以在最短的时间内,帮您把所需要的最新的信息从不同的Internet站点上采摘下来,让这些分散在互联网上各个角落的数以亿计的海量信息为我所用。 优势及特点强大的信息采集能力分秒级的实时检索灵活的模板管理及关... 阅读全文
posted @ 2006-03-06 11:39 阿昆 阅读(867) 评论(0) 推荐(0) 编辑

2006年2月23日

摘要: 经过60多天的紧张开发,天天旅游网的一期工程开发完毕,在大家的共同努力下,按时完成了项目的开发。在开发中遇到了很多问题和很多经验,先总结如下。1.在开始编码之前一定要充分理解客户的需求,不要上来就进行编码。只有充分理解了客户的需求之后,进行的编码才是可行的,有质量的。2.当编码的不断进行中,一定阶段一定要进行代码的重构,这样不但能提高代码的质量的同时,为了将来的用户需求的变化,和后续程序的开发打... 阅读全文
posted @ 2006-02-23 12:08 阿昆 阅读(347) 评论(0) 推荐(0) 编辑