海纳百川 有容乃大(http://www.brtech.com.cn)

海纳百川,有容乃大(http://www.brtech.com.cn)

  :: 首页 :: 博问 :: 闪存 :: :: 联系 :: 订阅 订阅 :: 管理 ::
案背景:
  网站站内搜索引擎逐渐称为网站不可缺少的组成部分,同时也成为网站地位的象征。然而,随着网络的发展,组织和组织之间的关系越来越紧密,简单的站内搜索引擎已经不能满足网站的需求。特别是对于政府机构网站、行业门户网站等,除了在网站内部有自己的搜索引擎以外,还需要对于下属机构或兄弟机构的网站实现统一搜索。

  因此,门户搜索成为了一个重要的组成部分。目前门户搜索主要需要满足以下功能:
1. 可以指定的多个网站(非本网站),并对这些网站进行搜索。
2. 可以任意的增加或者删除网站的列表。
3. 实现关键词搜索、各种逻辑搜索。
4. 需要信息同步。即外部网站一旦更新,在本网查找的那些信息也要更新。
5. 搜索结果中不能有大量的重复信息。
6. 可以按照相关度或者时间排序。
7. 可以在所有网站中统一搜索,也可以在单个网站搜索。
8. 搜索结果的链接应该返回原网站,避免版权问题。

  海量科技利用在检索领域多年的经验,根据海量的自动语意消重技术和网页抓取技术,以全文检索服务为核心,设计出一套行业门户搜索引擎方案。

方案描述:
  行业门户搜索引擎方案主要从信息采集、信息消重、信息索引和信息搜索四个方面来设计。通过网络蜘蛛从指定的网站上抓取网页,存为html格式的文件,通过格式化文件转化工具,把html文件转化为txt文本,通过文件消重模块,把多个网站中重复的信息删除,然后将消重后的数据入库,并建立全文索引库,全文检索服务对外提供搜索服务。

方案设计:
  整个方案设计分成:网络蜘蛛组件、文本转化组件、数据消重组件、全文检索服务、类google风格Web搜索页面。
各部分完成的功能如下:

1. 网络蜘蛛组件:完成从外部网站的网页收集,定时把外部网站的信息下载到本地,存放在本地文件系统中。
2. 文本转化组件:提取html格式网页中有用信息,过滤广告、无用链接、图片、框架等,转化成全文检索服务可识别的文本文件。
3. 数据消重组件:把不同网站的文本信息统一处理,消除重复的信息。
4. 全文检索服务:完成数据入库、索引、搜索功能。

方案优势:
  基于海量科技多年的检索技术积累,行业门户搜索引擎方案具有明显的优势:

1. 可以自由定制监控和搜索外部网站。
2. 可以实现自动的实时更新。
3. 实现精确的信息搜索。DESE文件转化组件能提取网页中有用的信息。
4. 可以解决大量的信息垃圾难题。DESE信息消重组件把外网中重复的过滤。
  网站站内搜索引擎逐渐称为网站不可缺少的组成部分,同时也成为网站地位的象征。然而,随着网络的发展,组织和组织之间的关系越来越紧密,简单的站内搜索引擎已经不能满足网站的需求。特别是对于政府机构网站、行业门户网站等,除了在网站内部有自己的搜索引擎以外,还需要对于下属机构或兄弟机构的网站实现统一搜索。  因此,门户搜索成为了一个重要的组成部分。
目前门户搜索主要需要满足以下功能:
1. 可以指定的多个网站(非本网站),并对这些网站进行搜索。
2. 可以任意的增加或者删除网站的列表。
3. 实现关键词搜索、各种逻辑搜索。
4. 需要信息同步。即外部网站一旦更新,在本网查找的那些信息也要更新。
5. 搜索结果中不能有大量的重复信息。
6. 可以按照相关度或者时间排序。
7. 可以在所有网站中统一搜索,也可以在单个网站搜索。
8. 搜索结果的链接应该返回原网站,避免版权问题。
  海量科技利用在检索领域多年的经验,根据海量的自动语意消重技术和网页抓取技术,以全文检索服务为核心,设计出一套行业门户搜索引擎方案。
  行业门户搜索引擎方案主要从信息采集、信息消重、信息索引和信息搜索四个方面来设计。通过网络蜘蛛从指定的网站上抓取网页,存为html格式的文件,通过格式化文件转化工具,把html文件转化为txt文本,通过文件消重模块,把多个网站中重复的信息删除,然后将消重后的数据入库,并建立全文索引库,全文检索服务对外提供搜索服务。
  整个方案设计分成:网络蜘蛛组件、文本转化组件、数据消重组件、全文检索服务、类google风格Web搜索页面。各部分完成的功能如下:
1. 网络蜘蛛组件:完成从外部网站的网页收集,定时把外部网站的信息下载到本地,存放在本地文件系统中。
2. 文本转化组件:提取html格式网页中有用信息,过滤广告、无用链接、图片、框架等,转化成全文检索服务可识别的文本文件。
3. 数据消重组件:把不同网站的文本信息统一处理,消除重复的信息。
4. 全文检索服务:完成数据入库、索引、搜索功能。
  基于海量科技多年的检索技术积累,行业门户搜索引擎方案具有明显的优势:
1. 可以自由定制监控和搜索外部网站。
2. 可以实现自动的实时更新。
3. 实现精确的信息搜索。DESE文件转化组件能提取网页中有用的信息。
4. 可以解决大量的信息垃圾难题。
DESE信息消重组件把外网中重复的过滤。
posted on 2006-03-26 03:10  阿昆  阅读(839)  评论(0编辑  收藏  举报