JXTA CMS搜索技术的研究

1 引言

传统的信息检索技术已经无法容纳Internet上以指数形式增长的海量信息，P2P（Peer-to-Peer，对等网）应用程序采用了新的技术来检索Internet上的文件和信息。JXTA是一个用来解决P2P计算的开放式网络平台^[1~4]，JXTA 内容管理服务(Content Management Service，CMS)采用了一种实时化的方法来搜索自己想要的资源，以便对等节点（Peer）共享和下载内容。目前，基于JXTA CMS搜索方面的研究仍较少见于文献，本文介绍CMS的简单搜索、基于Metadata的搜索和分布式搜索。

2 CMS简单搜索

任何需要被共享的数据称为内容（Content）。每一份共享内容都有一个独一无二的内容ID和内容广告。内容ID利用内容本身的二进制数据所产生的唯一的128位MD5校验和。通过MD5校验和，可以很容易分辨出有两个不同的对等点（Peer）所共享的两个文件是否相同。内容广告以XML格式存储，用来描述内容的元信息，包括内容名称、长度、MIME类型，内容标志符以及内容描述信息。对于简单搜索来说，CMS的算法是向各个Peer发送一个查询字符串，Peer收到这个查询字符串后，将会获取共享内容的文件名和内容描述。如果Peer认为这个内容符合要求，会将这个内容的广告返回给发出搜索请求的Peer。需要注意的是，进行简单搜索只是去访问对方的CMS，搜索本地符合要求的内容，并不需要请求Peer启动CMS服务。

JXTA CMS简单搜索程序最重要的类是ListContentRequest^[5]。ListContentRequest类的主要功能是向远程Peer发送查询字符串，然后监听管道以获得返回的结果。结果返回时，JXTA调用ListContentRequest类中的notifyMoreResults方法。结果返回后，调用ListContentRequest类里的getResults方法可获得所有满足条件的内容广告。

3 基于Metadata的搜索

为了让用户迅速地搜索出需要的内容，可以在共享文件中加入Metadata信息。引入Metadata的目的，是让用户可以根据Metadata信息搜索，而不是根据文件名和文件描述的子串来进行搜索。Metadata搜索实际上是在本地的搜索，其搜索返回的结果实际上只是内容的广告，而非内容本身，因此即使有很多条结果，其实际流量还是很小的。其次，由于返回的结果集将缓存到本地，因此下次搜索时将大大提高速度。

目前JXTA的ListContentRequest类还不支持Metadata搜索，因此用户要搜索Metadata，首先要通过采用子串匹配算法的ListContentRequest获得所有初步符合条件的广告，然后等ListContentRequest返回结果集后再用Metadata的搜索来筛选。工作原理如下：①向远程Peer发送查询字符串。②远程Peer将初步符合查询要求的内容的广告送到请求Peer。收到广告之后，Peer1启动Metadata搜索，搜索的是Metadata信息，筛选出与用户指定的查询字符串匹配的内容。搜索原理如图1所示。

4 CMS分布式搜索技术

4.1 CMS分布式搜索的工作原理

分布式搜索是CMS的发展目标之一^[6~7]。在分布式搜索模型中，没有专门的服务器，各个Peer在功能上是相似的，依靠P2P网络环境定位其他的Peer。

在这个模型中，Peer将被配置在一个网格中，搜索请求在这些Peer中传播。实际上，CMS已经支持为实现上述目标所需要的大部分功能，这是因为每一条LIST_REQ和GET_REQ消息中包含了为发送响应消息的输入管道的广告，这样就使得Peer可以转发其他Peer的请求，因为包含的管道ID将会被解析为最初发出请求的Peer的管道。如果要实现上述模型的话，还得加入TTL机制或类似机制来设置一个搜索请求能被转发的节点数的最大值。

Peer搜索网络上与之相邻的Peer，发出LIST_REQ请求消息，其他Peer在接收到此消息后，查询本地是否有符合搜索要求的内容，如果有，则沿请求消息的发送路径发送LIST_RES响应消息，返回包含查询到的所有内容的广告。无论本地是否存在符合查询请求的文件内容，其他Peer都会将该查询请求消息通过扩散方式继续在网络中传递，直至TTL字段值减为0时停止继续转发。

一旦定位了响应它查询内容的对等机之后，就与响应的Peer建立连接，下载自己查询的内容，即先发送GET_REQ消息来请求下载内容数据，响应的Peer在发送包括数据在内的GET_RES响应消息。JXTA使用管道技术，使得在建立连接和传输数据时无需考虑协议的问题。分布式搜索的原理见图2。

4.2 CMS分布式搜索的优势与不足

分布式搜索可达到传统CMS搜索无可比拟的深度^[6]，能很好满足Internet用户的要求。利用扩散机制，网络上的节点不仅具有本地搜索功能，还具备消息的自动传播功能。这样，转发消息的节点通过消息发送与其它节点直接连接，原始请求端间接地与大量结节点建立了联系，搜索范围可以在几秒钟内以几何级数增长，几分钟内就可搜遍几百万台PC上的信息资源。理论上分布式搜索可得到网络上的所有开放的信息资源，网络范围越广阔，可用资源就越多，分布式搜索就越能体现其优势。

此外，利用CMS分布式搜索技术，任何网络用户能够扫描活动节点并搜索需要的信息，然后直接从这个节点上下载信息，网络的多个节点间的信息复制提高了信息的可得性，使之为更多的用户提供服务，网络因此能够很快积累相当丰富的信息。信息资源的分散与冗余使得网络不会产生“单点失效”问题，同时，针对单个服务器的“访问拒绝攻击”不再有效。由此可见，分散式的网络提高了网络的容错和鲁棒性。

然而CMS分布式搜索技术也存在不足，网络中对等点的查找和定位是通过扩散来实现的，随着网络规模的扩大，通过扩散方式定位对等点的方法将造成网络流量急剧增加，如同其它P2P网络模型面临的问题一样，易遭受恶意攻击，如攻击者发送垃圾查询信息，造成网络拥塞。

4 结束语

作者用JAVA语言编写的基于CMS的分布式搜索程序，已在模拟环境下初步测试通过。今后的研究方向是进一步完善CMS的分布式搜索模型和算法，并探讨相关安全机制。由于CMS诞生不久，处于早期探索阶段，在特定的应用环境下，CMS的分布式搜索还会面临很多特殊的问题，这方面的研究和突破值得期待。

posted @ 2012-12-23 20:10 闯.漠北阅读(307) 评论(1) 收藏举报

刷新页面返回顶部

闯.漠北

框架，设计模式，算法，语言，编程风格，希望能一起研讨学习。

JXTA CMS搜索技术的研究

公告