[转]推荐关联RSS的方法

http://web2.0focus.com/?p=44

所谓关联RSS, 就是和某个RSS内容相关的一个或多个RSS。在RSS订阅时，获得与之相关联的RSS，既节省了用户寻找RSS的时间，也扩展了阅读器订阅RSS的范围。

这种方法类似于我们在搜索引擎上做基于关键词的搜索。通常，我们输入某个关键词后，搜索引擎在输出搜索结果的同时，还推荐了相关的关键词。在Delicious上查找TAG时，也会给我们相关的TAG。上述的关联关键词或者关联TAG通常是比较准确的。我们同样可以利用上述关联的方法来做RSS的推荐。

一般来说，我们需要一个强大的RSS数据库，它最好是一个封闭的系统，比如一个RSS阅读系统，有着可以用于统计的用户数据。

我们做关联RSS的立足点是，一个用户订阅的RSS一般来说是兴趣集中的。以某一个RSS为出发点，我们获得所有订阅了该RSS的用户，并统计所有用户针对该RSS的相关订阅（更准确地，是该RSS所属分类的所有RSS，以用户所设置的分类为标准），通俗的描述就是“订阅了该RSS的用户，还在此分类中订阅了…”。

如上述方法统计的RSS／RSS数量分布结果为高斯分布，获得的统计数量较多的RSS即为相关RSS。在用户订阅RSS时，可以列举一定数量的RSS推荐给用户。

另外一种获得关联RSS的方法是RSS搜索引擎处理自己的数据，获得某RSS的关联RSS。这需要RSS搜索引擎(而不是Blog Search)采集海量的RSS数据。

搜索引擎所做的第一步是获得RSS数据，分析RSS数据。一般来说，带有RSS条目DESCRIPTION的RSS足以反映RSS的特点，甚至仅仅含有RSS条目TITLE的RSS也是可用的。通过分析（中文RSS需要分词），获得RSS的带有权重的关键词。上述处理过程中，如果有足够的资源，可以进一步获得RSS所指的文章的内容做进一步分析。

第二步是RSS数据的预处理过程，即通过RSS关键词的相似性分析，获得一个正则化(Normalized)的RSS-RSS相似性数值，最后获得某RSS的最相近的RSS列表。这个处理过程
同样需要耗费相当大的资源，所以以采用某些RSS作为种子(Seed)RSS处理，可以节省计算时间。所幸的是，RSS相似性分析对实时性要求不太强烈。分析一次关联RSS后，“有效期”可以持续很长时间。

对于Blog用户，OKRSS则采用了分析Blog用户页面的方法获得关联RSS，此方法假定的前提是Blog用户和他所提及的RSS是关系比较密切的。这种方法对于那些Blog上链接了RSS的用户比较容易获得关联RSS，但是对于只链接了其他用户Blog网址的用户，则需要借助于OKRSS采集的海量RSS数据库。此方法首先是利用RSS做RSS - Blog用户主页对照表，然后采集分析用户日志，获得可能的URL，把URL映射回RSS，以获得RSS的关联RSS。

posted on 2006-03-15 18:47 闪雷阅读(398) 评论(0) 收藏举报