Kuberski - 酷伯司机

写在代码边上
  博客园  :: 首页  :: 联系 :: 订阅 订阅  :: 管理

Google Related Links 继续探究

Posted on 2009-11-04 11:59  kuber  阅读(793)  评论(2编辑  收藏  举报
昨天在blog上介绍了Google Related Links, 当时试了一下, 感觉相关性不错, 而且不象是完全根据标题推荐的. 我说"结果应该不仅仅是根据标题, 而是根据正文内容算出来的", clickstone留言说"没有用正文". xlvector  告诉我说他测试下来相关性不是很好. 好奇心起, 仔细探究探究这个Related Links.. 

1. 在相关文章下面有Related Searches by Google, 点击第一个后进入google 的站内搜索(就是'site'开关). 打开'百宝箱', 选'最新结果', 相关文章基本上就是第一页的内容;
    
2. 填写一个有中英文的文章标题, 如"英特尔正调查苹果iPhone与PC资料同步化失败问题" (自己随便google 出来的), 分别选中文英文, 得出的关键字不一样, 如中文结果是"苹果", 英文是"iphone", 产生的相关文章也随之变化了.
    
3. 为了验证计算和正文是否相关, 做了一个暴力测试:
Demo页面上需要填写三个字段: Page URL, Page Title , 网站的Domain和语言. 如果这三个字段填写的是完全不相关的信息会怎么样? 我的填写的是:
Page URL: http://ent.163.com/09/1104/06/5N8NJQ6L000300B1.html (注:文章的内容是关于李安的新片)
Page Title:《魔兽世界》与中国互联网的“官家主义”-车走-搜狐博客
Domain  : www.feedzshare.com
Lanuage: Chinese

提交后居然也有结果, 而且基本上都是和"魔兽世界"相关的:


我的猜测(wild guess)是:
1. 基本过程是, 根据title得出关键字, 然后根据最重要的关键字(第一个?)做站内搜索, , 根据用户输入的page url 把本文排除掉产生结果;
2. 重要关键字, 应该不是简单的分词, 上面的测试可以看出来.  排在后面的关键字用到了google 搜索建议;
3. 同时'语言'选项可以限制关键字的产生, 跟结果语言无关.

一些想法:
  • 如果仅仅是做站内相关文章, 其实只要一个输入Page URL就够了, 其他的象标题,域,语言都可以据此找到(head里面都有, 而且google的数据库不至于没有吧);
  • Related Links 是google 几项技术的包装. 但经过包装后能产生非常有用的产品(功能?). 如果google不仅仅是发布一个js的gadget, 而是发布个数据api, 相信能激发出更多有创意的meshup.
  • 目前在技术上可以做到站外的相关文章. 比如说一个oepn social 的插件host在其他站点, 根据文章标题, 找到feedzshare 上的相关文章.
 

报告完毕,休息,休息,就到这里吧. :-)