个性化搜索引擎调研(二)

五、用户描述信息的表达与更新、资源特征选取与表达

1、用户描述信息表达与更新

基于内容信息过滤来说,同样需要用户的参与。为了跟踪用户的兴趣和行为,需要为每个用户建立一个用户描述文件(User Profile),用户描述文件可以包括个人信息、个人兴趣、行为模式、以及用户间的关系等。具体描述信息参见第六节。

A、用户描述文件的建立。

从四个角度考虑:

内容:基于兴趣和基于行为?

粒度:一个用户一个描述或多个描述,还是一类用户共享一个描述?

时效性:短期的或长期的?

存储:是用文件来组织,还是用关系数据库或其它数据库来存储、XML数据?

B、用户描述文件的更新。

动态更新用户的兴趣可以提高个性化服务的质量。用户第一次使用时,用户注册自己的基本信息和感兴趣的内容,也可以隐式地收集用 户信息。在定制好一个用户描述文件后,可以让用户自主修改,也可以自适应地修改,这样,随用户兴趣的变化而变化。

用户跟踪:显式跟踪(很少有用户向系统主动表达自己的喜好)和隐式跟踪(行为跟踪、日志挖掘)

标记书签、浏览页面和拖动滚动条所花时间能有效地揭示用户的兴趣。收集用户感兴趣的领域,有利于对用户感兴趣的内容进行分类。

2、资源的特征选取与表达

资源的表达需要获取资源的特征,并表示为合适的方式。

基于内容的方法:从文档本身抽取信息来表示文档,利用特征词条及其权值来表示。(特征选取)

基于分类的方法:基于分类的方法是利用类别来表示资源,将文档资源分类有利于将文档推荐给对该类文档感兴趣的用户。(聚类算法)

 

六、个性化搜索里的个性化究竟代表哪些层面和因素?

个性化中的用户层面:

wps_clip_image-7889 地理位置因素

顶级域名(TLD,Top Level Domain)的地理位置

IP地址

对查询的地理位置分析

技术方面的因素

浏览器

操作系统

移动设备

时间因素

当前在一天中的时间因素

当前在一年中的时间因素

历史性数据

行为性因素

搜索的历史数据

与搜索结果页(SERP)互动的数据

选择率和跳出率的数据

和广告的互动操作

浏览习惯(常用用户 – 更新鲜的结果)

可能的个性化因素

社会化搜索

人口统计学(指使用者的年龄、职业等个人信息)

浏览历史(隐性数据)

posted @ 2010-08-03 09:23  abstractwind  阅读(608)  评论(0编辑  收藏  举报