数据集资源索引

del.icio.us 链接推荐系统

MovieLens 电影评价系统 http://www.grouplens.org/73

Zebo 偏好聚类 http://www.Zebo.com/

上千份网页文件 http://kiwitobes.com/wiki

Kayak旅游类垂直搜索引擎 http://www.kayak.com/abs/api/search

 

一:协同过滤

数据集:用户对电影的评分

算法:几何距离、皮尔逊系数

要点:

1.通过相关性加权给分数加权,得到用户对电影评分的预测

2.协调过滤分为两种,基于用户和基于物品的。后者的相关性可以预先计算好,从而加快过滤速度。对于稀疏的数据集,基于物品的过滤更优,对于密集数据集两者都一样。

二:发现群组(聚类)

数据集:博客、小说、歌词

算法:分级聚类、K均值聚类、Tanimoto系数(计算交集与并集的比率)、多维缩放

要点:分级聚类有两种,列聚类和行聚类,当数据项数量大于变量数量的时候出现无意义聚类的可能会增加。K均值聚类的运行速度远远快于分级聚类,但每次运行的结果都会不同。

三:搜索与排名

数据集:爬虫采集网页

算法:pageRank、神经网络、前馈法、反向传播

备注:没有完全理解,需要继续实验和研究

四:随机优化 

数据集:无

算法:随机搜索、爬山法、退火法、遗传算法

要点:没有任何一种算法一定会比随机搜索更优,后面三种算法只会在最优解附近一定是较优解时更具效率。 

posted on 2014-04-11 09:41  MoonXue  阅读(295)  评论(0编辑  收藏  举报