lzhenf

  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

随笔分类 -  数据挖掘

摘要:程序代码参考了csdn某博客,具体名字忘记了变量命名的头文件//common.h#ifndef COMM_H#define COMM_H#include <iostream>#include <vector>#include <string>#include <algorithm>#include <iterator>using namespace std;typedef vector<string> StrVec; //字符串向量typedef vector<int> IntVec; //整数向量typede 阅读全文
posted @ 2012-04-11 16:04 lzhenf 阅读(2560) 评论(0) 推荐(0)

摘要:推荐引擎前面介绍了推荐引擎对于现在的 Web2.0 站点的重要意义,这一章我们将讲讲推荐引擎到底是怎么工作的。推荐引擎利用特殊的信息过滤技术,将不同的物品或内容推荐给可能对它们感兴趣的用户。图 1. 推荐引擎工作原理图 图 1 给出了推荐引擎的工作原理图,这里先将推荐引擎看作黑盒,它接受的输入是推荐的数据源,一般情况下,推荐引擎所需要的数据源包括:要推荐物品或内容的元数据,例如关键字,基因描述等;系统用户的基本信息,例如性别,年龄等用户对物品或者信息的偏好,根据应用本身的不同,可能包括用户对物品的评分,用户查看物品的记录,用户的购买记录等。其实这些用户的偏好信息可以分为两类:显式的用户反馈:这 阅读全文
posted @ 2012-04-02 21:24 lzhenf 阅读(341) 评论(0) 推荐(0)

摘要:在做分类时常常需要估算不同样本之间的相似性度量(Similarity Measurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。 本文的目的就是对常用的相似性度量作一个总结。本文目录:1. 欧氏距离2. 曼哈顿距离3. 切比雪夫距离4. 闵可夫斯基距离5. 标准化欧氏距离6. 马氏距离7. 夹角余弦8. 汉明距离9. 杰卡德距离 & 杰卡德相似系数10. 相关系数 & 相关距离11. 信息熵1.欧氏距离(Euclidean Distance) 欧氏距离是最易于理解的一种距离计算方法,源自 阅读全文
posted @ 2011-12-19 15:29 lzhenf 阅读(186) 评论(0) 推荐(0)