公告

随笔分类 - 数据挖掘

摘要：程序代码参考了csdn某博客，具体名字忘记了变量命名的头文件//common.h#ifndef COMM_H#define COMM_H#include <iostream>#include <vector>#include <string>#include <algorithm>#include <iterator>using namespace std;typedef vector<string> StrVec; //字符串向量typedef vector<int> IntVec; //整数向量typede 阅读全文

posted @ 2012-04-11 16:04 lzhenf 阅读(2560) 评论(0) 推荐(0)

推荐引擎概述（转自IBM worker）

摘要：推荐引擎前面介绍了推荐引擎对于现在的 Web2.0 站点的重要意义，这一章我们将讲讲推荐引擎到底是怎么工作的。推荐引擎利用特殊的信息过滤技术，将不同的物品或内容推荐给可能对它们感兴趣的用户。图 1. 推荐引擎工作原理图图 1 给出了推荐引擎的工作原理图，这里先将推荐引擎看作黑盒，它接受的输入是推荐的数据源，一般情况下，推荐引擎所需要的数据源包括：要推荐物品或内容的元数据，例如关键字，基因描述等；系统用户的基本信息，例如性别，年龄等用户对物品或者信息的偏好，根据应用本身的不同，可能包括用户对物品的评分，用户查看物品的记录，用户的购买记录等。其实这些用户的偏好信息可以分为两类：显式的用户反馈：这阅读全文

posted @ 2012-04-02 21:24 lzhenf 阅读(341) 评论(0) 推荐(0)

机器学习中相似性度量（转载）

摘要：在做分类时常常需要估算不同样本之间的相似性度量(Similarity Measurement)，这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究，甚至关系到分类的正确与否。本文的目的就是对常用的相似性度量作一个总结。本文目录：1. 欧氏距离2. 曼哈顿距离3. 切比雪夫距离4. 闵可夫斯基距离5. 标准化欧氏距离6. 马氏距离7. 夹角余弦8. 汉明距离9. 杰卡德距离 & 杰卡德相似系数10. 相关系数 & 相关距离11. 信息熵1.欧氏距离(Euclidean Distance) 欧氏距离是最易于理解的一种距离计算方法，源自阅读全文

posted @ 2011-12-19 15:29 lzhenf 阅读(186) 评论(0) 推荐(0)