DataMining - 随笔分类 - 左晓

使用Weka进行数据挖掘

摘要：1.简介数据挖掘、机器学习这些字眼，在一些人看来，是门槛很高的东西。诚然，如果做算法实现甚至算法优化，确实需要很多背景知识。但事实是，绝大多数数据挖掘工程师，不需要去做算法层面的东西。他们的精力，集中在特征提取，算法选择和参数调优上。那么，一个可以方便地提供这些功能的工具，便是十分必要的了。而w... 阅读全文

posted @ 2014-07-13 22:04 左晓阅读(2662) 评论(0) 推荐(1)

2、提供推荐

摘要：1、协作型过滤（collaborative filtering）一个协作型过滤算法通常的做法是对一大群人进行搜索，并从中找出与我们品味相近的一小群人。算法会对这些人所偏爱的其他内容进行考查，并将它们组合起来构造出一个经过排序的推荐列表。2、搜索偏好第一件事情，寻找一种表达不同人及其偏好的方法，使用嵌套字典。# A dictionary of movie critics and their ratings of a small# set of movies#一个涉及影评者以及对几部影片评分情况的字典critics={'Lisa Rose': {'Lady in the W 阅读全文

posted @ 2014-04-03 16:35 左晓阅读(228) 评论(0) 推荐(0)

深入推荐引擎相关算法 - 协同过滤2

摘要：本系列的第一篇为读者概要介绍了推荐引擎，下面几篇文章将深入介绍推荐引擎的相关算法，并帮助读者高效的实现这些算法。在现今的推荐技术和算法中，最被大家广泛认可和采用的就是基于协同过滤的推荐方法。它以其方法模型简单，数据依赖性低，数据方便采集 , 推荐效果较优等多个优点成为大众眼里的推荐算法“No.1”。本文将带你深入了解协同过滤的秘密，并给出基于 Apache Mahout 的协同过滤算法的高效实现。Apache Mahout 是 ASF 的一个较新的开源项目，它源于 Lucene，构建在 Hadoop 之上，关注海量数据上的机器学习经典算法的高效实现。集体智慧和协同过滤什么是集体智慧集体智慧阅读全文

posted @ 2014-04-02 14:42 左晓阅读(368) 评论(0) 推荐(0)

推荐引擎介绍1

摘要："探索推荐引擎内部的秘密"系列将带领读者从浅入深的学习探索推荐引擎的机制，实现方法，其中还涉及一些基本的优化方法，例如聚类和分类的应用。同时在理论讲解的基础上，还会结合 Apache Mahout 介绍如何在大规模数据上实现各种推荐策略，进行策略优化，构建高效的推荐引擎的方法。本文作为这个系列的第一篇文章，将深入介绍推荐引擎的工作原理，和其中涉及的各种推荐机制，以及它们各自的优缺点和适用场景，帮助用户清楚的了解和快速构建适合自己的推荐引擎。推荐引擎推荐引擎到底是怎么工作的。推荐引擎利用特殊的信息过滤技术，将不同的物品或内容推荐给可能对它们感兴趣的用户。图 1. 推荐引擎阅读全文

posted @ 2014-04-02 11:22 左晓阅读(392) 评论(0) 推荐(0)

距离和相似度量

摘要：在数据分析和数据挖掘的过程中，我们经常需要知道个体间差异的大小，进而评价个体的相似性和类别。最常见的是数据分析中的相关分析，数据挖掘中的分类和聚类算法，如K最近邻（KNN）和K均值（K-Means）。当然衡量个体差异的方法有很多，最近查阅了相关的资料，这里整理罗列下。为了方便下面的解释和举例，先设定我们要比较X个体和Y个体间的差异，它们都包含了N个维的特征，即X=（x1， x2， x3， … xn），Y=（y1， y2， y3， … yn）。下面来看看主要可以用哪些方法来衡量两者的差异，主要分为距离度量和相似度度量。距离度量距离度量（Distance）用于衡量个体在空间上存在的距离，距离越远说阅读全文

posted @ 2014-03-16 22:33 左晓阅读(351) 评论(0) 推荐(0)

皮尔逊相关度评价

摘要：1、用在数据不是很规范的时候2、最佳拟合线3、夸大分值4、皮尔逊积差系数数学特征其中，E是数学期望，cov表示协方差，和是标准差。因为，，同样地，对于，可以写成当两个变量的标准差都不为零，相关系数才有定义。从柯西-施瓦茨不等式可知，相关系数的绝对值不超过1。当两个变量的线性关系增强时，相关系数趋于1或-1。当一个变量增加而另一变量也增加时，相关系数大于0。当一个变量的增加而另一变量减少时，相关系数小于0。当两个变量独立时，相关系数为0.但反之并不成立。这是因为相关系数仅仅反映了两个变量之间是否线性相关。比如说，X是区间［－１，１］上的一个均匀分布的随机变量。Y=X2. 那么Y是完全由X确定。阅读全文

posted @ 2014-03-16 22:12 左晓阅读(1301) 评论(0) 推荐(0)

左晓

随笔分类 - DataMining

公告