随笔分类 - Big Date
大数据相关知识汇总,包括数据ETL技术、数据存储与管理技术、数据分析与挖掘技术
摘要:在现实中广泛使用的推荐系统一般都是基于协同过滤算法的,这类算法通常都需要计算用户与用户或者项目与项目之间的相似度,对于数据量以及数据类型不同的数据源,需要不同的相似度计算方法来提高推荐性能,在mahout提供了大量用于计算相似度的组件,这些组件分别实现了不同的相似度计算方法。下图用于实现相似度计算的组件之间的关系:图1、项目相似度计算组件图2、用户相似度计算组件下面就几个重点相似度计算方法做介绍:皮尔森相关度类名:PearsonCorrelationSimilarity原理:用来反映两个变量线性相关程度的统计量范围:[-1,1],绝对值越大,说明相关性越强,负相关对于推荐的意义小。说明:1、.
阅读全文
摘要:首先,创建一张表:CREATE TABLE example(ID Number(4) NOT NULL PRIMARY KEY,NAME VARCHAR(25));然后,自定义一个序列(sequence):CREATE SEQUENCE example_sequenceINCREMENT BY 1 -- 每次加几个START WITH 1 -- 从1开始计数NOMAXVALUE -- 不设置最大值NOCYCLE -- 一直累加,不循环NOCACHE -- 不建缓冲区再创建一个触发器:CREATE TRIGGERexample_triger BEFOREINSERT ON example FOR
阅读全文
摘要:对历史数据的保存是数据仓库的主要特征之一,在构建事实表时,通常都会有日期关键字来与日期维表进行关联,以实现对事实表基于日期特征的分析。如果数据仓库涉及的日期不是很长,简单可以通过excel工具手动来生成日期维表并导入到数据库中,但一般的数据仓库都会涉及很长时期的存储,所以手动方式的适用度并不强,当另外计算用VBA编程实现了日期维表数据的生成,也需要通过导入技术导入到数据库中,显得不是很方便。下面介绍两种利用数据库的一些小窍门,实现自动填充日期维表的方法,这两个方式在oracle 10g测试通过,可以直接拷贝代码使用。1、利用rownum,通过sql创建日期维表并直接生成数据rownum是数据表
阅读全文
摘要:搜索引擎是当前快速查找目标信息的最好途径。在用户对自己需求很明确时,用搜索引擎可以方便地通过关键字快速找到自己需要的信息。但搜索引擎并不能完全满足用户对信息发现的需求,因为在很多情况下,用户其实并不明确自己的需要,或者他们的需求很难用简单的关键字来表述,又或者他们需要更加符合他们个人口味和喜好的结果,因此出现了推荐系统,与搜索引擎对应,大家也习惯称它为推荐引擎。
阅读全文
摘要:mahout项目是由多个子项目组成的,各子项目分别位于源码的不同目录下,对源码目录进行简要的介绍和说明,了解各子项目的用途及相互关系。
阅读全文
摘要:Taste是 Apache Mahout 提供的一个个性化推荐引擎的高效实现,该引擎基于java实现,可扩展性强,同时在mahout中对一些推荐算法进行了MapReduce编程模式转化,从而可以利用hadoop的分布式架构,提高推荐算法的性能。
阅读全文
摘要:Apache Mahout 是 ApacheSoftware Foundation (ASF) 旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序,并且,在 Mahout 的最近版本中还加入了对Apache Hadoop 的支持,使这些算法可以更高效的运行在云计算环境中
阅读全文