08 2014 档案

摘要:http://www.cnblogs.com/fangjins/archive/2012/05/06/2485459.htmlEclipse maven构建springmvc项目 阅读全文
posted @ 2014-08-28 14:42 jseven 阅读(173) 评论(0) 推荐(0)
摘要:1、spring框架下载http://maven.springframework.org/release/org/springframework/spring/2、apache系列软件下载http://archive.apache.org/dist/ 阅读全文
posted @ 2014-08-28 09:23 jseven 阅读(141) 评论(0) 推荐(0)
摘要:本文介绍了Facebook公司数据分析系统中的RCFile存储结构,该结构集行存储和列存储的优点于一身,在 MapReduce环境下的大规模数据分析中扮演重要角色。Facebook曾在2010 ICDE(IEEE International Conference on Data Engineerin... 阅读全文
posted @ 2014-08-10 09:57 jseven 阅读(274) 评论(0) 推荐(0)
摘要:一、 Hadoop 的高可用性1. 概论本指南提供了一个HDFS 的高可用性(HA )功能的概述,以及如何配置和管理HDFS 高可用性(HA) 集群。本文档假定读者具有对HDFS 集群的组件和节点类型具有一定理解。有关详情,请参阅Apache 的HDFS 的架构指南。http://hadoop.ap... 阅读全文
posted @ 2014-08-10 09:36 jseven 阅读(343) 评论(0) 推荐(0)
摘要:Hive UDF整理(可以直接在mysql上测试,hive中没有伪表,需要手动创建,反应慢)字符串函数字符串长度函数:length语法: length(string A)返回值: int说明:返回字符串A的长度举例:hive> select length(‘abcedfg’) from dual;7... 阅读全文
posted @ 2014-08-08 11:23 jseven 阅读(1684) 评论(0) 推荐(0)
摘要:最近的机器内存又爆满了,除了新增机器内存外,还应该好好review一下我们的代码,有很多代码编写过于随意化,这些不好的习惯或对程序语言的不了解是应该好好打压打压了。 下面是参考网络资源总结的一些在Java编程中尽可能要做到的一些地方。 1、尽量在合适的场合使用单例 使用单例可以减轻加载的负担,... 阅读全文
posted @ 2014-08-07 12:36 jseven 阅读(367) 评论(0) 推荐(0)
摘要:1、组件: 元存储(Metastore )-存储“系统目录以及关于表、列、分区等的元数据”的组件。 驱动(Driver )- 控制 HiveQL 生命周期的组件,当 HiveQL 查询穿过 Hive时。该驱动管理着会话句柄以及任何会话的统计。 查... 阅读全文
posted @ 2014-08-07 09:24 jseven 阅读(323) 评论(0) 推荐(0)
摘要:基础概念: relation bag tuple field data 关系(relation) = 包(bag) 一个包是一个元组(tuple)的集合,在pig中用{}扩起来表示一个包 一个元组(tuple)是若干个字段的有序集合(order set),在pig的数据结构中,用()扩起来... 阅读全文
posted @ 2014-08-07 09:22 jseven 阅读(1169) 评论(0) 推荐(0)
摘要:详情可以参考《Mahout实战》的第六章代码:package mahout.wiki;import java.io.IOException;import java.util.ArrayList;import java.util.Collections;import java.util.Iterato... 阅读全文
posted @ 2014-08-06 16:07 jseven 阅读(648) 评论(0) 推荐(0)
摘要:推荐引擎简介推荐引擎利用特殊的信息过滤(IF,Information Filtering)技术,将不同的内容(例如电影、音乐、书籍、新闻、图片、网页等)推荐给可能感兴趣的用户。通常情况下,推荐引擎的实现是通过将用户 的个人喜好与特定的参考特征进行比较,并试图预测用户对一些未评分项目的喜好程度。参考特... 阅读全文
posted @ 2014-08-06 15:49 jseven 阅读(228) 评论(0) 推荐(0)
摘要:直接代码吧,很清楚:package mahout;import java.io.BufferedInputStream;import java.io.BufferedReader;import java.io.BufferedWriter;import java.io.File;import jav... 阅读全文
posted @ 2014-08-05 15:01 jseven
摘要:这是一个约会网站,首先需要下载http://www.occamslab.com/petricek/data/libimseti-complete.zip:这个里面包含了用户对其他人档案的评分,针对评分那个文件,事先经历了数据的预处理:提出了生成评分个数不到20个的用户,还排除了几乎对每个档案都给出相... 阅读全文
posted @ 2014-08-05 14:26 jseven 阅读(451) 评论(0) 推荐(0)
摘要:请问下,如果有多个统计,要统计的数据都一样,每个统计只是group by 的key不一样,怎样做,才能让这些统计最快完成? 恩,比如有10个统计,每个统计都是读取的同一份数据,但是统计的维度不一样,就是groupby的key不一样你们都是怎么处理的?语句类似这个:: from( selectk1,k... 阅读全文
posted @ 2014-08-05 13:29 jseven 阅读(2327) 评论(0) 推荐(0)
摘要:1、今天试验SlopeOne推荐算法,结果没有提示。心想是不是少了jar包,查查不少。通过网络查询定位此类所在的位置为:org.apache.mahout.cf.taste.impl.recommender.slopeone.包下面,所以去查看jar包,发现没有。查看src包也没有这个类的源码,之后... 阅读全文
posted @ 2014-08-05 13:04 jseven 阅读(1199) 评论(0) 推荐(0)
摘要:基于物品的推荐,是以物品的相似度为基础的。在mahout中意味着使用ItemSimilarity实现相似性度量,而不是UserSimilarity。他们分别是通过相似的用户和相似的物品。基于物品的:了解用户的喜好,并寻找相似的物品基于用户的:寻找相似的用户,并了解他们喜好什么。如果物品数比用户数少很... 阅读全文
posted @ 2014-08-05 12:28 jseven 阅读(1746) 评论(0) 推荐(0)
摘要:将各个计算用户相似度的方法弄过来了,可以参考下。实际运行代码数据文件 intro.csv内容: 直接复制就行了1,101,5.01,102,3.01,103,2.52,101,2.02,102,2.52,103,5.02,104,2.03,101,2.53,104,4.03,105,4.53,107... 阅读全文
posted @ 2014-08-05 11:50 jseven 阅读(907) 评论(0) 推荐(0)
摘要:问题:比如查询一个用户连续登陆天数超过7天的用户,或者查询连续在7天的某个时间段登陆的用户。 网上查询sql的语句的用法,对于hive来说也可以试试,查询词"SQL 连续天数查询" 如果使用hadoop如何解决?? 思路(以连续N天登陆为例): 1、计算出每天登陆的用户集合 1、使... 阅读全文
posted @ 2014-08-05 09:42 jseven 阅读(1655) 评论(0) 推荐(0)
摘要:聚类: 是否可以将事物归为一个簇,完全取决于我们在考量它们之间相似性时所选择的特征参数。 聚类,就是将一个给定文档中的相似项目分成不同簇的过程,我们可以将这些簇看做一组簇内相似而簇间有别的项目的集合。 1、一个算法,将书组织在一起的方法 2、相似性和不相似性的概念 3、停止的条件 簇的中... 阅读全文
posted @ 2014-08-04 15:54 jseven 阅读(142) 评论(0) 推荐(0)
摘要:摘要 : 伟人是让人控制产品,而不是用产品去控制人。伟人是用产品服务用户,用善激励用户,而不是用产品胁迫用户,用恶驱动用户。伟人有实力去实现他的真情怀,而不是被情怀拖累,或者把情怀当成遮羞布。如何才叫“伟人”?伟人是让人控制产品,而不是用产品去控制人。伟人是用产品服务用户,用善激励用户,而不是用产品... 阅读全文
posted @ 2014-08-04 14:36 jseven 阅读(161) 评论(0) 推荐(0)
摘要:1、固定大小的用户邻域package mahout;import java.io.File;import java.io.IOException;import org.apache.mahout.cf.taste.common.TasteException;import org.apache.mah... 阅读全文
posted @ 2014-08-04 14:04 jseven 阅读(468) 评论(0) 推荐(0)
摘要:数据集下载地址:http://grouplens.org/datasets/movielens/ 之前用的是100K的,现在需要下载MovieLens 10M,使用里面的ratings.dat前提:因为文件不符合mahout要求的文件输入格式,需要进行转换,但是example里提供了一个解析这个文件... 阅读全文
posted @ 2014-08-04 13:17 jseven 阅读(1180) 评论(0) 推荐(0)
摘要:基于用户的推荐和基于物品的推荐两种算法,均依赖于两个事物(用户或物品)之间的相似性度量(等同性定义),相似性度量的方法:PearsonCorrealation皮尔逊相关系数,对数似然值Loglikelihood,斯皮尔曼相关系数SpearmanCorrelation,谷本系数TanimotoCoef... 阅读全文
posted @ 2014-08-04 13:03 jseven 阅读(360) 评论(0) 推荐(0)
摘要:直接上代码吧:package mahout;import java.io.File;import org.apache.mahout.cf.taste.common.TasteException;import org.apache.mahout.cf.taste.eval.DataModelBuil... 阅读全文
posted @ 2014-08-04 12:48 jseven 阅读(734) 评论(0) 推荐(0)
摘要:用户和物品是关联的,但是没有这种关联的强度描述,如用户浏览文章。无偏好值的内存实现: 重要是datamodel和modelbuilder的实现。package mahout;import java.io.File;import org.apache.mahout.cf.taste.common.T... 阅读全文
posted @ 2014-08-04 11:45 jseven 阅读(637) 评论(0) 推荐(0)
摘要:1、内存级别的datamodel 就是直接采用程序进行构建的那种。 示例: package mahout;import org.apache.mahout.cf.taste.impl.common.FastByIDMap;import org.apache.mahout.cf.taste.im... 阅读全文
posted @ 2014-08-04 10:53 jseven 阅读(1674) 评论(0) 推荐(0)
摘要:Preference对象:单个用户Id,物品ID和偏好值,实现GenericPreferencePreferenceArray数组,单个用户所有偏好值数组,实现GenericPreferenceArray代码示例:package mahout;import org.apache.mahout.cf.... 阅读全文
posted @ 2014-08-04 10:23 jseven 阅读(474) 评论(0) 推荐(0)
摘要:使用GroupLens数据集ua.base这是一个tab分割的文件,用户Id,物品Id,评分(偏好值),以及附加信息。可用吗?之前使用的是CSV格式,现在是tsv格式,可用,使用FileDataModel对mahout推荐2中的评估程序使用这个数据集测试:package mahout;import ... 阅读全文
posted @ 2014-08-04 10:01 jseven 阅读(837) 评论(0) 推荐(0)
摘要:通过估计偏好值来生成推荐结果并非绝对必要。给出一个从优到劣的推荐列表对于许多场景都够用了,而不必包含估计的偏好值。查准率:在top结果中相关结果的比例查全率:所有相关结果,包含在top结果中的比例对上个例子进行测试:package mahout;import java.io.File;import ... 阅读全文
posted @ 2014-08-04 09:49 jseven 阅读(1028) 评论(0) 推荐(0)
摘要:设计好了一个推荐程序,如何来完成评估呢?一般是使用一个真实数据的样例作为测试数据来仿真,来看估计值和实际值的差别,0.0意味着完美的估计,就是没有差别。一是使用平均差值(直观,易于理解),一是使用均方根。针对mahout推荐1的推荐程序进行评估:package mahout;import java.... 阅读全文
posted @ 2014-08-04 09:24 jseven 阅读(561) 评论(0) 推荐(0)
摘要:1、准备数据:intro.csv:1,101,5.01,102,3.01,103,2.52,101,2.02,102,2.52,103,5.02,104,2.03,101,2.53,104,4.03,105,4.53,107,5.04,101,5.04,103,3.04,104,4.54,106,4... 阅读全文
posted @ 2014-08-04 08:55 jseven 阅读(275) 评论(0) 推荐(0)
摘要:摘要 : 人类不知道的远远比知道的更有意义。历史永远不是线性发展,每一次跳跃前行中都有「黑天鹅」的身影。这就是「黑天鹅事件」要告诉我们的真相。上一篇文章里引用了「黑天鹅事件」这么个高贵冷艳的词汇,惹得众多读者发来讯息,让我讲讲黑天鹅的事。今天给大家简单说一点我对黑天鹅事件和大数据的认识。如果你像很多... 阅读全文
posted @ 2014-08-01 12:53 jseven