2014年6月20日
摘要: 一:简介 基于用户的协同推荐算法随着使用者数量的增多,计算的时间就会变长,所以在2001年Sarwar提出了基于项目的协同过滤推荐算法(Item-based Collaborative Filtering Algorithms)。基于用户的协同推荐mahout没有实现分布式算法,Mahout基于It... 阅读全文
posted @ 2014-06-20 18:23 LIUSANNITY 阅读(703) 评论(0) 推荐(0) 编辑
摘要: 一:sqoop增量导入的两种方式Incremental import arguments:ArgumentDescription--check-column (col)Specifies the column to be examined when determining which rows to... 阅读全文
posted @ 2014-06-20 17:59 LIUSANNITY 阅读(2019) 评论(2) 推荐(0) 编辑
  2014年6月18日
摘要: 一:flume介绍 Flume是一个分布式、可靠、和高可用的海量日志聚合的系统,支持在系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。,Flume架构分为三个部分 源-Source,接收器-Sink,通道-Channel。二:配置... 阅读全文
posted @ 2014-06-18 18:22 LIUSANNITY 阅读(4072) 评论(1) 推荐(0) 编辑
  2014年6月16日
摘要: sqoop版本为1.4.4,hadoop版本为2.2.0,hive版本为0.11.0,hive元数据存放位置为mysql,当使用sqoop 从mysql往hive中导入数据时,总是提示找不到所指定的hive数据库,事实上hive中已存在该数据库,sqoop中也设置了hive路 径,/etc/pro... 阅读全文
posted @ 2014-06-16 17:36 LIUSANNITY 阅读(616) 评论(0) 推荐(0) 编辑
摘要: 一:下载软件包下载链接:1 http://mirrors.hust.edu.cn/apache/mahout/0.9/二:解压文件1 tar -zxvf mahout-distribution-0.9-src.tar.gz -C /usr/share/2 3 tar -zxvf mahout-... 阅读全文
posted @ 2014-06-16 17:14 LIUSANNITY 阅读(451) 评论(0) 推荐(0) 编辑