摘要:canopy是聚类算法的一种实现它是一种快速,简单,但是不太准确的聚类算法canopy通过两个人为确定的阈值t1,t2来对数据进行计算,可以达到将一堆混乱的数据分类成有一定规则的n个数据堆由于canopy算法本身的目的只是将混乱的数据划分成大概的几个类别,所以它是不太准确的但是通过canopy计算出... 阅读全文
posted @ 2015-04-15 19:01 蒋源德 阅读(386) 评论(0) 推荐(0) 编辑
摘要:在使用mahout之前要安装并启动hadoop集群将mahout的包上传至linux中并解压即可mahout下载地址:点击打开链接mahout中的算法大致可以分为三大类:聚类,协同过滤和分类其中常用聚类算法有:canopy聚类,k均值算法(kmeans),模糊k均值,层次聚类,LDA聚类等常用分类算... 阅读全文
posted @ 2015-04-15 19:00 蒋源德 阅读(1399) 评论(0) 推荐(0) 编辑
摘要:MapReduce原理要知道怎么对MapReduce作业进行调优前提条件是需要对Map-Reduce的过程了然于胸。 Map-Reduce运行原理图: Map Side1.从磁盘读取数据并分片默认每个block对应一个分片,一个map task2.进行map处理运行自定义的map业... 阅读全文
posted @ 2016-03-18 13:54 蒋源德 阅读(271) 评论(0) 推荐(0) 编辑
摘要:数据类型的选择自定义数据类型参考:Hadoop提交作业自定义排序和分组MapWritable/SortedMapWritableHadoop中可传输的Map集合,和Java中的Map用法差不多,但是可以用与mapper和reducer之间的数据传输Map输出不同类型的Value使用... 阅读全文
posted @ 2016-03-18 13:53 蒋源德 阅读(171) 评论(0) 推荐(0) 编辑
摘要:总结一下在生产环境部署Hadoop+Spark+HBase+Hue等产品遇到的问题、提高效率的方法和相关的配置。集群规划假设现在生产环境的信息如下: 服务器数量:6 操作系统:Centos7 Master节点数:2 Zookeeper节点数:3 Slave节点数:4 ... 阅读全文
posted @ 2016-03-18 13:44 蒋源德 阅读(1326) 评论(0) 推荐(1) 编辑
摘要:大数据平台生产环境部署指南@(Hadoop)总结一下在生产环境部署Hadoop+Spark+HBase+Hue等产品遇到的问题、提高效率的方法和相关的配置。集群规划假设现在生产环境的信息如下: 服务器数量:6 操作系统:Centos7 Master节点数:2 Zooke... 阅读全文
posted @ 2016-03-15 09:56 蒋源德 阅读(3814) 评论(0) 推荐(0) 编辑
摘要:自定义分片策略解决大量小文件问题@(Hadoop)默认的TextInputFormat应该都知道默认的TextInputFormat是一行行的读取文件内容,这对于一个或几个超大型的文件来说并没有什么问题,但是在实验读取大量小文件的时候,性能及其低下。实验过程分别有5个文件夹,每个文... 阅读全文
posted @ 2016-03-01 11:41 蒋源德 阅读(178) 评论(0) 推荐(0) 编辑
摘要:ItermCF的MR并行实现@(Hadoop)ItermCF的基本思想基于物品相似度的协同过滤推荐的思想大致可分为两部分: 1.计算物与物之前的相似度 2.根据用户的行为历史,给出和历史列表中的物品相似度最高的推荐通俗的来讲就是:对于物品 A,根据所有用户的历史偏好,喜欢物品... 阅读全文
posted @ 2016-02-26 17:42 蒋源德 阅读(339) 评论(0) 推荐(0) 编辑
摘要:MapReduce中的分布式缓存使用@(Hadoop)简介DistributedCache是Hadoop为MapReduce框架提供的一种分布式缓存机制,它会将需要缓存的文件分发到各个执行任务的子节点的机器中,各个节点可以自行读取本地文件系统上的数据进行处理。符号链接可以同在原本H... 阅读全文
posted @ 2016-02-26 16:51 蒋源德 阅读(2608) 评论(0) 推荐(0) 编辑
摘要:多个Mapper和Reducer的Job@(Hadoop)对于复杂的mr任务来说,只有一个map和reduce往往是不能够满足任务需求的,有可能是需要n个map之后进行reduce,reduce之后又要进行m个map。在hadoop的mr编程中可以使用ChainMapper和Cha... 阅读全文
posted @ 2016-02-22 21:21 蒋源德 阅读(104) 评论(0) 推荐(0) 编辑
摘要:多个Mapper和Reducer的Job@(Hadoop)对于复杂的mr任务来说,只有一个map和reduce往往是不能够满足任务需求的,有可能是需要n个map之后进行reduce,reduce之后又要进行m个map。在hadoop的mr编程中可以使用ChainMapper和Cha... 阅读全文
posted @ 2016-02-22 21:20 蒋源德 阅读(2786) 评论(0) 推荐(0) 编辑
摘要:Hive配置与操作实践@(Hadoop)安装hivehive的安装十分简单,只需要在一台服务器上部署即可。上传hive安装包,解压缩,将其配入环境变量。mysql的设置在要作为元数据库的mysql服务器上建立hive数据库:#建立数据库create database if not ... 阅读全文
posted @ 2016-01-25 16:12 蒋源德 阅读(4520) 评论(0) 推荐(0) 编辑