Hadoop - 随笔分类 - 知识小书包

Hadoop版本的选择问题

摘要：自从2013年下半年开始，hadoop的版本开始了快速的更新换代，这和通信和互联网行业(ICT)的发展是密切相关的。随着移动网络的和宽带网络的覆盖以及数据传输速率的提升，线上的数据有了爆炸式的增长。这种趋势特别体现在大型的电商平台如淘宝、京东、亚马逊，海量数据的存储和处理问题成为了热门话题，在这种形阅读全文

posted @ 2018-08-18 16:27 知识小书包阅读(8631) 评论(1) 推荐(1)

mahout协同过滤算法各接口

摘要：Mahout协同过滤算法 Mahout使用了Taste来提高协同过滤算法的实现，它是一个基于Java实现的可扩展的，高效的推荐引擎。Taste既实现了最基本的基于用户的和基于内容的推荐算法，同时也提供了扩展接口，使用户可以方便的定义和实现自己的推荐算法。同时，Taste不仅仅只适用于Java应用程序阅读全文

posted @ 2018-04-21 12:27 知识小书包阅读(370) 评论(0) 推荐(0)

使用flume抓取tomcat的日志文件下沉到kafka消费

摘要：Tomcat生产日志 Flume抓取日志下沉到kafka中启动flume 如果没有创建该topic则新建topic 启动消费者 1修改tomcat的server.xml文件： 2表单中文乱码,在<%@ page %>下加一句<% request.setCharacterEncoding("utf- 阅读全文

posted @ 2018-03-26 23:27 知识小书包阅读(1674) 评论(3) 推荐(0)

通过流的方式操作hadoop的API

摘要：通过流的方式操作hadoop的API 功能: 可以直接用来操作hadoop的文件系统可以用在mapreduce的outputformat中设置RecordWrite 参考: 概念理解 http://blog.csdn.net/qq_30366667/article/details/73293452 阅读全文

posted @ 2018-02-28 14:45 知识小书包阅读(212) 评论(0) 推荐(0)

Windows环境下使用kafka单机模式

摘要：测试运行环境 Win10 kafka_2.11-1.0.0 zookeeper-3.4.10 1.安装Zookeeper Kafka的运行依赖于Zookeeper，所以在运行Kafka之前我们需要安装并运行Zookeeper 1.下载安装文件： http://mirror.bit.edu.cn/ap 阅读全文

posted @ 2018-02-27 15:23 知识小书包阅读(1129) 评论(0) 推荐(0)

对星型模型和雪花模型的简单理解

摘要：星形模型雪花模型星型模型是所有维度表都是连接在一个事实表上面，雪花模型是将维度表拆分地更加详细，是多层次的。在星型模型的维度表里面，一张维度表储存了众多存在冗余的信息，为什么冗余，在哪里冗余，我想了一个简单的例子。如地域维表国家a GDP 国家b GDP 国家a 省份a GDP 国家a 阅读全文

posted @ 2018-02-21 17:36 知识小书包阅读(3179) 评论(0) 推荐(0)

简单说明hadoop集群运行三种模式和配置文件

摘要：Hadoop的运行模式分为3种：本地运行模式，伪分布运行模式，集群运行模式，相应概念如下： 1、独立模式即本地运行模式（standalone或local mode）无需运行任何守护进程（daemon），所有程序都在单个JVM上执行。由于在本机模式下测试和调试MapReduce程序较为方便，因此，这种阅读全文

posted @ 2018-02-20 15:58 知识小书包阅读(6445) 评论(0) 推荐(0)

出现java.lang.Exception: java.lang.RuntimeException: java.lang.NoSuchMethodException: com.web.visit.main.ClickVist$VisitMapper.<init>()的问题

摘要：执行mapreduce报错java.lang.Exception: java.lang.RuntimeException: java.lang.NoSuchMethodException: com.web.visit.main.ClickVist$VisitMapper.<init>()，原因是m 阅读全文

posted @ 2018-02-19 14:36 知识小书包阅读(1544) 评论(0) 推荐(0)

小书包

问渠那得清如许，为有源头活水来

随笔分类 - Hadoop

公告