随笔分类 - Hadoop
最火热的大数据处理开源框架
摘要:自从2013年下半年开始,hadoop的版本开始了快速的更新换代,这和通信和互联网行业(ICT)的发展是密切相关的。随着移动网络的和宽带网络的覆盖以及数据传输速率的提升,线上的数据有了爆炸式的增长。这种趋势特别体现在大型的电商平台如淘宝、京东、亚马逊,海量数据的存储和处理问题成为了热门话题,在这种形
阅读全文
摘要:Mahout协同过滤算法 Mahout使用了Taste来提高协同过滤算法的实现,它是一个基于Java实现的可扩展的,高效的推荐引擎。Taste既实现了最基本的基于用户的和基于内容的推荐算法,同时也提供了扩展接口,使用户可以方便的定义和实现自己的推荐算法。同时,Taste不仅仅只适用于Java应用程序
阅读全文
摘要:Tomcat生产日志 Flume抓取日志下沉到kafka中 启动flume 如果没有创建该topic则新建topic 启动消费者 1修改tomcat的server.xml文件: 2表单中文乱码,在<%@ page %>下加一句<% request.setCharacterEncoding("utf-
阅读全文
摘要:通过流的方式操作hadoop的API 功能: 可以直接用来操作hadoop的文件系统 可以用在mapreduce的outputformat中设置RecordWrite 参考: 概念理解 http://blog.csdn.net/qq_30366667/article/details/73293452
阅读全文
摘要:测试运行环境 Win10 kafka_2.11-1.0.0 zookeeper-3.4.10 1.安装Zookeeper Kafka的运行依赖于Zookeeper,所以在运行Kafka之前我们需要安装并运行Zookeeper 1.下载安装文件: http://mirror.bit.edu.cn/ap
阅读全文
摘要:星形模型 雪花模型 星型模型是所有维度表都是连接在一个事实表上面,雪花模型是将维度表拆分地更加详细,是多层次的。 在星型模型的维度表里面,一张维度表储存了众多存在冗余的信息,为什么冗余,在哪里冗余,我想了一个简单的例子。 如 地域维表 国家a GDP 国家b GDP 国家a 省份a GDP 国家a
阅读全文
摘要:Hadoop的运行模式分为3种:本地运行模式,伪分布运行模式,集群运行模式,相应概念如下: 1、独立模式即本地运行模式(standalone或local mode)无需运行任何守护进程(daemon),所有程序都在单个JVM上执行。由于在本机模式下测试和调试MapReduce程序较为方便,因此,这种
阅读全文
摘要:执行mapreduce报错java.lang.Exception: java.lang.RuntimeException: java.lang.NoSuchMethodException: com.web.visit.main.ClickVist$VisitMapper.<init>(), 原因是m
阅读全文

浙公网安备 33010602011771号