摘要:
Spouts,流的源头 Spout是Storm里面特有的名词,Stream的源头,通常是从外部数据源读取tuples,并emit到topology Spout可以同时emit多个tupic stream,通过OutputFieldsDeclarer中的declareStream,method来定义 阅读全文
posted @ 2017-05-16 21:52
诸葛小四
阅读(378)
评论(0)
推荐(0)
摘要:
1. 两者分别是什么? Apache Hive是一个构建在Hadoop基础设施之上的数据仓库。通过Hive可以使用HQL语言查询存放在HDFS上的数据。HQL是一种类SQL语言,这种语言最终被转化为Map/Reduce. 虽然Hive提供了SQL查询功能,但是Hive不能够进行交互查询--因为它只能 阅读全文
posted @ 2017-05-16 21:51
诸葛小四
阅读(170)
评论(0)
推荐(0)
摘要:
首先可以通过hdfs.site.xml下面的dfs.block.size来设置数据的块大小,这个参数会决定map的总数目(4194304=4m) 然后通过mapred.site.xml下面的mapreduce.map.memory.mb参数来设置每个map分到的内存数目。 通过yarn.sidt.x 阅读全文
posted @ 2017-05-16 21:51
诸葛小四
阅读(498)
评论(0)
推荐(0)
摘要:
sudo apt-get install convmv 解压zip文件: convmv -f gbk -t utf8 -r --notest * 阅读全文
posted @ 2017-05-16 21:50
诸葛小四
阅读(1064)
评论(0)
推荐(0)
摘要:
在编写storm代码来进行实时分析的时候遇到了一些问题,有些的确令人比较头痛,现在稍微做一下整理。数据流向(本地-Spout-Bolt-Hdfs) 1数据的输入输出文件的路径选择 因为在此项目中数据是放在本地磁盘的,所有就有两种放数据的途径,一种是直接通过spout接受本地数据发送到任务中,另一种是 阅读全文
posted @ 2017-05-16 21:50
诸葛小四
阅读(204)
评论(0)
推荐(0)
摘要:
对于这个问题,大部分人出现在这个地方: 问题在于前面初始化settings时给cluster设置了个新的名字,如:Settings settings = ImmutableSettings.settingsBuilder().put("cluster.name", "tonsonmiao").bui 阅读全文
posted @ 2017-05-16 21:49
诸葛小四
阅读(15393)
评论(0)
推荐(0)
摘要:
Master日志错误:2015-12-02 06:34:32,394 ERROR [main] master.HMasterCommandLine: Master exitingjava.lang.RuntimeException: Failed construction of Master: cl 阅读全文
posted @ 2017-05-16 21:49
诸葛小四
阅读(6389)
评论(0)
推荐(0)
摘要:
1设置es索引的运行内存: 直接在启动文件里面改就好,启动命令是elasticsearch.bat,用notepad++编辑这个文件,里面添加这样的一行:SET ES_HEAP_SIZE=10g即可 2将es索引设置为.bat快捷启动,用管理员打开cmd命令窗口输入一下的命令:server.bat 阅读全文
posted @ 2017-05-16 21:48
诸葛小四
阅读(2044)
评论(0)
推荐(0)
摘要:
在hadoop-env.sh中修改参数添加 export HADOOP_HEAPSIZE="4096" 设置分配的最大jvm内存为4096,一般用于jar包里面除了执行map和reduce之外还要执行其他的后续代码,且后续代码所需要的内存占用大于1g。 当出现map或者reduce过程提示内存不足的 阅读全文
posted @ 2017-05-16 21:47
诸葛小四
阅读(1376)
评论(0)
推荐(0)

浙公网安备 33010602011771号