摘要: 在map阶段读取数据前,FileInputFormat会将输入文件分割成split。split的个数决定了map的个数。影响map个数(split个数)的主要因素有: 1) 文件的大小。当块(dfs.block.size)为128m时,如果输入文件为128m,会被划分为1个split;当块为256m 阅读全文
posted @ 2016-07-16 16:33 刘超★ljc 阅读(7574) 评论(3) 推荐(0) 编辑
摘要: 一、 配置ssh 1. 命令 ssh-keygen [选项] 2. 说明 用于为“ssh”生成、管理和转换认证密钥,它支持RSA和DSA两种认证密钥 3. 选项 -C:添加注释 -f:指定用来保存密钥的文件名 -l:显示公钥文件的指纹数据 -q:静默模式 -t:指定要创建的密钥类型,密钥类型包括rs 阅读全文
posted @ 2016-07-16 15:16 刘超★ljc 阅读(929) 评论(0) 推荐(1) 编辑
摘要: kafka(官网地址:http://kafka.apache.org)是一款分布式消息发布和订阅的系统 在Flume中的KafkaChannel支持Flume与Kafka整合,可以将Kafka当做channel使用,其主要配置项如下 阅读全文
posted @ 2016-07-16 14:41 刘超★ljc 阅读(1316) 评论(0) 推荐(0) 编辑
摘要: NetCat是一个非常简单的Unix工具,可以读、写TCP或UDP网络连接(network connection)中数据 在Flume中的netcat支持Flume与NetCat整合,flume可以使用netcat读取网络中的数据,其主要配置项如下 启动flume(./flume-ng agent 阅读全文
posted @ 2016-07-16 14:08 刘超★ljc 阅读(1210) 评论(0) 推荐(0) 编辑
摘要: ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可 阅读全文
posted @ 2016-07-16 11:19 刘超★ljc 阅读(3400) 评论(0) 推荐(0) 编辑
摘要: java -Xmx3550m -Xms3550m -Xmn2g -Xss128k1、-Xmx3550m:设置JVM最大可用内存为3550M。2、-Xms3550m:设置JVM促使内存为3550m。此值可以设置与-Xmx相同,以避免每次垃圾回收完成后JVM重新分配内存。3、-Xmn2g:设置年轻代大小 阅读全文
posted @ 2016-07-16 10:40 刘超★ljc 阅读(818) 评论(0) 推荐(0) 编辑