上一页 1 ··· 3 4 5 6 7 8 9 10 下一页
摘要: 1)Distcp(分布式拷贝)是用于大规模集群内部和集群之间拷贝的工具。2)distcp命令是以MR作业(没有R任务)的形式实现的,把文件和目录的列表作为M任务的输入。每一个文件是由一个M任务来拷贝的,distcp尽量把大小之和相同的各个文件导入到同一个M任务中。这样可以每个M任务拷贝的数据量大致相... 阅读全文
posted @ 2015-08-20 11:37 skyl夜 阅读(2993) 评论(0) 推荐(0) 编辑
摘要: 1.HDFS的Block块概念HDFS默认的Block块大小为128 MB。为何HDFS中的一个块那么大?HDFS的block块比磁盘的块大,目的是为了减小寻址开销。通过让一个块足够大,从磁盘转移数据的时间能够远远大于定位这个块开始端的时间。因此,传送一个由多个块组成的文件的时间就取决于磁盘传输送率... 阅读全文
posted @ 2015-08-20 11:27 skyl夜 阅读(302) 评论(0) 推荐(0) 编辑
摘要: 1.简介awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大。简单来说awk就是把文件逐行读入,默认以空格为分隔符将每行切片,切开的部分再进行各种分析处理。2.使用方法awk '{pattern + action}' {filenames... 阅读全文
posted @ 2015-08-19 21:31 skyl夜 阅读(268) 评论(0) 推荐(0) 编辑
摘要: 1.HQL是否区分大小写 不区分hive> select AGE from default.studeNT; --不区分大小写,即使是表中字段2.查看创建表过程 show create tablehive> show create table default.student; --查看创建表过... 阅读全文
posted @ 2015-08-19 13:04 skyl夜 阅读(2038) 评论(0) 推荐(0) 编辑
摘要: TextFileHive数据表的默认格式,存储方式:行存储。可使用Gzip,Bzip2等压缩算法压缩,压缩后的文件不支持split但在反序列化过程中,必须逐个字符判断是不是分隔符和行结束符,因此反序列化开销会比SequenceFile高几十倍。--创建数据表:create table if not ... 阅读全文
posted @ 2015-08-18 18:42 skyl夜 阅读(14718) 评论(2) 推荐(4) 编辑
摘要: Counters: 44File System Counters FILE: Number of bytes read=655771325 FILE: Number of bytes written=984244425 FILE: Number of rea... 阅读全文
posted @ 2015-08-18 16:35 skyl夜 阅读(2356) 评论(0) 推荐(0) 编辑
摘要: #sqoop安装1.常规步骤(安装在一台节点上即可)由于sqoop2配置相对比较麻烦,此次使用的是sqoop1进行演示。上传sqoop-1.4.4.bin_hadoop-2.0.4-alpha.tar.gz文件至/hadoop目录下,解压并重命名为sqoop-1.4.4,配置/etc/profile... 阅读全文
posted @ 2015-08-18 15:30 skyl夜 阅读(657) 评论(0) 推荐(0) 编辑
摘要: 对于Table或者Partition,Hive可以进一步组织成桶,也就是说桶Bucket是更为细粒度的数据范围划分。Bucket是对指定列进行hash,然后根据hash值除以桶的个数进行求余,决定该条记录存放在哪个桶中。优点①:获得更高的查询处理效率。桶为表加上了额外的结构,Hive在处理有些查询时... 阅读全文
posted @ 2015-08-17 21:35 skyl夜 阅读(1060) 评论(0) 推荐(0) 编辑
摘要: Hive中的视图是只读的,所以无法通过视图向基表(basetable)加载或插入数据。视图的SELECT语句只在执行引用视图的语句时才执行。对于上节用于查询每年各个气象站气温最大值的均值的HQL语句,可以先创建一个记录有效记录(即有特定quality值)的视图:CREATE VIEW valid_r... 阅读全文
posted @ 2015-08-17 18:55 skyl夜 阅读(1733) 评论(0) 推荐(0) 编辑
摘要: Hive的Explain命令,用于显示SQL查询的执行计划。Hive查询被转化成序列阶段(这是一个有向无环图)。这些阶段可能是mapper/reducer阶段,或者是Metastore或文件系统的操作,如移动和重命名的阶段。例子hive> explain [extended] --加上关键字exte... 阅读全文
posted @ 2015-08-17 18:52 skyl夜 阅读(8338) 评论(0) 推荐(2) 编辑
上一页 1 ··· 3 4 5 6 7 8 9 10 下一页