awk实现join
摘要:awk 有时确实比较省事,做些简单的文本处理,还是很方便的,在这介绍下两个文件的join的操作。 原始文本 bb.txt cc.txt awk join主要是用到连个内置的变量 NR,FNR,先看这的区别 NR是读取所有的行号 FNR读取每个文件的行号索引号,当文件发生变化时,FNR从1开始计算 当
阅读全文
posted @
2016-11-30 14:06
无尽的缥缈
阅读(1518)
推荐(0)
转浅谈数据仓库建设中的数据建模方法
摘要:此文来自于https://www.ibm.com/developerworks/cn/data/library/techarticles/dm-0803zhousb/ 所谓水无定势,兵无常法。不同的行业,有不同行业的特点,因此,从业务角度看,其相应的数据模型是千差万别的。目前业界较为主流的是数据仓库
阅读全文
posted @
2016-11-29 15:48
无尽的缥缈
阅读(547)
推荐(0)
数据仓库系列3-键
摘要:数仓模型是非常重要的,模型中键又是重中之重。 今天简单讨论一下键。 候选键包含主键 和可选建,主键可以作为其它表的外键。 主键的生成方式分为两类:自然键和代理键。 主键都比较好懂,就是唯一键,重点说一下自然键和代理键。 自然键和代理键的有啥区别呢? 自然键是已经真实存在的键,通常具有商业意义,比如e
阅读全文
posted @
2016-11-26 23:36
无尽的缥缈
阅读(1636)
推荐(0)
数据仓库系列4-范式
摘要:范式虽然在工作中没有很明确的用到,但是作为一个搞数据的人,时时刻刻在用着范式,虽然心里懂,但是每次别人问,都感觉说不出来的样子,为了加强进一步的理解,在这里简单的记录一下。 有一句话概括了3范式,比较容易理解,每一个非健值属性必须依赖于健,依赖于整个健而不是健的一部分,并且不依赖于其它非健值属性。
阅读全文
posted @
2016-11-24 17:26
无尽的缥缈
阅读(1113)
推荐(0)
hive中的桶
摘要:hive中有桶的概念,对于每一个表或者分区,可以进一步组织成桶,说白点,就是更细粒度的数据范围。hive采用列值哈希,然后除以桶的个数以求余的方式决定该条记录存放在哪个桶当中。使用桶的好处:1、获得更高的查询处理效率。桶为表加上了额外的结构,Hive在处理有些查询时能利用这个结构。具体而言,连接两个
阅读全文
posted @
2016-11-23 14:02
无尽的缥缈
阅读(2889)
推荐(1)
MapReudce中常见join的方案
摘要:两表join在业务开发中是经常用到,了解了大数据join的原理,对于开发有很大的好处。 1、reduce side join reduce side join是一种简单的join的方法,具体思想如下: 顾名思义就在reduce进行join, 在map阶段,map同时读取两文件file1,file2,
阅读全文
posted @
2016-11-22 14:53
无尽的缥缈
阅读(582)
推荐(0)
数据仓库系列2-基本概念
摘要:说起数据仓库,肯定得提到建模,建模就必须得知道一些基本的概念。 1、实体 实体顾名思义就是真实的东西,因为建模就是把实际的东西通过数据模型表达出来,所以呢实体通常是名词,比如人,商店,房间等,都可以是实体。 实体对应到数据库中呢,就是一张表。一般通过一张表来描述一份实体。 实体呢也有很多分类,通常情
阅读全文
posted @
2016-11-21 21:49
无尽的缥缈
阅读(320)
推荐(0)
大数据平台建设的思考
摘要:笔者经历过几家公司,传统行业,互联网行业都经历过,每家公司对于数据的处理,使用都各不相同,但是总体上架构上都大同小异,传统行业有传统行业的整体架构,目前已基本形成一套套完整的解决方案,互联网行业目前已基本形成一套整体的开源解决方案。传统行业一般都是用的商用软件,一方面是为了系统的稳定,一方面也是少有
阅读全文
posted @
2016-11-21 14:56
无尽的缥缈
阅读(539)
推荐(0)
hive中的一些参数
摘要:动态分区 设置如下参数开启动态分区:hive.exec.dynamic.partition=true默认值:false描述:是否允许动态分区hive.exec.dynamic.partition.mode=nonstrict默认值:strict描述:strict是避免全分区字段是动态的,必须有至少一
阅读全文
posted @
2016-11-18 10:53
无尽的缥缈
阅读(613)
推荐(0)
sqoop job 踩过的坑
摘要:sqoop 执行可以以job形式 也可以执行用命令执行,再用sqoopjob时,踩了几个坑,分享一下 1、服务器重启 由于服务器增加硬盘,需要重启后,发现sqoop job 无法执行,报连接数据库IO之类的错误,但是sqoop命令是可以执行的, 这也就奇怪了,刚开始以为是连接不上hadoop元数据库
阅读全文
posted @
2016-11-17 13:53
无尽的缥缈
阅读(3307)
推荐(0)
【转】awk、nawk、mawk、gawk的简答介绍
摘要:来自http://blog.sina.com.cn/s/blog_3d2d79aa0100h47h.html awk 是一种编程语言,用于在linux/unix下对文本和数据进行处理。数据可以来自标准输入、一个或多个文件,或其它命令的输出(即管道)。它支持用户自定义函数和 动态正则表达式等先进功能,
阅读全文
posted @
2016-11-17 11:28
无尽的缥缈
阅读(604)
推荐(0)
awk用法
摘要:目前虽然有很多工具可以代替awk,但是呢我还是认为awk还是非常重要,比如有时候load数据到hive,mysql发现数据有点问题,这样可以先对比文件和库中数据是否一致,这样awk就发挥用处了,还有从文本中统计一些简单的数据,awk可是信手拈来。在这也简单的介绍下awk的用法。 awk命令格式与选项
阅读全文
posted @
2016-11-17 11:17
无尽的缥缈
阅读(290)
推荐(0)
hive 中窗口函数row_number,rank,dense_ran,ntile分析函数的用法
摘要:hive中一般取top n时,row_number(),rank,dense_ran()这三个函数就派上用场了, 先简单说下这三函数都是排名的,不过呢还有点细微的区别。 通过代码运行结果一看就明白了。 示例数据: sql语句 结果 从结果看出 rank() 排序相同时会重复,总数不会变 dense_
阅读全文
posted @
2016-11-10 17:34
无尽的缥缈
阅读(24599)
推荐(2)
hive中order by,sort by, distribute by, cluster by的用法
摘要:1、order by hive中的order by 和传统sql中的order by 一样,对数据做全局排序,加上排序,会新启动一个job进行排序,会把所有数据放到同一个reduce中进行处理,不管数据多少,不管文件多少,都启用一个reduce进行处理。如果指定了hive.mapred.mode=s
阅读全文
posted @
2016-11-02 19:22
无尽的缥缈
阅读(3601)
推荐(0)