2016 年 11月随笔档案 - 无尽的缥缈

awk实现join

摘要：awk 有时确实比较省事，做些简单的文本处理，还是很方便的，在这介绍下两个文件的join的操作。原始文本 bb.txt cc.txt awk join主要是用到连个内置的变量 NR，FNR，先看这的区别 NR是读取所有的行号 FNR读取每个文件的行号索引号，当文件发生变化时，FNR从1开始计算当阅读全文

posted @ 2016-11-30 14:06 无尽的缥缈阅读(1518) 评论(0) 推荐(0)

转浅谈数据仓库建设中的数据建模方法

摘要：此文来自于https://www.ibm.com/developerworks/cn/data/library/techarticles/dm-0803zhousb/ 所谓水无定势，兵无常法。不同的行业，有不同行业的特点，因此，从业务角度看，其相应的数据模型是千差万别的。目前业界较为主流的是数据仓库阅读全文

posted @ 2016-11-29 15:48 无尽的缥缈阅读(547) 评论(0) 推荐(0)

数据仓库系列3-键

摘要：数仓模型是非常重要的，模型中键又是重中之重。今天简单讨论一下键。候选键包含主键和可选建，主键可以作为其它表的外键。主键的生成方式分为两类：自然键和代理键。主键都比较好懂，就是唯一键，重点说一下自然键和代理键。自然键和代理键的有啥区别呢? 自然键是已经真实存在的键，通常具有商业意义，比如e 阅读全文

posted @ 2016-11-26 23:36 无尽的缥缈阅读(1636) 评论(0) 推荐(0)

数据仓库系列4-范式

摘要：范式虽然在工作中没有很明确的用到，但是作为一个搞数据的人，时时刻刻在用着范式，虽然心里懂，但是每次别人问，都感觉说不出来的样子，为了加强进一步的理解，在这里简单的记录一下。有一句话概括了3范式，比较容易理解，每一个非健值属性必须依赖于健，依赖于整个健而不是健的一部分，并且不依赖于其它非健值属性。阅读全文

posted @ 2016-11-24 17:26 无尽的缥缈阅读(1113) 评论(1) 推荐(0)

hive中的桶

摘要：hive中有桶的概念，对于每一个表或者分区，可以进一步组织成桶，说白点，就是更细粒度的数据范围。hive采用列值哈希，然后除以桶的个数以求余的方式决定该条记录存放在哪个桶当中。使用桶的好处：1、获得更高的查询处理效率。桶为表加上了额外的结构，Hive在处理有些查询时能利用这个结构。具体而言，连接两个阅读全文

posted @ 2016-11-23 14:02 无尽的缥缈阅读(2889) 评论(1) 推荐(1)

MapReudce中常见join的方案

摘要：两表join在业务开发中是经常用到，了解了大数据join的原理，对于开发有很大的好处。 1、reduce side join reduce side join是一种简单的join的方法，具体思想如下：顾名思义就在reduce进行join，在map阶段，map同时读取两文件file1，file2，阅读全文

posted @ 2016-11-22 14:53 无尽的缥缈阅读(582) 评论(0) 推荐(0)

数据仓库系列2-基本概念

摘要：说起数据仓库，肯定得提到建模，建模就必须得知道一些基本的概念。 1、实体实体顾名思义就是真实的东西，因为建模就是把实际的东西通过数据模型表达出来，所以呢实体通常是名词，比如人，商店，房间等，都可以是实体。实体对应到数据库中呢，就是一张表。一般通过一张表来描述一份实体。实体呢也有很多分类，通常情阅读全文

posted @ 2016-11-21 21:49 无尽的缥缈阅读(320) 评论(0) 推荐(0)

大数据平台建设的思考

摘要：笔者经历过几家公司，传统行业，互联网行业都经历过，每家公司对于数据的处理，使用都各不相同，但是总体上架构上都大同小异，传统行业有传统行业的整体架构，目前已基本形成一套套完整的解决方案，互联网行业目前已基本形成一套整体的开源解决方案。传统行业一般都是用的商用软件，一方面是为了系统的稳定，一方面也是少有阅读全文

posted @ 2016-11-21 14:56 无尽的缥缈阅读(539) 评论(0) 推荐(0)

hive中的一些参数

摘要：动态分区设置如下参数开启动态分区：hive.exec.dynamic.partition=true默认值：false描述：是否允许动态分区hive.exec.dynamic.partition.mode=nonstrict默认值：strict描述：strict是避免全分区字段是动态的，必须有至少一阅读全文

posted @ 2016-11-18 10:53 无尽的缥缈阅读(613) 评论(0) 推荐(0)

sqoop job 踩过的坑

摘要：sqoop 执行可以以job形式也可以执行用命令执行，再用sqoopjob时，踩了几个坑，分享一下 1、服务器重启由于服务器增加硬盘，需要重启后，发现sqoop job 无法执行，报连接数据库IO之类的错误，但是sqoop命令是可以执行的，这也就奇怪了，刚开始以为是连接不上hadoop元数据库阅读全文

posted @ 2016-11-17 13:53 无尽的缥缈阅读(3307) 评论(1) 推荐(0)

【转】awk、nawk、mawk、gawk的简答介绍

摘要：来自http://blog.sina.com.cn/s/blog_3d2d79aa0100h47h.html awk 是一种编程语言，用于在linux/unix下对文本和数据进行处理。数据可以来自标准输入、一个或多个文件，或其它命令的输出（即管道）。它支持用户自定义函数和动态正则表达式等先进功能，阅读全文

posted @ 2016-11-17 11:28 无尽的缥缈阅读(604) 评论(0) 推荐(0)

awk用法

摘要：目前虽然有很多工具可以代替awk，但是呢我还是认为awk还是非常重要，比如有时候load数据到hive，mysql发现数据有点问题，这样可以先对比文件和库中数据是否一致，这样awk就发挥用处了，还有从文本中统计一些简单的数据，awk可是信手拈来。在这也简单的介绍下awk的用法。 awk命令格式与选项阅读全文

posted @ 2016-11-17 11:17 无尽的缥缈阅读(290) 评论(0) 推荐(0)

hive 中窗口函数row_number,rank,dense_ran,ntile分析函数的用法

摘要：hive中一般取top n时，row_number(),rank,dense_ran()这三个函数就派上用场了，先简单说下这三函数都是排名的，不过呢还有点细微的区别。通过代码运行结果一看就明白了。示例数据： sql语句结果从结果看出 rank() 排序相同时会重复，总数不会变 dense_ 阅读全文

posted @ 2016-11-10 17:34 无尽的缥缈阅读(24599) 评论(0) 推荐(2)

hive中order by,sort by, distribute by, cluster by的用法

摘要：1、order by hive中的order by 和传统sql中的order by 一样，对数据做全局排序，加上排序，会新启动一个job进行排序，会把所有数据放到同一个reduce中进行处理，不管数据多少，不管文件多少，都启用一个reduce进行处理。如果指定了hive.mapred.mode=s 阅读全文

posted @ 2016-11-02 19:22 无尽的缥缈阅读(3601) 评论(0) 推荐(0)