09 2017 档案
摘要:Configuration FileConfiguration SettingValue Calculation 8G VM (4G For MR) yarn-site.xmlyarn.nodemanager.resource.memory-mb= containers * RAM-per-container4096yarn-site.xmlyarn.scheduler.minim...
阅读全文
摘要:本文经过大量细致的优化后,收录于我的新书《编程之法》第六章中,新书目前已上架京东/当当/亚马逊前言一般而言,标题含有“秒杀”,“99%”,“史上最全/最强”等词汇的往往都脱不了哗众取宠之嫌,但进一步来讲,如果读者读罢此文,却无任何收获,那么,我也甘愿背负这样的罪名 :-),同时,此文可以看做是对这篇文章:十道海量数据处理面试题与十个方法大总结的一般抽象性总结。毕竟受文章和理论之限,本文将摒弃绝大部...
阅读全文
摘要:转自:http://blog.csdn.net/v_july_v/article/details/62794981、海量日志数据,提取出某日访问百度次数最多的那个IP。首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(...
阅读全文
摘要:[root@chavinking mnt]# cat textfile chavinking 1 2 3 4 5 6nope 1 2 3 4 5 6[root@chavinking mnt]# cat textfile | awk '{for(i=1;i<=$NF+1;i++){sum=sum+$i} {print $1" "sum;sum=0}}'chavinking 21nope 21[roo...
阅读全文
摘要:简介本文主要介绍hive中的窗口函数.hive中的窗口函数和sql中的窗口函数相类似,都是用来做一些数据分析类的工作,一般用于olap分析概念我们都知道在sql中有一类函数叫做聚合函数,例如sum()、avg()、max()等等,这类函数可以将多行数据按照规则聚集为一行,一般来讲聚集后的行数是要少于聚集前的行数的.但是有时我们想要既显示聚集前的数据,又要显示聚集后的数据,这时我们便引入了窗口函数....
阅读全文
摘要:结论: order by:全局排序,这也是4种排序手段中唯一一个能在终端输出中看出全局排序的方法,只有一个reduce,可能造成renduce任务时间过长,在严格模式下,要求必须具备limit子句。 sort by:可以运行多个reduce,每个reduce内排序,默认升序排序。 distribut
阅读全文
摘要:对于每一个表(table)或者分区, Hive可以进一步组织成桶,也就是说桶是更为细粒度的数据范围划分。Hive也是针对某一列进行桶的组织。Hive采用对列值哈希,然后除以桶的个数求余的方式决定该条记录存放在哪个桶当中。所谓Hive中的分桶,实际就是指的MapReduce中的分区。根据Reduce的数量,分成不同个数的文件。我们先准备我们将使用的分桶表的数据.1,jack,2016/11/112,...
阅读全文
摘要:1、hive参数优化之默认启用本地模式启动hive本地模式参数,一般建议将其设置为true,即时刻启用:hive (chavin)> set hive.exec.mode.local.auto; hive.exec.mode.local.auto=false2、设置hive执行模式hive (default)> set hive.mapred.mode;hive.mapred.mode=n...
阅读全文
摘要:动态分区插入可以基于查询语句分出出要插入的分区名称。比如,下面向分区表插入数据的SQL:insert into table chavin.emp_pat partition(dname,loc)select e.empno,e.ename,e.job,e.mgr,e.hiredate,e.sal,e.comm,e.deptno,d.dname,d.loc from dept d join emp ...
阅读全文
摘要:一、调整hive作业中的map数1.通常情况下,作业会通过input的目录产生一个或者多个map任务。主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);2.举例:a)假设input目录下有1个文件a,大小为780M,那么hadoop会将该文件a分隔成7...
阅读全文
摘要:1、开启hive作业mapreduce任务中间压缩功能:对于数据进行压缩可以减少job中map和reduce task间的数据传输量。对于中间数据压缩,选择一个低cpu开销编/解码器要不选择一个压缩率高的编解码器重要很多。hadoop压缩的默认编解码器是DefaultCodec,可以通过设置参数mapred.map.output.compression.codec来进行相应调整,这是一个hadoo...
阅读全文
摘要:1、与Oracle并行技术一样,hive在执行mapreduce作业时也可以执行并行查询。针对于不同业务场景SQL语句的执行情况,有些场景下SQL的执行是需要分割成几段去执行的,而且期间并不全是存在依赖关系。默认情况下,hive只会一段一段的执行mapreduce任务。使用并行的好处在于可以让服务器可以同时去执行那些不想关的业务场景,比如:select deptno,count(1) from e...
阅读全文
摘要:数学函数Return TypeName (Signature)DescriptionDOUBLEround(DOUBLE a)Returns the rounded BIGINT value of a.返回对a四舍五入的BIGINT值DOUBLEround(DOUBLE a, INT d)Returns a rounded to d decimal places.返回DOUBLE型d的保留n位小数...
阅读全文
摘要:有时会碰到一些需求,查询分组后的最大值,最小值所在的整行记录或者分组后的top n行的记录,在一些别的数据库可能有窗口函数可以方面的查出来,但是MySQL没有这些函数,没有直接的方法可以查出来,可通过以下的方法来查询。准备工作测试表结构如下:root:test> show create table test1\G*************************** 1. row ********...
阅读全文
摘要:Mysql启动报错如下:[root@db01 opt]# service mysqld startStarting MySQL.... ERROR! The server quit without updating PID file (/opt/mysql-5.6.24/data/mysql.pid).查看错误日志,发现问题根源在于下面红色部分:2017-08-26 01:45:44 8525 [...
阅读全文
摘要:实例1:测试数据:create table nba(team varchar2(20),year number(4))SQL> select * from nba;TEAM YEAR-------------------- -----活塞 1990公牛 1991公牛 ...
阅读全文
摘要:前言本文将会谈一谈在数据仓库中拉链表相关的内容,包括它的原理、设计、以及在我们大数据场景下的实现方式。全文由下面几个部分组成:先分享一下拉链表的用途、什么是拉链表。通过一些小的使用场景来对拉链表做近一步的阐释,以及拉链表和常用的切片表的区别。举一个具体的应用场景,来设计并实现一份拉链表,最后并通过一些例子说明如何使用我们设计的这张表(因为现在Hive的大规模使用,我们会以hive场景下的设计为例)...
阅读全文
摘要:[root@db02 scala-2.11.5]# spark-shell Setting default log level to "WARN".To adjust logging level use sc.setLogLevel(newLevel).Welcome to ____ __ / __/__ ___ _____/ /__ _\...
阅读全文
摘要:Python的每个新版本都会增加一些新的功能,或者对原来的功能作一些改动。有些改动是不兼容旧版本的,也就是在当前版本运行正常的代码,到下一个版本运行就可能不正常了。为了在低版本中可以使用高版本的新特性,我们可以在低版本中导入__futrure__模块。比如:python2.x中进行除法运算:>>> 1/20而要进行精确除法可以使用如下方式:>>> 1/2.00.5这在python中北称为地板除。而...
阅读全文
摘要:转自:http://blog.csdn.net/wguangliang/article/details/50167283 要求:按照课程分组,查找每个课程最高的两个成绩。 数据文件如下: 第一列no为学号,第二列course为课程,第三列score为分数 [plain] view plain cop
阅读全文
摘要:解决方案如下:1.运行:cmd2.输入:DISKPART3.DISKPART> san4.DISKPART> san policy=onlineall5.DISKPART>list disk6.DISKPART> select disk 17.DISKPART>attributes disk clear readonly8.DISKPART>online disk
阅读全文
摘要:层次查询是一种确定数据行间关系的一种操作手段。层次查询遍历的是一个树形结构。基本语法如下,以下语法嵌入到标准SQL中即可达到层次查询的目的: level,... ...【注释:伪列,用于select子句中,根据数据所处的层次结构自动层次编号】 connect by [nocycle] prior 连
阅读全文
摘要:参考文档:http://lxw1234.com/archives/2015/08/473.htm 一、元表结构 1、定义业务库原始订单表: drop table chavin.orders; CREATE TABLE orders ( orderid INT, createtime STRING,
阅读全文
摘要:一、hive中实现方法 基表: 组表: gt gid gname 1001 g1 1002 g2 1003 g3 create table g( gid int, gname string )row format delimited fields terminated by '\t' stored
阅读全文
摘要:题目: 一组通话记录(总共500万条):ID 主叫号码 被叫号码 通话起始时间 通话结束时间 通话时长1 98290000 0215466546656 2007-02-01 09:49:53.000 2007-02-01 09:50:16.000 232 98290000 021546654666
阅读全文
摘要:测试数据: SQL> select * from sscore; NAME SCORE aa 99 bb 56 cc 56 dd 77 ee 78 ff 76 gg 78 ff 50 8 rows selected 针对以上表,需要按成绩进行排序,从而取得名次信息: 实现方法一:分析函数 SQL>
阅读全文
摘要:示例1:测试数据:SQL> select * from score; ID CLASS STUDENT COURSE SCORE---------- ----- ------- ------ ---------- 1 一 张三 数学 90 2 一 张三 语文 89 3 一 李四 数学 ...
阅读全文
摘要:准备测试数据: create table test01( groupid number, a number, b number, c number ); insert into test01 values(1,2,3,4); insert into test01 values(1,2,6,4); i
阅读全文
摘要:自从学习数据仓库以来,对数据仓库“面向主题”的概念始终比较模糊,理解不够深刻、透彻。 昨天晚上翻开课本温习一下,仍然不能领悟其本质思想、很是困惑,后来从网上找了一些资料,细细着磨一下。1.主题的概念主题(Subject)是在较高层次上将企业信息系统中的数据进行综合、归类和分析利用的一个抽象概念,每一个主题基本对应一个宏观的分析领域。在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象。例如...
阅读全文
摘要:今天将临时表里面的数据按照天分区插入到线上的表中去,出现了Hive创建的文件数大于100000个的情况,我的SQL如下:hive> insert overwrite table test partition(dt)> select * from iteblog_tmp;iteblog_tmp表里面一共有570多G的数据,一共可以分成76个分区,SQL运行的时候创建了2163个Mapper,0个...
阅读全文
摘要:在进行报表开发时,很多时候会遇到行列转换操作,很对开发人员针对于SQL级别行列转换操作一直不甚理解,今天正好抽空对其进行了一些简单的总结。这里主要列举3种可以实现SQL行列转换的方法,包括通用SQL解法以及Oracle支持解法。 一、测试数据 测试表依旧采用Oracle经典的scott模式下的dep
阅读全文
摘要:一、配置防火墙CentOS 7.0默认使用的是firewall作为防火墙,这里改为iptables防火墙。1、关闭firewall:systemctl stop firewalld.servi(www.111cn.net)ce #停止firewallsystemctl disable firewalld.service #禁止firewall开机启动2、安装iptables防火墙yum insta...
阅读全文
浙公网安备 33010602011771号