打赏
上一页 1 ··· 129 130 131 132 133 134 135 136 137 ··· 180 下一页
摘要: 由客户端提交的HiveQL语句将最终被转换为一个或多个MapReduce任务并提交由Hadoop执行。不包含聚合和连接的简单SELECT语句可以使用一个单独的只包含Map阶段的任务实现。使用GROUP BY子句的聚合可以使用一个独立的MapReduce任务实现。包含大量多表连接的复杂查询需要依靠多个 阅读全文
posted @ 2016-11-26 20:03 大数据和AI躺过的坑 阅读(649) 评论(0) 推荐(0)
摘要: 为了对表进行合理的管理以及提高查询效率,Hive可以将表组织成“分区”。 分区是表的部分列的集合,可以为频繁使用的数据建立分区,这样查找分区中的数据时就不需要扫描全表,这对于提高查找效率很有帮助。 分区是一种根据“分区列”(partition column)的值对表进行粗略划分的机制。Hive中的每 阅读全文
posted @ 2016-11-26 19:49 大数据和AI躺过的坑 阅读(8987) 评论(0) 推荐(0)
摘要: hive里的索引是什么? 索引是标准的数据库技术,hive 0.7版本之后支持索引。Hive提供有限的索引功能,这不像传统的关系型数据库那样有“键(key)”的概念,用户可以在某些列上创建索引来加速某些操作,给一个表创建的索引数据被保存在另外的表中。 Hive的索引功能现在还相对较晚,提供的选项还较 阅读全文
posted @ 2016-11-26 14:12 大数据和AI躺过的坑 阅读(1261) 评论(0) 推荐(0)
摘要: Hive文件存储格式包括以下几类: 1、TEXTFILE 2、SEQUENCEFILE 3、RCFILE 4、ORCFILE 其中TEXTFILE为默认格式,建表时不指定默认为这个格式,导入数据时会直接把数据文件拷贝到hdfs上不进行处理。 SEQUENCEFILE,RCFILE,ORCFILE格式 阅读全文
posted @ 2016-11-26 11:03 大数据和AI躺过的坑 阅读(7061) 评论(0) 推荐(0)
摘要: 说在前面的话 hive的正则表达式,是非常重要!作为大数据开发人员,用好hive,正则表达式,是必须品! Hive中的正则表达式还是很强大的。数据工作者平时也离不开正则表达式。对此,特意做了个hive正则表达式的小结。所有代码都经过亲测,正常运行。 1.regexp 语法: A REGEXP B 操 阅读全文
posted @ 2016-11-25 19:35 大数据和AI躺过的坑 阅读(24476) 评论(1) 推荐(0)
摘要: 说在前面的话 以下三种情况,最好是在3台集群里做,比如,master、slave1、slave2的master和slave1都安装了hive,将master作为服务端,将slave1作为服务端。 以下,是针对CentOS版本的,若是Ubuntu版本,见我的博客 Ubuntu系统下安装并配置hive- 阅读全文
posted @ 2016-11-25 15:19 大数据和AI躺过的坑 阅读(4597) 评论(0) 推荐(0)
摘要: 在Hadoop集群里,有三种模式: 1、本地模式 2、伪分布模式 3、全分布模式 在Spark集群里,有四种模式: 1、local单机模式 结果xshell可见: ./bin/spark-submit --class org.apache.spark.examples.SparkPi --maste 阅读全文
posted @ 2016-11-23 09:52 大数据和AI躺过的坑 阅读(677) 评论(0) 推荐(0)
摘要: 很少有人会这样来自问自己?只知道,以键值对的形式处理数据并输出结果,而没有解释为什么要以键值对的形式进行。 包括hadoop的mapreduce里的键值对,spark里的rdd里的map等。 这是为什么呢? 1、键值对的具体含义 首先,我们会通过强调Java标准库中的类似概念,来阐明我们所说的键值对 阅读全文
posted @ 2016-11-23 09:23 大数据和AI躺过的坑 阅读(457) 评论(0) 推荐(0)
摘要: 很多人只会,但没深入体会和想为什么要这样? 拿Hadoop来说,当然,spark也一样的道理。 输出路径由Hadoop自己创建,实际的结果文件遵守part-nnnn的约定。 如何指定一个已有目录作为Hadoop作业的输出路径,作业将无法进行,并会抛出异常抗议一个已经存在的目录。如果想让Hadoop将 阅读全文
posted @ 2016-11-23 09:10 大数据和AI躺过的坑 阅读(812) 评论(0) 推荐(0)
摘要: 能看懂博主我此博文,相信你已经有了一定基础了。 对于本地模式、伪分布模式和全分布模式的概念,这里,我不多赘述。太多资料和博客,随便在网上一搜就好。 比如《hadoop实战 第二版》陆嘉恒老师等。 我这里呢,是再次挖掘深入。 我们知道,如伪分布模式或全分布式模式,里有着很多的java进程(这个,可用j 阅读全文
posted @ 2016-11-23 09:05 大数据和AI躺过的坑 阅读(928) 评论(0) 推荐(1)
上一页 1 ··· 129 130 131 132 133 134 135 136 137 ··· 180 下一页