大数据和AI躺过的坑

2016年11月26日

摘要：由客户端提交的HiveQL语句将最终被转换为一个或多个MapReduce任务并提交由Hadoop执行。不包含聚合和连接的简单SELECT语句可以使用一个单独的只包含Map阶段的任务实现。使用GROUP BY子句的聚合可以使用一个独立的MapReduce任务实现。包含大量多表连接的复杂查询需要依靠多个阅读全文

posted @ 2016-11-26 20:03 大数据和AI躺过的坑阅读(650) 评论(0) 推荐(0)

Hadoop Hive概念学习系列之hive里的分区（九）

摘要：为了对表进行合理的管理以及提高查询效率，Hive可以将表组织成“分区”。分区是表的部分列的集合，可以为频繁使用的数据建立分区，这样查找分区中的数据时就不需要扫描全表，这对于提高查找效率很有帮助。分区是一种根据“分区列”（partition column）的值对表进行粗略划分的机制。Hive中的每阅读全文

posted @ 2016-11-26 19:49 大数据和AI躺过的坑阅读(8989) 评论(0) 推荐(0)

Hadoop Hive概念学习系列之hive的索引及案例（八）

摘要： hive里的索引是什么？索引是标准的数据库技术，hive 0.7版本之后支持索引。Hive提供有限的索引功能，这不像传统的关系型数据库那样有“键(key)”的概念，用户可以在某些列上创建索引来加速某些操作，给一个表创建的索引数据被保存在另外的表中。 Hive的索引功能现在还相对较晚，提供的选项还较阅读全文

posted @ 2016-11-26 14:12 大数据和AI躺过的坑阅读(1265) 评论(0) 推荐(0)

Hadoop Hive概念学习系列之hive的数据压缩（七）

摘要： Hive文件存储格式包括以下几类： 1、TEXTFILE 2、SEQUENCEFILE 3、RCFILE 4、ORCFILE 其中TEXTFILE为默认格式，建表时不指定默认为这个格式，导入数据时会直接把数据文件拷贝到hdfs上不进行处理。 SEQUENCEFILE，RCFILE，ORCFILE格式阅读全文

posted @ 2016-11-26 11:03 大数据和AI躺过的坑阅读(7064) 评论(0) 推荐(0)

2016年11月25日

Hadoop Hive概念学习系列之hive的正则表达式初步（六）

摘要：说在前面的话 hive的正则表达式，是非常重要！作为大数据开发人员，用好hive，正则表达式，是必须品！ Hive中的正则表达式还是很强大的。数据工作者平时也离不开正则表达式。对此，特意做了个hive正则表达式的小结。所有代码都经过亲测，正常运行。 1.regexp 语法: A REGEXP B 操阅读全文

posted @ 2016-11-25 19:35 大数据和AI躺过的坑阅读(24480) 评论(1) 推荐(0)

Hadoop Hive概念学习系列之hive三种方式区别和搭建、HiveServer2环境搭建、HWI环境搭建和beeline环境搭建（五）

摘要：说在前面的话以下三种情况，最好是在3台集群里做，比如，master、slave1、slave2的master和slave1都安装了hive，将master作为服务端，将slave1作为服务端。以下，是针对CentOS版本的，若是Ubuntu版本，见我的博客 Ubuntu系统下安装并配置hive- 阅读全文

posted @ 2016-11-25 15:19 大数据和AI躺过的坑阅读(4603) 评论(0) 推荐(0)

2016年11月23日

Hadoop概念学习系列之谈hadoop/spark里为什么都有，YARN呢？（四十一）

摘要：在Hadoop集群里，有三种模式: 1、本地模式 2、伪分布模式 3、全分布模式在Spark集群里，有四种模式： 1、local单机模式结果xshell可见： ./bin/spark-submit --class org.apache.spark.examples.SparkPi --maste 阅读全文

posted @ 2016-11-23 09:52 大数据和AI躺过的坑阅读(680) 评论(0) 推荐(0)

Hadoop概念学习系列之谈hadoop/spark里为什么都有，键值对呢？（四十）

摘要：很少有人会这样来自问自己？只知道，以键值对的形式处理数据并输出结果，而没有解释为什么要以键值对的形式进行。包括hadoop的mapreduce里的键值对，spark里的rdd里的map等。这是为什么呢？ 1、键值对的具体含义首先，我们会通过强调Java标准库中的类似概念，来阐明我们所说的键值对阅读全文

posted @ 2016-11-23 09:23 大数据和AI躺过的坑阅读(459) 评论(0) 推荐(0)

Hadoop概念学习系列之为什么hadoop/spark执行作业时，输出路径必须要不存在？（三十九）

摘要：很多人只会，但没深入体会和想为什么要这样？拿Hadoop来说，当然，spark也一样的道理。输出路径由Hadoop自己创建，实际的结果文件遵守part-nnnn的约定。如何指定一个已有目录作为Hadoop作业的输出路径，作业将无法进行，并会抛出异常抗议一个已经存在的目录。如果想让Hadoop将阅读全文

posted @ 2016-11-23 09:10 大数据和AI躺过的坑阅读(813) 评论(0) 推荐(0)

Hadoop概念学习系列之再谈hadoop集群里的本地模式、伪分布模式和全分布模式（三十七）

摘要：能看懂博主我此博文，相信你已经有了一定基础了。对于本地模式、伪分布模式和全分布模式的概念，这里，我不多赘述。太多资料和博客，随便在网上一搜就好。比如《hadoop实战第二版》陆嘉恒老师等。我这里呢，是再次挖掘深入。我们知道，如伪分布模式或全分布式模式，里有着很多的java进程（这个，可用j 阅读全文

posted @ 2016-11-23 09:05 大数据和AI躺过的坑阅读(928) 评论(0) 推荐(1)

大数据和人工智能躺过的坑

公告