大数据和AI躺过的坑

2016年11月29日

摘要：一、元组Tuple 元组Tuple是不同类型的值的聚集，元组的值将单个的值包含在圆括号中来构成，元组可以包含一个不同类型的元素如 val riple = (100, "Scala" , "Spark")1、元组中可以包含不同类型的元素，如上，把鼠标放在riple上，IDE会自动推断出元组riple 阅读全文

posted @ 2016-11-29 20:16 大数据和AI躺过的坑阅读(1530) 评论(0) 推荐(0)

Scala IDE里的WorkSheet的使用

摘要：在Scala IDE中有一个很便捷的功能，那就是WorkSheet。它类似于交互式命令行的代码测试，在Worksheet输入scala表达式，保存以后会立即得到程序运行的结果，有助于初学者学习scala。步骤一：新建一个WorkSheet 或者啊，先选择一个工程，比如我这里是，spark-st 阅读全文

posted @ 2016-11-29 19:52 大数据和AI躺过的坑阅读(3529) 评论(0) 推荐(0)

初步认识kafka

摘要： Kafka是用于日志处理的分布式消息队列，Kafka使用scala语言开发的。各个开源分布式处理系统Cloudera、Apache Storm、Spark都支持与Kafka集成。其日志处理的一个场景:Kafka采集日志以后，经过spark分布式计算，将日志数据导入到HBase中。Kafka采集的日阅读全文

posted @ 2016-11-29 19:39 大数据和AI躺过的坑阅读(513) 评论(0) 推荐(0)

2016年11月27日

Hadoop Hive概念学习系列之hive里的用户定义函数UDF（十七）

摘要： Hive可以通过实现用户定义函数（User-Defined Functions，UDF）进行扩展（事实上，大多数Hive功能都是通过扩展UDF实现的）。想要开发UDF程序，需要继承org.apache.hadoop.ql.exec.UDF类，并重载evaluate方法。Hive API提供@Desc 阅读全文

posted @ 2016-11-27 12:15 大数据和AI躺过的坑阅读(5200) 评论(0) 推荐(0)

2016年11月26日

Hadoop Hive概念学习系列之hive里的扩展接口（CLI、Beeline、JDBC）（十六）

摘要：《Spark最佳实战陈欢》写的这本书，关于此知识点，非常好，在94页。 hive里的扩展接口，主要包括CLI（控制命令行接口）、Beeline和JDBC等方式访问Hive。 CLI和Beeline都是交互式用户接口，并且功能相似，但是语法和实现不同。 JDBC是一种类似于编程访问关系型数据库的编程阅读全文

posted @ 2016-11-26 22:59 大数据和AI躺过的坑阅读(2973) 评论(0) 推荐(0)

Hadoop Hive概念学习系列之hive里的HiveQL——查询语言（十五）

摘要： Hive的操作与传统关系型数据库SQL操作十分类似。 Hive主要支持以下几类操作： DDL 1、DDL：数据定义语句，包括CREATE、ALTER、SHOW、DESCRIBE、DROP等。详细点，就是 Hive支持大量SQL数据定义语言（Data Definition Language，DDL）阅读全文

posted @ 2016-11-26 22:45 大数据和AI躺过的坑阅读(2582) 评论(0) 推荐(0)

Hadoop Hive概念学习系列之hive里的优化和高级功能（十四）

摘要：在一些特定的业务场景下，使用hive默认的配置对数据进行分析，虽然默认的配置能够实现业务需求，但是分析效率可能会很低。 Hive有针对性地对不同的查询进行了优化。在Hive里可以通过修改配置的方式进行优化。以下，几种方式调优的属性。 1、列裁剪在通过Hive读取数据的时候，并不是所有的需求都要获阅读全文

posted @ 2016-11-26 22:05 大数据和AI躺过的坑阅读(2291) 评论(0) 推荐(0)

Hadoop Hive概念学习系列之hive里的索引（十三）

摘要： Hive支持索引，但是Hive的索引与关系型数据库中的索引并不相同，比如，Hive不支持主键或者外键。 Hive索引可以建立在表中的某些列上，以提升一些操作的效率，例如减少MapReduce任务中需要读取的数据块的数量。在可以预见到分区数据非常庞大的情况下，索引常常是优于分区的。博主我推荐各位博阅读全文

posted @ 2016-11-26 21:35 大数据和AI躺过的坑阅读(33073) 评论(0) 推荐(4)

Hadoop Hive概念学习系列之hive里的视图（十二）

摘要：不多说，直接上干货！可以先，从MySQL里的视图概念理解入手视图是由从数据库的基本表中选取出来的数据组成的逻辑窗口，与基本表不同，它是一个虚表。在数据库中，存放的只是视图的定义，而不存放视图包含的数据项，这些项目仍然存放在原来的基本表结构中。视图可以被定义为多个表的连接，也可以被定义为只有部分阅读全文

posted @ 2016-11-26 21:05 大数据和AI躺过的坑阅读(21858) 评论(0) 推荐(1)

Hadoop Hive概念学习系列之hive里的桶（十一）

摘要：不多说，直接上干货！ Hive还可以把表或分区，组织成桶。将表或分区组织成桶有以下几个目的：第一个目的是为看取样更高效，因为在处理大规模的数据集时，在开发、测试阶段将所有的数据全部处理一遍可能不太现实，这时取样就必不可少。第二个目的是为了获得更好的查询处理效率。桶为了表提供了额外的结构，Hiv 阅读全文

posted @ 2016-11-26 20:27 大数据和AI躺过的坑阅读(9042) 评论(0) 推荐(0)

大数据和人工智能躺过的坑

公告