打赏
上一页 1 ··· 128 129 130 131 132 133 134 135 136 ··· 180 下一页
摘要: 一、元组Tuple 元组Tuple是不同类型的值的聚集,元组的值将单个的值包含在圆括号中来构成,元组可以包含一个不同类型的元素 如 val riple = (100, "Scala" , "Spark")1、元组中可以包含不同类型的元素,如上,把鼠标放在riple上,IDE会自动推断出元组riple 阅读全文
posted @ 2016-11-29 20:16 大数据和AI躺过的坑 阅读(1529) 评论(0) 推荐(0)
摘要: 在Scala IDE中有一个很便捷的功能,那就是WorkSheet。 它类似于交互式命令行的代码测试,在Worksheet输入scala表达式,保存以后会立即得到程序运行的结果,有助于初学者学习scala。 步骤一: 新建一个WorkSheet 或者啊,先选择一个工程,比如我这里是,spark-st 阅读全文
posted @ 2016-11-29 19:52 大数据和AI躺过的坑 阅读(3518) 评论(0) 推荐(0)
摘要: Kafka是用于日志处理的分布式消息队列,Kafka使用scala语言开发的。 各个开源分布式处理系统Cloudera、Apache Storm、Spark都支持与Kafka集成。其日志处理的一个场景:Kafka采集日志以后,经过spark分布式计算,将日志数据导入到HBase中。Kafka采集的日 阅读全文
posted @ 2016-11-29 19:39 大数据和AI躺过的坑 阅读(509) 评论(0) 推荐(0)
摘要: Hive可以通过实现用户定义函数(User-Defined Functions,UDF)进行扩展(事实上,大多数Hive功能都是通过扩展UDF实现的)。想要开发UDF程序,需要继承org.apache.hadoop.ql.exec.UDF类,并重载evaluate方法。Hive API提供@Desc 阅读全文
posted @ 2016-11-27 12:15 大数据和AI躺过的坑 阅读(5198) 评论(0) 推荐(0)
摘要: 《Spark最佳实战 陈欢》写的这本书,关于此知识点,非常好,在94页。 hive里的扩展接口,主要包括CLI(控制命令行接口)、Beeline和JDBC等方式访问Hive。 CLI和Beeline都是交互式用户接口,并且功能相似,但是语法和实现不同。 JDBC是一种类似于编程访问关系型数据库的编程 阅读全文
posted @ 2016-11-26 22:59 大数据和AI躺过的坑 阅读(2959) 评论(0) 推荐(0)
摘要: Hive的操作与传统关系型数据库SQL操作十分类似。 Hive主要支持以下几类操作: DDL 1、DDL:数据定义语句,包括CREATE、ALTER、SHOW、DESCRIBE、DROP等。 详细点,就是 Hive支持大量SQL数据定义语言(Data Definition Language,DDL) 阅读全文
posted @ 2016-11-26 22:45 大数据和AI躺过的坑 阅读(2581) 评论(0) 推荐(0)
摘要: 在一些特定的业务场景下,使用hive默认的配置对数据进行分析,虽然默认的配置能够实现业务需求,但是分析效率可能会很低。 Hive有针对性地对不同的查询进行了优化。在Hive里可以通过修改配置的方式进行优化。 以下,几种方式调优的属性。 1、列裁剪 在通过Hive读取数据的时候,并不是所有的需求都要获 阅读全文
posted @ 2016-11-26 22:05 大数据和AI躺过的坑 阅读(2290) 评论(0) 推荐(0)
摘要: Hive支持索引,但是Hive的索引与关系型数据库中的索引并不相同,比如,Hive不支持主键或者外键。 Hive索引可以建立在表中的某些列上,以提升一些操作的效率,例如减少MapReduce任务中需要读取的数据块的数量。 在可以预见到分区数据非常庞大的情况下,索引常常是优于分区的。 博主我推荐各位博 阅读全文
posted @ 2016-11-26 21:35 大数据和AI躺过的坑 阅读(33054) 评论(0) 推荐(4)
摘要: 不多说,直接上干货! 可以先,从MySQL里的视图概念理解入手 视图是由从数据库的基本表中选取出来的数据组成的逻辑窗口,与基本表不同,它是一个虚表。在数据库中,存放的只是视图的定义,而不存放视图包含的数据项,这些项目仍然存放在原来的基本表结构中。 视图可以被定义为多个表的连接,也可以被定义为只有部分 阅读全文
posted @ 2016-11-26 21:05 大数据和AI躺过的坑 阅读(21853) 评论(0) 推荐(1)
摘要: 不多说,直接上干货! Hive还可以把表或分区,组织成桶。将表或分区组织成桶有以下几个目的: 第一个目的是为看取样更高效,因为在处理大规模的数据集时,在开发、测试阶段将所有的数据全部处理一遍可能不太现实,这时取样就必不可少。 第二个目的是为了获得更好的查询处理效率。 桶为了表提供了额外的结构,Hiv 阅读全文
posted @ 2016-11-26 20:27 大数据和AI躺过的坑 阅读(9038) 评论(0) 推荐(0)
上一页 1 ··· 128 129 130 131 132 133 134 135 136 ··· 180 下一页