上一页 1 ··· 15 16 17 18 19 20 21 22 23 ··· 45 下一页
摘要: Scala是可扩展语言的缩写,是一种混合功能编程语言。 它由Martin Odersky创建。 Scala顺利整合面向对象和函数式语言的功能。 Scala被编译后在Java虚拟机上运行。 许多现有公司依靠Java进行关键业务应用转向或正在转向Scala,以提高其开发生产力,应用程序可扩展性和整体可靠 阅读全文
posted @ 2018-07-11 16:37 大葱拌豆腐 阅读(574) 评论(0) 推荐(0)
摘要: 对scala中的集合类虽然有使用,但是一直处于一知半解的状态。尤其是与java中各种集合类的混合使用,虽然用过很多次,但是一直也没有做比较深入的了解与分析。正好趁着最近项目的需要,加上稍微有点时间,特意多花了一点时间对scala中的集合类做个详细的总结。 1.数组Array 在说集合类之前,先看看s 阅读全文
posted @ 2018-07-08 20:42 大葱拌豆腐 阅读(674) 评论(0) 推荐(0)
摘要: package test /* 1.在scala集合中,Iterable是共同的Trait,Iterable要求继承者实现一些共同的方法,例如元素的遍历 * 2。Array是scala基础的数据结构,不从属于scala集合体系 * 3.scala集合分为可变和不可变集合。,不可变集合在scala.collection.immutable里,可变在scala.collection.mutabl... 阅读全文
posted @ 2018-07-08 16:47 大葱拌豆腐 阅读(753) 评论(0) 推荐(0)
摘要: 1、Spark on Yarn下JVM的OOM问题及解决方式 2、Spark中Driver的Stack Overflow的问题及解决方式 Spark on Yarn cluster mode: 此时有可能会报OOM的错误,具体来说: 由于Client模式下一定没有出现OOM,而在Cluster模式下 阅读全文
posted @ 2018-07-04 22:13 大葱拌豆腐 阅读(580) 评论(0) 推荐(0)
摘要: 1、RDD的局限性 RDD仅表示数据集,RDD没有元数据,也就是说没有字段语义定义。 RDD需要用户自己优化程序,对程序员要求较高。 从不同数据源读取数据相对困难。 合并多个数据源中的数据也较困难。 2 DataFrame和Dataset (1)DataFrame 由于RDD的局限性,Spark产生 阅读全文
posted @ 2018-07-02 18:34 大葱拌豆腐 阅读(1031) 评论(0) 推荐(0)
摘要: Spark SQL所支持的SQL语法 如果只用join进行查询,则支持的语法为: Spark SQL的SQL的框架 与Hive Metastore结合 (1)Spark要能找到HDFS和Hive的配置文件 第1种方法:可以直接将core-site.xml、hdfs-site.xml和hive-sit 阅读全文
posted @ 2018-07-02 17:40 大葱拌豆腐 阅读(2269) 评论(0) 推荐(0)
摘要: Spark SQL快速入门 本地表 (1)准备数据 (2)确认HDFS已经启动 (3)进入spark-sql (4)创建表 (5)查看表结构 (6)查询本地数据表 使用spark-sql处理Hive MeteStore中的表 注意,默认HDFS已经启动。 (1)hive-site.xml hive可 阅读全文
posted @ 2018-07-02 17:25 大葱拌豆腐 阅读(1996) 评论(0) 推荐(0)
摘要: Hive的meta数据支持以下三种存储方式,其中两种属于本地存储,一种为远端存储。远端存储比较适合生产环境。Hive官方wiki详细介绍了这三种方式,链接为:Hive Metastore。 一、本地derby 这种方式是最简单的存储方式,只需要在hive-site.xml做如下配置便可 注:使用de 阅读全文
posted @ 2018-07-02 15:54 大葱拌豆腐 阅读(3439) 评论(0) 推荐(0)
摘要: Spark SQL是为了让开发人员摆脱自己编写RDD等原生Spark代码而产生的,开发人员只需要写一句SQL语句或者调用API,就能生成(翻译成)对应的SparkJob代码并去执行,开发变得更简洁 注意:本文全部基于SparkSQL1.6 参考:http://spark.apache.org/doc 阅读全文
posted @ 2018-06-28 16:34 大葱拌豆腐 阅读(1491) 评论(0) 推荐(0)
摘要: 为什么讲解Sorted-Based shuffle?2方面的原因:一,可能有些朋友看到Sorted-Based Shuffle的时候,会有一个误解,认为Spark基于Sorted-Based Shuffle 它产出的结果是有序的。二,Sorted-Based Shuffle要排序,涉及到一个排序算法 阅读全文
posted @ 2018-06-26 21:09 大葱拌豆腐 阅读(1603) 评论(0) 推荐(0)
上一页 1 ··· 15 16 17 18 19 20 21 22 23 ··· 45 下一页