大葱拌豆腐 - 博客园

2018年7月11日

摘要： Scala是可扩展语言的缩写，是一种混合功能编程语言。它由Martin Odersky创建。 Scala顺利整合面向对象和函数式语言的功能。 Scala被编译后在Java虚拟机上运行。许多现有公司依靠Java进行关键业务应用转向或正在转向Scala，以提高其开发生产力，应用程序可扩展性和整体可靠阅读全文

posted @ 2018-07-11 16:37 大葱拌豆腐阅读(578) 评论(0) 推荐(0)

2018年7月8日

Scala集合类详解

摘要：对scala中的集合类虽然有使用，但是一直处于一知半解的状态。尤其是与java中各种集合类的混合使用，虽然用过很多次，但是一直也没有做比较深入的了解与分析。正好趁着最近项目的需要，加上稍微有点时间，特意多花了一点时间对scala中的集合类做个详细的总结。 1.数组Array 在说集合类之前，先看看s 阅读全文

posted @ 2018-07-08 20:42 大葱拌豆腐阅读(676) 评论(0) 推荐(0)

Scala中的数组和集合操作

摘要： package test /* 1.在scala集合中，Iterable是共同的Trait,Iterable要求继承者实现一些共同的方法，例如元素的遍历 * 2。Array是scala基础的数据结构，不从属于scala集合体系 * 3.scala集合分为可变和不可变集合。，不可变集合在scala.collection.immutable里，可变在scala.collection.mutabl... 阅读全文

posted @ 2018-07-08 16:47 大葱拌豆腐阅读(756) 评论(0) 推荐(0)

2018年7月4日

Spark On Yarn Cluster生产环境下JVM的OOM和Stack Overflow问题

摘要： 1、Spark on Yarn下JVM的OOM问题及解决方式 2、Spark中Driver的Stack Overflow的问题及解决方式 Spark on Yarn cluster mode: 此时有可能会报OOM的错误，具体来说：由于Client模式下一定没有出现OOM，而在Cluster模式下阅读全文

posted @ 2018-07-04 22:13 大葱拌豆腐阅读(584) 评论(0) 推荐(0)

2018年7月2日

Spark2.x学习笔记：Spark SQL程序设计

摘要： 1、RDD的局限性 RDD仅表示数据集，RDD没有元数据，也就是说没有字段语义定义。 RDD需要用户自己优化程序，对程序员要求较高。从不同数据源读取数据相对困难。合并多个数据源中的数据也较困难。 2 DataFrame和Dataset （1）DataFrame 由于RDD的局限性，Spark产生阅读全文

posted @ 2018-07-02 18:34 大葱拌豆腐阅读(1034) 评论(0) 推荐(0)

Spark2.x学习笔记：Spark SQL的SQL

摘要： Spark SQL所支持的SQL语法如果只用join进行查询，则支持的语法为： Spark SQL的SQL的框架与Hive Metastore结合（1）Spark要能找到HDFS和Hive的配置文件第1种方法：可以直接将core-site.xml、hdfs-site.xml和hive-sit 阅读全文

posted @ 2018-07-02 17:40 大葱拌豆腐阅读(2274) 评论(0) 推荐(0)

Spark2.x学习笔记：Spark SQL快速入门

摘要： Spark SQL快速入门本地表（1）准备数据（2）确认HDFS已经启动（3）进入spark-sql （4）创建表（5）查看表结构（6）查询本地数据表使用spark-sql处理Hive MeteStore中的表注意，默认HDFS已经启动。（1）hive-site.xml hive可阅读全文

posted @ 2018-07-02 17:25 大葱拌豆腐阅读(2002) 评论(0) 推荐(0)

Hive metastore三种配置方式

摘要： Hive的meta数据支持以下三种存储方式，其中两种属于本地存储，一种为远端存储。远端存储比较适合生产环境。Hive官方wiki详细介绍了这三种方式，链接为：Hive Metastore。一、本地derby 这种方式是最简单的存储方式，只需要在hive-site.xml做如下配置便可注：使用de 阅读全文

posted @ 2018-07-02 15:54 大葱拌豆腐阅读(3448) 评论(0) 推荐(0)

2018年6月28日

Spark SQL入门用法与原理分析

摘要： Spark SQL是为了让开发人员摆脱自己编写RDD等原生Spark代码而产生的，开发人员只需要写一句SQL语句或者调用API，就能生成（翻译成）对应的SparkJob代码并去执行，开发变得更简洁注意：本文全部基于SparkSQL1.6 参考：http://spark.apache.org/doc 阅读全文

posted @ 2018-06-28 16:34 大葱拌豆腐阅读(1505) 评论(0) 推荐(0)

2018年6月26日

Spark Sort-Based Shuffle具体实现内幕和源码详解

摘要：为什么讲解Sorted-Based shuffle？2方面的原因：一，可能有些朋友看到Sorted-Based Shuffle的时候，会有一个误解，认为Spark基于Sorted-Based Shuffle 它产出的结果是有序的。二，Sorted-Based Shuffle要排序，涉及到一个排序算法阅读全文

posted @ 2018-06-26 21:09 大葱拌豆腐阅读(1610) 评论(0) 推荐(0)

公告