会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
大葱拌豆腐
专注于Spark、Flink、Kafka、HBase、大数据、机器学习
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
15
16
17
18
19
20
21
22
23
···
45
下一页
2018年7月11日
Scala系统学习(一):Scala概述
摘要: Scala是可扩展语言的缩写,是一种混合功能编程语言。 它由Martin Odersky创建。 Scala顺利整合面向对象和函数式语言的功能。 Scala被编译后在Java虚拟机上运行。 许多现有公司依靠Java进行关键业务应用转向或正在转向Scala,以提高其开发生产力,应用程序可扩展性和整体可靠
阅读全文
posted @ 2018-07-11 16:37 大葱拌豆腐
阅读(574)
评论(0)
推荐(0)
2018年7月8日
Scala集合类详解
摘要: 对scala中的集合类虽然有使用,但是一直处于一知半解的状态。尤其是与java中各种集合类的混合使用,虽然用过很多次,但是一直也没有做比较深入的了解与分析。正好趁着最近项目的需要,加上稍微有点时间,特意多花了一点时间对scala中的集合类做个详细的总结。 1.数组Array 在说集合类之前,先看看s
阅读全文
posted @ 2018-07-08 20:42 大葱拌豆腐
阅读(674)
评论(0)
推荐(0)
Scala中的数组和集合操作
摘要: package test /* 1.在scala集合中,Iterable是共同的Trait,Iterable要求继承者实现一些共同的方法,例如元素的遍历 * 2。Array是scala基础的数据结构,不从属于scala集合体系 * 3.scala集合分为可变和不可变集合。,不可变集合在scala.collection.immutable里,可变在scala.collection.mutabl...
阅读全文
posted @ 2018-07-08 16:47 大葱拌豆腐
阅读(753)
评论(0)
推荐(0)
2018年7月4日
Spark On Yarn Cluster生产环境下JVM的OOM和Stack Overflow问题
摘要: 1、Spark on Yarn下JVM的OOM问题及解决方式 2、Spark中Driver的Stack Overflow的问题及解决方式 Spark on Yarn cluster mode: 此时有可能会报OOM的错误,具体来说: 由于Client模式下一定没有出现OOM,而在Cluster模式下
阅读全文
posted @ 2018-07-04 22:13 大葱拌豆腐
阅读(580)
评论(0)
推荐(0)
2018年7月2日
Spark2.x学习笔记:Spark SQL程序设计
摘要: 1、RDD的局限性 RDD仅表示数据集,RDD没有元数据,也就是说没有字段语义定义。 RDD需要用户自己优化程序,对程序员要求较高。 从不同数据源读取数据相对困难。 合并多个数据源中的数据也较困难。 2 DataFrame和Dataset (1)DataFrame 由于RDD的局限性,Spark产生
阅读全文
posted @ 2018-07-02 18:34 大葱拌豆腐
阅读(1031)
评论(0)
推荐(0)
Spark2.x学习笔记:Spark SQL的SQL
摘要: Spark SQL所支持的SQL语法 如果只用join进行查询,则支持的语法为: Spark SQL的SQL的框架 与Hive Metastore结合 (1)Spark要能找到HDFS和Hive的配置文件 第1种方法:可以直接将core-site.xml、hdfs-site.xml和hive-sit
阅读全文
posted @ 2018-07-02 17:40 大葱拌豆腐
阅读(2269)
评论(0)
推荐(0)
Spark2.x学习笔记:Spark SQL快速入门
摘要: Spark SQL快速入门 本地表 (1)准备数据 (2)确认HDFS已经启动 (3)进入spark-sql (4)创建表 (5)查看表结构 (6)查询本地数据表 使用spark-sql处理Hive MeteStore中的表 注意,默认HDFS已经启动。 (1)hive-site.xml hive可
阅读全文
posted @ 2018-07-02 17:25 大葱拌豆腐
阅读(1996)
评论(0)
推荐(0)
Hive metastore三种配置方式
摘要: Hive的meta数据支持以下三种存储方式,其中两种属于本地存储,一种为远端存储。远端存储比较适合生产环境。Hive官方wiki详细介绍了这三种方式,链接为:Hive Metastore。 一、本地derby 这种方式是最简单的存储方式,只需要在hive-site.xml做如下配置便可 注:使用de
阅读全文
posted @ 2018-07-02 15:54 大葱拌豆腐
阅读(3439)
评论(0)
推荐(0)
2018年6月28日
Spark SQL入门用法与原理分析
摘要: Spark SQL是为了让开发人员摆脱自己编写RDD等原生Spark代码而产生的,开发人员只需要写一句SQL语句或者调用API,就能生成(翻译成)对应的SparkJob代码并去执行,开发变得更简洁 注意:本文全部基于SparkSQL1.6 参考:http://spark.apache.org/doc
阅读全文
posted @ 2018-06-28 16:34 大葱拌豆腐
阅读(1491)
评论(0)
推荐(0)
2018年6月26日
Spark Sort-Based Shuffle具体实现内幕和源码详解
摘要: 为什么讲解Sorted-Based shuffle?2方面的原因:一,可能有些朋友看到Sorted-Based Shuffle的时候,会有一个误解,认为Spark基于Sorted-Based Shuffle 它产出的结果是有序的。二,Sorted-Based Shuffle要排序,涉及到一个排序算法
阅读全文
posted @ 2018-06-26 21:09 大葱拌豆腐
阅读(1603)
评论(0)
推荐(0)
上一页
1
···
15
16
17
18
19
20
21
22
23
···
45
下一页
公告