随笔分类 -  spark

摘要:刚开始接触Spark被Hive在Spark中的作用搞得云里雾里,这里简要介绍下,备忘。 参考:https://blog.csdn.net/zuochang_liu/article/details/82292076 SparkSQL:是一个完全不依赖Hive的SQL引擎。 Spark On Hive 阅读全文
posted @ 2019-01-26 17:50 mxgboy 阅读(3284) 评论(0) 推荐(0)
摘要:Scala Type ES Unit null None null Nil empty array Some[T] according to the table Map object Traversable array case class object(see Map) Product array 阅读全文
posted @ 2019-01-21 11:39 mxgboy 阅读(476) 评论(0) 推荐(0)
摘要:参考:https://blog.csdn.net/dymkkj/article/details/77921573 Java和Scala互操作的一个重要的内容就是容器的转换,容器是一个语言的数据结构,表现了一个语言除了语法之外的第二重要气质。所以了解Scala的容器尤为重要。 scala--java集 阅读全文
posted @ 2019-01-21 10:10 mxgboy 阅读(2494) 评论(0) 推荐(0)
摘要:修改spark-class脚本 ,这个脚本在spark安装目录下的bin目录中。 修改最后两行: done < <("$RUNNER" -cp "$LAUNCH_CLASSPATH" org.apache.spark.launcher.Main "$@")修改为:done < <("$RUNNER" 阅读全文
posted @ 2019-01-12 10:28 mxgboy 阅读(397) 评论(0) 推荐(0)
摘要:1、作为“通配符”,类似Java中的*。如import scala.math._2、:_*作为一个整体,告诉编译器你希望将某个参数当作参数序列处理!例如val s = sum(1 to 5:_*)就是将1 to 5当作参数序列处理。3、指代一个集合中的每个元素。例如我们要在一个Array a中筛出偶 阅读全文
posted @ 2019-01-07 19:03 mxgboy 阅读(780) 评论(0) 推荐(0)
摘要:实验需要ES,安装过程中遇到一些奇葩的问题,记录下。下面介绍下安装步骤; 第一步:安装java ES是运行在java虚拟机上面的,所以首先需要安装java环境,安装过程不再赘述,唯一需要注意的是ES对java版本的要求,官网上有介绍。 我使用的是java-1.8 ES:5.6.4 第二步:创建用户 阅读全文
posted @ 2018-12-21 19:22 mxgboy 阅读(383) 评论(0) 推荐(0)
摘要:注意SparkSQL JDBC和SparkSQL JDBCSever是完全两种不同的场景。 SparkSQL JDBC SparkSQL可以使用JDBC的方式访问其他数据库,和普通非spark程序访问jdbc的方式相同。只是Spark中访问jdbc提供了接口能够将得到的数据转化成DataFrame。 阅读全文
posted @ 2018-12-21 17:12 mxgboy 阅读(1898) 评论(0) 推荐(0)
摘要:访问HIVE的代码 大数据平台要升级了kerberos认证,下面是JDBC 连接hive 程序片段,记录下 阅读全文
posted @ 2018-12-06 20:05 mxgboy 阅读(4903) 评论(0) 推荐(0)
摘要:Spark作为一个基于内存的大数据计算框架,可以和hadoop生态的资源调度器和分布式文件存储系统无缝融合。Spark可以直接操作存储在HDFS上面的数据: 通过Hadoop方式操作已经存在的文件目录 通过spark自带的hadoopconf方式操作已经存在文件目录 阅读全文
posted @ 2018-11-28 16:56 mxgboy 阅读(6837) 评论(0) 推荐(0)
摘要:参考:https://www.cnblogs.com/starwater/p/6841807.html 在spark中,RDD、DataFrame、Dataset是最常用的数据类型,本博文给出笔者在使用的过程中体会到的区别和各自的优势 共性: 1、RDD、DataFrame、Dataset全都是sp 阅读全文
posted @ 2018-11-28 10:52 mxgboy 阅读(8030) 评论(0) 推荐(0)
摘要:scala中用lazy定义的变量叫做惰性变量,会实现延迟加载。惰性变量只能是不可变的变量。并且只有在调用惰性变量的时候才会被初始化。 init function invoked! after init function () 当property被声明为惰性变量时的代码如下 after init fu 阅读全文
posted @ 2018-10-19 16:12 mxgboy 阅读(214) 评论(0) 推荐(0)
摘要:scala语言量大特性:面向对象+函数式编程 Scala的类型 val指的是引用不可变,而不是值。 值类型 Byte Char Short Int Long Float Double Byte Char Short Int Long Float Double 引用类型 String 自定义类型 St 阅读全文
posted @ 2018-10-19 15:59 mxgboy 阅读(176) 评论(0) 推荐(0)
摘要:Apache Spark是一个针对大规模数据的快速、统一处理引擎。 One stack rule them all 1-Stream Processing :spark Streaming 2-Ad-hoc-Queries :Spark SQL 3-Batch Processing: Spark C 阅读全文
posted @ 2018-10-18 15:26 mxgboy 阅读(157) 评论(0) 推荐(0)