随笔分类 - spark
摘要:刚开始接触Spark被Hive在Spark中的作用搞得云里雾里,这里简要介绍下,备忘。 参考:https://blog.csdn.net/zuochang_liu/article/details/82292076 SparkSQL:是一个完全不依赖Hive的SQL引擎。 Spark On Hive
阅读全文
摘要:Scala Type ES Unit null None null Nil empty array Some[T] according to the table Map object Traversable array case class object(see Map) Product array
阅读全文
摘要:参考:https://blog.csdn.net/dymkkj/article/details/77921573 Java和Scala互操作的一个重要的内容就是容器的转换,容器是一个语言的数据结构,表现了一个语言除了语法之外的第二重要气质。所以了解Scala的容器尤为重要。 scala--java集
阅读全文
摘要:修改spark-class脚本 ,这个脚本在spark安装目录下的bin目录中。 修改最后两行: done < <("$RUNNER" -cp "$LAUNCH_CLASSPATH" org.apache.spark.launcher.Main "$@")修改为:done < <("$RUNNER"
阅读全文
摘要:1、作为“通配符”,类似Java中的*。如import scala.math._2、:_*作为一个整体,告诉编译器你希望将某个参数当作参数序列处理!例如val s = sum(1 to 5:_*)就是将1 to 5当作参数序列处理。3、指代一个集合中的每个元素。例如我们要在一个Array a中筛出偶
阅读全文
摘要:实验需要ES,安装过程中遇到一些奇葩的问题,记录下。下面介绍下安装步骤; 第一步:安装java ES是运行在java虚拟机上面的,所以首先需要安装java环境,安装过程不再赘述,唯一需要注意的是ES对java版本的要求,官网上有介绍。 我使用的是java-1.8 ES:5.6.4 第二步:创建用户
阅读全文
摘要:注意SparkSQL JDBC和SparkSQL JDBCSever是完全两种不同的场景。 SparkSQL JDBC SparkSQL可以使用JDBC的方式访问其他数据库,和普通非spark程序访问jdbc的方式相同。只是Spark中访问jdbc提供了接口能够将得到的数据转化成DataFrame。
阅读全文
摘要:访问HIVE的代码 大数据平台要升级了kerberos认证,下面是JDBC 连接hive 程序片段,记录下
阅读全文
摘要:Spark作为一个基于内存的大数据计算框架,可以和hadoop生态的资源调度器和分布式文件存储系统无缝融合。Spark可以直接操作存储在HDFS上面的数据: 通过Hadoop方式操作已经存在的文件目录 通过spark自带的hadoopconf方式操作已经存在文件目录
阅读全文
摘要:参考:https://www.cnblogs.com/starwater/p/6841807.html 在spark中,RDD、DataFrame、Dataset是最常用的数据类型,本博文给出笔者在使用的过程中体会到的区别和各自的优势 共性: 1、RDD、DataFrame、Dataset全都是sp
阅读全文
摘要:scala中用lazy定义的变量叫做惰性变量,会实现延迟加载。惰性变量只能是不可变的变量。并且只有在调用惰性变量的时候才会被初始化。 init function invoked! after init function () 当property被声明为惰性变量时的代码如下 after init fu
阅读全文
摘要:scala语言量大特性:面向对象+函数式编程 Scala的类型 val指的是引用不可变,而不是值。 值类型 Byte Char Short Int Long Float Double Byte Char Short Int Long Float Double 引用类型 String 自定义类型 St
阅读全文
摘要:Apache Spark是一个针对大规模数据的快速、统一处理引擎。 One stack rule them all 1-Stream Processing :spark Streaming 2-Ad-hoc-Queries :Spark SQL 3-Batch Processing: Spark C
阅读全文

浙公网安备 33010602011771号