spark - 随笔分类 - mxgboy

SparkSQL & Spark on Hive & Hive on Spark

摘要：刚开始接触Spark被Hive在Spark中的作用搞得云里雾里，这里简要介绍下，备忘。参考：https://blog.csdn.net/zuochang_liu/article/details/82292076 SparkSQL：是一个完全不依赖Hive的SQL引擎。 Spark On Hive 阅读全文

posted @ 2019-01-26 17:50 mxgboy 阅读(3284) 评论(0) 推荐(0)

Elasticsearch和Scala类型转换

摘要：Scala Type ES Unit null None null Nil empty array Some[T] according to the table Map object Traversable array case class object(see Map) Product array 阅读全文

posted @ 2019-01-21 11:39 mxgboy 阅读(476) 评论(0) 推荐(0)

Java和Scala容器转换

摘要：参考：https://blog.csdn.net/dymkkj/article/details/77921573 Java和Scala互操作的一个重要的内容就是容器的转换，容器是一个语言的数据结构，表现了一个语言除了语法之外的第二重要气质。所以了解Scala的容器尤为重要。 scala--java集阅读全文

posted @ 2019-01-21 10:10 mxgboy 阅读(2494) 评论(0) 推荐(0)

Spark应用远程调试

摘要：修改spark-class脚本，这个脚本在spark安装目录下的bin目录中。修改最后两行： done < <("$RUNNER" -cp "$LAUNCH_CLASSPATH" org.apache.spark.launcher.Main "$@")修改为：done < <("$RUNNER" 阅读全文

posted @ 2019-01-12 10:28 mxgboy 阅读(397) 评论(0) 推荐(0)

scala下划线的用法

摘要：1、作为“通配符”，类似Java中的*。如import scala.math._2、:_*作为一个整体，告诉编译器你希望将某个参数当作参数序列处理！例如val s = sum(1 to 5:_*)就是将1 to 5当作参数序列处理。3、指代一个集合中的每个元素。例如我们要在一个Array a中筛出偶阅读全文

posted @ 2019-01-07 19:03 mxgboy 阅读(780) 评论(0) 推荐(0)

安装ElasticSearch遇到的深坑

摘要：实验需要ES，安装过程中遇到一些奇葩的问题，记录下。下面介绍下安装步骤；第一步：安装java ES是运行在java虚拟机上面的，所以首先需要安装java环境，安装过程不再赘述，唯一需要注意的是ES对java版本的要求，官网上有介绍。我使用的是java-1.8 ES：5.6.4 第二步：创建用户阅读全文

posted @ 2018-12-21 19:22 mxgboy 阅读(383) 评论(0) 推荐(0)

SparkSQL JDBC和JDBCServer区别

摘要：注意SparkSQL JDBC和SparkSQL JDBCSever是完全两种不同的场景。 SparkSQL JDBC SparkSQL可以使用JDBC的方式访问其他数据库，和普通非spark程序访问jdbc的方式相同。只是Spark中访问jdbc提供了接口能够将得到的数据转化成DataFrame。阅读全文

posted @ 2018-12-21 17:12 mxgboy 阅读(1898) 评论(0) 推荐(0)

使用KERBEROS认证访问Spark JDBC和Hive

摘要：访问HIVE的代码大数据平台要升级了kerberos认证，下面是JDBC 连接hive 程序片段，记录下阅读全文

posted @ 2018-12-06 20:05 mxgboy 阅读(4903) 评论(0) 推荐(0)

Spark中直接操作HDFS

摘要：Spark作为一个基于内存的大数据计算框架，可以和hadoop生态的资源调度器和分布式文件存储系统无缝融合。Spark可以直接操作存储在HDFS上面的数据：通过Hadoop方式操作已经存在的文件目录通过spark自带的hadoopconf方式操作已经存在文件目录阅读全文

posted @ 2018-11-28 16:56 mxgboy 阅读(6837) 评论(0) 推荐(0)

RDD和Dataframe相互转换

摘要：参考：https://www.cnblogs.com/starwater/p/6841807.html 在spark中，RDD、DataFrame、Dataset是最常用的数据类型，本博文给出笔者在使用的过程中体会到的区别和各自的优势共性： 1、RDD、DataFrame、Dataset全都是sp 阅读全文

posted @ 2018-11-28 10:52 mxgboy 阅读(8030) 评论(0) 推荐(0)

scala---lazy

摘要：scala中用lazy定义的变量叫做惰性变量，会实现延迟加载。惰性变量只能是不可变的变量。并且只有在调用惰性变量的时候才会被初始化。 init function invoked! after init function () 当property被声明为惰性变量时的代码如下 after init fu 阅读全文

posted @ 2018-10-19 16:12 mxgboy 阅读(214) 评论(0) 推荐(0)

Scala---初探

摘要：scala语言量大特性：面向对象+函数式编程 Scala的类型 val指的是引用不可变，而不是值。值类型 Byte Char Short Int Long Float Double Byte Char Short Int Long Float Double 引用类型 String 自定义类型 St 阅读全文

posted @ 2018-10-19 15:59 mxgboy 阅读(176) 评论(0) 推荐(0)

Spark初探

摘要：Apache Spark是一个针对大规模数据的快速、统一处理引擎。 One stack rule them all 1-Stream Processing :spark Streaming 2-Ad-hoc-Queries :Spark SQL 3-Batch Processing: Spark C 阅读全文

posted @ 2018-10-18 15:26 mxgboy 阅读(157) 评论(0) 推荐(0)

mxgboy

随笔分类 - spark

公告