博客园 - 瞌睡中的葡萄虎
uuid:24b78886-0ed1-41c2-8670-e3f31dcf42c4;id=97497
2018-01-05T19:42:22Z
瞌睡中的葡萄虎
https://www.cnblogs.com/luogankun/
feed.cnblogs.com
https://www.cnblogs.com/luogankun/p/4371523.html
pic - 瞌睡中的葡萄虎
2015-03-27T05:16:00Z
2015-03-27T05:16:00Z
瞌睡中的葡萄虎
https://www.cnblogs.com/luogankun/
【摘要】 <a href="https://www.cnblogs.com/luogankun/p/4371523.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/luogankun/p/4363169.html
Spark On YARN使用时上传jar包过多导致磁盘空间不够。。。 - 瞌睡中的葡萄虎
今天测试过程中发现YARN Node变成Unhealthy了,后来定位到硬盘空间不够。。。。。通过查找大于100M的文件时发现有N多个spark-assembly-1.4.0-SNAPSHOT-hadoop2.5.0-cdh5.3.1.jar包,大小为170多M,每提交一个application到y...
2015-03-24T08:22:00Z
2015-03-24T08:22:00Z
瞌睡中的葡萄虎
https://www.cnblogs.com/luogankun/
【摘要】今天测试过程中发现YARN Node变成Unhealthy了,后来定位到硬盘空间不够。。。。。通过查找大于100M的文件时发现有N多个spark-assembly-1.4.0-SNAPSHOT-hadoop2.5.0-cdh5.3.1.jar包,大小为170多M,每提交一个application到y... <a href="https://www.cnblogs.com/luogankun/p/4363169.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/luogankun/p/4360729.html
Spark1.3使用外部数据源时条件过滤只要是字符串类型的值均报错 - 瞌睡中的葡萄虎
CREATE TEMPORARY TABLE spark_tblsUSING org.apache.spark.sql.jdbcOPTIONS (url 'jdbc:mysql://hadoop000:3306/hive?user=root&password=root',dbtable ...
2015-03-23T11:01:00Z
2015-03-23T11:01:00Z
瞌睡中的葡萄虎
https://www.cnblogs.com/luogankun/
【摘要】CREATE TEMPORARY TABLE spark_tblsUSING org.apache.spark.sql.jdbcOPTIONS (url 'jdbc:mysql://hadoop000:3306/hive?user=root&password=root',dbtable ... <a href="https://www.cnblogs.com/luogankun/p/4360729.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/luogankun/p/4347955.html
spark1.3编译过程中遇到的一个坑 - 瞌睡中的葡萄虎
在编译spark1.3.0时:export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m"mvn clean package -DskipTests -Phadoop-2.4 -Dhadoop.versi...
2015-03-18T09:57:00Z
2015-03-18T09:57:00Z
瞌睡中的葡萄虎
https://www.cnblogs.com/luogankun/
【摘要】在编译spark1.3.0时:export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m"mvn clean package -DskipTests -Phadoop-2.4 -Dhadoop.versi... <a href="https://www.cnblogs.com/luogankun/p/4347955.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/luogankun/p/4332588.html
Hive On Spark hiveserver2方式使用 - 瞌睡中的葡萄虎
启动hiveserver2:hiveserver2 --hiveconf hive.execution.engine=spark spark.master=yarn使用beeline连接hiveserver2:beeline -u jdbc:hive2://hadoop000:10000 -n sp...
2015-03-12T10:18:00Z
2015-03-12T10:18:00Z
瞌睡中的葡萄虎
https://www.cnblogs.com/luogankun/
【摘要】启动hiveserver2:hiveserver2 --hiveconf hive.execution.engine=spark spark.master=yarn使用beeline连接hiveserver2:beeline -u jdbc:hive2://hadoop000:10000 -n sp... <a href="https://www.cnblogs.com/luogankun/p/4332588.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/luogankun/p/4330688.html
Hive On Spark概述 - 瞌睡中的葡萄虎
Hive现有支持的执行引擎有mr和tez,默认的执行引擎是mr,Hive On Spark的目的是添加一个spark的执行引擎,让hive能跑在spark之上;在执行hive ql脚本之前指定执行引擎、spark.home、spark.masterset hive.execution.engine=...
2015-03-11T10:43:00Z
2015-03-11T10:43:00Z
瞌睡中的葡萄虎
https://www.cnblogs.com/luogankun/
【摘要】Hive现有支持的执行引擎有mr和tez,默认的执行引擎是mr,Hive On Spark的目的是添加一个spark的执行引擎,让hive能跑在spark之上;在执行hive ql脚本之前指定执行引擎、spark.home、spark.masterset hive.execution.engine=... <a href="https://www.cnblogs.com/luogankun/p/4330688.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/luogankun/p/4326672.html
Hive On Spark环境搭建 - 瞌睡中的葡萄虎
Spark源码编译与环境搭建Note that you must have a version of Spark which does not include the Hive jars;Spark编译:git clone https://github.com/apache/spark.git sp...
2015-03-10T10:03:00Z
2015-03-10T10:03:00Z
瞌睡中的葡萄虎
https://www.cnblogs.com/luogankun/
【摘要】Spark源码编译与环境搭建Note that you must have a version of Spark which does not include the Hive jars;Spark编译:git clone https://github.com/apache/spark.git sp... <a href="https://www.cnblogs.com/luogankun/p/4326672.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/luogankun/p/4313645.html
RDD常用方法之subtract&intersection&cartesian - 瞌睡中的葡萄虎
subtractReturn an RDD with the elements from `this` that are not in `other` . def subtract(other: RDD[T]): RDD[T]def subtract(other: RDD[T], numParti...
2015-03-04T08:17:00Z
2015-03-04T08:17:00Z
瞌睡中的葡萄虎
https://www.cnblogs.com/luogankun/
【摘要】subtractReturn an RDD with the elements from `this` that are not in `other` . def subtract(other: RDD[T]): RDD[T]def subtract(other: RDD[T], numParti... <a href="https://www.cnblogs.com/luogankun/p/4313645.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/luogankun/p/4311124.html
SparkSQL DataFrames操作 - 瞌睡中的葡萄虎
Hive中已经存在emp和dept表:select * from emp;+--------+---------+------------+-------+-------------+---------+---------+---------+| empno | ename | job ...
2015-03-03T07:41:00Z
2015-03-03T07:41:00Z
瞌睡中的葡萄虎
https://www.cnblogs.com/luogankun/
【摘要】Hive中已经存在emp和dept表:select * from emp;+--------+---------+------------+-------+-------------+---------+---------+---------+| empno | ename | job ... <a href="https://www.cnblogs.com/luogankun/p/4311124.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/luogankun/p/4268431.html
通过Spark SQL关联查询两个HDFS上的文件操作 - 瞌睡中的葡萄虎
order_created.txt 订单编号 订单创建时间10703007267488 2014-05-01 06:01:12.334+0110101043505096 2014-05-01 07:28:12.342+0110103043509747 2014-05-01 07:50:12....
2015-02-09T07:05:00Z
2015-02-09T07:05:00Z
瞌睡中的葡萄虎
https://www.cnblogs.com/luogankun/
【摘要】order_created.txt 订单编号 订单创建时间10703007267488 2014-05-01 06:01:12.334+0110101043505096 2014-05-01 07:28:12.342+0110103043509747 2014-05-01 07:50:12.... <a href="https://www.cnblogs.com/luogankun/p/4268431.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/luogankun/p/4277958.html
【knowledgebase】不要在一个很大的RDD上调用collect - 瞌睡中的葡萄虎
如果一个RDD很大以至于它的所有元素并不能在driver端机器的内存中存放下,请不要进行如下调用:val values = myVeryLargeRDD.collect()collect将尝试拷贝RDD中的每个元素到Driver端,容易导致OOM或者crash;相反,如果你能通过调用take、tak...
2015-02-09T06:46:00Z
2015-02-09T06:46:00Z
瞌睡中的葡萄虎
https://www.cnblogs.com/luogankun/
【摘要】如果一个RDD很大以至于它的所有元素并不能在driver端机器的内存中存放下,请不要进行如下调用:val values = myVeryLargeRDD.collect()collect将尝试拷贝RDD中的每个元素到Driver端,容易导致OOM或者crash;相反,如果你能通过调用take、tak... <a href="https://www.cnblogs.com/luogankun/p/4277958.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/luogankun/p/4277962.html
【knowledgebase】如何知道partition数 - 瞌睡中的葡萄虎
对于调优和排错来说,查看一个RDD有多少个partition是非常有用的。常用的查看方法有如下几种:1、通过SparkUI查看Task执行的partition数当一个stage执行时,能通过SparkUI界面查看到指定stage的partiton数目val someRDD = sc.parallel...
2015-02-09T06:46:00Z
2015-02-09T06:46:00Z
瞌睡中的葡萄虎
https://www.cnblogs.com/luogankun/
【摘要】对于调优和排错来说,查看一个RDD有多少个partition是非常有用的。常用的查看方法有如下几种:1、通过SparkUI查看Task执行的partition数当一个stage执行时,能通过SparkUI界面查看到指定stage的partiton数目val someRDD = sc.parallel... <a href="https://www.cnblogs.com/luogankun/p/4277962.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/luogankun/p/4275213.html
Spark SQL External Data Sources JDBC官方实现写测试 - 瞌睡中的葡萄虎
通过Spark SQL External Data Sources JDBC实现将RDD的数据写入到MySQL数据库中。jdbc.scala重要API介绍:/** * Save this RDD to a JDBC database at `url` under the table name `ta...
2015-02-05T08:41:00Z
2015-02-05T08:41:00Z
瞌睡中的葡萄虎
https://www.cnblogs.com/luogankun/
【摘要】通过Spark SQL External Data Sources JDBC实现将RDD的数据写入到MySQL数据库中。jdbc.scala重要API介绍:/** * Save this RDD to a JDBC database at `url` under the table name `ta... <a href="https://www.cnblogs.com/luogankun/p/4275213.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/luogankun/p/4274959.html
Spark SQL External Data Sources JDBC官方实现读测试 - 瞌睡中的葡萄虎
在最新的master分支上官方提供了Spark JDBC外部数据源的实现,先尝为快。通过spark-shell测试:import org.apache.spark.sql.SQLContext val sqlContext = new SQLContext(sc)import sqlContex...
2015-02-05T07:24:00Z
2015-02-05T07:24:00Z
瞌睡中的葡萄虎
https://www.cnblogs.com/luogankun/
【摘要】在最新的master分支上官方提供了Spark JDBC外部数据源的实现,先尝为快。通过spark-shell测试:import org.apache.spark.sql.SQLContext val sqlContext = new SQLContext(sc)import sqlContex... <a href="https://www.cnblogs.com/luogankun/p/4274959.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/luogankun/p/4267442.html
Sqoop2入门之导入关系型数据库数据到HDFS上(sqoop2-1.99.4版本) - 瞌睡中的葡萄虎
sqoop2-1.99.4和sqoop2-1.99.3版本操作略有不同:新版本中使用link代替了老版本的connection,其他使用类似。sqoop2-1.99.4环境搭建参见:Sqoop2环境搭建sqoop2-1.99.3版本实现参见:Sqoop2入门之导入关系型数据库数据到HDFS上启动sq...
2015-02-02T03:50:00Z
2015-02-02T03:50:00Z
瞌睡中的葡萄虎
https://www.cnblogs.com/luogankun/
【摘要】sqoop2-1.99.4和sqoop2-1.99.3版本操作略有不同:新版本中使用link代替了老版本的connection,其他使用类似。sqoop2-1.99.4环境搭建参见:Sqoop2环境搭建sqoop2-1.99.3版本实现参见:Sqoop2入门之导入关系型数据库数据到HDFS上启动sq... <a href="https://www.cnblogs.com/luogankun/p/4267442.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/luogankun/p/4267093.html
Spark Streaming、Kafka结合Spark JDBC External DataSouces处理案例 - 瞌睡中的葡萄虎
场景:使用Spark Streaming接收Kafka发送过来的数据与关系型数据库中的表进行相关的查询操作;Kafka发送过来的数据格式为:id、name、cityId,分隔符为tab1 zhangsan 12 lisi 13 wangwu ...
2015-02-02T02:37:00Z
2015-02-02T02:37:00Z
瞌睡中的葡萄虎
https://www.cnblogs.com/luogankun/
【摘要】场景:使用Spark Streaming接收Kafka发送过来的数据与关系型数据库中的表进行相关的查询操作;Kafka发送过来的数据格式为:id、name、cityId,分隔符为tab1 zhangsan 12 lisi 13 wangwu ... <a href="https://www.cnblogs.com/luogankun/p/4267093.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/luogankun/p/4250297.html
Spark Streaming、HDFS结合Spark JDBC External DataSouces处理案例 - 瞌睡中的葡萄虎
场景:使用Spark Streaming接收HDFS上的文件数据与关系型数据库中的表进行相关的查询操作;使用技术:Spark Streaming + Spark JDBC External DataSourcesHDFS上文件的数据格式为:id、name、cityId,分隔符为tab1 ...
2015-01-26T06:43:00Z
2015-01-26T06:43:00Z
瞌睡中的葡萄虎
https://www.cnblogs.com/luogankun/
【摘要】场景:使用Spark Streaming接收HDFS上的文件数据与关系型数据库中的表进行相关的查询操作;使用技术:Spark Streaming + Spark JDBC External DataSourcesHDFS上文件的数据格式为:id、name、cityId,分隔符为tab1 ... <a href="https://www.cnblogs.com/luogankun/p/4250297.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/luogankun/p/4235912.html
Spark SQL External Data Sources JDBC简易实现 - 瞌睡中的葡萄虎
在spark1.2版本中最令我期待的功能是External Data Sources,通过该API可以直接将External Data Sources注册成一个临时表,该表可以和已经存在的表等通过sql进行查询操作。External Data Sources API代码存放于org.apache.s...
2015-01-20T05:54:00Z
2015-01-20T05:54:00Z
瞌睡中的葡萄虎
https://www.cnblogs.com/luogankun/
【摘要】在spark1.2版本中最令我期待的功能是External Data Sources,通过该API可以直接将External Data Sources注册成一个临时表,该表可以和已经存在的表等通过sql进行查询操作。External Data Sources API代码存放于org.apache.s... <a href="https://www.cnblogs.com/luogankun/p/4235912.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/luogankun/p/4212768.html
IDEA中PlantUML的使用 - 瞌睡中的葡萄虎
PlantUML官网地址:http://www.plantuml.com/IDEA中安装PlantUML PluginsFile-->Settings-->Plugins-->Install JetBrains plugin...-->搜索plantuml搜索出来的plugins在左边的列表中展现,...
2015-01-09T02:53:00Z
2015-01-09T02:53:00Z
瞌睡中的葡萄虎
https://www.cnblogs.com/luogankun/
【摘要】PlantUML官网地址:http://www.plantuml.com/IDEA中安装PlantUML PluginsFile-->Settings-->Plugins-->Install JetBrains plugin...-->搜索plantuml搜索出来的plugins在左边的列表中展现,... <a href="https://www.cnblogs.com/luogankun/p/4212768.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/luogankun/p/4185186.html
Spark JdbcRDD 简单使用 - 瞌睡中的葡萄虎
package org.apache.spark.sql.sourcesimport org.apache.spark.SparkContextimport java.sql.{ResultSet, DriverManager}import org.apache.spark.rdd.JdbcRDD/...
2015-01-08T10:11:00Z
2015-01-08T10:11:00Z
瞌睡中的葡萄虎
https://www.cnblogs.com/luogankun/
【摘要】package org.apache.spark.sql.sourcesimport org.apache.spark.SparkContextimport java.sql.{ResultSet, DriverManager}import org.apache.spark.rdd.JdbcRDD/... <a href="https://www.cnblogs.com/luogankun/p/4185186.html" target="_blank">阅读全文</a>