会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
xuejianbest
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
4
5
6
7
8
9
10
11
12
···
38
下一页
2019年1月9日
JavaScript:基本语法
摘要: js语法严格区分大小写。NaN这个特殊的Number与所有其他值都不相等,包括它自己。唯一能判断NaN的方法是通过isNaN()函数:NaN === NaN; // false字符串://ASCII字符可以以\x##形式的十六进制表示,例如: '\x41';...
阅读全文
posted @ 2019-01-09 17:03 xuejianbest
阅读(116)
评论(0)
推荐(0)
2019年1月8日
Spark:同一个程序使用多个hive元数据
摘要: 一个SparkSession对象只能使用一个hive元数据,且中间不可变更,若想spark程序能访问多个hive元数据,有以下两种方法:方法一:采用jdbc方式建立多个hive连接。方法二:程序前后创建两个SparkSession对象(不能共存),分别用 h...
阅读全文
posted @ 2019-01-08 16:59 xuejianbest
阅读(1016)
评论(0)
推荐(0)
2019年1月7日
Spark:从oracle读取大表写入hive实践
摘要: oracle表数据量60G,数据条数:58475050提交参数spark-submit --master yarn --deploy-mode client \--class com.xjb.Test \--jars ojdbc5-11.2.0.3.jar ...
阅读全文
posted @ 2019-01-07 14:04 xuejianbest
阅读(1765)
评论(0)
推荐(0)
Spark:partition、task、executor关系
摘要: spark中执行任务会显示如下格式的进度:[Stage 4:=========================> (12 + 11) / 24]# 这是stage4阶段:## 共有24个task(一个...
阅读全文
posted @ 2019-01-07 13:36 xuejianbest
阅读(6659)
评论(1)
推荐(1)
Spark:saveAsTable解析
摘要: 说一下默认的配置saveAsTable方法会以parquet文件的形式存储数据,但是由于spark和hive使用的parquet标准不一致(对decimal类型存储的时候,具体和精度有关如DecimalType(10,2)会报错而DecimalType(38...
阅读全文
posted @ 2019-01-07 13:36 xuejianbest
阅读(2853)
评论(0)
推荐(0)
Spark:用CombineTextInputFormat缓解小文件过多导致Task数目过多的问题
摘要: http://www.cnblogs.com/yurunmiao/p/5195754.html原始读法:lines = sc.textFile("hdfs:///dir/")这样一个block会形成一个partition,对应一个task。优化读法:line...
阅读全文
posted @ 2019-01-07 13:36 xuejianbest
阅读(517)
评论(0)
推荐(0)
Spark:使用partitionColumn选项读取数据库原理
摘要: 代码:val tbname = "TABLENAME"val df = spark.read .format("jdbc") .option("driver", "oracle.jdbc.driver.OracleDriver") .option("u...
阅读全文
posted @ 2019-01-07 13:36 xuejianbest
阅读(1132)
评论(0)
推荐(0)
Spark:spark streaming读取到的kafka数据类型
摘要: 从kafka获取到的数据类型:org.apache.spark.streaming.dstream.InputDStream[org.apache.kafka.clients.consumer.ConsumerRecord[String, String]] ...
阅读全文
posted @ 2019-01-07 13:36 xuejianbest
阅读(533)
评论(0)
推荐(0)
Spark:hive on spark
摘要: spark默认会使用基于derby数据库存储元数据的hive,数据文件存储位置由spark.sql.warehouse.dir参数指定(默认为当前目录)。比如当我们在/spark/目录下调用spark-shell,并且用Dataset的saveAsTable...
阅读全文
posted @ 2019-01-07 13:36 xuejianbest
阅读(944)
评论(0)
推荐(0)
Spark:交叉验证选择参数集
摘要: spark的交叉验证和python sklearn库的交叉验证不太一样,python sklearn库cross_validation用来交叉验证选择模型,然后输出得分,而模型参数的选择同交叉验证是分开的模块。而spark的org.apache.spark....
阅读全文
posted @ 2019-01-07 13:35 xuejianbest
阅读(1081)
评论(0)
推荐(0)
上一页
1
···
4
5
6
7
8
9
10
11
12
···
38
下一页
公告