xuejianbest

摘要： js语法严格区分大小写。NaN这个特殊的Number与所有其他值都不相等，包括它自己。唯一能判断NaN的方法是通过isNaN()函数：NaN === NaN; // false字符串：//ASCII字符可以以\x##形式的十六进制表示，例如： '\x41';... 阅读全文

posted @ 2019-01-09 17:03 xuejianbest 阅读(121) 评论(0) 推荐(0)

摘要：一个SparkSession对象只能使用一个hive元数据，且中间不可变更，若想spark程序能访问多个hive元数据，有以下两种方法：方法一：采用jdbc方式建立多个hive连接。方法二：程序前后创建两个SparkSession对象（不能共存），分别用 h... 阅读全文

posted @ 2019-01-08 16:59 xuejianbest 阅读(1033) 评论(0) 推荐(0)

摘要： oracle表数据量60G，数据条数：58475050提交参数spark-submit --master yarn --deploy-mode client \--class com.xjb.Test \--jars ojdbc5-11.2.0.3.jar ... 阅读全文

posted @ 2019-01-07 14:04 xuejianbest 阅读(1769) 评论(0) 推荐(0)

摘要：代码：val tbname = "TABLENAME"val df = spark.read .format("jdbc") .option("driver", "oracle.jdbc.driver.OracleDriver") .option("u... 阅读全文

posted @ 2019-01-07 13:36 xuejianbest 阅读(1137) 评论(0) 推荐(0)

摘要：从kafka获取到的数据类型：org.apache.spark.streaming.dstream.InputDStream[org.apache.kafka.clients.consumer.ConsumerRecord[String, String]] ... 阅读全文

posted @ 2019-01-07 13:36 xuejianbest 阅读(534) 评论(0) 推荐(0)

摘要： spark中执行任务会显示如下格式的进度：[Stage 4:=========================> (12 + 11) / 24]# 这是stage4阶段：## 共有24个task（一个... 阅读全文

posted @ 2019-01-07 13:36 xuejianbest 阅读(6675) 评论(1) 推荐(1)

摘要： http://www.cnblogs.com/yurunmiao/p/5195754.html原始读法：lines = sc.textFile("hdfs:///dir/")这样一个block会形成一个partition，对应一个task。优化读法：line... 阅读全文

posted @ 2019-01-07 13:36 xuejianbest 阅读(521) 评论(0) 推荐(0)

摘要： spark默认会使用基于derby数据库存储元数据的hive，数据文件存储位置由spark.sql.warehouse.dir参数指定（默认为当前目录）。比如当我们在/spark/目录下调用spark-shell，并且用Dataset的saveAsTable... 阅读全文

posted @ 2019-01-07 13:36 xuejianbest 阅读(961) 评论(0) 推荐(0)

摘要：说一下默认的配置saveAsTable方法会以parquet文件的形式存储数据，但是由于spark和hive使用的parquet标准不一致（对decimal类型存储的时候，具体和精度有关如DecimalType(10,2)会报错而DecimalType(38... 阅读全文

posted @ 2019-01-07 13:36 xuejianbest 阅读(2857) 评论(0) 推荐(0)

摘要： spark的交叉验证和python sklearn库的交叉验证不太一样，python sklearn库cross_validation用来交叉验证选择模型，然后输出得分，而模型参数的选择同交叉验证是分开的模块。而spark的org.apache.spark.... 阅读全文

posted @ 2019-01-07 13:35 xuejianbest 阅读(1085) 评论(0) 推荐(0)