摘要: ```scala sparkConf.set("spark.streaming.stopGracefullyOnShutdown", "true") // 启动新的线程,希望在特殊的场合关闭SparkStreaming new Thread(new Runnable { override def run(): Unit = { while ( true ) { try { Thread.sleep 阅读全文
posted @ 2019-11-15 20:07 qingfeng68 阅读(174) 评论(0) 推荐(0)
摘要: 第一章:Spark概述 1.1 什么是Spark 是一种基于内存的快速、通用、可扩展的大数据分析引擎。 1.2 Spark内置模块 Spark Core: 实现了Spark的基本功能,包含 任务调度、 内存管理、 错误恢复、 存储系统交互等模块。 Spark Core中还包含了对弹性分布式数据集(R 阅读全文
posted @ 2019-11-15 20:06 qingfeng68 阅读(239) 评论(0) 推荐(0)
摘要: 第1章 RDD概述 1.1 什么是RDD RDD(Resilient Distributed Dataset)叫做弹性分布式 数据集 ,是Spark中最基本的数据(计算)抽象。代码中是一个抽象类,它代表一个不可变、可分区、里面的元素可并行计算的集合。 1.2 RDD的属性 1. 一组分区(Parti 阅读全文
posted @ 2019-11-15 20:06 qingfeng68 阅读(234) 评论(0) 推荐(0)
摘要: ``` log4j.rootLogger=INFO,CONSOLE log4j.addivity.org.apache=true # console log4j.appender.CONSOLE=org.apache.log4j.ConsoleAppender log4j.appender.CONSOLE.Threshold=INFO log4j.appender.CONSOLE.Target=S 阅读全文
posted @ 2019-11-15 19:57 qingfeng68 阅读(139) 评论(0) 推荐(0)
该文被密码保护。 阅读全文
posted @ 2019-11-15 19:55 qingfeng68 阅读(11) 评论(0) 推荐(0)
摘要: pmod(int a, int b) pmod(double a, double b) 返回a除b的余数的绝对值。 实例1: 阅读全文
posted @ 2019-11-14 10:40 qingfeng68 阅读(3458) 评论(0) 推荐(0)
摘要: 例子:str=www.wikibt.com substring_index(str,'.',1) 结果是:www substring_index(str,'.',2) 结果是:www.wikibt 也就是说,如果count是正数,那么就是从左往右数,第N个分隔符的左边的全部内容 相反,如果是负数,那 阅读全文
posted @ 2019-11-13 14:18 qingfeng68 阅读(2234) 评论(0) 推荐(0)
摘要: COALESCE是一个函数, (expression_1, expression_2, ...,expression_n)依次参考各参数表达式,遇到非null值即停止并返回该值。如果所有的表达式都是空值,最终将返回一个空值。 比如我们要登记用户的电话,数据库中包含他的person_tel,home_ 阅读全文
posted @ 2019-11-12 15:20 qingfeng68 阅读(356) 评论(0) 推荐(0)
该文被密码保护。 阅读全文
posted @ 2019-11-12 12:12 qingfeng68 阅读(2) 评论(0) 推荐(0)
该文被密码保护。 阅读全文
posted @ 2019-11-12 00:19 qingfeng68 阅读(1) 评论(0) 推荐(0)