摘要: #概念 Apache Flink 是一个框架和分布式处理引擎,用于对无界和有界数据流进行状态计算 #为什么选择flink 流数据更真实的反映我们的生活方式 低延迟 flink毫秒级 spark streaming 秒级 高吞吐 (阿里每秒使用Flink处理4.6PB 双十一大屏) 结果的准确性和良好 阅读全文
posted @ 2022-05-25 11:39 triumph丶xs 阅读(36) 评论(0) 推荐(0) 编辑
该文被密码保护。 阅读全文
posted @ 2022-05-22 22:59 triumph丶xs 阅读(2) 评论(0) 推荐(0) 编辑
摘要: ##1. 为什么要使用 kafka? 缓冲和削峰:上游数据时有突发流量,下游可能扛不住,或者下游没有足够多的机器来保证冗余,kafka在中间可以起到一个缓冲的作用,把消息暂存在kafka中,下游服务就可以按照自己的节奏进行慢慢处理。 解耦和扩展性:项目开始的时候,并不能确定具体需求。消息队列可以作为 阅读全文
posted @ 2022-04-01 10:16 triumph丶xs 阅读(579) 评论(0) 推荐(0) 编辑
摘要: ##1.产生原因 Flume OutOfMemoryError错误 运行Flume没多久就报下面的异常: Exception in thread "PollableSourceRunner-KafkaSource-r1" java.lang.OutOfMemoryError: GC overhead 阅读全文
posted @ 2021-12-15 16:46 triumph丶xs 阅读(325) 评论(0) 推荐(0) 编辑
摘要: ##1.SparkSQL ####Spark SQL是Spark用于结构化数据(structured data)处理的Spark模块 对于开发人员来讲,SparkSQL可以简化RDD的开发,提高开发效率,且执行效率非常快,Spark SQL为了简化RDD的开发,提高开发效率,提供了2个编程抽象(数据 阅读全文
posted @ 2021-06-10 11:39 triumph丶xs 阅读(94) 评论(0) 推荐(0) 编辑
摘要: #RDD ###1.所谓的RDD,其实就是一个数据结构,类似于链表中的Node ###2.RDD中有适合并行计算的分区操作 ###3.RDD中封装了最小的计算单元,目的是更适合重复使用 ###4.Spark的计算主要就是通过组合RDD的操作,完成业务需求 ##1.从集合(内存)中创建RDD ###从 阅读全文
posted @ 2021-06-02 21:29 triumph丶xs 阅读(98) 评论(0) 推荐(0) 编辑
摘要: #1.数组 ###new Array后面需要加个泛型 赋值时()而不是[] ###数组定义、数据的修改、多种遍历 (1)数组定义 val arr01 = new Array[Int](4) println(arr01.length) // 4 //(2)数组赋值 //(2.1)修改某个元素的值 ar 阅读全文
posted @ 2021-05-26 21:26 triumph丶xs 阅读(54) 评论(0) 推荐(0) 编辑
摘要: #模式匹配 TODO - 模式匹配 - 匹配规则 1.类似于java中switch 2.当数据满足某一个分支时,执行完毕后,就直接跳出 3.case _ 分支类似于default语言, 分支匹配其实就是顺序匹配 4.如果数据没有匹配任何规则,会发生错误 模式匹配语法中,采用match关键字声明,每个 阅读全文
posted @ 2021-05-25 20:51 triumph丶xs 阅读(93) 评论(0) 推荐(0) 编辑
摘要: #面向对象编程 ##1.基础面向对象编程 ###1.1 包 1. 可以让源码文件中多次使用package关键字 2. 源码物理路径和包名没有关系,就算报名不对,一样可以执行 3. 明确包的作用域,可以在package关键字的后面增加大括号 4. 同一个源码中,子包中可以直接访问父包中的内容 5. s 阅读全文
posted @ 2021-05-21 21:28 triumph丶xs 阅读(67) 评论(0) 推荐(0) 编辑
摘要: #scala ##函数式编程 ##1.基本语法 [修饰符] def 函数名 ( 参数列表 ) [:返回值类型] = { 函数体 } private def test( s : String ) : Unit = { println(s) } ##2.函数定义 ####无返回值,调用函数后不用prin 阅读全文
posted @ 2021-05-19 21:28 triumph丶xs 阅读(60) 评论(0) 推荐(0) 编辑