05 2020 档案

摘要:题目 The task is to determine whether a tumor will be benign (harmless) or malignant (harmful) based on leukocyte (white blood cells) count and blood pr 阅读全文
posted @ 2020-05-05 11:00 Tanglement 阅读(340) 评论(0) 推荐(0)
摘要:内容来自于林子雨老师的《Spark编程基础》和一些自己的学习笔记。 概述 Structured Streaming是一种基于Spark SQL引擎构建的、可扩展且容错性高的流处理引擎。这里我把它理解为,因为Spark不能处理毫秒级流计算而诞生的流处理引擎。因此Structured Streaming 阅读全文
posted @ 2020-05-03 14:33 Tanglement 阅读(1393) 评论(0) 推荐(0)
摘要:流计算概述 流数据是指在时间分布上和数量上无线的一系列动态数据集合。数据记录是流数据的最小组成单元。 流数据特征 数据快速持续到达,无穷无尽 数据来源众多,格式复杂 数据量大,不关心存储 注重数据的整体价值,不过分关注个别数据 数据顺序颠倒或者不完整 流计算 流数据被处理后,一部分进入数据库成为静态 阅读全文
posted @ 2020-05-01 16:13 Tanglement 阅读(254) 评论(0) 推荐(0)