Vowzhou

2019年5月15日

摘要：在SparkSQL中Spark为我们提供了两个新的抽象，分别是DataFrame和DataSet。他们和RDD有什么区别呢？首先从版本的产生上来看： RDD (Spark1.0) —> Dataframe(Spark1.3) —> Dataset(Spark1.6) 如果同样的数据都给到这三个数据阅读全文

posted @ 2019-05-15 20:20 Vowzhou 阅读(234) 评论(0) 推荐(0) 编辑

Spark-SQL

摘要： Spark SQL 发家史熟悉spark sql的都知道，spark sql是从shark发展而来。Shark为了实现Hive兼容，在HQL方面重用了Hive中HQL的解析、逻辑执行计划翻译、执行计划优化等逻辑，可以近似认为仅将物理执行计划从MR作业替换成了Spark作业（辅以内存列式存储等各种和阅读全文

posted @ 2019-05-15 10:33 Vowzhou 阅读(181) 评论(0) 推荐(0) 编辑

2019年5月13日

量子行走

摘要：进展 | 强关联量子行走在12量子比特超导处理器上的实现利用多个超导量子比特模拟各种量子效应是当前人们关注的前沿研究。近日，中国科学院物理研究所/北京凝聚态物理国家研究中心范桁研究员，北京计算科学研究中心/物理所张煜然博士等所组成的理论组与中国科学技术大学朱晓波教授、潘建伟教授及其团队闫智广、龚明阅读全文

posted @ 2019-05-13 11:51 Vowzhou 阅读(1612) 评论(0) 推荐(0) 编辑

五月Spark

摘要： Resilient Distributed Datasets RDD弹性 1）自动进行内存和磁盘数据存储的切换 2）基于血统的高容错机制 3）Task、Stage 如果失败会自动进行特定次数的重试【默认次数是4次】 5）Checkpoint 和 Persist（持久化）可主动或被动触发 RDD可以阅读全文

posted @ 2019-05-13 10:35 Vowzhou 阅读(99) 评论(0) 推荐(0) 编辑

2019年5月10日

Spark算子（一）Transformat

摘要：常用的一些简单算子： map(func) 返回一个新的RDD，该RDD由每一个输入元素经过func函数转换后组成 flatMap(func) 类似于map，但是每一个输入元素可以被映射为0或多个输出元素（所以func应该返回一个序列，而不是单一元素） partitionBy 对RDD进行分区操作，如阅读全文

posted @ 2019-05-10 10:16 Vowzhou 阅读(550) 评论(0) 推荐(0) 编辑

2019年5月8日

Spark键值对RDD的转化操作

摘要： 1.1 键值对RDD的转化操作\\ 1.1.1 转化操作列表针对一个Pair RDD的转化操作：、针对两个Pair RDD的转化操作：阅读全文

posted @ 2019-05-08 19:06 Vowzhou 阅读(463) 评论(0) 推荐(1) 编辑

Spark算子（二）Action

摘要： 1.1.1 Action reduce（func）:通过function 函数聚合RDD中的所有元素， RDD必须是可交换且可并联的 collect () ：在驱动程序中，以数组的形式返回数据集的所有元素将分布式的RDD返回为一个单机的 scala Array 数组。在这个数组上运用 Scala 阅读全文

posted @ 2019-05-08 11:52 Vowzhou 阅读(330) 评论(0) 推荐(0) 编辑

To be Happy & Wise Parents

摘要： 2019-05-08 10:30:33 Ms Kim Barthel's lecture : Two voice, one brain. Gary Chen shared the most painful story about his 6 years old daughter. Currently 阅读全文

posted @ 2019-05-08 10:31 Vowzhou 阅读(82) 评论(0) 推荐(0) 编辑

2019年5月7日

Spark中利用Scala进行数据清洗（代码）

摘要： 2：写spark程序统计iis网站请求日志中每天每个小时段成功访问ip的数量更灵活的运用spark算子，意味着写更少的代码 2019-05-07 19:06:57 阅读全文

posted @ 2019-05-07 18:55 Vowzhou 阅读(6541) 评论(1) 推荐(1) 编辑

2019年5月6日

Spark核心概念

摘要： Spark核心概念每个Spark应用都由一个驱动器程序(driver program)来发起集群上的各种并行操作。驱动器程序包含应用的 main 函数，并且定义了集群上的分布式数据集，还对这些分布式数据集应用了相关操作。驱动器程序通过一个 SparkContext 对象来访问 Spark。阅读全文

posted @ 2019-05-06 20:07 Vowzhou 阅读(254) 评论(0) 推荐(0) 编辑

公告