架构 - 随笔分类 - ralgo

Spark（七）Dataset与DataFrame的类型安全性

摘要：原文链接： https://blog.knoldus.com/spark-type-safety-in-dataset-vs-dataframe/ 基于类型安全特性，编程语言可以避免类型错误，或者说编译器会在编译时检查类型安全然后在遇到错误的类型赋值时会抛出错误。Spark，一个为大数据处理为生的统阅读全文

posted @ 2021-07-30 16:29 ralgo 阅读(325) 评论(0) 推荐(0)

Spark（六）Shuffle

摘要：原文链接： https://0x0fff.com/spark-architecture-shuffle 如上图所示，橙色箭头表示shuffle阶段，箭头的起始端称为mapper端，箭头结束端称为reducer。在Spark中，有多种shuffle的实现，它取决于参数spark.shuffle.ma 阅读全文

posted @ 2021-07-19 13:53 ralgo 阅读(154) 评论(0) 推荐(0)

Spark（五）内存管理

摘要：原文链接： https://0x0fff.com/spark-memory-management/ 这篇文章描述Spark的1.6版本之后的内存管理模型，其代码实现是类UnifiedMemoryManager。长话短说，Spark的内存管理看上去是像下面这样子：根据上图，你可以看到3个主要区域：阅读全文

posted @ 2021-07-16 12:00 ralgo 阅读(261) 评论(0) 推荐(0)

Spark（四）为什么说RDD的惰性计算（lazy）有道理

摘要：来源：《Spark快速大数据分析》例子1，读取文件： >>> lines = sc.textFile("README.md") 例子2，过滤数据： >>> pythonLines = lines.filter(lambda line: "Python" in line) 例子3：调用first() 阅读全文

posted @ 2021-06-29 14:32 ralgo 阅读(542) 评论(0) 推荐(0)

Spark（三）模仿Spark实现Java发送一个类到服务端（Executor）运行

摘要：我们知道Spark可以发送一个函数到Executor，Executor然后会加载并这个函数，然后在JVM中运行。本文用简单的例子模拟了这个过程。工程和类的关系我们一共有3个maven工程： remotecall-base，包含一个Task接口，Task接口有一个方法是run。 remotecal 阅读全文

posted @ 2021-06-28 18:31 ralgo 阅读(150) 评论(0) 推荐(0)

Spark（二）关于对Spark的误解

摘要：原文链接：https://0x0fff.com/spark-misconceptions/ 这篇文章我主要将关于Spark的三大误解： 1、Spark是一种内存固化的技术 2、Spark比Hadoop快10-100倍 3、在数据分析市场，Spark创新地引进新的方法 Spark是一种内存固化的技术？阅读全文

posted @ 2021-06-27 10:35 ralgo 阅读(138) 评论(0) 推荐(0)

Spark（一）为什么Spark要比Hadoop MapReduce快？

摘要：MapReduce是一种框架，所谓框架，也即是一个“条条框框”。那么MapReduce的“条条框框”如下： 1、每启动一个任务，就会启动一个JVM，JVM启动是非常耗时的操作，因为一个JVM需要加载很多数据比如很多jar，很多类等等。 2、中间结果要基于磁盘来排序，因为reduce只能读以key排好阅读全文

posted @ 2021-06-24 14:28 ralgo 阅读(667) 评论(0) 推荐(0)

Spring Cloud和Dubbo对比

posted @ 2020-11-20 18:56 ralgo 阅读(193) 评论(0) 推荐(0)

Kafka Q&A

摘要：1、为什么Kafka有很高的吞吐量？ 1、分区设计，分区分散在多个服务器中实现水平扩展。 2、批量写入和读出，查看kafka的实现会发现，kafka写入和读出的单位是一个消息集合，而不是单条消息。 3、Kafka 使用零复制技术向客户端发送消息一一也就是说， Kafka 直接把消息从文件（或者更确切阅读全文

posted @ 2020-11-05 10:17 ralgo 阅读(127) 评论(0) 推荐(0)

MySQL High Availability at Yahoo （雅虎的MySQL高可用实践）

摘要：I was asked to write a blog post about MySQL High Availability at Yahoo, particularly for writes. Our standard practice is not particularly high-tech, 阅读全文

posted @ 2020-10-31 11:45 ralgo 阅读(136) 评论(0) 推荐(0)

ralgo

随笔分类 - 架构

公告