随笔分类 - 架构
摘要:原文链接: https://blog.knoldus.com/spark-type-safety-in-dataset-vs-dataframe/ 基于类型安全特性,编程语言可以避免类型错误,或者说编译器会在编译时检查类型安全然后在遇到错误的类型赋值时会抛出错误。Spark,一个为大数据处理为生的统
阅读全文
摘要:原文链接: https://0x0fff.com/spark-architecture-shuffle 如上图所示,橙色箭头表示shuffle阶段,箭头的起始端称为mapper端,箭头结束端称为reducer。 在Spark中,有多种shuffle的实现,它取决于参数spark.shuffle.ma
阅读全文
摘要:原文链接: https://0x0fff.com/spark-memory-management/ 这篇文章描述Spark的1.6版本之后的内存管理模型,其代码实现是类UnifiedMemoryManager。 长话短说,Spark的内存管理看上去是像下面这样子: 根据上图,你可以看到3个主要区域:
阅读全文
摘要:来源:《Spark快速大数据分析》 例子1,读取文件: >>> lines = sc.textFile("README.md") 例子2,过滤数据: >>> pythonLines = lines.filter(lambda line: "Python" in line) 例子3:调用first()
阅读全文
摘要:我们知道Spark可以发送一个函数到Executor,Executor然后会加载并这个函数,然后在JVM中运行。本文用简单的例子模拟了这个过程。 工程和类的关系 我们一共有3个maven工程: remotecall-base,包含一个Task接口,Task接口有一个方法是run。 remotecal
阅读全文
摘要:原文链接:https://0x0fff.com/spark-misconceptions/ 这篇文章我主要将关于Spark的三大误解: 1、Spark是一种内存固化的技术 2、Spark比Hadoop快10-100倍 3、在数据分析市场,Spark创新地引进新的方法 Spark是一种内存固化的技术?
阅读全文
摘要:MapReduce是一种框架,所谓框架,也即是一个“条条框框”。那么MapReduce的“条条框框”如下: 1、每启动一个任务,就会启动一个JVM,JVM启动是非常耗时的操作,因为一个JVM需要加载很多数据比如很多jar,很多类等等。 2、中间结果要基于磁盘来排序,因为reduce只能读以key排好
阅读全文
摘要:| | spring cloud | dubbo | | | | | | 协议 | HTTP | 默认为dubbo | | 编码 | JSON | hessian(二进制) | | 连接 | 短连接,依赖连接池 | 默认是单一长连接,也支持短连接 | | 最大连接数 | 支持,通过配置tomcat实
阅读全文
摘要:1、为什么Kafka有很高的吞吐量? 1、分区设计,分区分散在多个服务器中实现水平扩展。 2、批量写入和读出,查看kafka的实现会发现,kafka写入和读出的单位是一个消息集合,而不是单条消息。 3、Kafka 使用零复制技术向客户端发送消息一一也就是说, Kafka 直接把消息从文件(或者更确切
阅读全文
摘要:I was asked to write a blog post about MySQL High Availability at Yahoo, particularly for writes. Our standard practice is not particularly high-tech,
阅读全文

浙公网安备 33010602011771号