摘要: Hadoop进行海量数据分析,MR频繁落地,IO操作,计算时间就拉长。由于这种设计影响,计算过程中不能进行迭代计算。造成网络节点数据传输。 Spark从理念上就开始改变。应用scala特点解决上面的核心问题,提升处理速度。Spark基于内存来实现,内存访问效率比磁盘访问效率高非常多。Spark不能完 阅读全文
posted @ 2018-04-17 21:51 有容奶大 阅读(1461) 评论(0) 推荐(0)
摘要: shark完全兼容hive,完全兼容MR,它把它们替代。类SQL查询,性能比hive高很多 sparkSQL比shark更快。shark严重依赖hive,hive慢,无法优化。 SparkSQL和shark最大不同,shark封装hive,受制于hive底层局限,性能无法优化,SparkSQL完全基 阅读全文
posted @ 2018-04-17 21:41 有容奶大 阅读(478) 评论(0) 推荐(0)
只有注册用户登录后才能阅读该文。 阅读全文
posted @ 2018-04-17 21:36 有容奶大 阅读(0) 评论(0) 推荐(0)
只有注册用户登录后才能阅读该文。 阅读全文
posted @ 2018-04-17 21:35 有容奶大 阅读(4) 评论(0) 推荐(0)
只有注册用户登录后才能阅读该文。 阅读全文
posted @ 2018-04-17 21:31 有容奶大 阅读(6) 评论(0) 推荐(0)
摘要: 1) Kafka成为业界大数据松耦合架构,异步,队列 特点:吞吐量高50m/s。 Kafka和RabbitMQ都是MQ机制,它差异 Kafka只支持topic模式。rabbitMQ支持6种的方式。 (简单模式、work工作模式(竞争)、发布-订阅模式fanout、路由模式direct(过滤群发)、主 阅读全文
posted @ 2018-04-17 21:29 有容奶大 阅读(310) 评论(0) 推荐(0)
只有注册用户登录后才能阅读该文。 阅读全文
posted @ 2018-04-17 21:21 有容奶大 阅读(10) 评论(0) 推荐(0)
只有注册用户登录后才能阅读该文。 阅读全文
posted @ 2018-04-17 21:20 有容奶大 阅读(6) 评论(0) 推荐(0)
只有注册用户登录后才能阅读该文。 阅读全文
posted @ 2018-04-17 21:16 有容奶大 阅读(7) 评论(0) 推荐(0)
摘要: 基本概念 Kafka将消息以topic为单位进行归纳。 将向Kafka topic发布消息的程序称为producers. 将预订topics并消费消息的程序称为consumer. Kafka以集群的方式运行,可以由一个或多个服务组成,每个服务叫做一个broker. producers通过网络将消息发 阅读全文
posted @ 2018-04-17 21:15 有容奶大 阅读(130) 评论(0) 推荐(0)
只有注册用户登录后才能阅读该文。 阅读全文
posted @ 2018-04-17 21:09 有容奶大 阅读(9) 评论(0) 推荐(0)
只有注册用户登录后才能阅读该文。 阅读全文
posted @ 2018-04-17 21:07 有容奶大 阅读(8) 评论(0) 推荐(0)
只有注册用户登录后才能阅读该文。 阅读全文
posted @ 2018-04-17 21:04 有容奶大 阅读(8) 评论(0) 推荐(0)