Tanglement - 博客园

2020年3月23日

摘要： Redis基本知识 Redis介绍 Redis:REmote DIctionary Server，远程字典服务器。是完全开源免费，用C语言编写的一个高性能Key Value分布式内存数据库.其基于内存运行，支持持久化，是最热门的NoSQL数据库之一。 Redis具有消息中间件、发布订阅消息系统、定时阅读全文

posted @ 2020-03-23 11:30 Tanglement 阅读(237) 评论(0) 推荐(0)

2020年3月22日

Linux学习（含有常用命令集）

摘要： Linux概述 Linux是一个开源、免费的操作系统。 Linux是一个内核，在linux内核上加工包装，二次开发成Ubuntu、CentOS等发行版。 Linux常用命令集 vi,vim,文本编辑器 vi和vim的三种常见模式：正常模式，可以使用快捷键处理文件；编辑模式，按i进入编辑模式；命令行模阅读全文

posted @ 2020-03-22 15:33 Tanglement 阅读(213) 评论(0) 推荐(0)

2020年3月19日

深入Kafka

摘要：集群成员关系 Kafka使用zookeeper来维护集群成员信息。每个broker都有一个唯一标识符broker.id。在broker启动时，它把自己的ID注册到zookeeper。Kafka组件订阅zookeeper的brokers/ids/路径，当有broker加入或退出集群时，这些组件就获得通阅读全文

posted @ 2020-03-19 10:45 Tanglement 阅读(138) 评论(0) 推荐(0)

2020年3月18日

Kafka消费者

摘要：消费者和消费者群组生产者往主题写入消息的速度超过了应用程序验证数据的速度。如果使用单个消费者处理消息，应用程序跟不上消息生成的速度。此时，有必要对消费者进行横向伸缩，我们可以使用多个消费者从同一个主题读取消息，对消息进行分流。一个群组里的消费者订阅同一个主题，每个消费者接收主题的一部分分区的消息阅读全文

posted @ 2020-03-18 15:57 Tanglement 阅读(361) 评论(0) 推荐(0)

2020年3月17日

Kafka生产者

摘要：开发者可以使用Kafka内置的客户端API开发应用程序生产者一个应用程序往kafka写入消息：记录用户的活动、记录度量指标、保存日志消息、记录智能家电的信息、与其他应用程序进行异步通信等发送消息流程创建一个ProducerRecord对象开始，ProducerRecord对象需要包含目标to 阅读全文

posted @ 2020-03-17 21:44 Tanglement 阅读(232) 评论(0) 推荐(0)

Kafka概述

摘要：将生产者和消费者解耦使用消息队列的好处解耦：允许你独立的扩展或修改两边的处理过程，只要确保他们遵守同样的接口约束可恢复性：系统一部分组件失效时，不会影响到整个系统，降低了进程间的耦合度缓冲：有助于控制和优化数据流经过系统的速度，解决生产消息和消费消息处理速度不一致的情况异步通信 Kafka 阅读全文

posted @ 2020-03-17 21:42 Tanglement 阅读(217) 评论(0) 推荐(0)

2020年3月16日

Spark SQL

摘要： Spark SQL简介 Shark Shark即Hive On Spark，Shark再HiveQL方面重用了Hive中HiveQL的解析器、编译器、优化器，可以近似认为仅将物理执行计划从MapReduce作业替换成了Spark作业，通过Hive的HiveQL解析，把HiveQL翻译成Spark上的阅读全文

posted @ 2020-03-16 15:18 Tanglement 阅读(210) 评论(0) 推荐(0)

2020年3月15日

Spark集群运行与优化

摘要： Spark集群上的运行 Spark集群采用的是主/从结构，主是驱动器节点driver，其他是工作节点executor，之间通过集群管理器来连接。驱动器在Spark应用有两个职责：把用户程序转为任务。转为多个物理执行的单元，即任务task。驱动器会按DAG图来执行，也会对DAG进行流水线优化，形成阅读全文

posted @ 2020-03-15 18:58 Tanglement 阅读(287) 评论(0) 推荐(0)

Hive优化

摘要：抓取 Hive中对于某些情况的查询可以不必使用MapReduce计算。例如SELECT，Hive可以简单读取对应的存储目录的文件信息。可以设置一些参数，全局查找、字段查找、limit查找等都不使用MapReduce。或者执行查询语句都执行MapReduce。本地模式在Hive处理的输入数据量很阅读全文

posted @ 2020-03-15 18:52 Tanglement 阅读(166) 评论(0) 推荐(0)

Hive自定义函数

摘要：自定义函数用户可以通过自定义UDF来方便的扩展（user defined function）。根据用户自定义函数类别，分别为一下三种： UDF，一进一出 UDAF，聚集函数，多进一出 UDTF，一进多出编程步骤 1. 继承org.apache.hadoop.hive.ql.UDF 2. 实现ev 阅读全文

posted @ 2020-03-15 10:47 Tanglement 阅读(369) 评论(0) 推荐(0)

公告