上一页 1 ··· 5 6 7 8 9 10 11 12 13 ··· 15 下一页
摘要: Redis基本知识 Redis介绍 Redis:REmote DIctionary Server,远程字典服务器。是完全开源免费,用C语言编写的一个高性能Key Value分布式内存数据库.其基于内存运行,支持持久化,是最热门的NoSQL数据库之一。 Redis具有消息中间件、发布订阅消息系统、定时 阅读全文
posted @ 2020-03-23 11:30 Tanglement 阅读(225) 评论(0) 推荐(0)
摘要: Linux概述 Linux是一个开源、免费的操作系统。 Linux是一个内核,在linux内核上加工包装,二次开发成Ubuntu、CentOS等发行版。 Linux常用命令集 vi,vim,文本编辑器 vi和vim的三种常见模式:正常模式,可以使用快捷键处理文件;编辑模式,按i进入编辑模式;命令行模 阅读全文
posted @ 2020-03-22 15:33 Tanglement 阅读(192) 评论(0) 推荐(0)
摘要: 集群成员关系 Kafka使用zookeeper来维护集群成员信息。每个broker都有一个唯一标识符broker.id。在broker启动时,它把自己的ID注册到zookeeper。Kafka组件订阅zookeeper的brokers/ids/路径,当有broker加入或退出集群时,这些组件就获得通 阅读全文
posted @ 2020-03-19 10:45 Tanglement 阅读(128) 评论(0) 推荐(0)
摘要: 消费者和消费者群组 生产者往主题写入消息的速度超过了应用程序验证数据的速度。如果使用单个消费者处理消息,应用程序跟不上消息生成的速度。此时,有必要对消费者进行横向伸缩,我们可以使用多个消费者从同一个主题读取消息,对消息进行分流。 一个群组里的消费者订阅同一个主题,每个消费者接收主题的一部分分区的消息 阅读全文
posted @ 2020-03-18 15:57 Tanglement 阅读(347) 评论(0) 推荐(0)
摘要: 开发者可以使用Kafka内置的客户端API开发应用程序 生产者 一个应用程序往kafka写入消息:记录用户的活动、记录度量指标、保存日志消息、记录智能家电的信息、与其他应用程序进行异步通信等 发送消息流程 创建一个ProducerRecord对象开始,ProducerRecord对象需要包含目标to 阅读全文
posted @ 2020-03-17 21:44 Tanglement 阅读(222) 评论(0) 推荐(0)
摘要: 将生产者和消费者解耦 使用消息队列的好处 解耦:允许你独立的扩展或修改两边的处理过程,只要确保他们遵守同样的接口约束 可恢复性:系统一部分组件失效时,不会影响到整个系统,降低了进程间的耦合度 缓冲:有助于控制和优化数据流经过系统的速度,解决生产消息和消费消息处理速度不一致的情况 异步通信 Kafka 阅读全文
posted @ 2020-03-17 21:42 Tanglement 阅读(208) 评论(0) 推荐(0)
摘要: Spark SQL简介 Shark Shark即Hive On Spark,Shark再HiveQL方面重用了Hive中HiveQL的解析器、编译器、优化器,可以近似认为仅将物理执行计划从MapReduce作业替换成了Spark作业,通过Hive的HiveQL解析,把HiveQL翻译成Spark上的 阅读全文
posted @ 2020-03-16 15:18 Tanglement 阅读(196) 评论(0) 推荐(0)
摘要: Spark集群上的运行 Spark集群采用的是主/从结构,主是驱动器节点driver,其他是工作节点executor,之间通过集群管理器来连接。 驱动器在Spark应用有两个职责: 把用户程序转为任务。转为多个物理执行的单元,即任务task。驱动器会按DAG图来执行,也会对DAG进行流水线优化,形成 阅读全文
posted @ 2020-03-15 18:58 Tanglement 阅读(269) 评论(0) 推荐(0)
摘要: 抓取 Hive中对于某些情况的查询可以不必使用MapReduce计算。例如SELECT,Hive可以简单读取对应的存储目录的文件信息。 可以设置一些参数,全局查找、字段查找、limit查找等都不使用MapReduce。或者执行查询语句都执行MapReduce。 本地模式 在Hive处理的输入数据量很 阅读全文
posted @ 2020-03-15 18:52 Tanglement 阅读(159) 评论(0) 推荐(0)
摘要: 自定义函数 用户可以通过自定义UDF来方便的扩展(user defined function)。根据用户自定义函数类别,分别为一下三种: UDF,一进一出 UDAF,聚集函数,多进一出 UDTF,一进多出 编程步骤 1. 继承org.apache.hadoop.hive.ql.UDF 2. 实现ev 阅读全文
posted @ 2020-03-15 10:47 Tanglement 阅读(364) 评论(0) 推荐(0)
上一页 1 ··· 5 6 7 8 9 10 11 12 13 ··· 15 下一页