上一页 1 2 3 4 5 6 7 8 ··· 19 下一页
摘要: YARN产生的背景 Hadoop相关概念 Hadoop 1.0 由HDFS、MapReduce组成。 Hadoop 2.0 克服1.0中HDFS和MapReduce存在的各种问题而提出的。 YARN是Hadoop中的资源管理系统。 基本架构 The Scheduler is responsible 阅读全文
posted @ 2019-12-05 15:59 清泉白石 阅读(603) 评论(0) 推荐(0) 编辑
摘要: HDFS(Hadoop Distributed File System)Hadoop分布式文件系统。 一、HDFS产生的背景 随着数据量越来越大,如果大到一台主机的磁盘都存放不下,该如何解决这个问题。一种思路是将数据分片放到多台主机上。如果放到多台主机上,又该怎么去管理,如果有些主机宕机了,数据丢失 阅读全文
posted @ 2019-12-05 15:11 清泉白石 阅读(2050) 评论(0) 推荐(0) 编辑
摘要: 一、基本概念 The Apache Hive™ data warehouse software facilitates reading, writing, and managing large datasets residing in distributed storage and queried 阅读全文
posted @ 2019-12-04 21:30 清泉白石 阅读(6727) 评论(0) 推荐(1) 编辑
摘要: 基础架构 Flume is a distributed, reliable(可靠地), and available service for efficiently(高效地) collecting, aggregating, and moving large amounts of log data. 阅读全文
posted @ 2019-12-02 22:25 清泉白石 阅读(6589) 评论(0) 推荐(0) 编辑
摘要: 一、doSend()方法 Kafka中的每一条消息都对应一个ProducerRecord对象。 doSend() 源码如下: 获取集群元数据 doSend()中相关的源码 Cluster类定义 调试获得clusterAndWaitTime对象的显示结果 二、partition()方法 当Record 阅读全文
posted @ 2019-11-27 10:43 清泉白石 阅读(489) 评论(0) 推荐(0) 编辑
摘要: 一、介绍 Apache Flink is an open source platform for distributed stream and batch data processing. Flink’s core is a streaming dataflow engine that provid 阅读全文
posted @ 2019-11-25 17:17 清泉白石 阅读(2351) 评论(0) 推荐(0) 编辑
摘要: 任何应用功能再强大、性能再优越,如果没有与之匹配的监控,那么一切都是虚无缥缈的。监控不仅可以为应用提供运行时的数据作为依据参考,还可以迅速定位问题,提供预防及告警等功能,很大程度上增强了整体服务的鲁棒性。 一、Kafka监控指标与获取 Kafka监控的4个维度: 集群信息 broker信息 topi 阅读全文
posted @ 2019-11-23 20:24 清泉白石 阅读(1878) 评论(0) 推荐(0) 编辑
摘要: 一、安装&启动 安装 下载hadoop2.7.2 https://archive.apache.org/dist/hadoop/common/hadoop 2.7.2/ 2.7.2 官方文档 https://hadoop.apache.org/docs/r2.7.2/hadoop project d 阅读全文
posted @ 2019-11-21 21:24 清泉白石 阅读(1744) 评论(0) 推荐(0) 编辑
摘要: 一、标签计算 数据 处理过程分析 (1)第一步:筛选出extInfoList不为空的记录,并去除values中的标签值 获取到的记录形式 (2)第二步:分离标签 获取到的记录形式 (3)第三步:统计标签 获取到的记录形式 JSON解析代码 Spark统计代码 二、用户画像 用户画像介绍 根据用户的信 阅读全文
posted @ 2019-11-19 10:33 清泉白石 阅读(1925) 评论(0) 推荐(0) 编辑
摘要: 一、Spark介绍 Apache Spark is a fast and general purpose cluster computing system. It provides high level APIs in Java, Scala, Python and R, and an optimi 阅读全文
posted @ 2019-11-19 10:26 清泉白石 阅读(3156) 评论(1) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 ··· 19 下一页