上一页 1 ··· 48 49 50 51 52 53 54 55 56 ··· 77 下一页
摘要: ElasticSearch 版本:V 1.2.2 一 elasticsearch简介 ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java开发的,并作为Apache许可条款下的 阅读全文
posted @ 2020-11-09 16:38 十一vs十一 阅读(321) 评论(0) 推荐(0)
摘要: Clickhouse 版本:V 1.0.5 第一章 Clickhouse简介 ClickHouse 是俄罗斯的Yandex于2016年开源的列式存储数据库(DBMS),使用C++语言编写,主要用于在线分析处理查询(OLAP),能够使用SQL查询实时生成分析数据报告。 第二章 Clickhouse的特 阅读全文
posted @ 2020-11-09 16:31 十一vs十一 阅读(237) 评论(0) 推荐(0)
摘要: 第一章 ADS 聚合层 ads层,主要是根据各种报表及可视化来生成统计数据。通常这些报表及可视化都是基于某些维度的汇总统计。 1 需求 热门商品统计(作业) 热门品类统计(作业) 热门品牌统计 交易用户性别对比(作业) 交易用户年龄段对比(作业) 交易额省市分布(作业) 2 分析 以热门商品统计为例 阅读全文
posted @ 2020-11-09 16:23 十一vs十一 阅读(3289) 评论(0) 推荐(0)
摘要: 第一章 双流合并 除了事实表与维表进行合并形成宽表,还需要事实表与事实表进行合并形成更大的宽表。 1 双流合并的问题 由于两个流的数据是独立保存,独立消费,很有可能同一业务的数据,分布在不同的批次。因为join算子只join同一批次的数据。如果只用简单的join流方式,会丢失掉不同批次的数据。 2 阅读全文
posted @ 2020-11-09 16:18 十一vs十一 阅读(450) 评论(0) 推荐(0)
摘要: 第一章 实时处理模块 1 模块搭建 添加scala框架 2 代码思路 l 消费kafka中的数据。 l 利用redis过滤当日已经计入的日活设备。 l 把每批次新增的当日日活信息保存到ES中。 l 从ES中查询出数据,发布成数据接口,通可视化化工程调用。 3 代码开发之消费Kafka 3.1 配置 阅读全文
posted @ 2020-11-09 16:13 十一vs十一 阅读(248) 评论(0) 推荐(0)
摘要: 第1章 Spark概述1.1 什么是SparkSpark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。1.2 Spark历史 1.3 Spark内置模块 Spark Core:实现了Spark的基本功能,包含任务调度、内存管理、错误恢复、与存储系统交互等模块。Spark Core中还包含了 阅读全文
posted @ 2020-11-09 09:37 十一vs十一 阅读(334) 评论(0) 推荐(0)
摘要: 第1章 Spark SQL概述 1.1 什么是Spark SQL Spark SQL是Spark用于结构化数据(structured data)处理的Spark模块。 与基本的Spark RDD API不同,Spark SQL的抽象数据类型为Spark提供了关于数据结构和正在执行的计算的更多信息。 阅读全文
posted @ 2020-11-07 15:56 十一vs十一 阅读(358) 评论(0) 推荐(0)
摘要: 第1章 Spark Streaming概述 1.1 离线和实时概念 数据处理的延迟 离线计算 就是在计算开始前已知所有输入数据,输入数据不会产生变化,一般计算量级较大,计算时间也较长。例如今天早上一点,把昨天累积的日志,计算出所需结果。最经典的就是Hadoop的MapReduce方式; 实时计算 输 阅读全文
posted @ 2020-11-07 15:49 十一vs十一 阅读(413) 评论(0) 推荐(0)
摘要: 1. Spark 内核概述 Spark内核泛指Spark的核心运行机制,包括Spark核心组件的运行机制、Spark任务调度机制、Spark内存管理机制、Spark核心功能的运行原理等,熟练掌握Spark内核原理,能够帮助我们更好地完成Spark代码设计,并能够帮助我们准确锁定项目运行过程中出现的问 阅读全文
posted @ 2020-11-07 14:37 十一vs十一 阅读(201) 评论(0) 推荐(1)
摘要: 第一章 Spark 性能调优 1.1 常规性能调优 1.1.1 常规性能调优一:最优资源配置 Spark性能调优的第一步,就是为任务分配更多的资源,在一定范围内,增加资源的分配与性能的提升是成正比的,实现了最优的资源配置后,在此基础上再考虑进行后面论述的性能调优策略。 资源的分配在使用脚本提交Spa 阅读全文
posted @ 2020-11-07 11:35 十一vs十一 阅读(347) 评论(0) 推荐(0)
上一页 1 ··· 48 49 50 51 52 53 54 55 56 ··· 77 下一页