2020 年 11月 9 日随笔档案 - 十一vs十一

2020年11月9日

摘要：第一章 ·采集数据 1 框架流程 2 canal 入门 2.1 什么是 canal 阿里巴巴B2B公司，因为业务的特性，卖家主要集中在国内，买家主要集中在国外，所以衍生出了杭州和美国异地机房的需求，从2010年开始，阿里系公司开始逐步的尝试基于数据库的日志解析，获取增量变更进行同步，由此衍生出了增量阅读全文

posted @ 2020-11-09 16:39 十一vs十一阅读(508) 评论(0) 推荐(0)

ElasticSearch课件1.22

摘要： ElasticSearch 版本：V 1.2.2 一 elasticsearch简介 ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎，基于RESTful web接口。Elasticsearch是用Java开发的，并作为Apache许可条款下的阅读全文

posted @ 2020-11-09 16:38 十一vs十一阅读(323) 评论(0) 推荐(0)

clickhouse1.0.5

摘要： Clickhouse 版本：V 1.0.5 第一章 Clickhouse简介 ClickHouse 是俄罗斯的Yandex于2016年开源的列式存储数据库（DBMS），使用C++语言编写，主要用于在线分析处理查询（OLAP），能够使用SQL查询实时生成分析数据报告。第二章 Clickhouse的特阅读全文

posted @ 2020-11-09 16:31 十一vs十一阅读(244) 评论(0) 推荐(0)

大数据实时项目(ads层)

摘要：第一章 ADS 聚合层 ads层，主要是根据各种报表及可视化来生成统计数据。通常这些报表及可视化都是基于某些维度的汇总统计。 1 需求热门商品统计（作业）热门品类统计（作业）热门品牌统计交易用户性别对比（作业）交易用户年龄段对比（作业）交易额省市分布（作业） 2 分析以热门商品统计为例阅读全文

posted @ 2020-11-09 16:23 十一vs十一阅读(3321) 评论(0) 推荐(0)

大数据实时项目(dws层)1.2

摘要：第一章双流合并除了事实表与维表进行合并形成宽表，还需要事实表与事实表进行合并形成更大的宽表。 1 双流合并的问题由于两个流的数据是独立保存，独立消费，很有可能同一业务的数据，分布在不同的批次。因为join算子只join同一批次的数据。如果只用简单的join流方式，会丢失掉不同批次的数据。 2 阅读全文

posted @ 2020-11-09 16:18 十一vs十一阅读(466) 评论(0) 推荐(0)

大数据实时项目(日活）1.6.1

摘要：第一章实时处理模块 1 模块搭建添加scala框架 2 代码思路 l 消费kafka中的数据。 l 利用redis过滤当日已经计入的日活设备。 l 把每批次新增的当日日活信息保存到ES中。 l 从ES中查询出数据，发布成数据接口，通可视化化工程调用。 3 代码开发之消费Kafka 3.1 配置阅读全文

posted @ 2020-11-09 16:13 十一vs十一阅读(250) 评论(0) 推荐(0)

01_大数据技术之Spark入门（2.1）

摘要：第1章 Spark概述1.1 什么是SparkSpark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。1.2 Spark历史 1.3 Spark内置模块 Spark Core：实现了Spark的基本功能，包含任务调度、内存管理、错误恢复、与存储系统交互等模块。Spark Core中还包含了阅读全文

posted @ 2020-11-09 09:37 十一vs十一阅读(334) 评论(0) 推荐(0)

公告