大数据技术派

2021年5月30日

摘要：当你看到这篇文章的时候，表明你已经有docker的基础知识了，或者可以看上一篇文章 Docker 入门教程。传统的使用wordpress搭建网站，意味着你需要搭建以下四个环境： php； apache / nginx； mysql； wordpress；这里面主要是php的搭建真心麻烦，各种依赖阅读全文

posted @ 2021-05-30 12:07 大数据技术派阅读(2444) 评论(0) 推荐(0)

2021年5月28日

5分钟安装docker教程

摘要：关注公众号：大数据技术派，回复: 资料，领取1024G资料。 Centos安装docker需要操作系统是 CentOS 7 or 8，必须启用centos extras存储库。默认情况下，此存储库处于启用状态，但如果已禁用它，则需要重新启用它。卸载旧版本老版本的docker被称作docker 或阅读全文

posted @ 2021-05-28 23:07 大数据技术派阅读(1094) 评论(1) 推荐(0)

2021年5月25日

学习建议，大数据组件那么多，可以重点学习这几个

摘要：经常有同学问我，基于Hadoop生态圈的大数据组件有很多，怎么学的过来呢，毕竟精力有限，我们需要有侧重点，我觉得下面这几个组件至关重要，是基础组件，大部分人都需要会的，其它组件可以用的时候再去查查资料学习。 hadoop Hbase Hive Spark Flink Kafka Hadoop 是大数阅读全文

posted @ 2021-05-25 21:55 大数据技术派阅读(1165) 评论(1) 推荐(2)

2021年4月20日

Flink状态管理与状态一致性（长文）

摘要：关注公众号：大数据技术派，回复: 资料，领取1024G资料。一、前言有状态的计算是流处理框架要实现的重要功能，因为稍复杂的流处理场景都需要记录状态，然后在新流入数据的基础上不断更新状态。下面的几个场景都需要使用流处理的状态功能：数据流中的数据有重复，想对重复数据去重，需要记录哪些数据已经流入过阅读全文

posted @ 2021-04-20 22:23 大数据技术派阅读(1113) 评论(0) 推荐(2)

2021年4月1日

彻底搞清Flink中的Window

摘要：关注公众号：大数据技术派，回复: 资料，领取1024G资料。本文首发于我的个人博客：彻底搞清Flink中的Window机制窗口在流处理应用中，数据是连续不断的，因此我们不可能等到所有数据都到了才开始处理。当然我们可以每来一个消息就处理一次，但是有时我们需要做一些聚合类的处理，例如：在过去的1分阅读全文

posted @ 2021-04-01 23:23 大数据技术派阅读(3881) 评论(0) 推荐(1)

2021年3月11日

Flink实时计算topN热榜

摘要：关注公众号：大数据技术派，回复: 资料，领取1024G资料。 TopN的常见应用场景，最热商品购买量，最高人气作者的阅读量等等。 1. 用到的知识点 Flink创建kafka数据源；基于 EventTime 处理，如何指定 Watermark； Flink中的Window，滚动（tumbling）阅读全文

posted @ 2021-03-11 21:54 大数据技术派阅读(1269) 评论(0) 推荐(1)

2021年2月10日

程序员必备的一些数学基础知识

摘要：关注公众号：大数据技术派，回复: 资料，领取1024G资料。我的博客数据仓库系列文章数仓建模—指标体系数仓建模—宽表的设计数据湖是谁？那数据仓库又算什么？数据仓库之拉链表数仓架构发展史数仓建模分层理论数据仓库建模方法论 sqoop用法之mysql与hive数据导入导出作为一个标准阅读全文

posted @ 2021-02-10 23:53 大数据技术派阅读(4242) 评论(6) 推荐(5)

2021年2月3日

生男生女概率一样吗？

摘要：先来看一下2019年人口普查，也是第七次人口普查的男女性别比例数据，是目前最新的数据了。这里性别比，女性基数是100，例如：20 ~ 24这个区间，性别比是114.61，也就是说，114.6个男性对应100个女性。可以看出，男女数量差异比较明显，但是在这个人口基数大国中，这个差异得以放大。那么，这阅读全文

posted @ 2021-02-03 21:51 大数据技术派阅读(1516) 评论(0) 推荐(1)

2021年1月20日

Hive整合Hbase

摘要： HBase 虽然可以存储数亿或数十亿行数据，但是对于数据分析来说，不太友好，只提供了简单的基于 Key 值的快速查询能力，没法进行大量的条件查询。现有hbase的查询工具有很多如：Hive，Tez，Impala，Shark/Spark，Phoenix等。今天主要说Hive，Hive方便地提供了Hiv 阅读全文

posted @ 2021-01-20 22:45 大数据技术派阅读(644) 评论(0) 推荐(0)

2021年1月14日

Spark内核解析

摘要： Spark内核概述 Spark内核泛指Spark的核心运行机制，包括Spark核心组件的运行机制、Spark任务调度机制、Spark内存管理机制、Spark核心功能的运行原理等，熟练掌握Spark内核原理。一、Spark核心组件回顾 Driver Spark驱动器节点，用于执行Spark任务中的m 阅读全文

posted @ 2021-01-14 22:42 大数据技术派阅读(400) 评论(0) 推荐(0)

大数据技术派

关注公众号：大数据技术派，回复“资料”，领取1000G资料。

公告