0

ClickHouse源码笔记1:聚合函数的实现

由于工作的需求,后续笔者工作需要和开源的OLAP数据库ClickHouse打交道。ClickHouse是Yandex在2016年6月15日开源了一个分析型数据库,以强悍的单机处理能力被称道。 笔者在实际测试ClickHouse和阅读ClickHouse的源码过程之中,对"战斗民族"开发的数据库十分欣 ...

HappenLee 发布于 2020-06-02 10:05 评论(0)阅读(105)
0

用户画像大数据环境搭建——从零开始搭建实时用户画像(四)

​ 本章我们开始正式搭建大数据环境,目标是构建一个稳定的可以运维监控的大数据环境。我们将采用Ambari搭建底层的Hadoop环境,使用原生的方式搭建Flink,Druid,Superset等实时计算环境。使用大数据构建工具与原生安装相结合的方式,共同完成大数据环境的安装。 Ambari搭建底层大数 ...

独孤风 发布于 2020-06-01 10:09 评论(0)阅读(69)
2

七个生产案例告诉你BATJ为何选择ElasticSearch!应用场景和优势!

本文来源于公众号【胖滚猪学编程】,转载请注明出处。 从今天开始,想和你一起死磕ElasticSearch,学习分布式搜索引擎,跟着胖滚猪就对了! 既然是ES的第一课,那么最重要的是让你爱上它!不想说那些单纯的优势、概念了,直接上大厂的生产案例,才是最能吸引你的!跟着大厂走,没问题的! 为啥选择ES? ...

胖滚猪学编程 发布于 2020-06-01 08:43 评论(2)阅读(428)
0

Elasticsearch kibana官方基础本地实践

Elasticsearch kibana学习本地测试,数据处理分析 ...

你觉得这个名字如何 发布于 2020-05-31 15:08 评论(0)阅读(16)
0

python/pandas数据挖掘(十四)-groupby,聚合,分组级运算

https://blog.csdn.net/youngbit007/article/details/54288603 groupbyimport pandas as pddf = pd.DataFrame({'key1':list('aabba'), 'key2': ['one','two','on ...

功夫 熊猫 发布于 2020-05-30 07:14 评论(0)阅读(20)
0

滴滴数据驱动利器:AB实验之分组提效

桔妹导读:在各大互联网公司都提倡数据驱动的今天,AB实验是我们进行决策分析的一个重要利器。一次实验过程会包含多个环节,今天主要给大家分享滴滴实验平台在分组环节推出的一种提升分组均匀性的新方法。本文首先会介绍一下滴滴AB实验的相关情况,以及在实验分组环节中遇到的问题。然后介绍目前在实验对象分组方面的通 ...

滴滴技术 发布于 2020-05-29 17:40 评论(0)阅读(11)
0

Hive解析多重嵌套JSON数组

最近在工作中遇到一个很难解析的JSON,他是一个嵌套的JSON数组的JSON,要使用Hive来进行解析,用Presto写了一次,逻辑就很清晰,因为Presto自带了JSON数据类型,转换数组就很方便,而Hive解析完JSON数组后是一个字符串,只能使用split方法来对string类型的数据进行切分 ...

harrylyx 发布于 2020-05-29 11:03 评论(0)阅读(42)
0

用户画像标签体系——从零开始搭建实时用户画像(三)

用户画像标签体系 ​ 用户画像的核心在于给用户“打标签”,每一个标签通常是人为规定的特征标识,用高度精炼的特征描述一类人,例如年龄、性别、兴趣偏好等,不同的标签通过结构化的数据体系整合,就可与组合出不同的用户画像。 ​ 梳理标签体系是实现用户画像过程中最基础、也是最核心的工作,后续的建模、数据仓库搭 ...

独孤风 发布于 2020-05-28 11:04 评论(0)阅读(297)
0

Flink 流式聚合性能调优指南

原文:Flink 流式聚合性能调优指南 SQL 是数据分析中使用最广泛的语言。Flink Table API 和 SQL 使用户能够以更少的时间和精力定义高效的流分析应用程序。此外,Flink Table API 和 SQL 是高效优化过的,它集成了许多查询优化和算子优化。但并不是所有的优化都是默认 ...

chaojianok 发布于 2020-05-27 14:48 评论(0)阅读(28)
0

Kafka消息送达语义说明

0.11 版本之前保证的语义是:至少一次 至少一次的解释 可以做到消息不丢失--> 可以做到发送成功的消息一定可以被消费到。 不能做到消息不重复。 ## 发送成功的消息,表示业务逻辑认为此消息已发送成功,即send方法已执行完成。 丢消息场景 异步发送端: a:send之后,等待发送的时候down( ...

知了小巷 发布于 2020-05-26 09:54 评论(0)阅读(39)
0

bin/hive进入hive报错

[root@node01 apache-hive-2.1.1-bin]# bin/hiveSLF4J: Class path contains multiple SLF4J bindings.SLF4J: Found binding in [jar:file:/export/servers/apac ...

KK珂 发布于 2020-05-26 00:45 评论(0)阅读(18)
0

【赵强老师】Kafka的体系架构

一、什么是Kafka? 数据工程中最具挑战性的部分之一是如何从不同点收集和传输大量数据到分布式系统进行处理和分析。需要通过消息队列正确地分离大量数据,因为如果一部分数据无法传送,则可以在系统恢复时传输和分析其他数据。有两种消息排队,对于上述目的,它们都是可靠的和异步的。点对点(Point to po ...

赵强老师 发布于 2020-05-25 10:23 评论(0)阅读(42)
1

用户画像系统架构——从零开始搭建实时用户画像(二)

​ ​ 在《 "什么的是用户画像" 》一文中,我们已经知道用户画像对于企业的巨大意义,当然也有着非常大实时难度。那么在用户画像的系统架构中都有哪些难度和重点要考虑的问题呢? 挑战 大数据 随着互联网的崛起和智能手机的兴起,以及物联网带来的各种可穿戴设备,我们能获取的每一个用户的数据量是非常巨大的,而 ...

独孤风 发布于 2020-05-25 09:23 评论(0)阅读(479)
0

pandas用法总结

https://blog.csdn.net/yiyele/article/details/80605909 一、生成数据表1、首先导入pandas库,一般都会用到numpy库,所以我们先导入备用:import numpy as npimport pandas as pd122、导入CSV或者xlsx ...

功夫 熊猫 发布于 2020-05-25 09:00 评论(0)阅读(26)
0

Zookeeper 集群角色、原理

Zookeeper 的集群角色 集群中的 server 分为三种角色: , , 。 其中 是配置 明确定义的,角色 在一个zookeeper集群中有且只能有一个,是通过内部的选举机制临时产生的。 是集群中最重要的角色。负责响应集群的所有对Zookeeper数据状态变更的请求。它会将每个状态更新请求进 ...

SvenAugustus 发布于 2020-05-24 20:48 评论(0)阅读(34)
0

Zookeeper 数据结构详解

Zookeeper https://zookeeper.apache.org/doc/current/zookeeperOver.html Zookeeper是高性能,高可用,严格有序的分布式协调服务,提供了统一配置(configuration),命名(naming),同步(synchronizat ...

SvenAugustus 发布于 2020-05-24 16:42 评论(0)阅读(28)
0

HBase原理 | HBase Region 运行状态学习

HBase为每个Region维护一个状态,并将该状态保留在hbase:meta中。hbase:meta 本身的Region状态保留在ZooKeeper中。可以在Master Web UI中查看Region的过渡状态。以下是可能的Region状态列表。 1. 状态机中包括下面几种状态: offline ...

周蓬勃 发布于 2020-05-23 23:01 评论(0)阅读(38)
1

面试官:说出八种消息队列的应用场景。啊?八种?

本文来源于公众号:胖滚猪学编程。转载请注明出处! 一个风度翩翩,穿着格子衬衣的中年男子,拿着一个满是划痕的mac向她走来,看着铮亮的头,胖滚猪心想,这肯定是尼玛顶级架构师吧!完了要挂了。 结果面试官第一个问题,就让胖滚猪内心暗喜 面试官 :消息队列这东西,你还熟悉吧?消息队列在企业中的应用场景有哪些 ...

胖滚猪学编程 发布于 2020-05-23 22:53 评论(0)阅读(353)
0

必会技能!Docker助你快速上手玩转HBase!

前言: 本文主要讲述了如何使用Docker快速上手HBase,省去繁杂的安装部署环境,直接上手,小白必备。适合HBase入门学习及简单代码测试。 1. Docker 安装 参考地址: 支持常用的操作系统:Centos / ubuntu / Windows / macos 等。 2. 拉取镜像 镜像地 ...

周蓬勃 发布于 2020-05-23 22:16 评论(0)阅读(62)
0

【漫画】ES原理 必知必会的倒排索引和分词

倒排索引的初衷 倒排索引,它也是索引。索引,初衷都是为了快速检索到你要的数据。 我相信你一定知道mysql的索引,如果对某一个字段加了索引,一般来说查询该字段速度是可以有显著的提升。 每种数据库都有自己要解决的问题(或者说擅长的领域),对应的就有自己的数据结构,而不同的使用场景和数据结构,需要用不同 ...

胖滚猪学编程 发布于 2020-05-23 12:05 评论(0)阅读(197)