博客园 - 大数据小码农
uuid:24b78886-0ed1-41c2-8670-e3f31dcf42c4;id=154929
2023-07-17T08:05:14Z
大数据小码农
https://www.cnblogs.com/wuning/
feed.cnblogs.com
https://www.cnblogs.com/wuning/p/13551597.html
Apache Pulsar 分布式部署 - 大数据小码农
#1.Pulsar 简介 Pulsar 是一个支持多租户的、高性能的消息中间件;最初是由 Yahoo 研发的开源,分布式pub-sub系统,现在是Apache的一个顶级开源项目 Pulsar 提供了四种订阅类型,它们可以共存在同一个主题上,以订阅名进行区分: - 独享(exclusive)订阅——一
2023-07-06T10:37:00Z
2023-07-06T10:37:00Z
大数据小码农
https://www.cnblogs.com/wuning/
【摘要】#1.Pulsar 简介 Pulsar 是一个支持多租户的、高性能的消息中间件;最初是由 Yahoo 研发的开源,分布式pub-sub系统,现在是Apache的一个顶级开源项目 Pulsar 提供了四种订阅类型,它们可以共存在同一个主题上,以订阅名进行区分: - 独享(exclusive)订阅——一 <a href="https://www.cnblogs.com/wuning/p/13551597.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/wuning/p/16892000.html
ElasticSearch关于term&terms搜索大小写问题 - 大数据小码农
最近在es使用term查询是,发现查询结果一直为空 GET /movies/_doc/100 结果: { "_index" : "movies", "_type" : "_doc", "_id" : "100", "_version" : 1, "_seq_no" : 237, "_primary_
2022-11-21T01:44:00Z
2022-11-21T01:44:00Z
大数据小码农
https://www.cnblogs.com/wuning/
【摘要】最近在es使用term查询是,发现查询结果一直为空 GET /movies/_doc/100 结果: { "_index" : "movies", "_type" : "_doc", "_id" : "100", "_version" : 1, "_seq_no" : 237, "_primary_ <a href="https://www.cnblogs.com/wuning/p/16892000.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/wuning/p/12764469.html
Nginx 安装部署 - 大数据小码农
1.下载 nginx 及相关组件 ~~~ wget http://nginx.org/download/nginx 1.10.2.tar.gz wget http://www.openssl.org/source/openssl fips 2.0.10.tar.gz wget http://zlib
2020-04-23T14:59:00Z
2020-04-23T14:59:00Z
大数据小码农
https://www.cnblogs.com/wuning/
【摘要】1.下载 nginx 及相关组件 ~~~ wget http://nginx.org/download/nginx 1.10.2.tar.gz wget http://www.openssl.org/source/openssl fips 2.0.10.tar.gz wget http://zlib <a href="https://www.cnblogs.com/wuning/p/12764469.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/wuning/p/12663732.html
MPP架构 - 大数据小码农
1.数据库架构设计 Shared Everthing:完全透明共享 CPU/MEMORY/IO,并行处理能力是最差的;如:SQL Server Shared Storage:各个处理单元使用自己的私有 CPU 和 Memory,共享磁盘系统; Shared Nothing:各个处理单元都有自己私有的
2020-04-23T14:25:00Z
2020-04-23T14:25:00Z
大数据小码农
https://www.cnblogs.com/wuning/
【摘要】1.数据库架构设计 Shared Everthing:完全透明共享 CPU/MEMORY/IO,并行处理能力是最差的;如:SQL Server Shared Storage:各个处理单元使用自己的私有 CPU 和 Memory,共享磁盘系统; Shared Nothing:各个处理单元都有自己私有的 <a href="https://www.cnblogs.com/wuning/p/12663732.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/wuning/p/12623943.html
Presto 安装部署 - 大数据小码农
#1.版本选型 hadoop-3.1.3 hive-3.1.2 presto-0.233.1 #2.Presto 简介 详细参考:https://prestodb.github.io/docs/current/connector.html ####2.1 Presto 优势 多数据源,支持SQL,自
2020-04-02T15:54:00Z
2020-04-02T15:54:00Z
大数据小码农
https://www.cnblogs.com/wuning/
【摘要】#1.版本选型 hadoop-3.1.3 hive-3.1.2 presto-0.233.1 #2.Presto 简介 详细参考:https://prestodb.github.io/docs/current/connector.html ####2.1 Presto 优势 多数据源,支持SQL,自 <a href="https://www.cnblogs.com/wuning/p/12623943.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/wuning/p/12623512.html
基于MaxWell 实时同步 MySQL 日志 binlog 到 Kafka - 大数据小码农
1.项目背景 1.1 MaxWell 介绍 Maxwell是一个守护进程,它能监听并读取MySQL的binlog,然后解析输出为json,支持将数据输出到Kafka、Kinesis或其他流媒体平台,支持库和表的过滤。 地址:https://github.com/zendesk/maxwell 1.2
2020-04-02T14:32:00Z
2020-04-02T14:32:00Z
大数据小码农
https://www.cnblogs.com/wuning/
【摘要】1.项目背景 1.1 MaxWell 介绍 Maxwell是一个守护进程,它能监听并读取MySQL的binlog,然后解析输出为json,支持将数据输出到Kafka、Kinesis或其他流媒体平台,支持库和表的过滤。 地址:https://github.com/zendesk/maxwell 1.2 <a href="https://www.cnblogs.com/wuning/p/12623512.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/wuning/p/12595930.html
大数据平台搭建:Hadoop-3.1.3+Hive-3.1.2+HBase-2.2.3+Zookeeper-3.5.7+Kafka_2.11-2.4.0+Spark-2.4.5 - 大数据小码农
#1.框架选型 hadoop-3.1.3 hive-3.1.2 zookeeper-3.5.7 hbase-2.2.3 kafka_2.11-2.4.0 spark-2.4.5-bin-hadoop2.7 #2.安装前准备 1.关闭防火墙 2.安装 JDK 3.安装 Scala 4.配置ssh 免密
2020-03-29T15:34:00Z
2020-03-29T15:34:00Z
大数据小码农
https://www.cnblogs.com/wuning/
【摘要】#1.框架选型 hadoop-3.1.3 hive-3.1.2 zookeeper-3.5.7 hbase-2.2.3 kafka_2.11-2.4.0 spark-2.4.5-bin-hadoop2.7 #2.安装前准备 1.关闭防火墙 2.安装 JDK 3.安装 Scala 4.配置ssh 免密 <a href="https://www.cnblogs.com/wuning/p/12595930.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/wuning/p/12293579.html
Impala & Hive 使用复杂数据类型 - 大数据小码农
1. 环境 CDH 5.16.1 2. Hive 使用复杂数据类型 2.1 数据格式 ~~~ 1 zhangsan:man football,basketball 2 lisi:female sing,dance ~~~ 2.2 Hive 建表 ~~~ create table studentInf
2020-02-11T17:01:00Z
2020-02-11T17:01:00Z
大数据小码农
https://www.cnblogs.com/wuning/
【摘要】1. 环境 CDH 5.16.1 2. Hive 使用复杂数据类型 2.1 数据格式 ~~~ 1 zhangsan:man football,basketball 2 lisi:female sing,dance ~~~ 2.2 Hive 建表 ~~~ create table studentInf <a href="https://www.cnblogs.com/wuning/p/12293579.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/wuning/p/12258033.html
Log4j整合Flume - 大数据小码农
1.环境 CDH 5.16.1 Spark 2.3.0 cloudera4 Kafka 2.1.0+kafka4.0.0 2.Log4j—— Flume 2.1 Log4j 产生日志 ~~~ import org.apache.log4j.Logger; / @ClassName LoggerGen
2020-02-03T15:27:00Z
2020-02-03T15:27:00Z
大数据小码农
https://www.cnblogs.com/wuning/
【摘要】1.环境 CDH 5.16.1 Spark 2.3.0 cloudera4 Kafka 2.1.0+kafka4.0.0 2.Log4j—— Flume 2.1 Log4j 产生日志 ~~~ import org.apache.log4j.Logger; / @ClassName LoggerGen <a href="https://www.cnblogs.com/wuning/p/12258033.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/wuning/p/12058478.html
ClickHouse 详解 - 大数据小码农
1. 简介 官方文档:https://clickhouse.yandex/docs ClickHouse 是一个 采用列式存储 ,用于联机分析(OLAP)的数据库管理系统(DBMS) 2.ClickHouse 的优点 2.1 "真正"的列式存储 一个真正的列式存储的数据库管理系统中,除了数据本身之外
2020-02-02T15:58:00Z
2020-02-02T15:58:00Z
大数据小码农
https://www.cnblogs.com/wuning/
【摘要】1. 简介 官方文档:https://clickhouse.yandex/docs ClickHouse 是一个 采用列式存储 ,用于联机分析(OLAP)的数据库管理系统(DBMS) 2.ClickHouse 的优点 2.1 "真正"的列式存储 一个真正的列式存储的数据库管理系统中,除了数据本身之外 <a href="https://www.cnblogs.com/wuning/p/12058478.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/wuning/p/12254075.html
SparkStreaming(二)--SparkStreaming整合Kafka - 大数据小码农
1.环境 CDH 5.16.1 Spark 2.3.0.Cloudera4 2.SparkStreaming整合Kafka 地址:http://spark.apache.org/docs/2.3.0/streaming kafka integration.html 两种方式整合: 1. Receiv
2020-02-02T15:52:00Z
2020-02-02T15:52:00Z
大数据小码农
https://www.cnblogs.com/wuning/
【摘要】1.环境 CDH 5.16.1 Spark 2.3.0.Cloudera4 2.SparkStreaming整合Kafka 地址:http://spark.apache.org/docs/2.3.0/streaming kafka integration.html 两种方式整合: 1. Receiv <a href="https://www.cnblogs.com/wuning/p/12254075.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/wuning/p/12046829.html
SparkStreaming(一)--核心概念及算子 - 大数据小码农
1.环境 CDH 5.16.1 Spark 2.3.0.cloudera4 2.核心概念 官网: https://spark.apache.org/docs/2.3.0/streaming programming guide.html GitHub: https://github.com/apach
2020-02-02T14:26:00Z
2020-02-02T14:26:00Z
大数据小码农
https://www.cnblogs.com/wuning/
【摘要】1.环境 CDH 5.16.1 Spark 2.3.0.cloudera4 2.核心概念 官网: https://spark.apache.org/docs/2.3.0/streaming programming guide.html GitHub: https://github.com/apach <a href="https://www.cnblogs.com/wuning/p/12046829.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/wuning/p/12156915.html
ClickHouse 系列报错 - 大数据小码农
1. ClickHouse 查询时,报错:Memory limit (for query) exceeded: would use 9.38 GiB (attempt to allocate chunk of 135439453 bytes), maximum: 9.31 GiB 1.1 Click
2020-01-06T11:04:00Z
2020-01-06T11:04:00Z
大数据小码农
https://www.cnblogs.com/wuning/
【摘要】1. ClickHouse 查询时,报错:Memory limit (for query) exceeded: would use 9.38 GiB (attempt to allocate chunk of 135439453 bytes), maximum: 9.31 GiB 1.1 Click <a href="https://www.cnblogs.com/wuning/p/12156915.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/wuning/p/12121158.html
WaterDrop 系列报错 - 大数据小码农
1.使用WaterDrop 从kafka中消费数据,写入到ClickHouse 1.1 环境 ~~~ SPARK2 2.3.0.cloudera4 1.cdh5.13.3.p0.611179 clickhouse 1.1.54236 4.el7.x86_64 waterdrop 1.4.2 ~~~
2019-12-30T10:21:00Z
2019-12-30T10:21:00Z
大数据小码农
https://www.cnblogs.com/wuning/
【摘要】1.使用WaterDrop 从kafka中消费数据,写入到ClickHouse 1.1 环境 ~~~ SPARK2 2.3.0.cloudera4 1.cdh5.13.3.p0.611179 clickhouse 1.1.54236 4.el7.x86_64 waterdrop 1.4.2 ~~~ <a href="https://www.cnblogs.com/wuning/p/12121158.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/wuning/p/12061756.html
ClickHouse 高可用集群安装测试 - 大数据小码农
1. 环境 CentOS 7.6 2. 安装前准备 2.1 检查是否支持 SSE 4.2 指令集 ~~~ grep q sse4_2 /proc/cpuinfo && echo "SSE 4.2 supported" || echo "SSE 4.2 not supported" ~~~ 2.2 C
2019-12-27T11:08:00Z
2019-12-27T11:08:00Z
大数据小码农
https://www.cnblogs.com/wuning/
【摘要】1. 环境 CentOS 7.6 2. 安装前准备 2.1 检查是否支持 SSE 4.2 指令集 ~~~ grep q sse4_2 /proc/cpuinfo && echo "SSE 4.2 supported" || echo "SSE 4.2 not supported" ~~~ 2.2 C <a href="https://www.cnblogs.com/wuning/p/12061756.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/wuning/p/12044499.html
Kafka 高级API 实战 - 大数据小码农
1. 环境 CDH 5.16.1 kafka版本 2.1.0 kafka 4.0.0 ~~~ org.apache.kafka kafka_2.12 2.1.0 kafka 4.0.0 ~~~ 2.生产者 2.1 生产者,带回调函数 ~~~ package com.monk.kafka; impor
2019-12-15T11:29:00Z
2019-12-15T11:29:00Z
大数据小码农
https://www.cnblogs.com/wuning/
【摘要】1. 环境 CDH 5.16.1 kafka版本 2.1.0 kafka 4.0.0 ~~~ org.apache.kafka kafka_2.12 2.1.0 kafka 4.0.0 ~~~ 2.生产者 2.1 生产者,带回调函数 ~~~ package com.monk.kafka; impor <a href="https://www.cnblogs.com/wuning/p/12044499.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/wuning/p/12022728.html
CDH 5.16.1 离线安装 Spark 2.3 - 大数据小码农
1.环境 CDH 5.16.1 Centos 7.6 Scala 2.11.8 2.安装前准备 1.下载 Spark2.3 所需的Parcel包 http://archive.cloudera.com/spark2/parcels/2.3.0.cloudera4/ 将三个文件拷贝到 /opt/clo
2019-12-11T07:18:00Z
2019-12-11T07:18:00Z
大数据小码农
https://www.cnblogs.com/wuning/
【摘要】1.环境 CDH 5.16.1 Centos 7.6 Scala 2.11.8 2.安装前准备 1.下载 Spark2.3 所需的Parcel包 http://archive.cloudera.com/spark2/parcels/2.3.0.cloudera4/ 将三个文件拷贝到 /opt/clo <a href="https://www.cnblogs.com/wuning/p/12022728.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/wuning/p/12022284.html
CDH5.16.1 离线安装 Kafka - 大数据小码农
1.环境 CDH 5.16.1 CentOS 7.6 2.安装前准备 1.查看Kafka与CDH版本对应 https://docs.cloudera.com/documentation/enterprise/release notes/topics/rn_consolidated_pcm.html
2019-12-11T06:17:00Z
2019-12-11T06:17:00Z
大数据小码农
https://www.cnblogs.com/wuning/
【摘要】1.环境 CDH 5.16.1 CentOS 7.6 2.安装前准备 1.查看Kafka与CDH版本对应 https://docs.cloudera.com/documentation/enterprise/release notes/topics/rn_consolidated_pcm.html <a href="https://www.cnblogs.com/wuning/p/12022284.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/wuning/p/11910658.html
CDH5.16.1新增节点 - 大数据小码农
1.环境 CentOS 7.6 CDH 5.16.1 2.服务器环境准备 1.设置 hostname 和 hosts ~~~ vim /etc/hostname ~~~ ~~~ vim /etc/hosts ~~~ 2.关闭SELINUX,将SELINUX=enforcing 改为SELINUX=d
2019-11-25T10:22:00Z
2019-11-25T10:22:00Z
大数据小码农
https://www.cnblogs.com/wuning/
【摘要】1.环境 CentOS 7.6 CDH 5.16.1 2.服务器环境准备 1.设置 hostname 和 hosts ~~~ vim /etc/hostname ~~~ ~~~ vim /etc/hosts ~~~ 2.关闭SELINUX,将SELINUX=enforcing 改为SELINUX=d <a href="https://www.cnblogs.com/wuning/p/11910658.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/wuning/p/11913179.html
mysql搭建主从结构 - 大数据小码农
1.安装 mysql服务 1.卸载系统自带的相关数据库 ~~~shell rpm qa | grep mysql rpm qa | grep mariadb rpm e nodeps mariadb libs 5.5.60 1.el7_5.x86_64 ~~~ 2.部署Mysql ~~~shell
2019-11-25T06:50:00Z
2019-11-25T06:50:00Z
大数据小码农
https://www.cnblogs.com/wuning/
【摘要】1.安装 mysql服务 1.卸载系统自带的相关数据库 ~~~shell rpm qa | grep mysql rpm qa | grep mariadb rpm e nodeps mariadb libs 5.5.60 1.el7_5.x86_64 ~~~ 2.部署Mysql ~~~shell <a href="https://www.cnblogs.com/wuning/p/11913179.html" target="_blank">阅读全文</a>