大数据技术 - 随笔分类 - 春江师兄

限流的4种方式&令牌桶实战

摘要：限流的4种方式https://blog.csdn.net/weixin_41846320/article/details/95941361正文令牌桶算法限流限流限流是对某一时间窗口内的请求数进行限制，保持系统的可用性和稳定性，防止因流量暴增而导致的系统运行缓慢或宕机。常用的限流算法有令牌桶和和漏桶，而Google开源项目Guava中的RateLimiter使用的就是令牌桶控制算法。在开发高并发系统... 阅读全文

posted @ 2020-08-27 17:17 春江师兄阅读(1581) 评论(0) 推荐(0)

[转]Flink 作业提交设置classpath

摘要：通常我们在编写一个flink的作业的时候，肯定会有依赖的jar包。flink官方希望你将所有的依赖和业务逻辑打成一个fat jar，这样方便提交，因为flink认为你应该对自己的业务逻辑做好单元测试，而不应该把这部分测试工作频繁提交到集群去做。但事实是我们往往不愿意打一个fat jar，我们希望将业务逻辑独立出来，依赖动态提交。可惜的是，flink并不支持这种提交模式。flink官方的文档中提供了... 阅读全文

posted @ 2020-08-22 17:31 春江师兄阅读(4468) 评论(0) 推荐(1)

Flink 1.11 集成 Hive 2.36 并写入数据到HIVE

摘要：注意 1. Flink使用1.11.0版本、HIVE使用2.3.6版本、Hadoop使用2.10.0版本注意 2. 将hive-site.xml文件放在maven项目的resource目录下。注意 3. 不编写脚本的话要执行 export HADOOP_CLASSPATH=`hadoop classpath` 语句第一步：根据官网填入一下pom依赖 org.apache.flink f... 阅读全文

posted @ 2020-08-15 18:26 春江师兄阅读(9895) 评论(1) 推荐(0)

canal 连接开启sasl验证的Kafka集群

摘要：底层逻辑：1）Kafka开启了sasl验证，意味着客户端需要通过sasl验证才能连接Kafka。2）客户端需要准备两样东西第一：配置 -Djava.security.auth.login.config 第二：准备sasl验证文件3）针对canal来讲，需要开启sasl验证模式。具体操作如下： 1）canal.properties文件修改，用来指定数据发送kafka ... 阅读全文

posted @ 2020-05-15 18:01 春江师兄阅读(1497) 评论(0) 推荐(0)

ElasticSearch 7.5.1安装部署

摘要：ElasticSearch 7.5.1安装部署创建elsearch用户。由于es不建议使用root用户安装部署，所以需要专门为es集群设置一个用户groupadd elsearch && useradd elsearch -g elsearch -p elasticsearch安装jdk。由于es要求需要jdk11以上，需要升级下JDK下载JDKwget https://download.or... 阅读全文

posted @ 2020-01-03 14:52 春江师兄阅读(4356) 评论(0) 推荐(0)

Link Table API JAVA_STREAM_DEMO

摘要：org.apache.flink flink-table-api-java-bridge_2.11 1.9.0 provided--> org.apache.flink flink-table-planner_2.11 1.9.0 provided--> ... 阅读全文

posted @ 2019-11-15 20:27 春江师兄阅读(425) 评论(0) 推荐(1)

FLink Table API JAVA_BATCH_DEMO

摘要：org.apache.flink flink-table-api-java-bridge_2.11 1.9.0 provided--> org.apache.flink flink-table-planner_2.11 1.9.0 provided--> ... 阅读全文

posted @ 2019-11-15 19:40 春江师兄阅读(1297) 评论(0) 推荐(0)

Flink1.9 TableAPI如何选择执行计划

摘要：Flink1.9合并了Blink的代码，也就意味着我们在使用Table API 开发程序的时候，可以选在两种不同的执行计划。一种是原来的Flink的执行计划。一种是Blink的执行计划。截止到1.9的版本，虽然集成了Blink的执行计划，但是并不建议在生产中使用。Flink的执行计划，统称为OldPlanner// **********************// FLINK STREAMING ... 阅读全文

posted @ 2019-11-15 14:46 春江师兄阅读(1180) 评论(0) 推荐(0)

Flink GroupBy与Window的关系

摘要：不带时间窗口的的groupby 会来一条数据进行一条数据的更新操作。这个时候结果是incrment的状态，每次都是覆盖（包含）了上次的结果。带时间窗口的groupby 会对时间窗口内的一批数据进行处理。这个结果是segment的状态，与窗口个数对应。阅读全文

posted @ 2019-11-15 14:38 春江师兄阅读(1752) 评论(0) 推荐(0)

Flink1.9 使用 SQL 读取 Kafka 并写入 MySQL

摘要：https://developer.aliyun.com/article/717034 阅读全文

posted @ 2019-11-15 10:56 春江师兄阅读(1200) 评论(0) 推荐(0)

Flink的并行度设置

摘要：task的parallelism可以在Flink的不同级别上指定。四种级别是：算子级别、执行环境（ExecutionEnvironment）级别、客户端（命令行）级别、配置文件（flink-conf.yaml）级别* 每个operator、data source或者data sink都可以通过调用setParallelism()方法来指定* 运行环境的默认并发数可以通过调用setParalleli... 阅读全文

posted @ 2019-11-14 11:49 春江师兄阅读(9260) 评论(0) 推荐(0)

基于HttpClient的工具类HttpUtil

摘要：org.apache.httpcomponents httpclient 4.5.6public class HttpUtil { public static String doGet(String url) throws Exception { HttpGet httpGet = new HttpGet(url); return execute(htt... 阅读全文

posted @ 2019-10-10 14:43 春江师兄阅读(5261) 评论(0) 推荐(0)

nginx + lua 根据post请求参数做转发

摘要：location / { content_by_lua_file "lua/dispatch.lua"; } location @user_profile_api12 { content_by_lua_block { ngx.say("xxxx") } ... 阅读全文

posted @ 2019-09-30 10:33 春江师兄阅读(7015) 评论(1) 推荐(0)

使用docker构建分布式接口服务

摘要：使用docker构建分布式接口服务docker的安装·# 更新软件包，线上环境慎用yum update# 安装dockeryum install -y docker# 启动docker 服务systemctl start docker# 查看docker版本docker version# 查看运行的docker服务docker ps # 查看所有的docker服务docker ps -a# 查... 阅读全文

posted @ 2019-09-27 16:37 春江师兄阅读(1271) 评论(0) 推荐(0)

Flink SQL 批处理

摘要：org.apache.flink flink-table-planner_2.11 1.9.0 org.apache.flink flink-table-api-java-bridge_2.11 1.9.0 org.apache.flink fl... 阅读全文

posted @ 2019-09-25 18:04 春江师兄阅读(2932) 评论(0) 推荐(0)

Apache Flink基础

摘要：大数据技术发展2012年以前，大多数企业的数据仓库主要还是构建在关系型数据库上，例如Oracle、Mysql等数据库之上。但是随着企业数据量的增长，关系型数据库已经无法支撑大规模数据集的存储和分析，这种情况在一线互联网公司尤为明显，也是当时急需要解决的问题。随着2012年Hadoop技术框架的成熟和稳定，一线互联网公司纷纷使用Hadoop技术栈来构建企业大数据分析平台，随后两年基于大数据的应用如雨... 阅读全文

posted @ 2019-09-25 17:20 春江师兄阅读(472) 评论(0) 推荐(0)

Apache kudu的基本思想、架构与impala实践

摘要：Apache Kudu的基本思想、架构和与Impala实践Apache Kudu是一个为了Hadoop系统环境而打造的列存储管理器，与一般的Hadoop生态环境中的其他应用一样，具有能在通用硬件上运行、水平扩展性佳和支持高可用性操作等功能。在Kudu出现之前，Hadoop生态环境中的储存主要依赖HDFS和HBase，追求高吞吐批处理的用例中使用HDFS，追求低延时随机读取用例下用HBase，而Ku... 阅读全文

posted @ 2019-07-26 11:19 春江师兄阅读(1458) 评论(0) 推荐(0)

kudu+impala

摘要：Kudu+Impala介绍概述Kudu和Impala均是Cloudera贡献给Apache基金会的顶级项目。Kudu作为底层存储，在支持高并发低延迟kv查询的同时，还保持良好的Scan性能，该特性使得其理论上能够同时兼顾OLTP类和OLAP类查询。Impala作为老牌的SQL解析引擎，其面对即席查询(Ad-Hoc Query)类请求的稳定性和速度在工业界得到过广泛的验证，Impala并没有自己的存... 阅读全文

posted @ 2019-07-24 19:16 春江师兄阅读(928) 评论(0) 推荐(0)

清理(删除）pika中的数据

摘要：本功能使用shell脚本实现，代码分为三个部分1）java代码2）redis连接池3）shell脚本1）删除代码----------------------------------------------------------------------------------------import com.xes.bdc.galaxy.util.jedis.RedisPoolFactory;im... 阅读全文

posted @ 2019-07-19 18:47 春江师兄阅读(1006) 评论(0) 推荐(0)

大数据技术发展回顾

摘要：2012年以前，大多数企业的数据仓库主要还是构建在关系型数据库上，例如Oracle、Mysql等数据库之上。但是随着企业数据量的增长，关系型数据库已经无法支撑大规模数据集的存储和分析，这种情况在一线互联网公司尤为明显，也是当时急需要解决的问题。随着2012年Hadoop技术框架的成熟和稳定，一线互联网公司纷纷使用Hadoop技术栈来构建企业大数据分析平台，随后两年基于大数据的应用如雨后春笋一样涌现... 阅读全文

posted @ 2019-07-16 09:59 春江师兄阅读(898) 评论(0) 推荐(0)

春江师兄

关注大数据实时计算、机器学习，广告领域。

随笔分类 - 大数据技术

公告