会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
yy
基础才是编程人员应该深入研究的问题,警告自己问题解决不了时,多从运行原理底层研究后再考虑方案。
博客园
首页
新随笔
联系
管理
订阅
上一页
1
···
3
4
5
6
7
8
9
10
11
···
33
下一页
2018年10月12日
Spark中使用Dataset的groupBy/agg/join/broadcast hasjoin/sql broadcast hashjoin示例(java api)
摘要: Dataset的groupBy agg示例 Dataset Join示例: join condition另外一种方式: BroadcastHashJoin示例: 打印结果: SparkSQL Broadcast HashJoin 打印日志
阅读全文
posted @ 2018-10-12 10:04 cctext
阅读(4072)
评论(0)
推荐(1)
2018年10月11日
Kafka:ZK+Kafka+Spark Streaming集群环境搭建(二十八):kafka0.10.1 内置性能测试API用法示例
摘要: 消费者测试: 生产者测试:
阅读全文
posted @ 2018-10-11 16:29 cctext
阅读(485)
评论(0)
推荐(0)
2018年9月12日
Java:Linux上java -jar xxx.jar&java -cp 区别
摘要: java -cp java -cp 和 -classpath 一样,是指定类运行所依赖其他类的路径,通常是类库和jar包,需要全路径到jar包,多个jar包之间连接符:window上分号“;”.Linux下使用“:”。windows环境: linux环境: 表达式支持通配符,例如: java -ja
阅读全文
posted @ 2018-09-12 14:22 cctext
阅读(14333)
评论(0)
推荐(0)
2018年9月11日
Kafka:ZK+Kafka+Spark Streaming集群环境搭建(二十七):kafka manager安装
摘要: 一、kafka-manager简介 为了简化开发者和服务工程师维护Kafka集群的工作,yahoo构建了一个叫做Kafka管理器的基于Web工具,叫做 Kafka Manager。这个管理工具可以很容易地发现分布在集群中的哪些topic分布不均匀,或者是分区在整个集群分布不均匀的的情况。它支持管理多
阅读全文
posted @ 2018-09-11 10:59 cctext
阅读(1035)
评论(0)
推荐(0)
2018年8月29日
Kafka:ZK+Kafka+Spark Streaming集群环境搭建(二十六)Structured Streaming:WARN clients.NetworkClient: Error while fetching metadata with correlation id 1 : {my-topic=LEADER_NOT_AVAILABLE}
摘要: 问题描述: 我之前使用kafka的命令删除了改topic: ./kafka-topics.sh --delete --zookeeper 【zookeeper server】 --topic 【topic name】 kafka是启用了自动创建topic功能的(之气那测试过可以使用),发布消息到该t
阅读全文
posted @ 2018-08-29 18:35 cctext
阅读(9768)
评论(0)
推荐(1)
2018年8月28日
Kafka:ZK+Kafka+Spark Streaming集群环境搭建(二十五)Structured Streaming:同一个topic中包含一组数据的多个部分,按照key它们拼接为一条记录(以及遇到的问题)。
摘要: 需求: 目前kafka的topic上有一批数据,这些数据被分配到9个不同的partition中(就是发布时key:{m1,m2,m3,m4...m9},value:{records items}),mx(m1,m2...m9)这些数据的唯一键值:int_id+start_time,其中int_id和
阅读全文
posted @ 2018-08-28 23:48 cctext
阅读(1139)
评论(0)
推荐(0)
Kafka:ZK+Kafka+Spark Streaming集群环境搭建(二十四)Structured Streaming:Encoder
摘要: 一般情况下我们在使用Dataset<Row>进行groupByKey时,你会发现这个方法最后一个参数需要一个encoder,那么这些encoder如何定义呢? 一般数据类型 示例: Class类型: Tuple类型: 一般类型的Tuple Tuple包含类的: 关于Encoder请参考《http:/
阅读全文
posted @ 2018-08-28 23:23 cctext
阅读(779)
评论(0)
推荐(0)
2018年8月24日
Kafka:ZK+Kafka+Spark Streaming集群环境搭建(二十三)Structured Streaming遇到问题:Set(TopicName-0) are gone. Some data may have been missed
摘要: 事情经过:之前该topic(M_A)已经存在,而且正常使用structured streaming消费了一段时间,后来删除了topic(M_A),重新创建了topic(M-A),程序使用新创建的topic(M-A)进行实时统计操作,使用structured streaming执行过程中抛出了一下异常
阅读全文
posted @ 2018-08-24 11:42 cctext
阅读(1053)
评论(0)
推荐(0)
2018年8月12日
Structured Streaming编程向导
摘要: 简介 Structured Streaming is a scalable and fault-tolerant stream processing engine built on the Spark SQL engine. You can express your streaming comput
阅读全文
posted @ 2018-08-12 16:37 cctext
阅读(1522)
评论(0)
推荐(0)
2018年8月9日
Kafka:ZK+Kafka+Spark Streaming集群环境搭建(二十二)Spark Streaming接收流数据及使用窗口函数
摘要: 官网文档:《http://spark.apache.org/docs/latest/streaming-programming-guide.html#a-quick-example》 Spark Streaming提供的提供的理念是一个批次处理一定时间段内的数据,一批次处理接收到的这一批次的数据;而
阅读全文
posted @ 2018-08-09 23:28 cctext
阅读(946)
评论(0)
推荐(0)
2018年8月8日
Linux:磁盘挂载
摘要: 本来虚拟centos的服务器的磁盘分配的就不大,之前只分配了20G的样子,由于最近有装了不少软件,比如nifi压缩版就有1.2G的大小,一下子没有磁盘资源了。今晚就折腾在这事上了。 1. 查看挂载点信息 显示结果:根目录可用磁盘只有20K。 2. 扩展VMWare硬盘空间 首先需要关闭操作系统,然后
阅读全文
posted @ 2018-08-08 00:20 cctext
阅读(6886)
评论(0)
推荐(0)
2018年8月6日
Kafka:ZK+Kafka+Spark Streaming集群环境搭建(二十一)NIFI1.7.1安装
摘要: 一、nifi基本配置 1. 修改各节点主机名,修改/etc/hosts文件内容。 具体请参考《Kafka:ZK+Kafka+Spark Streaming集群环境搭建(一)VMW安装四台CentOS,并实现本机与它们能交互,虚拟机内部实现可以上网。》 2. 安装zookeeper分布式集群 具体请参
阅读全文
posted @ 2018-08-06 18:19 cctext
阅读(951)
评论(0)
推荐(0)
2018年7月31日
Spark参数设置的方式
摘要: 可以通过以下几种方式设置: 1)bin/spark-submit 可以直接读取conf/spark-defaults.conf文件 每一行为一个key和valuespark.master spark://5.6.7.8:7077spark.executor.memory 4gspark.eventL
阅读全文
posted @ 2018-07-31 09:35 cctext
阅读(6585)
评论(0)
推荐(0)
2018年7月29日
Redis:解决分布式高并发修改同一个Key的问题
摘要: 本篇文章是通过watch(监控)+mutil(事务)实现应用于在分布式高并发处理等相关场景。下边先通过redis-cli.exe来测试多个线程修改时,遇到问题及解决问题。 高并发下修改同一个key遇到的问题: 1)定义一个hash类型的key,key为:lock_test,元素locker的值初始化
阅读全文
posted @ 2018-07-29 13:33 cctext
阅读(23655)
评论(0)
推荐(2)
Redis:按照正则批量删除key
摘要: Redis按照正则批量删除key redis目前还不支持批量删除key的命令,但是我们有时需要删除符合某个规则的keys,有两种方式: 1.使用redis-cli keys "test*"获取到以PRO开始的键,然后使用redis-cli del删除这些键 过于繁琐,不推荐使用 2.使用redis-
阅读全文
posted @ 2018-07-29 13:19 cctext
阅读(7348)
评论(0)
推荐(0)
2018年7月26日
Spark:java api实现word count统计
摘要: 方案一:使用reduceByKey 数据word.txt 代码: 输出: 方案二:使用spark sql 使用spark sql实现代码: 结果: 方案二:使用spark streaming实时流分析 参考《http://spark.apache.org/docs/latest/streaming-
阅读全文
posted @ 2018-07-26 10:46 cctext
阅读(1219)
评论(0)
推荐(0)
2018年7月25日
Spark:JavaRDD 转化为 Dataset<Row>的两种方案
摘要: JavaRDD 转化为 Dataset<Row>方案一: 实体类作为schema定义规范,使用反射,实现JavaRDD转化为Dataset<Row> Student.java实体类: 实现代码: JavaRDD 转化为 Dataset<Row>方案二: 使用schema生成方案
阅读全文
posted @ 2018-07-25 14:38 cctext
阅读(14063)
评论(0)
推荐(2)
2018年7月24日
Spark:求出分组内的TopN
摘要: 制作测试数据源: spark scala实现代码: 打印结果: spark java代码实现: 输出结果同上边输出结果。 Java 中使用combineByKey实现TopN: 输出: Spark使用combineByKeyWithClassTag函数实现TopN combineByKeyWithC
阅读全文
posted @ 2018-07-24 23:57 cctext
阅读(2586)
评论(0)
推荐(1)
2018年7月23日
Kafka:ZK+Kafka+Spark Streaming集群环境搭建(二十)ES6.2.2 Client API
摘要: scala版本2.11 java版本1.8 spark版本2.2.1 es版本6.2.2 hadoop版本2.9.0 elasticsearch节点列表: 内容导航: 1)首先,讲解使用elasticsearch client api讲解如何创建(删除、修改、查询)index,type,mappin
阅读全文
posted @ 2018-07-23 20:38 cctext
阅读(679)
评论(0)
推荐(0)
2018年7月21日
Kafka:ZK+Kafka+Spark Streaming集群环境搭建(十九)ES6.2.2 安装Ik中文分词器
摘要: 注: elasticsearch 版本6.2.2 1)集群模式,则每个节点都需要安装ik分词,安装插件完毕后需要重启服务,创建mapping前如果有机器未安装分词,则可能该索引可能为RED,需要删除后重建。 域名 ip master 192.168.0.120 slave1 192.168.0.12
阅读全文
posted @ 2018-07-21 00:08 cctext
阅读(1279)
评论(0)
推荐(0)
上一页
1
···
3
4
5
6
7
8
9
10
11
···
33
下一页
公告