cctext - 博客园

2018年10月12日

Spark中使用Dataset的groupBy/agg/join/broadcast hasjoin/sql broadcast hashjoin示例(java api)

摘要： Dataset的groupBy agg示例 Dataset Join示例： join condition另外一种方式: BroadcastHashJoin示例：打印结果： SparkSQL Broadcast HashJoin 打印日志阅读全文

posted @ 2018-10-12 10:04 cctext 阅读(4101) 评论(0) 推荐(1)

2018年10月11日

Kafka：ZK+Kafka+Spark Streaming集群环境搭建（二十八）：kafka0.10.1 内置性能测试API用法示例

摘要：消费者测试：生产者测试：阅读全文

posted @ 2018-10-11 16:29 cctext 阅读(523) 评论(0) 推荐(0)

2018年9月12日

Java:Linux上java -jar xxx.jar&java -cp 区别

摘要： java -cp java -cp 和 -classpath 一样，是指定类运行所依赖其他类的路径，通常是类库和jar包，需要全路径到jar包，多个jar包之间连接符：window上分号“;”.Linux下使用“:”。windows环境： linux环境：表达式支持通配符，例如： java -ja 阅读全文

posted @ 2018-09-12 14:22 cctext 阅读(14371) 评论(0) 推荐(0)

2018年9月11日

Kafka：ZK+Kafka+Spark Streaming集群环境搭建（二十七）：kafka manager安装

摘要：一、kafka-manager简介为了简化开发者和服务工程师维护Kafka集群的工作，yahoo构建了一个叫做Kafka管理器的基于Web工具，叫做 Kafka Manager。这个管理工具可以很容易地发现分布在集群中的哪些topic分布不均匀，或者是分区在整个集群分布不均匀的的情况。它支持管理多阅读全文

posted @ 2018-09-11 10:59 cctext 阅读(1065) 评论(0) 推荐(0)

2018年8月29日

Kafka：ZK+Kafka+Spark Streaming集群环境搭建（二十六）Structured Streaming：WARN clients.NetworkClient: Error while fetching metadata with correlation id 1 : {my-topic=LEADER_NOT_AVAILABLE}

摘要：问题描述：我之前使用kafka的命令删除了改topic： ./kafka-topics.sh --delete --zookeeper 【zookeeper server】 --topic 【topic name】 kafka是启用了自动创建topic功能的（之气那测试过可以使用），发布消息到该t 阅读全文

posted @ 2018-08-29 18:35 cctext 阅读(9798) 评论(0) 推荐(1)

2018年8月28日

Kafka：ZK+Kafka+Spark Streaming集群环境搭建（二十五）Structured Streaming：同一个topic中包含一组数据的多个部分，按照key它们拼接为一条记录（以及遇到的问题）。

摘要：需求：目前kafka的topic上有一批数据，这些数据被分配到9个不同的partition中（就是发布时key:{m1,m2,m3,m4...m9},value:{records items}），mx(m1,m2...m9)这些数据的唯一键值：int_id+start_time，其中int_id和阅读全文

posted @ 2018-08-28 23:48 cctext 阅读(1158) 评论(0) 推荐(0)

Kafka：ZK+Kafka+Spark Streaming集群环境搭建（二十四）Structured Streaming：Encoder

摘要：一般情况下我们在使用Dataset<Row>进行groupByKey时，你会发现这个方法最后一个参数需要一个encoder，那么这些encoder如何定义呢？一般数据类型示例： Class类型： Tuple类型：一般类型的Tuple Tuple包含类的：关于Encoder请参考《http:/ 阅读全文

posted @ 2018-08-28 23:23 cctext 阅读(809) 评论(0) 推荐(0)

2018年8月24日

Kafka：ZK+Kafka+Spark Streaming集群环境搭建（二十三）Structured Streaming遇到问题：Set(TopicName-0) are gone. Some data may have been missed

摘要：事情经过：之前该topic(M_A)已经存在，而且正常使用structured streaming消费了一段时间，后来删除了topic(M_A)，重新创建了topic（M-A），程序使用新创建的topic（M-A）进行实时统计操作，使用structured streaming执行过程中抛出了一下异常阅读全文

posted @ 2018-08-24 11:42 cctext 阅读(1072) 评论(0) 推荐(0)

2018年8月12日

Structured Streaming编程向导

摘要：简介 Structured Streaming is a scalable and fault-tolerant stream processing engine built on the Spark SQL engine. You can express your streaming comput 阅读全文

posted @ 2018-08-12 16:37 cctext 阅读(1543) 评论(0) 推荐(0)

2018年8月9日

Kafka：ZK+Kafka+Spark Streaming集群环境搭建（二十二）Spark Streaming接收流数据及使用窗口函数

摘要：官网文档：《http://spark.apache.org/docs/latest/streaming-programming-guide.html#a-quick-example》 Spark Streaming提供的提供的理念是一个批次处理一定时间段内的数据，一批次处理接收到的这一批次的数据；而阅读全文

posted @ 2018-08-09 23:28 cctext 阅读(974) 评论(0) 推荐(0)

2018年8月8日

Linux：磁盘挂载

摘要：本来虚拟centos的服务器的磁盘分配的就不大，之前只分配了20G的样子，由于最近有装了不少软件，比如nifi压缩版就有1.2G的大小，一下子没有磁盘资源了。今晚就折腾在这事上了。 1. 查看挂载点信息显示结果：根目录可用磁盘只有20K。 2. 扩展VMWare硬盘空间首先需要关闭操作系统，然后阅读全文

posted @ 2018-08-08 00:20 cctext 阅读(6917) 评论(0) 推荐(0)

2018年8月6日

Kafka：ZK+Kafka+Spark Streaming集群环境搭建（二十一）NIFI1.7.1安装

摘要：一、nifi基本配置 1. 修改各节点主机名，修改/etc/hosts文件内容。具体请参考《Kafka：ZK+Kafka+Spark Streaming集群环境搭建（一）VMW安装四台CentOS，并实现本机与它们能交互，虚拟机内部实现可以上网。》 2. 安装zookeeper分布式集群具体请参阅读全文

posted @ 2018-08-06 18:19 cctext 阅读(977) 评论(0) 推荐(0)

2018年7月31日

Spark参数设置的方式

摘要：可以通过以下几种方式设置： 1）bin/spark-submit 可以直接读取conf/spark-defaults.conf文件每一行为一个key和valuespark.master spark://5.6.7.8:7077spark.executor.memory 4gspark.eventL 阅读全文

posted @ 2018-07-31 09:35 cctext 阅读(6637) 评论(0) 推荐(0)

2018年7月29日

Redis：解决分布式高并发修改同一个Key的问题

摘要：本篇文章是通过watch（监控）+mutil（事务）实现应用于在分布式高并发处理等相关场景。下边先通过redis-cli.exe来测试多个线程修改时，遇到问题及解决问题。高并发下修改同一个key遇到的问题： 1）定义一个hash类型的key，key为：lock_test，元素locker的值初始化阅读全文

posted @ 2018-07-29 13:33 cctext 阅读(23731) 评论(0) 推荐(2)

Redis：按照正则批量删除key

摘要： Redis按照正则批量删除key redis目前还不支持批量删除key的命令，但是我们有时需要删除符合某个规则的keys，有两种方式： 1.使用redis-cli keys "test*"获取到以PRO开始的键，然后使用redis-cli del删除这些键过于繁琐，不推荐使用 2.使用redis- 阅读全文

posted @ 2018-07-29 13:19 cctext 阅读(7395) 评论(0) 推荐(0)

2018年7月26日

Spark：java api实现word count统计

摘要：方案一：使用reduceByKey 数据word.txt 代码：输出：方案二：使用spark sql 使用spark sql实现代码：结果：方案二：使用spark streaming实时流分析参考《http://spark.apache.org/docs/latest/streaming- 阅读全文

posted @ 2018-07-26 10:46 cctext 阅读(1233) 评论(0) 推荐(0)

2018年7月25日

Spark：JavaRDD 转化为 Dataset<Row>的两种方案

摘要： JavaRDD 转化为 Dataset<Row>方案一：实体类作为schema定义规范，使用反射，实现JavaRDD转化为Dataset<Row> Student.java实体类：实现代码： JavaRDD 转化为 Dataset<Row>方案二：使用schema生成方案阅读全文

posted @ 2018-07-25 14:38 cctext 阅读(14085) 评论(0) 推荐(2)

2018年7月24日

Spark：求出分组内的TopN

摘要：制作测试数据源： spark scala实现代码：打印结果： spark java代码实现：输出结果同上边输出结果。 Java 中使用combineByKey实现TopN: 输出： Spark使用combineByKeyWithClassTag函数实现TopN combineByKeyWithC 阅读全文

posted @ 2018-07-24 23:57 cctext 阅读(2605) 评论(0) 推荐(1)

2018年7月23日

Kafka：ZK+Kafka+Spark Streaming集群环境搭建（二十）ES6.2.2 Client API

摘要： scala版本2.11 java版本1.8 spark版本2.2.1 es版本6.2.2 hadoop版本2.9.0 elasticsearch节点列表：内容导航： 1）首先，讲解使用elasticsearch client api讲解如何创建(删除、修改、查询)index,type,mappin 阅读全文

posted @ 2018-07-23 20:38 cctext 阅读(706) 评论(0) 推荐(0)

2018年7月21日

Kafka：ZK+Kafka+Spark Streaming集群环境搭建（十九）ES6.2.2 安装Ik中文分词器

摘要：注： elasticsearch 版本6.2.2 1）集群模式，则每个节点都需要安装ik分词，安装插件完毕后需要重启服务，创建mapping前如果有机器未安装分词，则可能该索引可能为RED，需要删除后重建。域名 ip master 192.168.0.120 slave1 192.168.0.12 阅读全文

posted @ 2018-07-21 00:08 cctext 阅读(1302) 评论(0) 推荐(0)

yy

基础才是编程人员应该深入研究的问题，警告自己问题解决不了时，多从运行原理底层研究后再考虑方案。

公告