会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
学而不思则罔,思而不学则殆
一个人的奋斗......
CnBlogs
Home
New Post
Contact
Admin
Subscription
上一页
1
2
3
4
5
6
···
11
下一页
2018年5月4日
spark 调优概述
分为几个部分: 开发调优、资源调优、数据倾斜调优、shuffle调优 开发调优: 主要包括这几个方面 RDD lineage设计、算子的合理使用、特殊操作的优化等 避免创建重复的RDD,尽可能复用同一个RDD 一个RDD包含另外一个RDD,对多次使用的RDD进行持久化 内存(序列化),磁盘(序列化)
Read More
posted @ 2018-05-04 11:00 George_sz
Views(673)
Comments(0)
Diggs(0)
2018年4月27日
分布式计算 标准差,信度
分布式计算 标准差,信度 当一组数据无法完全加载到内存计算时,那我们就需要进行分布式计算,每台机器计算部分数据然后合成最后结果。例如典型的词频统计案例,但是当最后的结果不能根据每台机器的结果得出,那么就要拆分算法了。 ==拆分算法的标准:算法公式的粒度一定要能根据分布式的各个task处理得出== 拆
Read More
posted @ 2018-04-27 18:10 George_sz
Views(689)
Comments(0)
Diggs(0)
2018年4月11日
kafka简单回顾
先说说遇到的坑 回顾下kafka topic:生产组:P0\P1 P14 一个消费组:c0 c1 c2 依据Consumer的负载均衡分配 消费顺序“c0:p0 p4 c1:p5 p9 c2:p10 p14 问题:突然发现读offset 堆积太多 增加消费者也没用 原因: C2节点物理故障,会把数据
Read More
posted @ 2018-04-11 11:33 George_sz
Views(379)
Comments(0)
Diggs(0)
2018年4月6日
hive 存储,解析,处理json数据
hive 处理json数据总体来说有两个方向的路走 1、将json以字符串的方式整个入Hive表,然后通过使用UDF函数解析已经导入到hive中的数据,比如使用LATERAL VIEW json_tuple的方法,获取所需要的列名。 2、在导入之前将json拆成各个字段,导入Hive表的数据是已经解
Read More
posted @ 2018-04-06 23:34 George_sz
Views(26868)
Comments(0)
Diggs(0)
2018年3月30日
Structured Streaming + Kafka 集成中遇到的问题
官方指导:http://spark.apache.org/docs/2.2.0/structured-streaming-kafka-integration.html 1、版本问题 起初用的kafka是0.8,各种问题,后面换成官方要求的 0.10.0 以上,一些版本问题再没有了。 2、在windw
Read More
posted @ 2018-03-30 13:51 George_sz
Views(1304)
Comments(0)
Diggs(0)
2018年3月26日
pentaho cde 自定义复选下拉框 checkbox select
pentaho 自带的component 虽多,但是当用户需要在一个表格中查看多个组别的数据时,pentaho自带的单选框就不能实现了,所以复选下拉框势在必行,实现效果如下: 实现原理是借用了jquery ztree 插件。 首先集成ztree 插件,如图 画你想要的图 书写数据源。。。 新建que
Read More
posted @ 2018-03-26 14:57 George_sz
Views(618)
Comments(0)
Diggs(0)
2018年3月21日
spark升级后 集成hbase-1.0.0-cdh5.4.5异常
.具体场景如下: spark1.6 升级 spark2.2 后 分析查询hbase 数据报异常: 后发现spark2.2 引入的包路径为 org.htrace htrace-core-3.0.4 版本的时候路径是 org.htrace 而3.1.0的时候已经贡献给Apache了,改叫org.apac
Read More
posted @ 2018-03-21 14:22 George_sz
Views(736)
Comments(0)
Diggs(0)
2018年3月17日
spark on yarn 运行问题记录
问题一: 此问题一般和内存有关,调大内存 再把虚拟和物理监控线程关闭 问题二: 此问题一般是由于集群配置原因,检查jdk ,yarn 的配置文件 问题三: 同步集群的时间即可,本人集群其实一直都是时钟同步的,但是不知道为什么第三个节点会突然时钟错乱,jdk版本也错乱了 问题问题四: 这些问题看表面一
Read More
posted @ 2018-03-17 23:50 George_sz
Views(16612)
Comments(2)
Diggs(2)
2018年1月15日
hive升级遇到的几个小问题
1、hiveserver2正常启动,但是beeline连不上服务。 我的服务是开在本机的,但是用主机名和127好像都不能访问服务了 把127或者主机名改成真实的IP就可以了 2、创建hive外部表关联hbase数据的时候报一些莫名其妙的错误 在hive env 文件里面加上hbase 的环境变量就好
Read More
posted @ 2018-01-15 11:39 George_sz
Views(454)
Comments(0)
Diggs(0)
2018年1月11日
hive 集成 hbase NoClassDefFoundError: org/apache/htrace/Trace
更新了hive版本后,在创建hive外部表 级联hbase 的时候报如下异常: 起初以为少包:从新导入,确认无误。htrace-core-3.0.4 包是存在的 后对比了2.0.4的包,发现两个版本包的目录和报错的均不一样。 后替换为apache的包,又报了其他兼容问题 再不想麻烦的基础上,仔细想了
Read More
posted @ 2018-01-11 23:10 George_sz
Views(2362)
Comments(0)
Diggs(0)
上一页
1
2
3
4
5
6
···
11
下一页
公告