上一页 1 2 3 4 5 6 ··· 11 下一页
分布式计算 标准差,信度 当一组数据无法完全加载到内存计算时,那我们就需要进行分布式计算,每台机器计算部分数据然后合成最后结果。例如典型的词频统计案例,但是当最后的结果不能根据每台机器的结果得出,那么就要拆分算法了。 ==拆分算法的标准:算法公式的粒度一定要能根据分布式的各个task处理得出== 拆 Read More
posted @ 2018-04-27 18:10 George_sz Views(633) Comments(0) Diggs(0) Edit
先说说遇到的坑 回顾下kafka topic:生产组:P0\P1 P14 一个消费组:c0 c1 c2 依据Consumer的负载均衡分配 消费顺序“c0:p0 p4 c1:p5 p9 c2:p10 p14 问题:突然发现读offset 堆积太多 增加消费者也没用 原因: C2节点物理故障,会把数据 Read More
posted @ 2018-04-11 11:33 George_sz Views(366) Comments(0) Diggs(0) Edit
hive 处理json数据总体来说有两个方向的路走 1、将json以字符串的方式整个入Hive表,然后通过使用UDF函数解析已经导入到hive中的数据,比如使用LATERAL VIEW json_tuple的方法,获取所需要的列名。 2、在导入之前将json拆成各个字段,导入Hive表的数据是已经解 Read More
posted @ 2018-04-06 23:34 George_sz Views(26325) Comments(0) Diggs(0) Edit
官方指导:http://spark.apache.org/docs/2.2.0/structured-streaming-kafka-integration.html 1、版本问题 起初用的kafka是0.8,各种问题,后面换成官方要求的 0.10.0 以上,一些版本问题再没有了。 2、在windw Read More
posted @ 2018-03-30 13:51 George_sz Views(1287) Comments(0) Diggs(0) Edit
pentaho 自带的component 虽多,但是当用户需要在一个表格中查看多个组别的数据时,pentaho自带的单选框就不能实现了,所以复选下拉框势在必行,实现效果如下: 实现原理是借用了jquery ztree 插件。 首先集成ztree 插件,如图 画你想要的图 书写数据源。。。 新建que Read More
posted @ 2018-03-26 14:57 George_sz Views(599) Comments(0) Diggs(0) Edit
.具体场景如下: spark1.6 升级 spark2.2 后 分析查询hbase 数据报异常: 后发现spark2.2 引入的包路径为 org.htrace htrace-core-3.0.4 版本的时候路径是 org.htrace 而3.1.0的时候已经贡献给Apache了,改叫org.apac Read More
posted @ 2018-03-21 14:22 George_sz Views(717) Comments(0) Diggs(0) Edit
问题一: 此问题一般和内存有关,调大内存 再把虚拟和物理监控线程关闭 问题二: 此问题一般是由于集群配置原因,检查jdk ,yarn 的配置文件 问题三: 同步集群的时间即可,本人集群其实一直都是时钟同步的,但是不知道为什么第三个节点会突然时钟错乱,jdk版本也错乱了 问题问题四: 这些问题看表面一 Read More
posted @ 2018-03-17 23:50 George_sz Views(16267) Comments(2) Diggs(2) Edit
1、hiveserver2正常启动,但是beeline连不上服务。 我的服务是开在本机的,但是用主机名和127好像都不能访问服务了 把127或者主机名改成真实的IP就可以了 2、创建hive外部表关联hbase数据的时候报一些莫名其妙的错误 在hive env 文件里面加上hbase 的环境变量就好 Read More
posted @ 2018-01-15 11:39 George_sz Views(415) Comments(0) Diggs(0) Edit
更新了hive版本后,在创建hive外部表 级联hbase 的时候报如下异常: 起初以为少包:从新导入,确认无误。htrace-core-3.0.4 包是存在的 后对比了2.0.4的包,发现两个版本包的目录和报错的均不一样。 后替换为apache的包,又报了其他兼容问题 再不想麻烦的基础上,仔细想了 Read More
posted @ 2018-01-11 23:10 George_sz Views(2276) Comments(0) Diggs(0) Edit
1、列出集群中的topic 2、创建topic replication-factor为副本因子数量, partitions为分区数量 注意:kafka-logs目录会产生topic的消息文件,为什么要生产此消息文件呢?就是当一台机器挂了后,其他机器会基于本机的此topic信息继续对外提供服务。 3、 Read More
posted @ 2018-01-04 10:31 George_sz Views(350) Comments(0) Diggs(0) Edit
上一页 1 2 3 4 5 6 ··· 11 下一页