上一页 1 2 3 4 5 6 ··· 9 下一页

2019年9月6日

摘要: StateTtlConfig用于设置state的TTL属性,这里主要设置UpdateType、StateVisibility、TimeCharacteristic、Time、CleanupStrategies这几个属性 阅读全文
posted @ 2019-09-06 11:01 深圳私塾 阅读(516) 评论(0) 推荐(0)

2019年9月5日

摘要: Watermartks是通过additional的时间戳来控制窗口激活的时间,allowedLateness来控制窗口的销毁时间。 1. 一条记录的事件时间来控制此条记录属于哪一个窗口,Watermarks来控制这个窗口什么时候激活。 2. 假如一个窗口时间为00:00:00~00:00:05,Wa 阅读全文
posted @ 2019-09-05 11:46 深圳私塾 阅读(193) 评论(0) 推荐(0)
摘要: watermark是一种衡量Event Time进展的机制,它是数据本身的一个隐藏属性。通常基于Event Time的数据,自身都包含一个timestamp.watermark是用于处理乱序事件的,而正确的处理乱序事件,通常用watermark机制结合window来实现 window的触发要符合以下 阅读全文
posted @ 2019-09-05 11:33 深圳私塾 阅读(253) 评论(0) 推荐(0)
摘要: Flink的TimeCharacteristic枚举定义了三类值,分别是ProcessingTime、IngestionTime、EventTime ProcessingTime是以operator处理的时间为准,它使用的是机器的系统时间来作为data stream的时间;IngestionTime 阅读全文
posted @ 2019-09-05 11:12 深圳私塾 阅读(233) 评论(0) 推荐(0)

2019年8月29日

摘要: cgroup是Control Groups的缩写,是Linux 内核提供的一种可以限制、记录、隔离进程组所使用的物理资源(如 cpu、memory、磁盘IO等等) 的机制,被LXC、docker等很多项目用于实现进程资源控制 cgroup将任意进程进行分组化管理的 Linux 内核功能。cgroup 阅读全文
posted @ 2019-08-29 10:51 深圳私塾 阅读(147) 评论(0) 推荐(0)

2019年8月22日

摘要: 所有的字段都默认支持doc values,如果你确定你不需要在某个字段上排序或者聚合或者在脚本中访问,你可以disable掉; 根据一组测试;数据集在2700W; 全部Field doc values false 节约的存储空间大约为60% 阅读全文
posted @ 2019-08-22 14:15 深圳私塾 阅读(116) 评论(0) 推荐(0)

2019年8月20日

摘要: 通过测试以及以上的相关调研编写了各组件各个方面的综合对比分析表,这里采用5分为满分来比较,如下表: 阅读全文
posted @ 2019-08-20 18:15 深圳私塾 阅读(405) 评论(0) 推荐(0)
摘要: 行式存储or列式存储:Parquet和ORC都以列的形式存储数据,而Avro以基于行的格式存储数据。 就其本质而言,面向列的数据存储针对读取繁重的分析工作负载进行了优化,而基于行的数据库最适合于大量写入的事务性工作负载。 压缩率:基于列的存储区Parquet和ORC提供的压缩率高于基于行的Avro格 阅读全文
posted @ 2019-08-20 18:13 深圳私塾 阅读(231) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2019-08-20 17:49 深圳私塾 阅读(90) 评论(0) 推荐(0)

2019年7月17日

摘要: 传统的机器学习:一般都具有扎实的数学理论推导(分析、几何、代数,主要关注概率图模型),你可以知道结果产生的原因,为什么结果好? 深度学习:目前为止,暂没还有扎实数学理论基础,这也就导致了深度学习最大的缺点:缺乏可解释性。无法解释为什么多层、参数冗余的深层神经网络在这个数据集上产生的结果。 阅读全文
posted @ 2019-07-17 14:07 深圳私塾 阅读(96) 评论(0) 推荐(0)
上一页 1 2 3 4 5 6 ··· 9 下一页

导航