随笔分类 -  In A Word

摘要:2021/06 1.Jstorm - 大量FAIL 调整spoutpending; time out ; bolt数量; worker数量; 解读Jstorm指标体系 2.Flink 异常 检查Savepoint间隔时间; 检查Checkpoint间隔时间 ;checkpoint timeout时间 阅读全文

posted @ 2021-06-25 10:06 深圳私塾 阅读(244) 评论(0) 推荐(0)

摘要:数据库模式,结构可以预先规定的,或者可以相对固定的项目 要求数据一致性 具有良好的开发者经验和技术支持的标准的成熟技术 不相关,不确定和逐步发展的数据需求 更简单或者更宽松的能够快速开始编程的项目 速度和可扩展性至关重要的 当然现在很多项目都使用 SQL 和 NoSQL 相结合的方式,各自发挥其优点 阅读全文

posted @ 2019-10-16 14:06 深圳私塾 阅读(125) 评论(0) 推荐(0)

摘要:Akka在Flink中的使用 Akka在Flink中用于三个分布式技术组件之间的通信,他们是JobClient,JobManager,TaskManager。Akka在Flink中主要的作用是用来充当一个coordinator的角色。 Flink为什么要用Akka来代替RPC 原先的RPC服务存在的 阅读全文

posted @ 2019-09-19 16:50 深圳私塾 阅读(207) 评论(0) 推荐(0)

摘要:Akka是一个用来开发支持并发、容错、扩展性的应用程序框架。它是actor model的实现,因此跟Erlang的并发模型很像。在actor模型的上下文中,所有的活动实体都被认为是互不依赖的actor。actor之间的互相通信是通过彼此之间发送异步消息来实现的。每个actor都有一个邮箱来存储接收到 阅读全文

posted @ 2019-09-19 16:48 深圳私塾 阅读(140) 评论(0) 推荐(0)

摘要:“富函数”是DataStream API提供的一个函数类的接口,所有Flink函数类都有其Rich版本。 它与常规函数的不同在于,可以获取运行环境的上下文,并拥有一些生命周期方法,所以可以实现更复杂的功能。  RichMapFunction RichFlatMapFunction RichFi 阅读全文

posted @ 2019-09-09 19:59 深圳私塾 阅读(386) 评论(0) 推荐(0)

摘要:StateTtlConfig用于设置state的TTL属性,这里主要设置UpdateType、StateVisibility、TimeCharacteristic、Time、CleanupStrategies这几个属性 阅读全文

posted @ 2019-09-06 11:01 深圳私塾 阅读(523) 评论(0) 推荐(0)

摘要:Watermartks是通过additional的时间戳来控制窗口激活的时间,allowedLateness来控制窗口的销毁时间。 1. 一条记录的事件时间来控制此条记录属于哪一个窗口,Watermarks来控制这个窗口什么时候激活。 2. 假如一个窗口时间为00:00:00~00:00:05,Wa 阅读全文

posted @ 2019-09-05 11:46 深圳私塾 阅读(202) 评论(0) 推荐(0)

摘要:watermark是一种衡量Event Time进展的机制,它是数据本身的一个隐藏属性。通常基于Event Time的数据,自身都包含一个timestamp.watermark是用于处理乱序事件的,而正确的处理乱序事件,通常用watermark机制结合window来实现 window的触发要符合以下 阅读全文

posted @ 2019-09-05 11:33 深圳私塾 阅读(264) 评论(0) 推荐(0)

摘要:Flink的TimeCharacteristic枚举定义了三类值,分别是ProcessingTime、IngestionTime、EventTime ProcessingTime是以operator处理的时间为准,它使用的是机器的系统时间来作为data stream的时间;IngestionTime 阅读全文

posted @ 2019-09-05 11:12 深圳私塾 阅读(242) 评论(0) 推荐(0)

摘要:cgroup是Control Groups的缩写,是Linux 内核提供的一种可以限制、记录、隔离进程组所使用的物理资源(如 cpu、memory、磁盘IO等等) 的机制,被LXC、docker等很多项目用于实现进程资源控制 cgroup将任意进程进行分组化管理的 Linux 内核功能。cgroup 阅读全文

posted @ 2019-08-29 10:51 深圳私塾 阅读(155) 评论(0) 推荐(0)

摘要:所有的字段都默认支持doc values,如果你确定你不需要在某个字段上排序或者聚合或者在脚本中访问,你可以disable掉; 根据一组测试;数据集在2700W; 全部Field doc values false 节约的存储空间大约为60% 阅读全文

posted @ 2019-08-22 14:15 深圳私塾 阅读(119) 评论(0) 推荐(0)

摘要:通过测试以及以上的相关调研编写了各组件各个方面的综合对比分析表,这里采用5分为满分来比较,如下表: 阅读全文

posted @ 2019-08-20 18:15 深圳私塾 阅读(407) 评论(0) 推荐(0)

摘要:行式存储or列式存储:Parquet和ORC都以列的形式存储数据,而Avro以基于行的格式存储数据。 就其本质而言,面向列的数据存储针对读取繁重的分析工作负载进行了优化,而基于行的数据库最适合于大量写入的事务性工作负载。 压缩率:基于列的存储区Parquet和ORC提供的压缩率高于基于行的Avro格 阅读全文

posted @ 2019-08-20 18:13 深圳私塾 阅读(235) 评论(0) 推荐(0)

摘要: 阅读全文

posted @ 2019-08-20 17:49 深圳私塾 阅读(90) 评论(0) 推荐(0)

摘要:传统的机器学习:一般都具有扎实的数学理论推导(分析、几何、代数,主要关注概率图模型),你可以知道结果产生的原因,为什么结果好? 深度学习:目前为止,暂没还有扎实数学理论基础,这也就导致了深度学习最大的缺点:缺乏可解释性。无法解释为什么多层、参数冗余的深层神经网络在这个数据集上产生的结果。 阅读全文

posted @ 2019-07-17 14:07 深圳私塾 阅读(98) 评论(0) 推荐(0)

摘要:spark最初的定位就是改进hadoop, 更快速的进行批处理. storm擅长的则是进行无状态的流计算(在无状态的流计算领域, 它的延迟是最小的), 而Flink则是storm的下一代解决方案(当然Flink的设计之初并不是改进storm), 能够进行高吞吐,低延迟(毫秒级)的有状态流计算. 阅读全文

posted @ 2019-07-11 14:26 深圳私塾 阅读(120) 评论(0) 推荐(0)

导航