huxihx - 博客园

2020年11月21日

摘要：如果你将Kafka做成了一个service并使用systemctl进行管理的话，那么修改/etc/sysctl.conf和/etc/security/limits.conf的配置是不生效的。你可以查看/proc/<kafka pid>/limits去验证配置是否生效了。如果将Kafka配置成了ser 阅读全文

posted @ 2020-11-21 10:46 huxihx 阅读(2712) 评论(2) 推荐(1)

2020年9月15日

【原创】Kafka Consumer多线程消费

摘要：上一篇《Kafka Consumer多线程实例续篇》修正了多线程提交位移的问题，但依然可能出现数据丢失的情况，原因在于多个线程可能拿到相同分区的数据，而消费的顺序会破坏消息本身在分区中的顺序，因而扰乱位移的提交。这次我使用KafkaConsumer的pause和resume方法来防止这种情形的发生。阅读全文

posted @ 2020-09-15 09:51 huxihx 阅读(8519) 评论(15) 推荐(7)

2020年8月20日

Threaded Compaction算法——Jonker算法

摘要：阅读《The Garbage Collection Handbook》第3章的Mark-Compaction垃圾回收算法时，对于Threaded Compaction总是无法理解。于是特意花了一些时间，总算是入门了，也搞懂了它的思想，写出来总结一下。如果文中有错误，还请指正。 Compaction算阅读全文

posted @ 2020-08-20 10:52 huxihx 阅读(1032) 评论(1) 推荐(1)

2020年8月4日

Kafka Streams开发入门(10)

摘要：利用Kafka Streams中的KTable实时计算电影平均分数阅读全文

posted @ 2020-08-04 17:27 huxihx 阅读(848) 评论(0) 推荐(0)

2020年7月28日

【译】使用Kafka、DynamoDB和Rockset设计实时ETA预测系统

摘要：原文：https://dzone.com/articles/designing-a-real-time-eta-prediction-system-using 总有些奇怪的时刻，城市处于封锁状态，很少人敢于走出去冒险。此时像外卖这样的物流服务兴起就不足为怪了。当用户下单后，大多数的此类应用都提供了阅读全文

posted @ 2020-07-28 16:15 huxihx 阅读(1063) 评论(0) 推荐(1)

2020年7月20日

【译】API安全威胁了解下

摘要：当今，越来越多的数据通过API进行获取，API的安全性不再是一个事后才需要考虑的事情。关于API的麻烦之处在于它能直接访问大量数据而无需浏览器的检查。与其担忧SQL注入和XSS问题，你更应该关注能够对客户记录及其数据进行分页的那些坏家伙。像Captchas和浏览器指纹这类的典型预防机制是没用的，因阅读全文

posted @ 2020-07-20 15:55 huxihx 阅读(558) 评论(0) 推荐(0)

2020年7月10日

Kafka 2.6新功能：消费者主动触发Rebalance

摘要： Kafka 2.6引入的新功能：消费者能够主动触发Rebalance。一直以来，Rebalance的触发都是由Coordinator来执行的，但有些场景下消费者端能够主动触发Rebalance会很有必要。举个例子，在ConsumerPartitionAssignor接口中有个subscription 阅读全文

posted @ 2020-07-10 11:04 huxihx 阅读(3290) 评论(0) 推荐(0)

2020年5月30日

【译】十款性能最佳的压缩算法

摘要：数据压缩是保留相同或绝大部分数据前提下减小文件大小的过程。它的原理是消除不必要的数据或以更高效的格式重新组织数据。在进行数据压缩时，你可以选择使用有损方法或无损方法。有损方法会永久性地擦除掉一些数据，而无损方法则能保证持有全部的数据。使用哪类方法取决于你要让你的文件保持多大的精准度。本文会为你介阅读全文

posted @ 2020-05-30 08:52 huxihx 阅读(28047) 评论(6) 推荐(1)

2020年4月10日

Kafka Streams开发入门(9)

摘要： 1. 背景上一篇介绍了如何利用Kafka Streams实时统计某年最卖座和最不卖座的电影票房。主要的方法是通过Streams提供的aggregate方法实现了max/min算子。今天我为大家带来时间窗口函数的使用方法。在Kafka Streams中，时间窗口有三类：固定时间窗口（Tumbling 阅读全文

posted @ 2020-04-10 13:44 huxihx 阅读(1239) 评论(0) 推荐(1)

2020年3月30日

Kafka Streams开发入门(8)

摘要： 1. 背景上一篇介绍了如何利用Kafka Streams对实时消息流进行汇总求和。本篇将设定一个场景：我们引入一个Kafka topic表示电影票的销售，同时我们基于Kafka Streams编写一个程序来计算每年最卖座的电影票房以及最不卖座的电影票房。 2. 功能演示说明假设我们要执行票房统计阅读全文

posted @ 2020-03-30 10:50 huxihx 阅读(735) 评论(0) 推荐(0)

公告