随笔分类 -  大数据和流式计算

Data Stream:不存储 海量数据处理:存储、存到数据库/文件中,再从数据库中读出来进行处理。
摘要:https://blog.csdn.net/liveshow021_jxb/article/details/111727883 阅读全文
posted @ 2023-04-25 17:28 没有任何出路 阅读(210) 评论(0) 推荐(0)
摘要:https://zhuanlan.zhihu.com/p/437458462 阅读全文
posted @ 2023-02-23 23:00 没有任何出路 阅读(72) 评论(0) 推荐(0)
摘要:https://zhuanlan.zhihu.com/p/404240466 阅读全文
posted @ 2023-02-23 22:56 没有任何出路 阅读(37) 评论(0) 推荐(0)
摘要:可以用于写相关的背景知识和研究现状 https://blog.csdn.net/weixin_30779691/article/details/98194337?spm=1001.2101.3001.6650.10&utm_medium=distribute.pc_relevant.none-tas 阅读全文
posted @ 2023-02-23 22:51 没有任何出路 阅读(56) 评论(0) 推荐(0)
摘要:快速计算Distinct Count 基数估计算法 probabilistic counting、linear probabilistic counting、linear counting可能指的是一种结构 阅读全文
posted @ 2023-02-23 22:26 没有任何出路 阅读(63) 评论(0) 推荐(0)
摘要:读书笔记 | Small Summaries for Big Data Ch9.3-9.4 9.4.3 Nesting Summaries 构建新摘要的一种自然方法是将摘要“嵌套”在一起。也就是说,我们使用一个摘要类型作为另一个摘要中的子结构。我们已经看到了一些符合这一描述的例子。例如,是通过在采样 阅读全文
posted @ 2023-02-23 22:17 没有任何出路 阅读(62) 评论(0) 推荐(0)
摘要:Jarrycow.github.io/source/_posts/高速流量测量方法.md 网络测量常见算法之一:直接位图法 Direct Bitmap Virtual Bitmap Multiresolution Bitmap 阅读全文
posted @ 2023-02-23 22:16 没有任何出路 阅读(75) 评论(0) 推荐(0)
摘要:HyperLogLog 使用及其算法原理详细讲解 常见的基数估计算法 基于B树的基数计数 基于bitmap的基数计数 基于概率的基数计算 Linear Counting LogLog Counting Adaptive Counting HyperLogLog Counting HyerLogLog 阅读全文
posted @ 2022-11-28 21:58 没有任何出路 阅读(123) 评论(0) 推荐(0)
摘要:参考资料: bitmap和bloomfilter bitmap、bitset、BloomFilter简介 阅读全文
posted @ 2021-11-09 16:51 没有任何出路 阅读(45) 评论(0) 推荐(0)
摘要:参考资料: 海量数据分布在100台电脑中,想个办法高效统计出这批数据的TOP10 面试经典的海量数据处理(TOPK)问题—转载+个人见解! 海量数据处理 - 10亿个数中找出最大的10000个数(top K问题) 阅读全文
posted @ 2021-11-03 09:32 没有任何出路 阅读(147) 评论(0) 推荐(0)
摘要:ElasticSketch 参考资料: [论文笔记] Sigcomm 2018 Elastic Sketch: Adaptive and Fast Network-wide Measurements [论文笔记] SIGKDD HeavyGuardian: Separate and Guard Ho 阅读全文
posted @ 2021-11-02 15:24 没有任何出路 阅读(78) 评论(0) 推荐(0)
摘要:待总结 阅读全文
posted @ 2021-10-18 18:35 没有任何出路 阅读(27) 评论(0) 推荐(0)
摘要:/* * * Written by : Prashant Kumar Prajapati * Time complexity : O(n) * Space complexity : O(n) * */ /* * * This script implements a prototype of the 阅读全文
posted @ 2021-10-17 15:27 没有任何出路 阅读(552) 评论(0) 推荐(0)
摘要:data stream ——> network measurment 阅读全文
posted @ 2021-09-28 16:48 没有任何出路 阅读(45) 评论(0) 推荐(0)
摘要:参考资料: 基数估计之HyperLogLog算法 问题一:抛硬币实验:连续抛硬币,直到出现正面停止。得到抛的次数K。这样的实验重复n次,则n=2^kmax;这个也很好理解。如果kmax是1000,即在某次实验中出现了连续1000次的反面,那我有理由相信,你肯定进行了很多很多很多次实验才得到这个结果的 阅读全文
posted @ 2021-09-27 21:09 没有任何出路 阅读(73) 评论(0) 推荐(0)
摘要:参考: 大数据流的在线Heavy Hitters算法(上篇):基于计数器的方法 大数据流的在线Heavy Hitters算法(下篇):基于略图的方法 海量数据处理 - 10亿个数中找出最大的10000个数(top K问题) Misra-Gries算法 Lossy Counting算法 Space S 阅读全文
posted @ 2021-09-25 16:42 没有任何出路 阅读(393) 评论(0) 推荐(0)