随笔分类 - 大数据和流式计算
Data Stream:不存储
海量数据处理:存储、存到数据库/文件中,再从数据库中读出来进行处理。
摘要:https://blog.csdn.net/liveshow021_jxb/article/details/111727883
阅读全文
摘要:https://zhuanlan.zhihu.com/p/437458462
阅读全文
摘要:https://zhuanlan.zhihu.com/p/404240466
阅读全文
摘要:可以用于写相关的背景知识和研究现状 https://blog.csdn.net/weixin_30779691/article/details/98194337?spm=1001.2101.3001.6650.10&utm_medium=distribute.pc_relevant.none-tas
阅读全文
摘要:快速计算Distinct Count 基数估计算法 probabilistic counting、linear probabilistic counting、linear counting可能指的是一种结构
阅读全文
摘要:读书笔记 | Small Summaries for Big Data Ch9.3-9.4 9.4.3 Nesting Summaries 构建新摘要的一种自然方法是将摘要“嵌套”在一起。也就是说,我们使用一个摘要类型作为另一个摘要中的子结构。我们已经看到了一些符合这一描述的例子。例如,是通过在采样
阅读全文
摘要:Jarrycow.github.io/source/_posts/高速流量测量方法.md 网络测量常见算法之一:直接位图法 Direct Bitmap Virtual Bitmap Multiresolution Bitmap
阅读全文
摘要:HyperLogLog 使用及其算法原理详细讲解 常见的基数估计算法 基于B树的基数计数 基于bitmap的基数计数 基于概率的基数计算 Linear Counting LogLog Counting Adaptive Counting HyperLogLog Counting HyerLogLog
阅读全文
摘要:参考资料: bitmap和bloomfilter bitmap、bitset、BloomFilter简介
阅读全文
摘要:参考资料: 海量数据分布在100台电脑中,想个办法高效统计出这批数据的TOP10 面试经典的海量数据处理(TOPK)问题—转载+个人见解! 海量数据处理 - 10亿个数中找出最大的10000个数(top K问题)
阅读全文
摘要:ElasticSketch 参考资料: [论文笔记] Sigcomm 2018 Elastic Sketch: Adaptive and Fast Network-wide Measurements [论文笔记] SIGKDD HeavyGuardian: Separate and Guard Ho
阅读全文
摘要:/* * * Written by : Prashant Kumar Prajapati * Time complexity : O(n) * Space complexity : O(n) * */ /* * * This script implements a prototype of the
阅读全文
摘要:data stream ——> network measurment
阅读全文
摘要:参考资料: 基数估计之HyperLogLog算法 问题一:抛硬币实验:连续抛硬币,直到出现正面停止。得到抛的次数K。这样的实验重复n次,则n=2^kmax;这个也很好理解。如果kmax是1000,即在某次实验中出现了连续1000次的反面,那我有理由相信,你肯定进行了很多很多很多次实验才得到这个结果的
阅读全文
摘要:参考: 大数据流的在线Heavy Hitters算法(上篇):基于计数器的方法 大数据流的在线Heavy Hitters算法(下篇):基于略图的方法 海量数据处理 - 10亿个数中找出最大的10000个数(top K问题) Misra-Gries算法 Lossy Counting算法 Space S
阅读全文

浙公网安备 33010602011771号