Querying and Minig Data StreamPPT整理【T5garofalalis.pdf】
Querying and Minig Data Stream


Data stream
Reservoir Sampling
水库抽样
Counting Samples[GM98]
如果我们用<value, count>来表示取样的样本,用concise sampling取样,对于什么样的<value, count>能做准确的估计,对于什么样的样本作出的估计是不准确的?
K most frequent 逐渐在sample 中沉淀下来,后面的value很难替换掉。
GM98一种表示参考文献的方式 作者姓氏首字母加年份标示

histogram直方图 柱状图
Quantile分位数
Mean均值 有可能方差很大时候均值就效果不好
median中位数 出现极端值最好用中位数
统计量,从计算方法上来看,可以分成3种:distributive, algebraic和holistic
“可拆分的”,代数的,整体的
distributive: min, max, sum, count
algebraic: avg
avg=(sum_1+sum_2+sum_3)/(n_1+n_2+n_3)=sum/count




浙公网安备 33010602011771号