Querying and Minig Data StreamPPT整理【T5garofalalis.pdf】

 

Querying and Minig Data Stream
 

Data stream

Reservoir Sampling

水库抽样

Counting Samples[GM98]

如果我们用<value, count>来表示取样的样本,用concise sampling取样,对于什么样的<value, count>能做准确的估计,对于什么样的样本作出的估计是不准确的?

K most frequent 逐渐在sample 中沉淀下来,后面的value很难替换掉。

GM98一种表示参考文献的方式 作者姓氏首字母加年份标示

 

 

 

histogram直方图 柱状图

Quantile分位数

Mean均值 有可能方差很大时候均值就效果不好

median中位数 出现极端值最好用中位数

统计量,从计算方法上来看,可以分成3种:distributive, algebraic和holistic

“可拆分的”,代数的,整体的

distributive: min, max, sum, count

algebraic: avg

avg=(sum_1+sum_2+sum_3)/(n_1+n_2+n_3)=sum/count

 

 

 

 

 

 

 

 

 

 

posted @ 2020-05-13 09:44  柠檬味呀  阅读(174)  评论(0)    收藏  举报