如何在hadoop上做等频离散化

抛砖引玉,先根据特征值group by,统计每个特征值出现次数,然后reduce到一个文件,根据一个文件来统计吧,毕竟,你知道多个桶,那么每个桶多少个样本就是确定了,数数,数到一个桶样本的时候停止,就是一个阈值呗

posted @ 2018-11-15 19:36  dmesg  阅读(366)  评论(0编辑  收藏  举报