摘要: Bloom filter 思路 用多个不同hash 来记录,比如遇到一个 love 有4个hash function 映射到4个bit位置,如果所有位置都是1 那么认为之前已经遇到love这个词(有一定错误概率),如果有任何一个位置是0,那么表明love这个词之前没有遇到(100%这样) Count Min Sketch 思路类似。。 考虑一个近似的(允许一定错误)的类似 has... 阅读全文
posted @ 2014-12-04 16:24 阁子 阅读(757) 评论(0) 推荐(0) 编辑
摘要: 考虑典型的文本分类,一个经典的方法就是 分词,扫描所有特征,建立特征词典 重新扫描所有特征,利用特征词典将特征映射到特征空间编号 得到特征向量 学习参数 w 存储学习参数 w , 存储特征映射词典 预测截断装载学习参数w,装载特征映射词典 扫描数据,将所有特征利用特征映射词典映射到特征空间编号 得到特征向量 利用用学习参数w 对得到的特征向量 进行 点积 做出预测 Featur... 阅读全文
posted @ 2014-12-04 16:09 阁子 阅读(1257) 评论(0) 推荐(0) 编辑