摘要: 水塘抽样是一系列的随机算法,其目的在于从包含n个项目的集合S中选取k个样本,其中n为一很大或未知的数量,尤其适用于不能把所有n个项目都存放到主内存的情况。 在高德纳的计算机程序设计艺术中,有如下问题: 可否在一未知大小的集合中,随机取出一元素? 。或者是Google面试题: I have a lin 阅读全文
posted @ 2018-05-20 23:11 致林 阅读(211) 评论(0) 推荐(0)
摘要: 场景:上次回答word2vec相关的问题,回答的是先验概率和后验概率,没有回答到关键点。 词袋模型(Bag of Words, BOW)与词向量(Word Embedding)模型 词袋模型就是将句子分词,然后对每个词进行编码,常见的有one hot、TF IDF、Huffman编码,假设词与词之间 阅读全文
posted @ 2018-05-20 23:06 致林 阅读(12552) 评论(1) 推荐(1)