摘要: 首先,需要对英文文本做一些预处理工作,譬如去停用词,对文本进行tokenize,stemming以及过滤掉低频的词 然后,通过这些文档抽取一个“词袋(bag-of-words)“,将文档的token映射为id,然后就可以 将字符串 转换为用id表示的文档向量 {‘a’: 0, ‘damaged’: 阅读全文
posted @ 2016-07-11 14:23 奋斗中的菲比 阅读(260) 评论(0) 推荐(0)