2016 年 11月 8 日随笔档案 - 乐乐章

2016年11月8日

摘要：文本提取特征常用的模型有：1.Bag-of-words：最原始的特征集，一个单词/分词就是一个特征。往往一个数据集就会有上万个特征；有一些简单的指标可以帮助筛选掉一些对分类没帮助的词语，例如去停词，计算互信息熵等等，但不管怎么训练，特征维度都很大，每个特征的信息量太小；2.统计特征：包括Term f 阅读全文

posted @ 2016-11-08 11:30 乐乐章阅读(1378) 评论(0) 推荐(0)

乐乐章

NLP/推荐我很菜

公告

乐乐章

NLP/推荐 我很菜

公告

NLP/推荐我很菜