会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
乐乐章
NLP/推荐 我很菜
博客园
首页
新随笔
联系
订阅
管理
2016年11月8日
Latent Dirichlet Allocation 文本分类主题模型
摘要: 文本提取特征常用的模型有:1.Bag-of-words:最原始的特征集,一个单词/分词就是一个特征。往往一个数据集就会有上万个特征;有一些简单的指标可以帮助筛选掉一些对分类没帮助的词语,例如去停词,计算互信息熵等等,但不管怎么训练,特征维度都很大,每个特征的信息量太小;2.统计特征:包括Term f
阅读全文
posted @ 2016-11-08 11:30 乐乐章
阅读(1372)
评论(0)
推荐(0)
公告