会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
焦距
向前一步
博客园
首页
新随笔
联系
订阅
管理
2018年5月29日
文本处理常用操作
摘要: 这里介绍一下文本预处理中常用的操作: 1.英文统一小写 2.分词 3.去噪 两种方式 (1)去停用词 包括中英文标点符号、以及噪音词,参考附录[1] (2)只保留指定词典中的词 这个词典与任务强相关,通常是当前任务重点关注的特征词 其中,为了保证分词的结果是我们想要的,通常需要调整jieba词典:
阅读全文
posted @ 2018-05-29 12:01 焦距
阅读(1042)
评论(0)
推荐(0)
公告