2018 年 12月 28 日随笔档案 - 左手中倒影

2018年12月28日

简单有效的多标准中文分词详解

摘要：这是一种简单的多标注中文分词解决方案，可以在不增加模型复杂度的情况下联合多个语料库训练单个模型。该方案虽然简单，但的确带来了显著的性能提升（特别是对于小数据集如WTB）。同时我们也注意到特别大的数据集受益很小或无法从中受益（MSR），留作未来研究。我们希望该方法成为多标准中文分词的一个baseline，或生产系统中的一个物美价廉的拓展。阅读全文

posted @ 2018-12-28 11:30 左手中倒影阅读(343) 评论(0) 推荐(0)

左手中倒影

公告

简单有效的多标准中文分词详解