【NLP_Stanford课堂】分词

一、如何定义一个单词

在统计一句话有多少个单词的时候，首要问题是如何定义一个单词，通常有三种情况：

以上三种在不同任务下有不同的处理方法。

二、统计什么信息

在统计时，我们统计如下信息：

一般如下表示：

corpora：语料库，也就是文本的数据集

N：token的数目

V：单词表，也就是type的集合

三、数据预处理

四、中文分词

对于中文来说，分词更困难，因为没有空格隔开，一般的baseline方法是Maximum Matching（也称作贪心）

Maximum Matching：

posted @ 2018-07-29 20:05 A_Present 阅读(455) 评论(0) 收藏举报

刷新页面返回顶部

A_Present