所以燃

Information Retrieval --- Document Processing

一、词条化Tokenizer。中文分词:正(逆)向最大匹配,基于词典的方法。

二、大小写归一化

三、去停用词:the a and;的 得 地

四、词形归并:am are is=>be  car cars cars'=>car

五、词干还原:automate automatic automation=>automat

posted on 2013-12-16 17:55  Jizhiyuan  阅读(138)  评论(0编辑  收藏  举报

导航