2016 年 3月 27 日随笔档案 - 伏草惟存

2016年3月27日

摘要：摘要：字符串、字符数组以及其他文本表示的处理库构成大部分文本处理程序的基础。大部分语言都包括基本的处理库，这也是对文本处理或自然语言处理的前期必要工作。典型代表便是分词、词性标注、句子识别等等。本文所介绍的工具主要针对英文分词，对于英文分词工具很多，笔者经比较Apache OpenNLP效率和使用便捷度较好。另外其针对Java开发提供开源的API。开篇简介OpenNLP的情况，随后介绍6种常用模型，最后针对每种模型的使用和Java实现进行总结。部分笔者可能质疑那么中文分词怎么办？随后篇章会单独介绍中科院研究团队基于隐马尔可夫模型开发的中文分词工具NLPIR(ICTCLA)。内容经过多篇文档和书籍整理汇编，代码经运行无误。（本文原创，转载请标明出处：OpenNLP：驾驭文本，分词那些事）阅读全文

posted @ 2016-03-27 19:53 伏草惟存阅读(13074) 评论(0) 推荐(2)