导航

2011年3月21日

摘要: http://www.matrix67.com/blog/archives/4212漫话中文分词算法 记得第一次了解中文分词算法是在Google 黑板报上看到的,当初看到那个算法时我彻底被震撼住了,想不到一个看似不可能完成的任务竟然有如此神奇巧妙的算法。最近在詹卫东老师的《中文信息处理导论》课上再次学到中文分词算法,才知道这并不是中文分词算法研究的全部,前前后后还有很多故事可讲。在没有建立统计语言模型时,人们还在语言学的角度对自动分词进行研究,期间诞生了很多有意思的理论。中文分词的主要困难在于分词歧义。“结婚的和尚未结婚的”,应该分成“结婚/的/和/尚未/结婚/的”,还是“结婚/的/和尚/未/ 阅读全文

posted @ 2011-03-21 09:42 maconel 阅读(456) 评论(0) 推荐(0) 编辑