关于SharpICTCLAS的随想
SharpICTCLAS1.0版基于ICTCLAS1.0版,单机处理速度在8~9K/s,无法使用多线程。
相关链接:http://groups.google.com/group/ictclas
吕震宇的博客:http://www.cnblogs.com/zhenyulu
DanceFire的专栏:http://blog.csdn.net/DanceFire/archive/2007/04/17/1567881.aspx
个人随想:
(1)摒弃CCID的字符id模式,采用Unicode的codepage。尽量利用C#的比较函数
(2)Segment(Stream),从Stream中截取句子。句子一般以“,。、;:”等标点符号为分隔符。
相关链接:http://groups.google.com/group/ictclas
吕震宇的博客:http://www.cnblogs.com/zhenyulu
DanceFire的专栏:http://blog.csdn.net/DanceFire/archive/2007/04/17/1567881.aspx
个人随想:
(1)摒弃CCID的字符id模式,采用Unicode的codepage。尽量利用C#的比较函数
(2)Segment(Stream),从Stream中截取句子。句子一般以“,。、;:”等标点符号为分隔符。
posted on 2007-04-27 14:22 amber lee zhao 阅读(997) 评论(0) 收藏 举报
浙公网安备 33010602011771号