First we try, then we trust

  博客园 :: 首页 :: 博问 :: 闪存 :: 新随笔 :: 联系 :: 订阅 订阅 :: 管理 ::

1、SharpICTCLAS中词库的扩充

如果对SharpICTCLAS目前词库不满意的化,可以考虑扩充现有词库。扩充方法非常简单,代码如下:

词库扩充
static void Main(string[] args)
{
   string DictPath = Path.Combine(Environment.CurrentDirectory, "Data") +
                     Path.DirectorySeparatorChar;
   Console.WriteLine("正在读入字典,请稍候...");

   WordDictionary dict = new WordDictionary();
   dict.Load(DictPath + "coreDict.dct");

   Console.WriteLine("\r\n向字典库插入“设计模式”一词...");
   dict.AddItem("设计模式", Utility.GetPOSValue("n"), 10);

   Console.WriteLine("\r\n修改完成,将字典写入磁盘文件coreDictNew.dct,请稍候...");
   dict.Save(DictPath + "coreDictNew.dct");

   Console.Write("按下回车键退出......");
   Console.ReadLine();
}

通过AddItem方法可以轻松实现添加新词汇,添加时除了要指明词外,还需指明词性、词频。

2、其它工具

SharpICTCLAS示例代码中还提供了一些用于对文件进行预处理的工具类PreProcessUtility,里面提供了将GB2312中繁体汉字转换为简体字的代码,以及将全角字母转换为半角字母的方法,除此之外,还提供了对HTML文件进行预处理,去除HTML标记的方法,用户可酌情使用。

 

  • 小结

有关SharpICTCLAS的系列文章到此为止就全部结束。

posted on 2007-04-18 15:46  吕震宇  阅读(7846)  评论(13编辑  收藏  举报