First we try, then we trust

  博客园 :: 首页 :: 新随笔 :: 联系 :: 订阅 订阅 :: 管理 ::
  183 随笔 :: 111 文章 :: 2931 评论 :: 260 Trackbacks

1、SharpICTCLAS中词库的扩充

如果对SharpICTCLAS目前词库不满意的化,可以考虑扩充现有词库。扩充方法非常简单,代码如下:

词库扩充
static void Main(string[] args)
{
   string DictPath = Path.Combine(Environment.CurrentDirectory, "Data") +
                     Path.DirectorySeparatorChar;
   Console.WriteLine("正在读入字典,请稍候...");

   WordDictionary dict = new WordDictionary();
   dict.Load(DictPath + "coreDict.dct");

   Console.WriteLine("\r\n向字典库插入“设计模式”一词...");
   dict.AddItem("设计模式", Utility.GetPOSValue("n"), 10);

   Console.WriteLine("\r\n修改完成,将字典写入磁盘文件coreDictNew.dct,请稍候...");
   dict.Save(DictPath + "coreDictNew.dct");

   Console.Write("按下回车键退出......");
   Console.ReadLine();
}

通过AddItem方法可以轻松实现添加新词汇,添加时除了要指明词外,还需指明词性、词频。

2、其它工具

SharpICTCLAS示例代码中还提供了一些用于对文件进行预处理的工具类PreProcessUtility,里面提供了将GB2312中繁体汉字转换为简体字的代码,以及将全角字母转换为半角字母的方法,除此之外,还提供了对HTML文件进行预处理,去除HTML标记的方法,用户可酌情使用。

 

  • 小结

有关SharpICTCLAS的系列文章到此为止就全部结束。

posted on 2007-04-18 15:46 吕震宇 阅读(1892) 评论(4)  编辑 收藏 所属分类: ICTCLAS

评论

看完了一大堆与中文分词有关的东西后,仍然不明白,到底怎么进行分词,不是不了解算法上的东西,而是太多应用的东西不会,如怎么才能查看词典中的数据,那个以.dct结尾的东西怎么打开,上网上查了半天还是没什么结果,谁能指点一下我,到底一个分词系统应该怎么去构建啊,不要其中的数据结构,算法,从工程项目的角度指点一下,谢谢了
  回复  引用    

#2楼  2007-04-29 09:44 xiaoxiao [未注册用户]
我也是存在这样的问题,看了吕老师的有关中文分词的文章后确实很佩服老师的智慧,但是也为自己的无知感到羞愧,大学四年了,虽然参加过竞赛也获得过奖项,但是一直以来给自己的定位都是只做一些理论性的东西,到现在为止很多应用的东西都不会,希望得到老师的指点啊,如那个词库(就是data文件夹下的.dct文件)怎么打开,还有到底词库是怎么构建起来的,这些问题都期望得到老师的指导,万分感谢,还有老师顺便建议一下,本科学计算机到底该怎么学,我希望我的那些学弟学妹们能够从我身上吸取经验教训,因为每次他们让我给他们讲学习经验时我都很惭愧,因为我觉得我自己什么都没学到但是感觉仍然是无从下手,最近突然推掉华科那边计算机的保送研究生名额(去年去华科那边复试,已经通过,被初录为研究生),不为别的,只是感觉自己还没有准备好,而且似乎觉得自己在计算机方面没什么前途,我感觉我方法不对,但是在学校计算机能力很强的人没多少,更谈不上取经了,这些问题希望热心的朋友给出点建议,谢谢
  回复  引用    

#3楼  2007-09-22 10:57 kenlistian [未注册用户]
添加词到库中,是否需要维护该词的词性?对于词性在分词的处理,还没有搞清楚。
  回复  引用    


标题  
姓名  
主页
Email (只有博主才能看到) 
验证码 *  看不清,换一张 [登录][注册]
内容(请不要发表任何与政治相关的内容)  
  登录  使用高级评论  新用户注册  返回页首  恢复上次提交      
该文被作者在 2007-04-19 22:49 编辑过
 
另存  打印