02 2011 档案

imdict-chinese-analyzer .NET转写版
摘要:中文切词领域,中科院开发的 ICTCLAS 占有重要一席,号称是世界上最好的中文分词系统。ICTCLAS 初期曾发布过一个免费版本(C++),采用“自然语言处理开放资源许可证”公开。后来走向商业开发道路,最新版本是 ICTCLAS 2010,提供有 C++, Java, C# 等多种版本可供购买。从 ICTCLAS Free 版有一些衍生版本:ictclas4j 是张新波(sinboy)移植的 Java 版本,SharpICTCLAS 是吕震宇移植的 C# 版本。这两个版本也采用“自然语言处理开放资源许可证”。20 阅读全文

posted @ 2011-02-11 05:04 破宝 阅读(1415) 评论(4) 推荐(1)

SQLite全文检索(2)
摘要:距上一篇有好久了,因为乏人问津所以一直也没写这第二篇。年前看到有人给我发消息问 SQLite 全文检索的事,我想哪怕只有一个人看吧,我也整理整理。这一篇就写写如何扩展 SQLite 使它支持东亚文字的切词。熟悉 Lucene 的童鞋大概知道,切词是在索引时进行的。对 SQLite 来说,也就是 INSERT UPDATE 时发生切词。SQLite 的做法是,在定义 FTS 虚表时指定切词器:还记得“porter”吗?当然这里不是哈利波特,其实是指Martin Porter设计的切词算法。或许你在 Lucene 里见过,这个切词器主要用于英语词的整形(如复 阅读全文

posted @ 2011-02-10 07:33 破宝 阅读(4541) 评论(12) 推荐(6)

导航