摘要: 转自知乎 http://www.zhihu.com/question/20657269牛浩帆[只是大框架介绍,实际使用中的不容易注意的细节太多了,需要经验的积累,才能运用娴熟]以下的架构都是在假设已经优化过linux内核的情况下进行初级篇:(单机模式)假设配置:(Dual core 2.0GHz,4... 阅读全文
posted @ 2015-05-14 09:26 王安琪 阅读(145) 评论(0) 推荐(0)
摘要: 在中文搜索中的标点、符号往往也是有语义的,比如我们要搜索“C++”或是“C#”,我们不希望搜索出来的全是“C”吧?那样对程序员来说是个噩梦。然而在中文分词工具mmseg中,它的中文分词是将标点与符号均去除的,它认为对于中文来讲标点符号无意义,这明显不能满足我们的需求。那么怎样改造它让它符合我们的要求呢?本文就是针对这一问题的详细解决办法,我们改mmseg的源代码。 阅读全文
posted @ 2015-05-14 00:00 王安琪 阅读(3822) 评论(0) 推荐(4)