摘要:
周末的时候看到腾讯的空间里面写日志的时候能自动提取关键字,感觉这个功能非常的好,于是我自己准备也写一个。因为,提取关键字,肯定要涉及分词,现在的分词算法,最好的估计是统计算法,但是实现稍微复杂一点,用PHP的话,性能往往也不够。于是,我一切从简,争取星期天一天能写完这个工具。 我翻了一下最简单的分词,好像就是向前最大匹配。而且如果字典好的话,据说准确率还挺高的。当然,我没有什么好字典,从中科院的分词软件里面,拿了一本字典。大概有10万的词汇量。当然,你可以用其他的字典,但是一定要有词频。 当然,只是简单的分词,算法没有什么好说的,我就说说我写的时候遇到的问题。1. 字典管理。本来我想把字典先读 阅读全文
posted @ 2010-12-06 14:36
暮夏
阅读(13383)
评论(11)
推荐(1)
浙公网安备 33010602011771号