摘要: 基于词典的逆向最大匹配中文分词算法,能实现中英文数字混合分词。比如能分出这样的词:bb霜、3室、乐phone、touch4、mp3、T恤。实际分词效果比正向分词效果好 Code highlighting produced by Actipro CodeHighlighter (freeware)http://www.CodeHighlighter.com/-->publicclass RMM{ privatestaticfinal Log log = LogFactory.getLog(RMM.class); privatestatic HashMap<String, Intege 阅读全文
posted @ 2011-11-11 16:48 爱开卷360 阅读(1495) 评论(1) 推荐(0) 编辑
摘要: 基于词典的正向最大匹配中文分词算法,能实现中英文数字混合分词。比如能分出这样的词:bb霜、3室、乐phone、touch4、mp3、T恤第一次写中文分词程序,欢迎拍砖。Code highlighting produced by Actipro CodeHighlighter (freeware)http://www.CodeHighlighter.com/-->publicclass MM2 { privatestaticfinal Log log = LogFactory.getLog(MM2.class); privatestatic HashMap<String, Integ 阅读全文
posted @ 2011-11-11 16:46 爱开卷360 阅读(2542) 评论(0) 推荐(0) 编辑
摘要: 1、 StopAnalyzerStopAnalyzer能过滤词汇中的特定字符串和词汇,并且完成大写转小写的功能。2、 StandardAnalyzerStandardAnalyzer根据空格和符号来完成分词,还可以完成数字、字母、E-mail地址、IP地址以及中文字符的分析处理,还可以支持过滤词表,用来代替StopAnalyzer能够实现的过滤功能。3、 SimpleAnalyzerSimpleAnalyzer具备基本西文字符词汇分析的分词器,处理词汇单元时,以非字母字符作为分割符号。分词器不能做词汇的过滤,之进行词汇的分析和分割。输出地词汇单元完成小写字符转换,去掉标点符号等分割符。在全文检 阅读全文
posted @ 2011-11-11 12:07 爱开卷360 阅读(6777) 评论(0) 推荐(0) 编辑