摘要: 索引 文档 ~ 分词 (中文分词有scws等) ~ 去除无意义的字符|得到:{ 词语 出现次数 } ~ 根据资料每部分的权重不同等规则来得到每个词语的权重值|得到:{ 词语 每个词语的权重 } ~ 存储关键字 ~ 存储关键字与文档的关系,对应权重及用于搜索的关系(即索引)索引完成搜索 关键字 ~ 拆分(空格拆分,中文分词拆分等) ~ 去除常用关键字,最小字符长度等规则过滤|得到:{ + 关键字列表 - 关键字列表 (可能不需要在关键字中来过滤) ... } ~ 查询得到每个关键字组中及对应到每个文档的权重列表 ~ 通过关键字规则计算出关键字的权重值 ~ 排序关键字并获取... 阅读全文
posted @ 2012-09-14 14:37 liushan 阅读(319) 评论(0) 推荐(0) 编辑