Tekkaman

导航

 

2013年9月10日

摘要: 【词条归一化】 词条归一化(token normalization)就是将看起来不完全一致的多个词条归纳成一个等价类, 以便在它们之间进行匹配的过程。最常规的做法是隐式地建立等价类 2,每类可以用其中的 某个元素来命名。比如,在文档和查询中,都把词条anti-discriminatory 和 antidiscriminatory映射 成词项antidiscriminatory, 这样对两个词中的任一个进行搜索,都会返回包含其中任一词的文档。 一种建立等价类的方法是维护多个非归一化词条之间的关联关系。该方法可以进一步扩 展成同义词词表的手工构建,比如将car 和 automobile归成同义.. 阅读全文
posted @ 2013-09-10 23:48 Tekkaman 阅读(1549) 评论(0) 推荐(0)
 
摘要: 【总览】 构建倒排索引的几个主要步骤: (1) 收集待建索引的文档; (2) 对这些文档中的文本进行词条化; (3) 对第 2 步产生的词条进行语言学预处理,得到词项; (4) 根据词项对所有文档建立索引。 所谓词条化(tokenization)指的是将原始的字符流转换成一个个词条(token)的过程。而语言学预处理的主要目的在于建立词条的等价类,其中每个等价类对应一个词项,这些词项最终用于建立文档的索引。构建索引的过程主要在第 1 章和第 4 章介绍,本章暂不详述。本章最后讨论倒排记录【词条化】 定义好文档单位之后,词条化是将给定的字符序列拆分成一系列子序列的过程,其中每个... 阅读全文
posted @ 2013-09-10 23:37 Tekkaman 阅读(1275) 评论(0) 推荐(0)
 
摘要: [HDFS设计理念]1. 读取整个数据集的时间延迟比读取第一条记录的延迟更重要. 2. HDFS以高延迟为代价,要求低时间延迟数据访问的应用,不适合在HDFS上运行.3. namenode决定了集群的容量.4. HDFS中的文件只支持单写入者,仅支持在尾部写入. 阅读全文
posted @ 2013-09-10 15:59 Tekkaman 阅读(544) 评论(0) 推荐(0)
 
摘要: [grep 过滤.svn文件] 问题: 在repository搜索代码时,常常会搜索到.svn的代码,如果不想搜索.svn目录下的相关代码怎么办? 1.使用管道进行双层“过滤”,其中第二次grep使用了-v选项,即逆向匹配,打印出不匹配的行grep -r 'function_name' * | gr... 阅读全文
posted @ 2013-09-10 14:26 Tekkaman 阅读(514) 评论(0) 推荐(0)