2013年9月10日

词条归一化

摘要：【词条归一化】词条归一化(token normalization)就是将看起来不完全一致的多个词条归纳成一个等价类, 以便在它们之间进行匹配的过程。最常规的做法是隐式地建立等价类 2,每类可以用其中的某个元素来命名。比如,在文档和查询中,都把词条anti-discriminatory 和 antidiscriminatory映射成词项antidiscriminatory, 这样对两个词中的任一个进行搜索,都会返回包含其中任一词的文档。一种建立等价类的方法是维护多个非归一化词条之间的关联关系。该方法可以进一步扩展成同义词词表的手工构建,比如将car 和 automobile归成同义.. 阅读全文

posted @ 2013-09-10 23:48 Tekkaman 阅读(1559) 评论(0) 推荐(0)

词条化

摘要：【总览】构建倒排索引的几个主要步骤: (1) 收集待建索引的文档; (2) 对这些文档中的文本进行词条化; (3) 对第 2 步产生的词条进行语言学预处理,得到词项; (4) 根据词项对所有文档建立索引。所谓词条化(tokenization)指的是将原始的字符流转换成一个个词条(token)的过程。而语言学预处理的主要目的在于建立词条的等价类,其中每个等价类对应一个词项,这些词项最终用于建立文档的索引。构建索引的过程主要在第 1 章和第 4 章介绍,本章暂不详述。本章最后讨论倒排记录【词条化】定义好文档单位之后,词条化是将给定的字符序列拆分成一系列子序列的过程,其中每个... 阅读全文

posted @ 2013-09-10 23:37 Tekkaman 阅读(1283) 评论(0) 推荐(0)

HDFS设计理念

摘要： [HDFS设计理念]１. 读取整个数据集的时间延迟比读取第一条记录的延迟更重要.　２. HDFS以高延迟为代价,要求低时间延迟数据访问的应用,不适合在HDFS上运行.３. namenode决定了集群的容量.４. HDFS中的文件只支持单写入者,仅支持在尾部写入. 阅读全文

posted @ 2013-09-10 15:59 Tekkaman 阅读(547) 评论(0) 推荐(0)

grep 过滤.svn文件

摘要： [grep 过滤.svn文件]　问题: 在repository搜索代码时,常常会搜索到.svn的代码,如果不想搜索.svn目录下的相关代码怎么办? 1.使用管道进行双层“过滤”，其中第二次grep使用了-v选项，即逆向匹配，打印出不匹配的行grep -r 'function_name' * | gr... 阅读全文

posted @ 2013-09-10 14:26 Tekkaman 阅读(522) 评论(0) 推荐(0)

导航

2013年9月10日