摘要: 背景:上篇文章《文本相似搜索算法以及改进》中对于vsm文本计算相似度的时候,每篇文章在做成vsm文本向量的时候,会有个问题:一篇文章中包含的词是很多的(有的在1000左右),不可能包含全部的词,这样在计算以及存储上都会有些问题,太大,这样只能精简一些词来代表这边文章,现在的方法是将所有的词维度值从大... 阅读全文
posted @ 2014-05-20 10:16 xiao晓 阅读(692) 评论(0) 推荐(0) 编辑
摘要: 占位,后续补充 阅读全文
posted @ 2014-05-20 10:09 xiao晓 阅读(283) 评论(0) 推荐(0) 编辑
摘要: 占位 阅读全文
posted @ 2014-05-20 10:08 xiao晓 阅读(228) 评论(0) 推荐(0) 编辑
摘要: 以前做的一个相关博文推荐的项目,整理了一下 目的:针对于博客,推荐内容相关博客 。方法:将博客分词、去除停用词、tf-idf、标题加权等做成vsm向量,将一篇文章和其它的所有文章求相似度(文本一般采用cos相似度),然后取相似度最大的N篇文章 。总共300万篇文章左右,遇到的困难:每篇文章都要和其它... 阅读全文
posted @ 2014-05-20 09:37 xiao晓 阅读(2392) 评论(0) 推荐(0) 编辑
摘要: HIVE的DML语句执行简介1.执行入口简介对于一般语句的执行入口都是在Driver.run(String command)这个方法中,runInternalàcompileàexecute词法+语法解析:调用antlr的解析类,生成一棵ast语法树语义解析:以嵌套的方式解析出一个sql中各个数据项... 阅读全文
posted @ 2014-05-20 09:09 xiao晓 阅读(2178) 评论(0) 推荐(0) 编辑
摘要: 关于antlr的使用Hive使用的是antlr来做词法、语法的解析工作,最终生成一棵有语义的ast数。关于antlr1、ANTLR是ANother Tool for Language Recognition的缩写“又一个语言识别工具”,读[ 'æntlə ]。从名字上可以看出在ANTLR出现之前已经... 阅读全文
posted @ 2014-05-20 08:59 xiao晓 阅读(6617) 评论(0) 推荐(3) 编辑