2014 年 5月 20 日随笔档案 - xiao晓

2014年5月20日

摘要：背景：上篇文章《文本相似搜索算法以及改进》中对于vsm文本计算相似度的时候，每篇文章在做成vsm文本向量的时候，会有个问题：一篇文章中包含的词是很多的（有的在1000左右），不可能包含全部的词，这样在计算以及存储上都会有些问题，太大，这样只能精简一些词来代表这边文章，现在的方法是将所有的词维度值从大... 阅读全文

posted @ 2014-05-20 10:16 xiao晓阅读(747) 评论(0) 推荐(0)

kemans算法

摘要：占位，后续补充阅读全文

posted @ 2014-05-20 10:09 xiao晓阅读(290) 评论(0) 推荐(0)

kmeans聚类的初始点投放算法(占位)

摘要：占位阅读全文

posted @ 2014-05-20 10:08 xiao晓阅读(241) 评论(0) 推荐(0)

文本相似搜索算法以及改进

摘要：以前做的一个相关博文推荐的项目，整理了一下目的：针对于博客，推荐内容相关博客。方法：将博客分词、去除停用词、tf-idf、标题加权等做成vsm向量，将一篇文章和其它的所有文章求相似度（文本一般采用cos相似度），然后取相似度最大的N篇文章。总共300万篇文章左右，遇到的困难：每篇文章都要和其它... 阅读全文

posted @ 2014-05-20 09:37 xiao晓阅读(2449) 评论(0) 推荐(0)

调研系列第六篇：HIVE的DML语句执行简介

摘要： HIVE的DML语句执行简介1.执行入口简介对于一般语句的执行入口都是在Driver.run(String command)这个方法中，runInternalàcompileàexecute词法+语法解析:调用antlr的解析类，生成一棵ast语法树语义解析：以嵌套的方式解析出一个sql中各个数据项... 阅读全文

posted @ 2014-05-20 09:09 xiao晓阅读(2288) 评论(0) 推荐(0)

调研系列第五篇：antlr以及hive的parse执行入口

摘要：关于antlr的使用Hive使用的是antlr来做词法、语法的解析工作，最终生成一棵有语义的ast数。关于antlr1、ANTLR是ANother Tool for Language Recognition的缩写“又一个语言识别工具”，读[ 'æntlə ]。从名字上可以看出在ANTLR出现之前已经... 阅读全文

posted @ 2014-05-20 08:59 xiao晓阅读(6827) 评论(0) 推荐(3)

xiao晓

serendipity

公告