摘要:计算大规模稀疏向量余弦相似度简介本项目的目的是用于计算大规模向量的余弦相似度,其核心的设计思想请查看我博客中的文章http://www.cnblogs.com/zz-boy/archive/2012/12/15/2819401.html,在这篇文章中我阐述了使用外排序的思想设计计算余弦相似度的算法,本项目的SVN检出地址为http://largescalecosinsim.googlecode.com/svn/trunk/,下面我将具体阐述该项目的使用方法。使用方法代码的包结构如下图所示:org.similarityorg.similarity.coreorg.similarity.exten
阅读全文
摘要:场景我们需要构建一个人物信息的数据库,数据来源是wikipedia,人物筛选条件是 1961年出生,我们把这个任务交给一个程序员去做,规定他的输入是URL(http://en.wikipedia.org/wiki/Category:1961_births),输出是最终的人物信息数据库。建模从上图可以看出整个的处理过程可以抽象成数据流在节点之间的流动,数据流到达一个节点之后,处理节点对该数据进行逻辑处理并生成新的数据流节点。抽象就上述数据流处理过程进一步抽象便得到WorkStream的设计思想。数据流处理网络是一张有向无环图(DAG),图中的节点是数据流处理节点,边表示数据流的流动方向,箭尾关联
阅读全文
摘要:之前在实验室做了很多静态页面数据采集的工作,需求是这样的,一个静态页面,需要将页面中的若干元素采集下来保存成键值对,刚开始是使用HtmlParser做的,后来发现使用HtmlParser编写的采集规则很繁琐,并且一旦有需求变更,很难去维护,于是产生了做一个通过外部XML配置就可以做采集的通用的工具包,下面是我之前写的一些设计思想以及抽取规则XML文件的编写规范,还有些不够完善,以后有时间在改一改,最近有点忙。工具包的SVN:http://web-auto-parser.googlecode.com/svn/trunk/抽取规则XML文件的编写规范一.基础Html文档由一系列的标签节点组成,这些
阅读全文