05 2013 档案

[转]R树空间索引
摘要:R 树在数据库等领域做出的功绩是非常显著的。它很好的解决了在高维空间搜索等问题。举个R树在现实领域中能够解决的例子吧:查找20英里以内所有的餐厅。如 果没有R树你会怎么解决?一般情况下我们会把餐厅的坐标(x,y)分为两个字段存放在数据库中,一个字段记录经度,另一个字段记录纬度。这样的话我们就需 要遍历所有的餐厅获取其位置信息,然后计算是否满足要求。如果一个地区有100家餐厅的话,我们就要进行100次位置计算操作了,如果应用到谷歌地图这种 超大数据库中,我想这种方法肯定不可行吧。R树就很好的解决了这种高维空间搜索问题。它把B树的思想很好的扩展到了多维空间,采用了B树分割空间的思想,并在添加、删除 阅读全文

posted @ 2013-05-28 10:41 毛汶鑫 阅读(97) 评论(0) 推荐(0)

[转载]一种层次化的检索结果聚类方法
摘要:以Google 、百度为代表的搜索引擎在用户输入一个查询后,返回一个“相关”结果的列表,然而这个检索结果列表往往并不能让用户感觉满意1 一方面由于查询歧义的原因,搜索引擎返回的结果并不都是用户需要的信息,用户需要顺序浏览列表来找到真正相关的结果;另一方面,对于在搜索引擎返回的大量结果,用户通常只选择浏览Top10 的检索结果,由于检索结果没有进行合理的总结与组织,而仅仅是简单的罗列, Top10 的检索结果可能是不全面的,因此用户获取到的信息可能是不全面的1 检索结果聚类可以很好地解决这两方面的问题,一方面对于有歧义的查询,通过检索结果聚类,可以按照不同语义将检索结果聚成不同类别;另一方面.. 阅读全文

posted @ 2013-05-22 14:08 毛汶鑫 阅读(567) 评论(0) 推荐(0)

[转载]Bloom filter 以及[转载]中文详解
摘要:Algorithm descriptionAn example of a Bloom filter, representing the set {x, y, z}. The colored arrows show the positions in the bit array that each set element is mapped to. The element w is not in the set {x, y, z}, because it hashes to one bit-array position containing 0. For this figure, m=18 and 阅读全文

posted @ 2013-05-17 10:19 毛汶鑫 阅读(1048) 评论(0) 推荐(1)

VIPS:基于视觉的Web页面分页算法 (参考,看起来很有用,如果有更好的聚焦类爬虫网页分析算法,请发给我参考,谢啦)
摘要:VIPS:基于视觉的Web页面分页算法1.问题的提出目前,随着互联网的高速发展,Web已经成为这个世界上最大的信息来源。Web 作为信息技术的载体已成为人们重要的工作、学习、生活、娱乐工具。Web的发展给人类生活带来了巨大的方便,人们可以跨越时间和空间界限来共享大量信息。 但是如何去获取这些Web信息为我们所用则是大家面临的共同问题。在最基本的层次上,整个Web网络就是由无数的Web页面而构成,因此如果获取了这些 Web页面就相当于获取了Web信息内容。事实上,目前的很多Web信息获取技术都是基于这种理论。但是把整个页面作为一个基本的信息获取单位并不是太合理,尽管用户通常会把一些相关的内容放在 阅读全文

posted @ 2013-05-10 16:17 毛汶鑫 阅读(477) 评论(0) 推荐(0)