摘要:
caoruntao的博客 - 数据结构及算法分类文章列表 - ITeye技术网站卡塔兰数 阅读全文
posted @ 2013-03-16 23:06
lexus
阅读(242)
评论(0)
推荐(0)
|
摘要:
caoruntao的博客 - 数据结构及算法分类文章列表 - ITeye技术网站卡塔兰数 阅读全文
posted @ 2013-03-16 23:06
lexus
阅读(242)
评论(0)
推荐(0)
摘要:
一种由B+树实现的倒排索引--《电脑知识与技术》2011年08期一种由B+树实现的倒排索引李文 洪亲 滕忠坚 石兆英 程序员编程艺术第一~二十七章集锦与总结(教你如何编程),及PDF免分下载 - July_ - 博客园程序员编程艺术第一~二十七章集锦与总结(教你如何编程),及PDF免分下载 阅读全文
posted @ 2013-03-16 23:04
lexus
阅读(276)
评论(0)
推荐(0)
摘要:
什么是B*树倒排索引技术 - 已解决 - 搜搜问问B*树索引是“传统索引”。到目前为止,这是Oracle和大多数其他数据库中最常用的索引。需要注意的是,这里的“B”不代表二叉(binary),而是代表平衡(balanced).B*树索引并不是一颗二叉树。但是,其实现与二叉查找树很相似,其目标是尽可能减少Oracle查找数据所花费的时间。这个树最底层的块称为叶子节点(leaf node)或叶子块(l... 阅读全文
posted @ 2013-03-16 22:46
lexus
阅读(436)
评论(0)
推荐(0)
摘要:
计算机词汇(融合了搜狗所有的计算机词库)_搜狗输入法词库计算机词汇(融合了搜狗所有的计算机词库) 阅读全文
posted @ 2013-03-16 22:32
lexus
阅读(301)
评论(0)
推荐(0)
摘要:
教你如何迅速秒杀掉:99%的海量数据处理面试题 - 结构之法 算法之道 - 博客频道 - CSDN.NET教你如何迅速秒杀掉:99%的海量数据处理面试题 阅读全文
posted @ 2013-03-16 22:23
lexus
阅读(246)
评论(0)
推荐(0)
摘要:
动态规划求编辑距离 - 残阳似血的博客动态规划求编辑距离位于分类 自然语言处理这两天在写一个简单的单词拼写检查器(Spell checker),本来求编辑距离只是其中的一个子问题,现在把它罗列出来,是因为鉴于看到一些书,把本来不是很难的问题讲得很复杂,而且不知道是不是一些作者,为了显得自己水平之高,几乎没有任何的推导,只有一堆结果罗列。当然这些都是题外话了,但是,书者,传道授业解惑也,若是使读者迷... 阅读全文
posted @ 2013-03-16 21:58
lexus
阅读(552)
评论(0)
推荐(0)
摘要:
一个简单的分布式新浪微博爬虫 - 残阳似血的博客 一个简单的分布式新浪微博爬虫位于分类 分布式计算由于实验室实验需要,我写了个简单的新浪微博爬虫,来从新浪微博上获取一些实验所需要的数据。现在实验数据抓取部分已经比较稳定,所以我把这些代码放出来,说不定会对一些同学有帮助吧。至于为什么不用新浪微博API,以及整个分布式爬虫的架构、安装和部署、以及缺陷等等都已经在wiki中进行了解释。以后,这个程序应该... 阅读全文
posted @ 2013-03-16 21:55
lexus
阅读(348)
评论(0)
推荐(0)
摘要:
chineking / WeiboCrawler / wiki / Home — BitbucketHomeWeiboCrawlerWeiboCrawler是一个分布式爬虫程序,主要用来抓取新浪微博(weibo.cn)数据。为什么不用新浪微博API首先,新浪微博确实有API可以拿到一个用户数据,但是,一个应用的调用次数也是有限的;另外新浪微博Oauth2.0有过期时间,过段时间(测试的应用只有一天... 阅读全文
posted @ 2013-03-16 21:55
lexus
阅读(675)
评论(0)
推荐(0)
摘要:
海量数据 | 帝都码农海量数据处理专题(九)——外排序一共被浏览633次,发表于 2012 年 8 月 14 日 阅读全文
posted @ 2013-03-16 21:51
lexus
阅读(216)
评论(0)
推荐(0)
摘要:
海量数据处理专题(六)——双层桶划分 | 帝都码农海量数据处理专题(六)——双层桶划分一共被浏览8336次,发表于 2010 年 10 月 8 日 by pkuoliver 【什么是双层桶】 事实上,与其说双层桶划分是一种数据结构,不如说它是一种算法设计思想。面对一堆大量的数据我们无法处理的时候,我们可以将其分成一个个小的单元,然后根据一定的策略来处理这些小单元,从而达到目的。【适用范围】 ... 阅读全文
posted @ 2013-03-16 21:50
lexus
阅读(500)
评论(0)
推荐(0)
摘要:
IT程序员笔试面试网 | 帝都码农IT程序员笔试面试网一共被浏览1769次,发表于 2011 年 5 月 8 日 by pkuoliver 最近开了一个新的博客,里面包含了大量的笔试面试题,这对于要找工作的人,无疑是一个很大的帮助。IT程序员笔试面试网里面包含有百度笔试面试题,谷歌笔试面试题,腾讯,淘宝,搜狗,人民搜索,有道,EMC,微软等知名企业的笔试面试题,欢迎订阅,此外,也欢迎大家踊跃... 阅读全文
posted @ 2013-03-16 21:49
lexus
阅读(272)
评论(0)
推荐(0)
摘要:
海量数据处理专题(八)——倒排索引(搜索引擎之基石) | 帝都码农海量数据处理专题(八)——倒排索引(搜索引擎之基石)一共被浏览13,708次,发表于 2011 年 9 月 25 日 by pkuoliver 引言:在信息大爆炸的今天,有了搜索引擎的帮助,使得我们能够快速,便捷的找到所求。提到搜索引擎,就不得不说VSM模型,说到VSM,就不得不聊倒排索引。可以毫不夸张的讲,倒排索引是搜索引擎... 阅读全文
posted @ 2013-03-16 21:48
lexus
阅读(280)
评论(0)
推荐(0)
摘要:
刘佳刘佳 Age: 29 Sex: Male Member since: May 2006 Login status: Offline 阅读全文
posted @ 2013-03-16 21:45
lexus
阅读(184)
评论(0)
推荐(0)
摘要:
刘佳 - 搜索引擎中单个倒排索引的源程序现在提供下载了。搜索引擎中单个倒排索引的源程序现在提供下载了。Wednesday, September 13, 2006 11:37:24 AM编程这个程序整合了分词系统。分词现在做的不够好,只是用了逆向最大配备来切词,昨天随便试了句子,切的结果很不理想,不过现在也就这么将就着,等整个系统都搭好后再来改模块了。下面提供源程序下载:密码是:http://my.... 阅读全文
posted @ 2013-03-16 21:44
lexus
阅读(142)
评论(0)
推荐(0)
摘要:
海量数据处理专题(九)——外排序 | 帝都码农海量数据处理专题(九)——外排序一共被浏览632次,发表于 2012 年 8 月 14 日 by pkuoliver 【引言】在数据结构的课程上,我们学习了不少的排序算法,冒泡,堆,快排,归并等。但是这些排序方法有着共同的特点,那就是所有的操作都是在内存中完成的,算法过程中不需要IO,这就使得这样的算法总体上速度比较快,但是也随之出现了一个问题:... 阅读全文
posted @ 2013-03-16 21:44
lexus
阅读(386)
评论(0)
推荐(0)
摘要:
about:crackcellName Menglong TAN (Nickname: crackcell) Find me Blog E-mail GitHub LinkedIn Abilities can: Build large systems with C/C++ and Perl.can: Data analysis with Hadoop streaming.fa... 阅读全文
posted @ 2013-03-16 21:35
lexus
阅读(173)
评论(0)
推荐(0)
摘要:
Earlybird: Twitter的实时搜索引擎 - Searcher's Log Earlybird: Twitter的实时搜索引擎 /* -*- author: Tan Menglong; email: tanmenglong_at_gmail; twitter/weibo: @crackcell; 转载请注明出处 -*- */ Table of Contents 1 初识Earlybird... 阅读全文
posted @ 2013-03-16 21:31
lexus
阅读(391)
评论(0)
推荐(0)
摘要:
PForDelta索引压缩算法的实现 - pennyliang的专栏 - 博客频道 - CSDN.NETPForDelta索引压缩算法的实现 分类: 奇淫巧计系列 2010-11-30 17:23 2696人阅读 评论(18) 收藏 举报算法exceptionoutputinputcompressionnull 前日一个朋友给我发来了一个索引压缩算法,写得非常漂亮而且简... 阅读全文
posted @ 2013-03-16 21:08
lexus
阅读(413)
评论(0)
推荐(0)
摘要:
【转贴】为什么Google不直接使用一套bigtable来存放网页的倒排索引_浮云随风_新浪博客 【转贴】为什么Google不直接使用一套bigtable来存放网页的倒排索引 (2011-03-20 22:12:02) 转载▼ 标签: bigtable 杂谈 分类: 技术 来源:http://nosql-wiki.org/wiki/bin/view/Main/ArchRandomThoughts... 阅读全文
posted @ 2013-03-16 21:05
lexus
阅读(402)
评论(0)
推荐(0)
摘要:
TUP第二期:架构师王鹏云演讲实录 _业界_科技时代_新浪网TUP第二期:架构师王鹏云演讲实录http://www.sina.com.cn2010年12月24日18:16新浪科技[ 微博 ]新浪科技 --> 继成功举办首期TUP活动后,7月24日下午在北京丽亭华苑酒店鸿运二厅,由CSDN和《程序员》杂志联合策划组织的TUP第二次活动如期而至,本次活动以Web 2.0技术为主... 阅读全文
posted @ 2013-03-16 21:03
lexus
阅读(223)
评论(0)
推荐(0)
|