代码改变世界

阅读排行榜

海量数据处理专题(七)——数据库索引及优化

2011-08-17 23:49 by 码农1946, 16472 阅读, 收藏,
摘要: 数据库优化   此外,除了数据库索引是笔试面试考察重点之外,在LAMP结果如此流行的今天,数据库(尤其是MySQL)性能优化也是海量数据处理的一个热点。下面就结合自己的经验,聊一聊MySQL数据库优化的几个方面。   首先,在数据库设计的时候,要能够充分的利用索引带来的性能提升,至于如何建立索引,建立什么样的索引,在哪些字段上建立索引,上面已经讲的很清楚了,这里不在赘述。另外就是设计数据库的原则就是尽可能少的进行数据库写操作(插入,更新,删除等),查询越简单越好。如下: 阅读全文

一个好用的,高效的,精确的纳秒级C#计时器

2010-09-25 16:58 by 码农1946, 7428 阅读, 收藏,
摘要: 我们在平时的项目中,时常会遇到这样的问题,当我们要评价一个算法的好坏时(这里指的是时间复杂度量级相同的两个算法);当我们要测试一段代码的性能时。。。我们都需要一个高精度的时间。如何来得到一个高精度的时间,而且又不影响我们的测试准确性呢?平时大家可能采用的方法是:new两个time,然后两个Time相减,得到一个TimeSpan,这样就可以得到一个毫秒级的时间(当然了,这个是一个并不精确的毫秒级时间),但是,那如果你要求的精度更好,需要达到微秒,纳秒级呢?这时候使用系统提供的Time类就不行了。 我曾经也遇到过类似的问题,于是在这里就封装了自己的Code,提供一个使用方便,高效,精确的纳秒级计时器。 阅读全文

IT名企笔试面试题合辑

2011-05-08 23:51 by 码农1946, 6141 阅读, 收藏,
摘要: 最近开了一个新的博客,里面包含了大量的笔试面试题,这对于要找工作的人,无疑是一个很大的帮助。 IT程序员笔试面试网里面包含有百度笔试面试题,谷歌笔试面试题,腾讯,淘宝,搜狗,人民搜索,有道,EMC,微软等知名企业的笔试面试题,欢迎订阅,此外,也欢迎大家踊跃供稿,大家一起进步。 阅读全文

海量数据处理专题(八)——倒排索引(搜索引擎之基石)

2011-09-26 01:06 by 码农1946, 5760 阅读, 收藏,
摘要: 在信息大爆炸的今天,有了搜索引擎的帮助,使得我们能够快速,便捷的找到所求。提到搜索引擎,就不得不说VSM模型,说到VSM,就不得不聊倒排索引。可以毫不夸张的讲,倒排索引是搜索引擎的基石。 倒排索引(英语:Inverted index),也常被称为反向索引、置入档案或反向档案,是一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。 阅读全文

海量数据处理专题(二)——Bloom Filter

2011-08-29 00:43 by 码农1946, 4823 阅读, 收藏,
摘要: 应园友要求,把海量数据处理专题以前的文章搬过来。最近在写倒排索引,希望继续关注本博。 Bloom Filter是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合。Bloom Filter的这种高效是有一定代价的:在判断一个元素是否属于某个集合时,有可能会把不属于这个集合的元素误认为属于这个集合(false positive)。因此,Bloom Filter不适合那些“零错误”的应用场合。而在能容忍低错误率的应用场合下,采用Bloom Filter的数据结构,可以通过极少的错误换取了存储空间的极大节省。 阅读全文