摘要: Top K算法详细解析—百度面试问题描述:这是在网上找到的一道百度的面试题:搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来,每个查询串的长度为1-255字节。假设目前有一千万个记录,这些查询串的重复度比较高,虽然总数是1千万,但如果除去重复后,不超过3百万个。一个查询串的重复度越高,说明查询它的用户越多,也就是越热门。请你统计最热门的10个查询串,要求使用的内存不能超过1G。问题解析:【分析】:要统计最热门查询,首先就是要统计每个Query出现的次数,然后根据统计结果,找出Top 10。所以我们可以基于这个思路分两步来设计该算法。下面分别给出这两步的算法:第一步:Query统计 阅读全文
posted @ 2012-09-12 18:45 Jone Zhang 阅读(10328) 评论(3) 推荐(3) 编辑
摘要: 下载:http://code.google.com/p/git-osx-installer/下载最新的PGK文件。图形化OpeninGitGui:http://code.google.com/p/git-osx-installer上也提供了一个Git的图形化客户端:OpenInGitGui,可以从这里获得,OpenInGitGui十分小巧,下载解压后也只有16K,OpenInGitGui不用安装,双击即可使用,OpenInGitGui刚启动时,会记录打开过的资源库。github使用SSH链接,需要设置SSH1.检查SSH key cd ~/.ssh2.备份已有的key,(如果有的话) mkdi 阅读全文
posted @ 2012-09-12 17:16 Jone Zhang 阅读(110640) 评论(1) 推荐(2) 编辑