百度面试题

2、找到满足条件的数组
给定函数d(n)=n+n的各位之和，n为正整数，如d(78)=78+7+8=93。这样这个函数可以看成一个生成器，如93可以看成由78生成。
定义数A：数A找不到一个数B可以由d(B)=A，即A不能由其他数生成。现在要写程序，找出1至10000里的所有符合数A定义的数。
回答：
申请一个长度为10000的bool数组，每个元素代表对应的值是否可以有其它数生成。开始时将数组中的值都初始化为false。
由于大于10000的数的生成数必定大于10000，所以我们只需遍历1到10000中的数，计算生成数，并将bool数组中对应的值设置为true，表示这个数可以有其它数生成。
最后bool数组中值为false的位置对应的整数就是不能由其它数生成的。

void RuleGenerator() {

int i, j, ntemp;

bool dataFlag[10001] = { false }; // 默认的为不符合

for(i = 1; i < 10001; ++i) {

j = i / 10;

ntemp = i % 10;

while (j) {

ntemp += j % 10;

j = j / 10;

}

dataFlag[i + ntemp] = true;

}

for(i = 1; i < 10001; ++i) {

if (dataFlag[i] == false) {

cout<<i<<endl;

}

3.海量日志数据，提取出某日访问百度次数最多的那个IP。

方法1: 计数法

假设一天之内某个IP访问百度的次数不超过40亿次,则访问次数可以用unsigned表示.用数组统计出每个IP地址出现的次数, 即可得到访问次数最大的IP地址.

IP地址是32位的二进制数,所以共有N=2^32=4G个不同的IP地址, 创建一个unsigned count[N];的数组,即可统计出每个IP的访问次数,而sizeof(count) == 4G*4=16G, 远远超过了32位计算机所支持的内存大小,因此不能直接创建这个数组.下面采用划分法解决这个问题.

假设允许使用的内存是512M, 512M/4=128M 即512M内存可以统计128M个不同的IP地址的访问次数.而N/128M =4G/128M = 32 ,所以只要把IP地址划分成32个不同的区间,分别统计出每个区间中访问次数最大的IP, 然后就可以计算出所有IP地址中访问次数最大的IP了.

因为2^5=32, 所以可以把IP地址的最高5位作为区间编号, 剩下的27为作为区间内的值,建立32个临时文件,代表32个区间,把相同区间的IP地址保存到同一的临时文件中。

方法2：：分而治之+Hash
1.IP地址最多有2^32=4G种取值情况，所以不能完全加载到内存中处理；
2.可以考虑采用“分而治之”的思想，按照IP地址的Hash(IP)%1024值，把海量IP日志分别存储到1024个小文件中。这样，每个小文件最多包含4MB个IP地址；
3.对于每一个小文件，可以构建一个IP为key，出现次数为value的Hash map，同时记录当前出现次数最多的那个IP地址；
4.可以得到1024个小文件中的出现次数最多的IP，再依据常规的排序算法得到总体上出现次数最多的IP

4.一个大的含有50M个URL的记录，一个小的含有500个URL的记录，找出两个记录里相同的URL。

首先使用包含500个url的文件创建一个hash_set。
然后遍历50M的url记录，如果url在hash_set中，则输出此url并从hash_set中删除这个url。
所有输出的url就是两个记录里相同的url

5、有10个文件，每个文件1G，每个文件的每一行都存放的是用户的query，每个文件的query都可能重复。如何按照query的频度排序？

方案1：

1）读取10个文件，按照hash(query)%10的结果将query写到对应的文件中。这样我们就有了10个大小约为1G的文件。任意一个query只会出现在某个文件中。
　2）对于1）中获得的10个文件，分别进行如下操作
　　-利用hash_map（query，query_count）来统计每个query出现的次数。
　　-利用堆排序算法对query按照出现次数进行排序。
　　-将排序好的query输出的文件中。
　　这样我们就获得了10个文件，每个文件中都是按频率排序好的query。
　3）对2）中获得的10个文件进行归并排序，并将最终结果输出到文件中。

方案2：

一般query的总量是有限的，只是重复的次数比较多而已，可能对于所有的query，一次性就可以加入到内存了。这样，我们就可以采用trie树/hash_map等直接来统计每个query出现的次数，然后按出现次数做快速/堆/归并排序就可以了

方案3：与方案1类似，但在做完hash，分成多个文件后，可以交给多个文件来处理，采用分布式的架构来处理（比如MapReduce），最后再进行合并。

6、蚂蚁爬杆问题

有一根27厘米长的细木杆，在第3厘米，7厘米，11厘米，17厘米，23厘米这五个位置上各有一只蚂蚁，木杆很细，不能同时通过两只蚂蚁，开始时，蚂蚁的头朝向左还是右是任意的，他们只会朝前走或掉头，但不会后退，当两只蚂蚁相遇后，蚂蚁会同时掉头朝反方向走，假设蚂蚁们每秒钟可以走1厘米的距离。求所有蚂蚁都离开木杆的最小时间和最大时间。
　答案：
　两只蚂蚁相遇后，各自掉头朝相反方向走。如果我们不考虑每个蚂蚁的具体身份，这和两只蚂蚁相遇后，打个招呼继续向前走没有什么区别。
　所有蚂蚁都离开木杆的最小时间为
　max(min(3,27-3),min(7,27-7), min(11,27-11), min(17,27-17),min(23,27-23))=11
　所有蚂蚁都离开木杆的最大时间为
　max(max(3,27-3),max(7,27-7), max(11,27-11), max(17,27-17),max(23,27-23))=24

扩展1：第i个蚂蚁，什么时候走出木杆？

通俗点来说，我们假设每只蚂蚁都背着一袋粮食，任意两只蚂蚁碰头时交换各自的粮食然后调头。这种情况下，每次有一只蚂蚁离开木杆都意味着一袋粮食离开木杆（虽然可能已经不是它刚开始时背的那一袋了）。于是，我们可以求出每袋粮食离开木杆的时间（因为粮食是不会调头的）。又由于每袋粮食离开木杆的时间都对应某只蚂蚁离开木杆的时间，这是一种一一映射关系。现在我们要找到对应于第i只蚂蚁的那个映射。在此之前需要证明一个命题：

若一开始时有M只蚂蚁向左走，N-M只蚂蚁向右走，则最终会有M只蚂蚁从木杆左边落下，N-M只蚂蚁从木杆右边落下。

这个命题很容易证明：每次碰撞均不改变向左和向右的蚂蚁数量。于是，由于每次碰撞蚂蚁都会调头而不是穿过，最后必定是前M只蚂蚁从左边落下，后N-M只蚂蚁从木杆右边落下。由于我们知道每袋粮食是从哪边落下的，故左边落下的M袋粮食的离开木杆的时间就对应于前M只蚂蚁离开木杆的时间，右边的类似。因此，我们只需判断i和M的关系，便知道第i只蚂蚁是从左边还是右边落下。不妨假设是从左边落下，因此该蚂蚁落下的时间就等于从左边落下的第i袋粮食的落下时间。时间复杂度O(n)，一遍扫描搞定。

以下内容转自：http://blog.csdn.net/yahohi/article/details/8093976

但以上过程描述还是过于抽象，下面我根据自己的理解整理一下：

首先，以上提出的命题是很容易看出来的，不需要再次证明。

其次，所有的蚂蚁碰面之后都调头，因此蚂蚁之间的相对位置是不会改变的。

那么，从左边落下的，必然就是左边的M个蚂蚁；从右边落下的，就是右边的N-M个蚂蚁。

有了以上这样的认识，再来看这个题目。就会发现，第i只蚂蚁，如果i<=M，则该蚂蚁肯定会从左边落下；如果i>M就会从右边落下。

假设i<=M，则该蚂蚁从左边落下；而且是向左行走的第i袋粮食。

于是，我们可以扫描所有的蚂蚁，找出所有向左行走的第i只蚂蚁，它背的就是第i袋粮食。

那么，第i袋粮食从左边落下的时间就等于找到的这只蚂蚁离左边起点的距离除以它的速度。

7、当在浏览器中输入一个url后回车，后台发生了什么？比如输入url后，你看到了百度的首页，那么这一切是如何发生的呢？

回答：
　　简单来说有以下步骤：
　　1、查找域名对应的IP地址。这一步会依次查找浏览器缓存，系统缓存，路由器缓存，ISPDNS缓存，根域名服务器。
　　2、向IP对应的服务器发送请求。
　　3、服务器响应请求，发回网页内容。
　　4、浏览器解析网页内容。
当然，由于网页可能有重定向，或者嵌入了图片，AJAX，其它子网页等等，这4个步骤可能反复进行多次才能将最终页面展示给用户。

8、判断两棵树是否相等，请实现两棵树是否相等的比较，相等返回1，否则返回其他值，并说明算法复杂度。

函数接口为：int CompTree(TreeNode* tree1,TreeNode* tree2);
注：A、B两棵树相等当且仅当RootA->c==RootB-->c,而且A和B的左右子树相等或者左右互换相等。
递归方法：

bool CompTree(TreeNode *tree1, TreeNode *tree2)
{
if(tree1 == NULL && tree2 == NULL)
return true;
if(tree1 == NULL || tree2 == NULL)
return false;
if(tree1->c != tree2->c)
return false;
if( (CompTree(tree1->leftchild, tree2->leftchild) && CompTree(tree1->rightchild, tree2->rightchild)) || CompTree(tree1->leftchild, tree2->rightchild) && CompTree(tree1->rightchild, tree2->leftchild))
return true;
}

时间复杂度：
在树的第0层，有1个节点，我们会进行1次函数调用；
在树的第1层，有2个节点，我们可能会进行4次函数调用；
在树的第2层，有4个节点，我们可能会进行16次函数调用；
....
在树的第x层，有2^x个节点，我们可能会进行(2^x)^2次函数调用；
所以假设总节点数为n，则算法的复杂度为O(n^2)。

posted @ 2013-08-18 20:44 sandyhit 阅读(114) 评论(0) 收藏举报

刷新页面返回顶部

sandyhit

百度面试题

公告