堆的基础题目学习（EPI）

堆的应用范围也比较广泛，经常游走在各种面试题目之前，不论算法设计的题目还是海量数据处理的题目，经常能看到这种数据结构的身影。堆其实就是一个完全二叉树的结构，经常利用数组来实现。包含最大堆和最小堆两种。最大堆的性质：针对每个根节点，其节点值大于其后继节点。最小堆的性质：针对每个根节点，其节点值小于后继节点。

算法设计中堆数据结构一般直接利用STL中实现好的数据结构。其中针对堆数据结构的操作：插入和删除时间复杂度可记为O（lgn），返回最大值/最小值时间复杂度记为O（1）。另外，这里的堆和内存分配中的堆完全没有任何关系，内存分配中的堆一般是一个可用内存空间连接起来的链表，而这个是一种树形的数据结构。

STL堆的使用：

#include <queue>
using namespace std;
//其中priority_queue默认使用的less<T>的比较操作，为最大堆
//如果希望使用最小堆，需要手动配置compare，比如使用greater<T>或者定义一个T类型的比较函数
//返回>为true定义的为最小堆，返回<为true定义的为最大堆
//内置类型的简单声明
priority_queue<int,vector<int>,greater<int> > minqueue;
priority_queue<int,vector<int>,less<int> > maxqueue;
//自定义类型自定义仿函数模板或者重载operator <即可。
#include <iostream>
#include <functional>
#include <queue>
using namespace std;
class person {
public:
	string firstname;
	string secondname;
	person(const string &f,const string &s):firstname(f),secondname(s) {
		;
	}
	friend ostream & operator <<(ostream &os,const person &p1);
};
ostream & operator <<(ostream &os,const person &p1) {
	os<<p1.firstname<<" "<<p1.secondname<<endl;
	return os;
}
template<class T>
class compareMin {
public:
	bool operator()(const T & p1,const T & p2) {
		if(p1.firstname == p2.firstname) {
			return p1.secondname > p2.secondname;
		}
		return p1.firstname > p2.firstname;
	}
};

template<class T>
class compareMax {
public:
	bool operator()(const T & p1,const T & p2) {
		if(p1.firstname == p2.firstname) {
			return p1.secondname < p2.secondname;
		}
		return p1.firstname < p2.secondname;
	}
};
int main(void) {
	priority_queue<int,vector<int>,greater<int> > minqueue;
	priority_queue<int,vector<int>,less<int> > maxqueue;
	priority_queue<person,vector<person>,compareMin<person> > minperqueue;
	priority_queue<person,vector<person>,compareMax<person> > maxperqueue;
	minperqueue.push(person("aaa","bbb"));
	minperqueue.push(person("ccc","ddd"));
	minperqueue.push(person("eee","fff"));
	maxperqueue.push(person("aaa","bbb"));
	maxperqueue.push(person("ccc","ddd"));
	maxperqueue.push(person("eee","fff"));
	cout<<minperqueue.top();
	cout<<maxperqueue.top();
}

堆的经典应用top k计算，last k计算，中位数的维护；堆的另外的应用场景为多个元素比较操作。

1.在RAM比较受限制的情况下，如何归并k个已经有序的文件。

归并k个有序文件可以利用两两归并的方法，但是这样读写IO比较多，第一次合并的文件读写IO达到了k-1次。效率非常低。

另外一种思路就是k路归并的方法，k路归并的场景是一次需要比较k个数字，也即从k个数字中取出最小，这种使用场景非常吻合最小堆的性质。所以此题目考虑使用最小堆进行k路归并，每次将k个有序文件读取当前文本记录，得到当前最小文本记录，将最小文本记录文件的读取指针后移，这样文件记录IO每个均读写一次，效率比两两归并提高不少。

2.设计一个算法，排序一个k-increasing-decreasing的数组。k-increasing-decreasing数组的定义是，元素大小成波浪状，首先increasing增加然后decreasing，依次交替，且increasing的元素个数+decreasing的个数 = k。举一个例子如下图：

看到这个题目之后由于是英文，把题目的题意理解错了，我以为是要把一个无序的数组排序成k-increasing-decreasing数组，如果题意是这个样子会有很多种答案。

看完答案之后才发现题意没有正确理解。如果为排序k-increasing-decreasing数组，把数组均打断为increasing sorting数组，decreasing的需要逆序一下。因为题目中的增，减区间比较分明，容易处理。然后利用k路归并的方法归并。

3.利用堆的API实现栈和队列的功能。

初遇到这个题目的时候一时也没有思路，后来想回想了一下堆的功能，push，pop，extract-min或者extract-max的功能，所以需要把extract-min或extract-max的功能与先进后出和先进先出的功能对应起来。

后来想到添加元素的时候同时添加一个自增的元素即可，根据自增的元素建立最大堆能够获得栈的接口，根据自增的元素建立最小堆能够获得队列的接口。

4.给定一个点的坐标，然后有一个超大文件为另外一些点的坐标。内存受限的情况下如何找出文件中距离给定坐标距离最近的k个点。

类似top k的算法，创建一个长度为k的最大堆，每次遇到比堆顶距离给定点距离近的点，删除堆顶的点，向堆中压入该坐标点。文件扫描一遍之后及求出了距离最近的k个点。

5.一段整数数据流，找出第k-th大的元素。

利用最小堆，如果当前元素大于根节点元素，则删除根节点元素，加入该元素。最后根节点保存的为第k-th大的元素。

6.给定一个近似有序的数组，每个乱序的元素距离它原位置不超过k个单位，设计一个排序该数组的算法。

利用最小堆，空间设置为O（k），每次拿出最小的元素输出，压入元素。因为乱序元素距离原位置不超过k个单位，所以这样就能够保证输出的最小的均为有序的。

7.设计一个能够在O（n）时间复杂度内返回距离数组中位数元素最近的k个元素。

首先利用快速选择能够在O（n）的时间复杂度内得到中位数。

如果利用堆来实现最近的k个元素为O（nlgk），

另外一种方法，O（n）的时间复杂度内快速选择得到中位数，然后A[i]-中位数得到的新数组中利用快速选择得到第k小的数字，两遍扫描。

然后根据得到的第k小的数字再次扫描即可得到结果。

8.实施计算一个整型数据流的中位数。

利用两个堆来维护中位数，之前的一篇日志详细介绍了一下：求中位数总结。

9.假定一个实数集的表示形式为a+b√2，其中a，b均为大于等于0的整数，求出这个实数集中第k小的元素。比如0+0√2为最小的元素。

这个题目的思路与之前一个面试中挂掉的题目极为的神似。

那个题目是两个有序的数组，A和B，求第k小的A[i]+B[j]。举例来说A[0]+B[0]为最小元素。

还有一个类似的题目为由质因数3,5,7组成的第k小的数字。举例来说3,5,7,9...等等。

其中的思路均是利用最小堆来维护，从堆中获取一个元素之后，向最小堆中加入多个元素比较。需要控制加入顺序或者利用hash表过滤重复。

10.设计一个算法，判断一个最大堆中第k-th大的元素与给定元素x的关系（大于，等于，小于指定元素）。

思路保持两个全局变量，一个记录大于k的元素个数，一个记录等于k的元素的个数，然后递归的计算两个变量。任意一个变量大于k则结束递归即可。

然后根据两个变量来计算第k-th大的元素与给定元素x的关系。

posted @ 2014-09-03 15:21 weixliu 阅读(1139) 评论(0) 收藏举报

刷新页面返回顶部

weixliu

堆的基础题目学习（EPI）

公告