大文件内数据排序问题:采用文件映射内存技术

对文件内数据排序时,如果文件较小,可以将文件内数据全部读入内存时,通过内排序方法如冒泡,快速排序等方法,可以很方便的实现。

但如果文件大小超过了内存大小,仅仅使用内排序就不能达到目标了。

解决这个问题,有一个方法是大名鼎鼎的外排序:将大文件分成若干个小文件,对小文件进行内排序,然后将各个有序小文件组合成大的有序文件。外排序方法需要反复的读写文件,时间复杂度较高。

下面的代码使用的是win32API提供的文件映射内存方法,能减少文件读写次数,提高效率。

/**
说明:程序首先生成由随机整数组成的文件,然后利用文件映射内存访问数据,将数据进行升序排序后输出的另一个文件。
*/
#include <iostream>
#include <ctime>
#include <vector>
#include <algorithm>
#include <Windows.h>
#include <string>
using namespace std;

#define ORIGIN_FILE_NAME  "data"  //数据文件名
#define NUMBER_COUNT 1024         //随机生成的整数数量

int GenerateOriginDataFile();//生成数据文件:由n个随机整数组成
int SortFile();//文件排序

int main()
{
	GenerateOriginDataFile();
	DWORD dwStart = GetTickCount();
	SortFile();
	DWORD dwEnd = GetTickCount();
	cout << "running time spend:" << dwEnd - dwStart << endl;
	return 0;
}
int SortFile()
{
	// 创建文件对象
	HANDLE hFile = CreateFile(ORIGIN_FILE_NAME, GENERIC_READ | GENERIC_WRITE,
		0, NULL, OPEN_EXISTING, FILE_ATTRIBUTE_NORMAL, NULL);
	if (hFile == INVALID_HANDLE_VALUE)
	{
		printf("创建文件对象失败,错误代码:%drn", GetLastError());
		return -1;
	}
	// 创建文件映射对象
	HANDLE hFileMap = CreateFileMapping(hFile, NULL, PAGE_READWRITE, 0, 0, NULL);
	if (hFileMap == NULL)
	{
		printf("创建文件映射对象失败,错误代码:%drn", GetLastError());
		return -1;
	}
	// 得到系统分配粒度
	SYSTEM_INFO SysInfo;
	GetSystemInfo(&SysInfo);
	DWORD dwGran = SysInfo.dwAllocationGranularity;
	// 得到文件尺寸
	DWORD dwFileSizeHigh;
	__int64 qwFileSize = GetFileSize(hFile, &dwFileSizeHigh);
	qwFileSize |= (((__int64)dwFileSizeHigh) << 32);
	// 关闭文件对象
	CloseHandle(hFile);
	// 偏移地址 
	__int64 qwFileOffset = 0;
	// 块大小
	DWORD dwBlockBytes = 1000 * dwGran;
	if (qwFileSize < 1000 * dwGran)
		dwBlockBytes = (DWORD)qwFileSize;
	while (qwFileSize > 0)
	{
		// 映射视图
		LPBYTE lpbMapAddress = (LPBYTE)MapViewOfFile(hFileMap,FILE_MAP_ALL_ACCESS, 
			(DWORD)(qwFileOffset >> 32), (DWORD)(qwFileOffset & 0xFFFFFFFF),
			dwBlockBytes);
		if (lpbMapAddress == NULL)
		{
			printf("映射文件映射失败,错误代码:%drn", GetLastError());
			return -1;
		}
		const int NUMBER_MAX_LENGTH = 6;
		// 对映射的视图进行访问
		char temp[NUMBER_MAX_LENGTH + 1] = {0};
		int number = 0;
		//直接操作内存lpbMapAddress,进行冒泡排序
		for(DWORD i = 0; i < dwBlockBytes; i+=NUMBER_MAX_LENGTH)
		{
			for (int j=0;j<NUMBER_MAX_LENGTH;j++)
			{
				temp[j] = *(lpbMapAddress + i + j);
			}
			number = atoi(temp);
			for (int j=i+NUMBER_MAX_LENGTH;j<dwBlockBytes;j+=NUMBER_MAX_LENGTH)
			{
				for (int k=0;k<NUMBER_MAX_LENGTH;k++)
				{
					temp[k] = *(lpbMapAddress + j + k);
				}
				if (number > atoi(temp))
				{
					for (int k=0;k<NUMBER_MAX_LENGTH;k++)
					{
						*(lpbMapAddress + j + k) = *(lpbMapAddress + i + k);
						*(lpbMapAddress + i + k) = temp[k];
					}
					number = atoi(temp);
				}
			}
		}
		// 撤消文件映像
		UnmapViewOfFile(lpbMapAddress);
		// 修正参数
		qwFileOffset += dwBlockBytes;
		qwFileSize -= dwBlockBytes;
	}
	// 关闭文件映射对象句柄
	CloseHandle(hFileMap);
	return 0;
}
int GenerateOriginDataFile()
{
	FILE* pFile = fopen(ORIGIN_FILE_NAME,"w");	
	srand((unsigned)time(0));
	for (int i=0;i<NUMBER_COUNT;i++)
	{
		long ran_num = rand();
		fprintf(pFile,"%-5d ",ran_num);					
	}
	fclose(pFile);
	return 0;
}

posted @ 2010-07-08 16:49  stuarts  Views(2843)  Comments(3Edit  收藏  举报