大文件内数据排序问题:采用文件映射内存技术
对文件内数据排序时,如果文件较小,可以将文件内数据全部读入内存时,通过内排序方法如冒泡,快速排序等方法,可以很方便的实现。
但如果文件大小超过了内存大小,仅仅使用内排序就不能达到目标了。
解决这个问题,有一个方法是大名鼎鼎的外排序:将大文件分成若干个小文件,对小文件进行内排序,然后将各个有序小文件组合成大的有序文件。外排序方法需要反复的读写文件,时间复杂度较高。
下面的代码使用的是win32API提供的文件映射内存方法,能减少文件读写次数,提高效率。
/** 说明:程序首先生成由随机整数组成的文件,然后利用文件映射内存访问数据,将数据进行升序排序后输出的另一个文件。 */ #include <iostream> #include <ctime> #include <vector> #include <algorithm> #include <Windows.h> #include <string> using namespace std; #define ORIGIN_FILE_NAME "data" //数据文件名 #define NUMBER_COUNT 1024 //随机生成的整数数量 int GenerateOriginDataFile();//生成数据文件:由n个随机整数组成 int SortFile();//文件排序 int main() { GenerateOriginDataFile(); DWORD dwStart = GetTickCount(); SortFile(); DWORD dwEnd = GetTickCount(); cout << "running time spend:" << dwEnd - dwStart << endl; return 0; } int SortFile() { // 创建文件对象 HANDLE hFile = CreateFile(ORIGIN_FILE_NAME, GENERIC_READ | GENERIC_WRITE, 0, NULL, OPEN_EXISTING, FILE_ATTRIBUTE_NORMAL, NULL); if (hFile == INVALID_HANDLE_VALUE) { printf("创建文件对象失败,错误代码:%drn", GetLastError()); return -1; } // 创建文件映射对象 HANDLE hFileMap = CreateFileMapping(hFile, NULL, PAGE_READWRITE, 0, 0, NULL); if (hFileMap == NULL) { printf("创建文件映射对象失败,错误代码:%drn", GetLastError()); return -1; } // 得到系统分配粒度 SYSTEM_INFO SysInfo; GetSystemInfo(&SysInfo); DWORD dwGran = SysInfo.dwAllocationGranularity; // 得到文件尺寸 DWORD dwFileSizeHigh; __int64 qwFileSize = GetFileSize(hFile, &dwFileSizeHigh); qwFileSize |= (((__int64)dwFileSizeHigh) << 32); // 关闭文件对象 CloseHandle(hFile); // 偏移地址 __int64 qwFileOffset = 0; // 块大小 DWORD dwBlockBytes = 1000 * dwGran; if (qwFileSize < 1000 * dwGran) dwBlockBytes = (DWORD)qwFileSize; while (qwFileSize > 0) { // 映射视图 LPBYTE lpbMapAddress = (LPBYTE)MapViewOfFile(hFileMap,FILE_MAP_ALL_ACCESS, (DWORD)(qwFileOffset >> 32), (DWORD)(qwFileOffset & 0xFFFFFFFF), dwBlockBytes); if (lpbMapAddress == NULL) { printf("映射文件映射失败,错误代码:%drn", GetLastError()); return -1; } const int NUMBER_MAX_LENGTH = 6; // 对映射的视图进行访问 char temp[NUMBER_MAX_LENGTH + 1] = {0}; int number = 0; //直接操作内存lpbMapAddress,进行冒泡排序 for(DWORD i = 0; i < dwBlockBytes; i+=NUMBER_MAX_LENGTH) { for (int j=0;j<NUMBER_MAX_LENGTH;j++) { temp[j] = *(lpbMapAddress + i + j); } number = atoi(temp); for (int j=i+NUMBER_MAX_LENGTH;j<dwBlockBytes;j+=NUMBER_MAX_LENGTH) { for (int k=0;k<NUMBER_MAX_LENGTH;k++) { temp[k] = *(lpbMapAddress + j + k); } if (number > atoi(temp)) { for (int k=0;k<NUMBER_MAX_LENGTH;k++) { *(lpbMapAddress + j + k) = *(lpbMapAddress + i + k); *(lpbMapAddress + i + k) = temp[k]; } number = atoi(temp); } } } // 撤消文件映像 UnmapViewOfFile(lpbMapAddress); // 修正参数 qwFileOffset += dwBlockBytes; qwFileSize -= dwBlockBytes; } // 关闭文件映射对象句柄 CloseHandle(hFileMap); return 0; } int GenerateOriginDataFile() { FILE* pFile = fopen(ORIGIN_FILE_NAME,"w"); srand((unsigned)time(0)); for (int i=0;i<NUMBER_COUNT;i++) { long ran_num = rand(); fprintf(pFile,"%-5d ",ran_num); } fclose(pFile); return 0; }