基数排序：高效稳定的数字排序算法

📌 转载声明

原平台：CSDN
原作者：北域码匠原文地址：点击跳转原文
备注：本文仅个人技术学习归档，无任何商用行为，全部版权归属原作者，原作者如需删稿可私信立刻下架。

核心定义

基数排序（Radix Sort）是一种基于分配的排序算法，也称为桶排序（Bucket Sort）或箱排序（Bin Sort）。其核心思想是通过分析元素的键值特征，将待排序元素分配到不同的"桶"中，从而实现排序目的。该算法具有稳定性，时间复杂度为O(nlog(r)m)，其中r表示基数，m代表堆数。在某些应用场景下，基数排序的效率优于其他稳定性排序算法。

核心思想

采用最低位优先（LSD）的基数排序算法：

从个位开始进行逐位排序
每轮排序时：
- 根据当前位的数值将数字分配到0-9的十个桶中
- 按桶编号顺序依次取出数据，确保当前位有序
重复上述过程处理更高位（十位、百位等），直至最高位
完成所有位处理后，数据即达到全局有序状态

算法特性

排序类型

基数排序属于分配式排序算法，它通过将元素分配到不同的"桶"中来实现排序。与比较排序不同，它属于非比较排序算法，不依赖元素之间的直接比较操作。

稳定性

基数排序是稳定排序算法，这意味着具有相同键值的元素在排序后会保持它们原有的相对顺序。这一特性在需要保持多个键值排序时尤为重要。

时间复杂度分析

时间复杂度为 (O(d\times(n+k)))，其中：

(d) 代表最大位数（或字符串长度）
(n) 代表待排序数据的个数
(k) 代表桶的数量（对于数字排序固定为10，对应0-9的数字）

例如，对100万个8位数的手机号排序时：

(d=8)（手机号位数）
(n=1,000,000)
(k=10) 总时间复杂度为 (O(8\times(1,000,000+10))) ≈ (O(8,000,000))

空间复杂度

空间复杂度为 (O(n+k))，因为：

需要额外的存储空间来存放 (k) 个桶
最终需要 (n) 的空间来存储排序结果

分步演示

初始数组

待排序数组：[53, 3, 542, 748, 14, 214]
最大数字位数：3位（百位），需进行3轮排序（个位、十位、百位）

个位排序

提取个位数字：
53→3 | 3→3 | 542→2 | 748→8 | 14→4 | 214→4

桶分配：
0: [] | 1: [] | 2: [542] | 3: [53,3] | 4: [14,214] | 5: [] | 6: [] | 7: [] | 8: [748]

排序结果：
[542, 53, 3, 14, 214, 748]

十位排序

提取十位数字：
542→4 | 53→5 | 3→0 | 14→1 | 214→1 | 748→4

桶分配：
0: [3] | 1: [14,214] | 2: [] | 3: [] | 4: [542,748] | 5: [53] | 6: [] | 7: [] | 8: []

排序结果：
[3, 14, 214, 542, 748, 53]

百位排序

提取百位数字：
3→0 | 14→0 | 214→2 | 542→5 | 748→7 | 53→0

桶分配：
0: [3,14,53] | 1: [] | 2: [214] | 3: [] | 4: [] | 5: [542] | 6: [] | 7: [748] | 8: []

最终排序结果：
[3, 14, 53, 214, 542, 748]

两种排序方向详解

LSD（最低位优先排序）

工作原理：从数字的最低位（个位）开始排序，逐步向高位（十位、百位等）推进
特点：
- 属于稳定排序算法
- 需要多次遍历数据
- 适合固定长度的数据排序
应用场景：
- 整数排序（如电话号码、身份证号等）
- 固定长度的字符串排序
- 计算机中的二进制数据排序
示例：对[170, 45, 75, 90, 802, 24, 2, 66]进行排序时，先按个位排序，再按十位，最后按百位

MSD（最高位优先排序）

工作原理：从数字的最高位开始排序，逐步向低位推进
特点：
- 属于递归排序算法
- 可以提前终止某些分支的排序
- 适合变长数据排序
应用场景：
- 字符串排序（如字典排序）
- 变长整数排序
- 文件名排序
- 自然语言处理中的词汇排序
示例：对["apple", "banana", "apricot", "cherry"]排序时，先按首字母分组，再对每组进行次字母排序

对比总结

特性	LSD排序	MSD排序
排序方向	从低位到高位	从高位到低位
稳定性	稳定	不稳定
适用数据类型	固定长度数据	变长数据
内存使用	需要额外空间	递归调用可能占用较多栈空间
时间复杂度	O(nk)	平均O(nk)，最差O(nk)
典型应用	基数排序中的整数排序	字符串排序、字典排序

优缺点

优点

高效排序性能
时间复杂度仅为O(nk)，远优于冒泡、插入和选择排序的O(n²)。在处理百万级数据时，基数排序仅需数秒即可完成，而传统算法可能需要数分钟。
稳定排序特性
保持相同键值元素的原始相对顺序，特别适用于多级排序场景。例如先按部门后按薪资排序时，同一部门员工的原始顺序得以保留。
大数据处理优势
在电话号码、身份证号、IP地址等大规模整数排序场景中表现卓越，百万级数据量下仍能保持高效。

缺点

数据类型局限
仅适用于可分解为固定"位"的数据（如整数、字符串），对浮点数等复杂数据类型需额外转换，应用范围受限。
空间占用较高
需要O(n+k)的额外存储空间，处理海量数据时可能面临内存压力。例如排序10亿个32位整数可能消耗数GB内存。
位数差异敏感
当数据位数差异显著时（如1位数与10位数混排），需按最大位数处理，导致效率降低。例如排序[1,1000000000]时会对1执行9次冗余操作。

c# 完整可运行代码

代码算法实现

以下代码展示了基数排序算法的C#实现，能够对整数数组进行升序排序


using System;
 
public class RadixSort
{
    public static void Sort(int[] arr)
    {
        if (arr == null || arr.Length == 0)
            return;
 
        int max = GetMax(arr);
        for (int exp = 1; max / exp > 0; exp *= 10)
            CountSort(arr, exp);
    }
 
    private static int GetMax(int[] arr)
    {
        int max = arr[0];
        for (int i = 1; i < arr.Length; i++)
            if (arr[i] > max)
                max = arr[i];
        return max;
    }
 
    private static void CountSort(int[] arr, int exp)
    {
        int[] output = new int[arr.Length];
        int[] count = new int[10];
 
        for (int i = 0; i < arr.Length; i++)
            count[(arr[i] / exp) % 10]++;
 
        for (int i = 1; i < 10; i++)
            count[i] += count[i - 1];
 
        for (int i = arr.Length - 1; i >= 0; i--)
        {
            output[count[(arr[i] / exp) % 10] - 1] = arr[i];
            count[(arr[i] / exp) % 10]--;
        }
 
        for (int i = 0; i < arr.Length; i++)
            arr[i] = output[i];
    }
}

使用示例


class Program
{
    static void Main(string[] args)
    {
        int[] arr = { 170, 45, 75, 90, 802, 24, 2, 66 };
        Console.WriteLine("原始数组:");
        PrintArray(arr);
 
        RadixSort.Sort(arr);
        Console.WriteLine("排序后数组:");
        PrintArray(arr);
    }
 
    static void PrintArray(int[] arr)
    {
        foreach (var item in arr)
            Console.Write(item + " ");
        Console.WriteLine();
    }
}

常见对比

算法	是否比较	稳定性	适用场景
基数排序	否	稳定	整数、手机号、固定位数
冒泡排序	是	稳定	极小数据
快速排序	是	不稳定	通用大数据

应用场景

海量整数排序

适用于处理大规模整数数据集的场景，典型应用包括：

金融交易记录分析
科学实验数据处理
网络流量统计

典型用例：对数亿条交易记录中的金额字段进行排序，支持统计分析和异常检测。关键技术：当数据量超出内存容量时，通常采用外部排序算法（如多路归并排序）或分布式框架（如MapReduce）。

标识号码排序

适用于个人信息管理系统中特定标识符的排序需求：

电信运营商对数千万手机号码进行排序以便快速检索
政府部门对公民身份证号按地区编码排序

特殊处理要求：

手机号采用分段比较（国家代码-地区号-用户号）
身份证号需遵循校验位和地区编码规则

时序编号排序

适用于各类需要按时间或编号组织的管理系统：

学校教务系统按学号排序学生信息
医院按病历编号管理患者档案
电商平台按订单日期整理交易记录

格式规范：

日期统一转换为可比较格式（如YYYYMMDD）
学号/编号需明确字段含义（如年级-院系-序号）

字符串字典序排序（MSD）

适用于需要按字母顺序处理字符串的场景，主要应用领域包括：

词典编纂
文件管理
数据库索引构建
基因组序列分析

MSD算法优势：

特别适合变长字符串排序
通过最高位优先的分治策略提升效率
处理百万级英文单词时，较快速排序能显著减少比较次数

注意事项

在实际应用中应综合考虑：

数据规模
稳定性需求
内存限制

根据具体场景选择最优排序算法（如快速排序、归并排序、基数排序等）及配套优化方案。

posted @ 2026-06-07 08:15 算法栈阅读(1) 评论(0) 收藏举报

刷新页面返回顶部

C# 算法研习社

专注 C# 编程与算法研究，手写实现冒泡排序、插入排序等各类基础算法，定期分享开发随笔与源码案例。