线性排序

我们都考一百分，就都是第一名了——用分组的方法来避免排序

之前介绍的几种排序算法都涉及到各元素间的比较、移动，能否避免或者尽量减少这些开销呢？接下来要介绍的几种“线性排序”方法或许能带给我们新思路。

一桶排序

对数据进行分桶（分组），再按桶的顺序来处理数据。也有之前提到的“分治”的意思。有些特殊数据，例如0-100岁的人群、考试分数，都是范围相对固定，且远小于元素的数量。可以针对这个特性来设计特定的排序算法。

看个具体例子：如何按照学分来排序，代码如下

 1 import java.util.Arrays;
 2 
 3 public class BucketSort {
 4     public static void main(String[] args) {
 5         //10个学生 按学分排序 学分范围为0-5
 6         int[] numbers = {3, 2, 5, 1, 3, 5, 2, 0, 1, 2};
 7         System.out.println(Arrays.toString(numbers));
 8         //0-5学分对应6个桶（组）
 9         int bucketNum = 6;
10         int[] buckets = new int[bucketNum];
11         //统计每个桶里所属的学分的出现次数
12         for (int number : numbers) {
13             buckets[number] += 1;
14         }
15         System.out.println(Arrays.toString(buckets));
16         //按照桶的大小顺序来显示数据
17         int index = 0;
18         for (int i = 0; i < bucketNum; i++) {
19             for (int j = 0; j < buckets[i]; j++) {
20                 numbers[index] = i;
21                 index++;
22             }
23         }
24         System.out.println(Arrays.toString(numbers));
25     }
26 }

输出说明

[3, 2, 5, 1, 3, 5, 2, 0, 1, 2]
[1, 2, 3, 2, 0, 2] #按桶的顺序统计每个学分的出现次数，这里情况比较特殊，学分的位置就是桶的编号
[0, 1, 1, 2, 2, 2, 3, 3, 5, 5] #按桶的编号从小到大打印出来就排序好了

各个学分的统计人数如图示：

可以看到代码第20行“numbers[index] = i”直接把桶编号当作了元素，其实是忽略掉了原始数组中数出现的顺序，导致了“非原地”排序。例如[2 2 1]，排序后为[1 2 2]，其中第一个2有可能不是[2 2 1]中的第一个2，单独看这个2是否原地没影响，但实际开发中，可能是两个不同的对象的某个属性都是2。

例如两个用户对象{"uid":3,"type":2} {"uid":4,"type":2}，我们按照type属性排序时不希望后出现的对象{"uid":4,"type":2}排到前面。如果需要原地排序，可以按元素出现顺序依次保存到对应桶里，之后再按照写入顺序读取即可。

二计数排序

可以看作是桶排序的一种扩展，在统计每个元素出现次数的同时，计算出截至到某个桶时累计的元素个数，用于还原出每个元素的具体位置。

代码如下

 1 import java.util.Arrays;
 2 
 3 public class CountingSort {
 4     public static void main(String[] args) {
 5         int[] numbers = {3, 5, 4, 1, 3, 0, 1};
 6         System.out.println(Arrays.toString(numbers));
 7         //找到最大值
 8         int max = numbers[0];
 9         for (int number : numbers) {
10             if (number > max) {
11                 max = number;
12             }
13         }
14         System.out.println("max " + max);
15 
16         int[] numbersCount = new int[max + 1];
17         for (int number : numbers) {
18             numbersCount[number] = numbersCount[number] + 1;
19         }
20         System.out.println("number count " + Arrays.toString(numbersCount));
21         //个数累计
22         int numberCount = 0;
23         for (int i = 0; i < numbersCount.length; i++) {
24             numberCount += numbersCount[i];
25             numbersCount[i] = numberCount;
26         }
27         System.out.println("number sum   " + Arrays.toString(numbersCount));
28 
29         int[] sortedNumbers = new int[numbers.length];
30         //从数组右侧开始处理
31         for (int i = numbers.length - 1; i > -1; i--) {
32             System.out.print("pos " + i + " value " + numbers[i] + " numberCount" + numbersCount[numbers[i]]);
33             int pos = numbersCount[numbers[i]] - 1;
34             numbersCount[numbers[i]] = pos;
35             sortedNumbers[pos] = numbers[i];
36             System.out.println("->" + pos + Arrays.toString(sortedNumbers));
37         }
38         System.out.println(Arrays.toString(sortedNumbers));
39     }
40 }

输出说明

[3, 5, 4, 1, 3, 0, 1]
max 5 #找到最大值
number count [1, 2, 0, 2, 1, 1] #每个分数的出现次数
number sum   [1, 3, 3, 5, 6, 7] #截至到每个桶时的分数出现次数累计
pos 6 value 1 numberCount3->2[0, 0, 1, 0, 0, 0, 0] #从右侧向左处理各个元素 取出最右侧的1，对应桶1，对应累计出现次数为3，所以元素1排序后的位置是3-1=2，【同时需要把次数-1后的值更新到桶累计次数中】
pos 5 value 0 numberCount1->0[0, 0, 1, 0, 0, 0, 0] #取元素0，对应桶0，次数为1，最终位置为1-1=0
pos 4 value 3 numberCount5->4[0, 0, 1, 0, 3, 0, 0] #取元素3，对应桶3，次数为5，最终位置为5-1=4
pos 3 value 1 numberCount2->1[0, 1, 1, 0, 3, 0, 0] #取元素1，对应桶2，次数为2，最终位置为2-1=1
pos 2 value 4 numberCount6->5[0, 1, 1, 0, 3, 4, 0] #取元素4，对应桶4，次数为6，最终位置为6-1=5
pos 1 value 5 numberCount7->6[0, 1, 1, 0, 3, 4, 5] #取元素5，对应桶5，次数为7，最终位置为7-1=6
pos 0 value 3 numberCount4->3[0, 1, 1, 3, 3, 4, 5] #取元素3，对应桶3，次数为4，最终位置为4-1=3
[0, 1, 1, 3, 3, 4, 5]

各学分数量和累计如图：

排序过程如图：

三基数排序

所谓基数排序，就是把数分成了多个分位，按照每个分位来分桶排序，例如123，分为百分位的1，十分位的2，个分位的3。

演示代码如下，注意我们用Map模拟了各个桶对应的存储文件，实际使用时可以用每个桶对应一个文件。

 1 import java.util.*;
 2 
 3 public class RadixSort {
 4     public static void main(String[] args) {
 5         String[] numbers = {"354", "130", "152", "251", "401", "210"};
 6         System.out.println(Arrays.toString(numbers));
 7         //假定数据都是3位长度（不够可以左侧补0）
 8         int numberLength = 3;
 9         //0-9对应10个桶
10         int bucketNum = 10;
11         int[] buckets = new int[bucketNum];
12 
13         //用Map模拟桶对应的10个文件，key是桶名称，value是该桶里的元素
14         Map<Integer, List<String>> numbersMap = new HashMap<>();
15 
16         //从右往左取，每次取一位 例如456，第一次取6，第二次取5，第三次取4
17         for (int i = numberLength; i > 0; i--) {
18             System.out.print("pos " + i + "\n\t");
19             for (String num : numbers) {
20                 int tmp = Integer.parseInt(num.substring(i - 1, i));
21                 System.out.print(tmp + " ");
22                 //该位出现的次数
23                 buckets[tmp] += 1;
24                 //初始化桶对应的元素列表
25                 numbersMap.putIfAbsent(tmp, new ArrayList<>());
26                 //追加对应的元素
27                 numbersMap.get(tmp).add(num);
28             }
29             System.out.println("\n\t" + Arrays.toString(buckets));
30             int numIndex = 0;
31             for (int j = 0; j < bucketNum; j++) {
32                 //跳过无数据的桶
33                 if (buckets[j] == 0) {
34                     continue;
35                 }
36                 //读取桶里的元素
37                 for (String e : numbersMap.get(j)) {
38                     //元素按“当前位”排序后的位置
39                     numbers[numIndex] = e;
40                     numIndex++;
41                 }
42                 //重置桶数量
43                 buckets[j] = 0;
44             }
45             System.out.println("\t" + Arrays.toString(numbers));
46             numbersMap.clear();
47         }
48     }
49 }

输出说明

[354, 130, 152, 251, 401, 210]
pos 3 #从右侧往左处理
	4 0 2 1 1 0 #各元素最右侧的位值
	[2, 2, 1, 0, 1, 0, 0, 0, 0, 0] #该位出现的次数统计
	[130, 210, 251, 401, 152, 354] #按从小到大的桶编号来直接取出桶的元素，就是按当前位排序后的元素，更新原有数组
pos 2 #元素右侧第二个
	3 1 5 0 5 5 #各元素的位值
	[1, 1, 0, 1, 0, 3, 0, 0, 0, 0] #次数统计
	[401, 210, 130, 251, 152, 354] #按桶排序，并更新原有数组
pos 1 #右侧第三个
	4 2 1 2 1 3 #各元素的位值 
	[0, 2, 2, 1, 1, 0, 0, 0, 0, 0] #次数统计
	[130, 152, 210, 251, 354, 401] #按桶排序，并更新原有数组

总结

三种排序方法都是对数据的分桶，按照桶自身的顺序来处理各个元素，不涉及元素间的比较，时间复杂度是“线性”的（参与排序的元素数量和算法的时间复杂度的关系是一次方函数关系，如x=2y、x=2y+1），所以统称为“线性排序”。

另外，使用时一定要根据数据特点，评估桶的数量是否可控，选择适合的算法。

扩展思考

1 桶数量和元素数量一样时会出现什么情况？

2 计数排序时为何从右侧开始处理元素？

3 基数排序时如果遇到小数应该怎么处理？

posted @ 2022-06-22 11:12 binary220615 阅读(133) 评论(0) 收藏举报

刷新页面返回顶部

线性排序

公告