那些年数组的排序

今天来回顾一下简单的排序思想,留作今后的复习和备份用。本篇是非常非常基础的,甚至都不会讲实际项目真正能用的排序方法,譬如双轴快速排序 。写的不好请多多谅解。

想要解锁更多新姿势?请访问我的博客

准备阶段

相关功能函数

为了保持代码的整洁,先创造好对数器和相关功能性函数。

交换器

两个数组中的元素比较排序过程中,一定会有元素的交换操作。为了保持代码的整洁,先写出交换操作的函数。

1
2
3
4
5
public static void swap(int[] arr, int i, int j) {
arr[i] = arr[i] ^ arr[j];
arr[j] = arr[i] ^ arr[j];
arr[i] = arr[i] ^ arr[j];
}

随机样本产生器

自己编数组太麻烦了,让他自己生产吧

1
2
3
4
5
6
7
public static int[] generateRandomArray(int maxSize, int maxValue) {
int[] arr = new int[(int) ((maxSize + 1) * Math.random())];
for (int i = 0; i < arr.length; i++) {
arr[i] = (int) ((maxValue + 1) * Math.random()) - (int) (maxValue * Math.random());
}
return arr;
}

对数器

对数器其实就是一个绝对正确但是复杂度不好的方法。

1
2
3
public static void comparator(int[] arr) {
Arrays.sort(arr);
}

说说Arrays.sort()的逻辑吧。数组进入方法,先判断。如果数组的长度小于QUICKSORT_THRESHOLD(默认值是286)的话,再判断,如果数组长度小于INSERTION_SORT_THRESHOLD(值为47)的话,那么就会用插入排序 ,否则就会使用双轴快速排序。

如果大于286呢,它就会坚持数组的连续升序和连续降序性好不好,如果好的话就用归并排序,不好的话就用快速排序。

比较器

比较两个数组一不一样~

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
public static boolean isEqual(int[] arr1, int[] arr2) {
if ((arr1 == null && arr2 != null) || (arr1 != null && arr2 == null)) {
return false;
}
if (arr1 == null && arr2 == null) {
return true;
}
if (arr1.length != arr2.length) {
return false;
}
for (int i = 0; i < arr1.length; i++) {
if (arr1[i] != arr2[i]) {
return false;
}
}
return true;
}

打印器

1
2
3
4
5
6
7
8
9
public static void printArray(int[] arr) {
if (arr == null) {
return;
}
for (int i = 0; i < arr.length; i++) {
System.out.print(arr[i] + " ");
}
System.out.println();
}

复制器

1
2
3
4
5
6
7
8
9
10
public static int[] copyArray(int[] arr) {
if (arr == null) {
return null;
}
int[] res = new int[arr.length];
for (int i = 0; i < arr.length; i++) {
res[i] = arr[i];
}
return res;
}

主函数

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
public static void main(String[] args) {
int testTime = 500000;
int maxSize = 100;
int maxValue = 100;
boolean succeed = true;
for (int i = 0; i < testTime; i++) {
int[] arr1 = generateRandomArray(maxSize, maxValue);
int[] arr2 = copyArray(arr1);
bubbleSort(arr1);
comparator(arr2);
if (!isEqual(arr1, arr2)) {
succeed = false;
break;
}
}
System.out.println(succeed ? "牛逼,算法对了!" : "❌!");

int[] arr = generateRandomArray(maxSize, maxValue);
printArray(arr);
bubbleSort(arr);//测试的算法
printArray(arr);
}

脑子

脑阔疼

正篇

基于比较的排序

冒泡排序

原理

冒泡排序算法的原理如下:

  1. 比较相邻的元素。如果第一个比第二个大,就交换他们两个。此时这两个数,永远是后面的数大。
  2. 第一回合将每一对相邻元素做同样的工作。回合结束后,最后的元素是整个数组最大的数。
  3. 第二回合…第n回合过程中,对除了最后一个元素重复以上的步骤。

实现

1
2
3
4
5
6
7
8
9
10
11
12
public static void bubbleSort(int[] arr) {
if (arr == null || arr.length < 2) {
return;
}
for (int end = arr.length - 1; end > 0; end--) {//end最后的数
for (int i = 0; i < e; i++) {
if (arr[i] > arr[i + 1]) {
swap(arr, i, i + 1);//交换
}
}
}
}

复杂度

时间复杂度:O(N²)

额外空间复杂度:O(1)

选择排序

原理

1.第一回合,将指针指向第一个元素,将第一个元素和剩余的元素比较,最小的元素放到一号位置。

2.第二回合…第n回合过程中,指针加一。对除了第一个元素重复以上的步骤。

实现

1
2
3
4
5
6
7
8
9
10
11
12
public static void selectionSort(int[] arr) {
if (arr == null || arr.length < 2) {
return;
}
for (int i = 0; i < arr.length - 1; i++) {
int minIndex = i;
for (int j = i + 1; j < arr.length; j++) {
minIndex = arr[j] < arr[minIndex] ? j : minIndex;
}
swap(arr, i, minIndex);
}
}

复杂度

时间复杂度:O(N²)

额外空间复杂度:O(1)

插入排序的

原理

1.第一回合,比较第一个元素和第二个元素大小,大的放在第二个位置上

2.第二回合,将第三个元素与第二、第一个元素比较,大的放在第三个位置上

3.轮回

实现

1
2
3
4
5
6
7
8
9
10
public static void insertionSort(int[] arr) {
if (arr == null || arr.length < 2) {
return;
}
for (int i = 1; i < arr.length; i++) {
for (int j = i - 1; j >= 0 && arr[j] > arr[j + 1]; j--) {
swap(arr, j, j + 1);
}
}
}

复杂度

时间复杂度:O(N²)

额外空间复杂度:O(1)

堆排序

堆其实就是完全二叉树,看堆要首先知道大顶堆、小顶堆。

每个结点的值都大于或等于其左右孩子结点的值,称为大顶堆;或者每个结点的值都小于或等于其左右孩子结点的值,称为小顶堆。

大顶堆:arr[i] >= arr[2i+1] && arr[i] >= arr[2i+2]

小顶堆:arr[i] <= arr[2i+1] && arr[i] <= arr[2i+2]

daxiao

原理

将待排序序列构造成一个大顶堆(升序采用大顶堆,降序采用小顶堆),此时,整个序列的最大值就是堆顶的根节点。将其与末尾元素进行交换,此时末尾就为最大值。然后将剩余n-1个元素重新构造成一个堆,这样会得到n个元素的次小值。如此反复执行,便能得到一个有序序列了

代码

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
public static void heapSort(int[] arr) {
if (arr == null || arr.length < 2) {
return;
}
//0-i之间生成大根堆这种结构
for (int i = 0; i < arr.length; i++) {
heapInsert(arr, i);
}
int size = arr.length;//定义数组大小,可以判断是否越界
swap(arr, 0, --size);
while (size > 0) {
heapify(arr, 0, size);
swap(arr, 0, --size);
}
}
//生成大根堆这种结构
public static void heapInsert(int[] arr, int index) {
while (arr[index] > arr[(index - 1) / 2]) {//如果我这个节点比父节点大
swap(arr, index, (index - 1) / 2);//交换
index = (index - 1) / 2;//回到父位置继续
}
}
//将数值小的元素往下沉
public static void heapify(int[] arr, int index, int size) {
int left = index * 2 + 1;
while (left < size) {//左孩子在堆上,没越界
int largest = left + 1 < size && arr[left + 1] > arr[left] ? left + 1 : left;//找出左右孩子中最大的数
largest = arr[largest] > arr[index] ? largest : index;//和父比较
if (largest == index) {
break;
}
swap(arr, largest, index);
index = largest;//回到较大节点
left = index * 2 + 1;
}
}

复杂度

如果只是建立堆的过程,时间复杂度为O(N)

时间复杂度O(N*logN)

额外空间复杂度O(1)

快速排序

快速排序不是一种稳定的排序算法,也就是说,多个相同的值的相对位置也许会在算法结束时产生变动。

假定在待排序的记录序列中,存在多个具有相同的关键字的记录,若经过排序,这些记录的相对次序保持不变,即在原序列中,r[i]=r[j],且r[i]在r[j]之前,而在排序后的序列中,r[i]仍在r[j]之前,则称这种排序算法是稳定的;否则称为不稳定的。

原理

我先说说经典快排的思路吧。

将数组分成两部分,一部分是小于等于某个数的,一部分是大于等于某个数的。这两部分初始指针在数组的左(L)右(R)两头,此时L和R分别是一个边界点。

1.先定义less区域和more区域,代表比数组中某一个数更小更大的区域。初始less区域是L-1以左的部分,more区域是R以右的区域

1532425834921

2.第一回合,从数组左边开始。若L指针指的节点值小于某个数值,less区域向右移动一个位置 swap(arr,++less,L++);,L节点位置+1准备下一个回合;若它大于这个数值,more区域向左扩张一格,然后将这个节点放到more区域swap(arr,--more,L++);,L节点位置+1准备下一个回合;若他等于这个数值,什么也不管,只是L节点位置+1准备下一个回合。

3.重复上述过程,得到了一个数组,他的L指针右边时小于某个数的,R的右边时大于某个数的。[L,R]这个区间是等于某个数的。

4.返回这个都是相同数的数组的左边界、右边界

5.不断递归

经典快排有一个弊端。左部分和右部分的规模不一样或者有一个部分规模特别大,算法效率会变差。举个栗子,如果我有个数组[1,1,3,4,7,6,1,2,1,5,1,7],我指定的某个数字是7,那么那么排序后就变成了[1,1,1,1,1,2,3,4,5,6,7],经典快排结束后只搞定了一个一个区间(<7的区间),复杂度就从理想状态下的O(N)变成了O(N²)

然后就有了改进后的随机快排。

随机快排比经典快排多了一个选随机数的过程 swap(arr, L + (int) (Math.random() * (R - L + 1)), R);。就是随机生成某个数,这样生成的区间虽然也会出现上述经典快排的恶劣情况,但是此时的复杂度就从原来的恶劣事件变成了有概率恶劣事件,但总体期望是好的。这就变成了一个概率问题。

代码

以下为随机快排

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
public static void main(String[] args) {
int[] nums = {9,10,45,36,98,1,3,5,8,6,4};
quickSort(nums);
for (int num : nums) {
System.out.print(num+",");
}
}
/**
* 快速排序,使得整数数组 arr 有序
*/
public static void quickSort(int[] arr) {
if (arr == null || arr.length < 2) {
return;
}
quickSort(arr, 0, arr.length - 1);
}

/**
* 快速排序,使得整数数组 arr 的 [L, R] 部分有序
*/
public static void quickSort(int[] arr, int L, int R) {
if(L < R) {
// 把数组中随机的一个元素与最后一个元素交换,这样以最后一个元素作为基准值实际上就是以数组中随机的一个元素作为基准值
swap(arr, new Random().nextInt(R - L + 1) + L, R);
int[] p = partition(arr, L, R);
quickSort(arr, L, p[0] - 1);
quickSort(arr, p[1] + 1, R);
}
}

/**
* 分区的过程,整数数组 arr 的[L, R]部分上,使得:
* 大于 arr[R] 的元素位于[L, R]部分的右边,但这部分数据不一定有序
* 小于 arr[R] 的元素位于[L, R]部分的左边,但这部分数据不一定有序
* 等于 arr[R] 的元素位于[L, R]部分的中间
* 返回等于部分的第一个元素的下标和最后一个下标组成的整数数组
*/
public static int[] partition(int[] arr, int L, int R) {

int basic = arr[R];
int less = L - 1;
int more = R + 1;
while(L < more) {
if(arr[L] < basic) {
swap(arr, ++less, L++);
} else if (arr[L] > basic) {
swap(arr, --more, L);
} else {
L++;
}
}

return new int[] { less + 1, more - 1 };

}

/*
* 交换数组 arr 中下标为 i 和下标为 j 位置的元素
*/
public static void swap(int[] arr, int i, int j) {
int temp = arr[i];
arr[i] = arr[j];
arr[j] = temp;
}

复杂度

科学家数学证明,长期期望的时间复杂度为O(logN*N)

快速排序可以做到稳定性问题,非常难,要知道的可以谷歌“01 stable sort” ,反正我不会。

归并排序

原理

1.和上题一样,先定义左边界L右边界R数组中,然后定义一个中间值mid = (r-l)/2

2.递归,在边界内部不断的找中间值mid

实现

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
//归并排序
public static void mergeSort(int[] arr){
if (arr==null || arr.length <2){
return;
}
mergeSort(arr,0,arr.length-1);
}

private static void mergeSort(int[] arr, int l, int r) {
if (l == r){
return;
}
int mid = l + ((r - l) >> 1); //(r-l)/2
mergeSort(arr,l,mid);
mergeSort(arr,mid+1,r);
merge(arr, l, mid, r);
}

复杂度

时间复杂度O(N*logN)

额外空间复杂度O(N),归并排序的额外空间复杂度可以变成O(1),但是非常难,我没花时间研究,要知道的可以谷歌“归并排序 内部缓存法”

这里的时间复杂度怎么算出来的呢?有一个master定理

T(N) = a*T(N/b) + O(N^d)

其中 a >= 1 and b > 1 是常量,其表示的意义是n表示问题的规模,a表示递归的次数也就是生成的子问题数,b表示每次递归是原来的1/b之一个规模。 如下:

1) log(b,a) > d -> 复杂度为O(N^log(b,a))

2) log(b,a) = d -> 复杂度为O(N^d * logN)

3) log(b,a) < d -> 复杂度为O(N^d)

这里,归并排序中b=2,a=2.

非基于比较的排序

非基于比较的排序,与被排序的样本的实际数据状况很有关系,所以实际中并不经常使用

桶排序

原理

1.找到一个数组中最大数的值

2.定义(最大数+1)个桶

3.将数组的数放到对应编号相同的桶中,每放进一个数,桶里面的数值加一

4.依次从小输出这个桶,桶里的元素出现几次就输出几个桶的编号

代码

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
// only for 0~200 value
public static void bucketSort(int[] arr) {
if (arr == null || arr.length < 2) {
return;
}
int max = Integer.MIN_VALUE;
for (int i = 0; i < arr.length; i++) {
max = Math.max(max, arr[i]);
}
int[] bucket = new int[max + 1];
for (int i = 0; i < arr.length; i++) {
bucket[arr[i]]++;
}
int i = 0;
for (int j = 0; j < bucket.length; j++) {
while (bucket[j]-- > 0) {
arr[i++] = j;
}
}
}

复杂度

时间复杂度O(N)

额外空间复杂度O(N)

结束
此片完了~ 想要了解更多精彩新姿势?
请访问我的个人博客 本篇为原创内容,已在个人博客率先发表,随后CSDN,segmentfault,掘金,简书,开源中国同步发出。如有雷同,缘分呢兄弟。赶快加个好友~

-------------本稿が終わる感谢您的阅读-------------