Base64、Base64Url、UrlEncode、x-www-form-urlencoded 高维度，顶层设计者的解说；

又是一个失眠的夜晚，凌晨5点！哎，起来工作吧；

先上2张图：

================= 先说Base64吧，可不是百度，都是自己感悟，逐字写的 ==================

1.首先要理解【可视字符】的概念？

可视字符就是你能看到的字符，我还真不好表达，你要思考一个问题，就是如何把一个字节转换成可视字符，你首先想到的肯定是 ASCII表啊，

你要知道ASCII表里有很多不可视字符，不可视字符，就是控制字符，这些控制字符不可视！那怎么办呢，目前只有2种做法，若有第三种做法

的话可以留言告诉我，我估计没有第三种做法；

做法1：

就是把这个字节，从中间劈开，然后用2个16进制字符来表示，这里要明白什么是16进制，就是 0 - 15，用 0- 9 + A - F（10 - 15）来表示；

一个字节是8bit位，劈开后就是左边4bit + 右边4bit，4bit能表示多少种情况呢，就是2的4次方，2的4次方是多少呢就是16，所以4bit可以用16进制来表示；

举例：

11111111 --劈开--> 1111 1111 --转换16进制字符表示--> FF；

00000000 --劈开--> 0000 0000 --转换16进制字符表示--> 00；

可见一个字节，可以用2个16进制的字符来表示，而这 0 - 9 + A - F 在ASCII码表里都是【可视字符】，这样就把一个字节变成可视字符了；

做法2：

定义一个转换规则，这个规则如何定义呢，若你是定义这个规则的人，你会如何定义，可以先思考一下？我来说下你接下来的思路做法，这个思路做法估计是大多数程序员的思路；

1. 既然是把一个字节转换成可视字符，那就先找出全球人都能理解的【基本可视】字符，为什么要加个基本呢？$也是可视字符，在美国估计8岁以上的小朋友都知道这个字符代表

什么意思，因为这个就是美元，但是在中国8岁 - 15岁的小朋友估计有很大一批都不知道这个符号是啥意思，那么就说明$不能算作全球人都能理解的基本字符；

经过分析最终得出，全球人认识基本字符有：

a - z：26个小写字母，西方人肯定都认识，若不认识他们就没法说话，中国的小朋友若不认识就没法读拼音，没法发音，就没法学习语文！

A - Z：26个大写字母，同理；

0 - 9：10个阿拉伯数字，这个西方和东方一致啊，真怀疑人类本身就是外星人，人类就是来侵略地球的外星坏人，还天天寻找外星人；

好了，有了以上就是 26 + 26 + 10 = 62个【全球基本可视字符】，62可不是2的N次方，会导致规则无法定义，那怎么办呢；

2的6次方 = 64，再加2个字符凑够64个不就好办了，加哪2个字符呢，最终设计这个规则的人决定用 + / 这2个字符，因为他觉得这2个

字符很好，认识 0 - 9 的人都认识 + / ，因为没有 + / 就无法计算啊，真是操蛋为什么不用 - * 号呢，开玩笑，可能有更深层的原因

比如这个 * 号，在西方就是乘法符号，在中国乘法符号一个叉 x ，呵呵；

既然他们决定使用 + / 这2个符号了，那么就凑够了64个基本字符了；就是说终于找出全球人都认识的基本字符，共计64个；

2. 完成了思路1后，你接下来会思考，一个字节如何转换成这64个基本字符的问题；

64 = 2的6次方，就是说需要6bit为一组；这样就能表示，就是说bit的总数需要是6的倍数；

而1个字节是8bit，那么导致bit的总数一定是8的倍数；

啊！！！，计算机存储或网络bit的总数一定是8的倍数，而我们需要6的倍数，8 * ? = 6 * ?；

1个字节是 8 bit；若6bit为一组，那还剩2bit 怎么办；

2个字节是 16 bit，若6bit为一组，那还剩4bit 怎么办；

3个字节是 24bit，正好4组，24 / 6 = 4；

你会发现，只要【字节】的总数是 3的倍数，就会【bit的总数】正好是 6的倍数；正好符合我们的要求；

即3种情况，%是取余的意思：

A：字节总数 % 3 = 0，正好

B：字节总数 % 3 = 1，余数为1个字节，需要考虑剩余的 2 bit问题，需要填补4个bit;

C：字节总数 % 3 = 2，余数为2个字节，需要考虑剩余的 4bit问题，需要填补2个bit;

针对B、C 分别需要填补4bit、2bit，来组合成6bit；既然你填补了，那么就要有个标记来区分；

即3种情况：

1. 没填补；尾部不追加；

2. 填补了4bit，尾部追加2个=来标记；

3. 填补了2bit，尾部追加1个 = 来标记；

一个 = 表示填补了2bit；2个 = 就表示填补了4bit；

为什么要用 = 这个符号呢，是因为这个符号也是全球人都认识都统一的符号，+ / 总得有 = 号来得出最终的结果吧；

3.有了以上2步思路，那么你还需要设计一个 0 - 63的码表，来指示一组6bit 所表示的基本可视字符，就是上图的Base64码表；

然后就设计完成了，把一个字节变成基本可视字符的规则，以上这个思路的最终规则就是Base64现在的规则；

========================================================

1. 什么是Base64？

Base64是把二进制或字节转成【可视】字符（binary-to-text）的一种编码；

Base64 中的 Base是关键，就是全球人都认可的最基本的字符，Base就是根基的意思；

2.为什么要Base64?

Aes、Rsa 对称与非对称加密场景，加密后出来的都是字节数组，需要把字节数组转换为可视字符；

举例：加密后得出3个字节，你需要把3个字节转成能看到的字符，若直接根据AscII码表来转换，有的控制字符，不可视；

3. MD5为什么不Base64输出？

没有必要，MD5是单向算法，他就是算出来很大的整数值，值足够大能表示很多东西的唯一，

算出来最终是16个字节，固定16个字节，那么就是说这个值能表示的最大值为：2的128次方够大吧，地球上的每一粒沙子能表示吗；

既然固定16个字节，你若非要用Base64来表示也行，但是通常都是直接 16进制固定32个16进制字符来表示更直观；

=======================================

用例子来说明 Base64

public class TestMain {
    public static void main(String[] args) throws UnsupportedEncodingException {
        String a = Base64.getEncoder().encodeToString("a".getBytes("UTF-8"));
        String ab = Base64.getEncoder().encodeToString("ab".getBytes("UTF-8"));
        String abc = Base64.getEncoder().encodeToString("abc".getBytes("UTF-8"));

        System.out.println(a);
        System.out.println(ab);
        System.out.println(abc);
    }
}

我们来分析以上这个例子：

首先看下ascii表，字母 --- 二进制（4位排列）---- 二进制（6位一组排列）：

a ---> 0110 0001 ---> 011000 01（按6位一组排列，缺少4位）

ab ---> 0110 0001 0110 0010 ---> 011000 010110 0010（按6位一组排列，缺少2位）

abc ---> 0110 0001 0110 0010 0110 0011 ---> 011000 010110 001001 100011（按6位一组排列，正好，因为 4*6 = 3* 8 = 24）

有了以上二进制，下面再继续说，说明一点 a 若按6位一组排列是不够的，缺少低4位，严重注意一点 a 的 011000 01(这个01是要看成高位，为什么要看成高位，因为看成高位才能表达更多字符，这点切记，想象后面是补的0)，这个时候他们规定了一个规则，就是你需要把最后的二进制01看成6位一组的高位，

然后就可以计算出对应的值：

a ---- 011000 01 --- 24（Y） 16(Q，切记这个01是高位) ==

ab --- 011000 010110 0010 ---- 24(Y) 22(W) 8(I，切记0010是高位，后面你可以想象成还有2个0) =

abc --- 011000 010110 001001 100011 --- 24(Y) 22(W) 9(J) 35(j) 正好，不用补=

========================================= 接下来说下UrlEncode ==========================================

url特殊字符：

			十六进制
1	+	URL 中+号表示空格	%2B
2	空格	URL中的空格可以用+号或者编码	%20
3	/	分隔目录和子目录	%2F
4	?	分隔实际的 URL 和参数	%3F
5	%	指定特殊字符	%25
6	#	表示书签	%23
7	&	URL 中指定的参数间的分隔符	%26
8	=	URL 中指定参数的值	%3D

我们有时候需要在GET的参数中传递参数，例如是byte[]类型的内容，一般来说是转成Base64的编码格式，但是带来一个问题是：base64编码后，里面可能会出现一些字符是url里面冲突的，

例如=+/这些，虽然可以URLEncode进行编码，但这还是会给程序带来一些复杂度或者不确定性。

关于URL编码的详细规范，可以查看RFC 3986, 这里只对我们会涉及的信息做简要说明。

RFC 3986中有如下两个重要规定：

Url中只允许包含英文字母（a-zA-Z）、数字（0-9）、- _ . ~4个特殊字符以及所有保留字符。
保留字符包括：! * ' ( ) ; : @ & = + $ , / ? # [ ]

另外，还有很多字符，当它们直接放在Url中的时候，可能会引起解析程序的歧义。

这些字符被视为不安全字符，原因有很多。

空格：Url在传输的过程，或者用户在排版的过程，或者文本处理程序在处理url的过程，都有可能引入无关紧要的空格，或者将那些有意义的空格给去掉；
引号以及<>：引号和尖括号通常用于在普通文本中起到分隔Url的作用；
#：通常用于表示书签或者锚点；
%：百分号本身用作对不安全字符进行编码时使用的特殊字符，因此本身需要编码；
{ } | \ ^ [ ] ` ~：某一些网关或者传输代理会篡改这些字符。

这里估计99%的人都会迷糊，呵呵，我将近10多年的经验，才知道答案！！！

首先要知道3个标准：

1. 针对浏览器地址栏URL的标准，在1994年订立的RFC1738中。（显然已过时，可忽略）
对字符串中除了-_.三个字符之外的所有非字母数字字符都替换成百分号(%)后跟两位十六进制数。
十六进制数中字母必须为大写。

http://tools.ietf.org/html/rfc1738

2. 依然是针对浏览器地址栏URL的标准，在2005年定义的RFC3986中，将针对- _.~（可见又扩充了一个波浪线字符）四个字符之外的所有非字母数字字符进行百分号编码。

http://tools.ietf.org/html/rfc3986

3.这个不是针对浏览器地址栏的，而是针对Post请求的form传递数据的，在W3C找到HTML标准的说明
http://www.w3.org/TR/REC-html40/interact/forms.html#h-17.13.4
在这里清楚的看到编码方式是根据ContextType的不同而区别对待的，在form的ContextType是[x-www-form-urlencoded]的时候会对form中的键/值对进行编码，空格被转义成+，

其他字符按照[RFC1738]标准处理成%HH的形式，基本问题就出在这里；

出现歧义的地方，我来说下：

1. 你要区分 get请求与 application/x-www-form-urlencoded，我来举个例子：

知道了以上两种的区别后，针对以上2种，有两套标准；

这2套标准有个细微的差异，那就是空格的问题；

get 请求的话，要求空格变成 %20;

post_form的话，要求空格变成 + ；

现实中你会发现，别人都帮你搞定了，就是说 get请求的话，你把空格弄成+也没有问题，post_form弄成%20；也没有问题；出现问题的时候再去解决，你有个依据就行；

那么接下来谈一下Java里的 UrlEncoder

System.out.println(URLEncoder.encode("hello word", "utf-8")); // hello+word

可以看到Java的 URLEncoder是遵循 post_form规范的，真的吗？

总结：http协议中有post和get提交：

1.如果是get提交或者是路径的话如: http://www.bai du.com?wo=he he&ni=abc 就应该遵循RFC1738、RFC2396；就变成：http://www.bai%20du.com?wo=he%20he&ni=abc;

2.如果是post提交：因为post提交的参数依然是被弄成键值对的方式传递的类似GET的QueryString方式,即需要提交的参数应该是: wo=he he&ni=abc;但是由于 html是一种常用语言，它里面有post提价方式，他也有自己的规范，他规定post生成的键值对参数中参数的值如果有空格应该编码成+号（注意不是%20）见上面链接打开后的下图：

Java官方的URLEncoder.encode 实际上是为了post请求的content-type为x-www-form-urlencoded来设计的。所以没有什么bug可言。

结论：

1.资源路径中含有空格时应该转码为%20，

举例：http://www.baidu.com/he he/index.jsp -----> http://www.baidu.com/he%20he/index.jsp

2.get请求的QueryString里含有空格的话应该转码为%20;

举例：http://www.abc.com?wo=he he ------> http://www.abc.com?wo=he%20he

3.post请求时,content-type = application/x-www-form-urlencoded (一般默认都是这个)时，空格应该转码为+;

举例：向http://www.abc.com/发post请求,参数的值有空格,最终的参数键值对是 wo=he+he；

2017.11.05补充。。。。。。。。。。。。。。

在Delphi中；

get请求的时候可以用，TNetEncoding.URL.EncodeQuery，

post请求的时候可以用，TNetEncoding.URL.EncodeForm

2019-11-03 补充。。。。。。。。。。。。

procedure TfrmAesForm.Button3Click(Sender: TObject);
begin
  {
    空格的问题，根据国际URL标准,GET请求是包含在路径里的,所以与Post请求的标准不同

    GET请求参数包含在URL路径里，他们有一个标准 RFC1738，RFC3986; 此标准要求空格转为%20

    POST请求参数不包含在URL路径里，他们的参数传输有一个自己的标准  application/x-www-form-urlencoded MIME format; 此标准要求空格转为+



  }

  Memo1.Lines.Add(TNetEncoding.URL.EncodeQuery(' '));//%20 GET请求的参数用这个URLEncode

  Memo1.Lines.Add(TNetEncoding.URL.EncodeForm(' '));//+ POST请求的参数用这个URLEncode

  Memo1.Lines.Add(TNetEncoding.URL.Encode(' '));//+ get提交的时候不要用这个，这个会搞成+
end;

=======================================================================================================================

好了，再来说下这个Base64URL;

我们知道 Base64会出来3个特殊字符，+、/、=，很遗憾这3个字符，都是URL特殊意义的字符；尤其是+号，跨越2个标准，非常容易产生意义，从而

导致Token校验失败；/、=这2个字符基本没有什么异议，get和post_form都会被转换成%XX形式；

System.out.println(URLEncoder.encode("/", "utf-8")); //%2F
System.out.println(URLEncoder.encode("=", "utf-8")); //%%3D

这样来回转换标准，各种转换会导致错误的概率上升；

尤其是Token这样重要的字符串，有的时候需要get请求，有的时候需要http头部，有的时候需要post_form，有的时候需要post_json；

get 需要 urlencode() 采用get标准

post_form 需要 urlencode 采用HTML 标准

http头部，直接base64就可；

post_json，也是二进制的，也是直接 base64即可；

为了避免转换，减少出错的概率，token最好设计成不需要urlencode，绕开这2个标准；

于是就有了接下来的Base64Url，看定义：

这样做后，开发中与 token有关的坑就会消失，就是说无论是 get 还是 post 还是其它请求，token 都不需要关心 + 号的问题和 urlEncode UrlDecode的问题。

这里你可能有个疑问，那就是编码时，把末尾的=标记去除了，那解码时怎么接，没有标记符号了怎么解，答案是：

1Byte 示例：Base64("a") ，需要补4bit 需要2个等号 YQ==

2Byte 示例：Base64("ab") ，需要补2bit 需要1个等号 YWI=

3Byte 示例：Base64("abc") ，需要补4bit 需要2个等号 = YWJj

你会发现一个规律，就是Base64出来的结果在字符串一定 /4 整除，所以当尾部的=号被消掉后，依然是可以解码的，Base64Url解码方式：

1)把"-"替换成"+"

2)把"_"替换成"/"

3)(计算BASE64URL编码长度)%4

a)结果为0，不做处理

b)结果为2，字符串添加"=="

c)结果为3，字符串添加"="

Java里的方式为：

    public static void main(String[] args) throws UnsupportedEncodingException {
        System.out.println("原始Base64");
        System.out.println(Base64.getEncoder().encodeToString("a".getBytes(StandardCharsets.UTF_8)));
        System.out.println(Base64.getEncoder().encodeToString("阿".getBytes(StandardCharsets.UTF_8)));
        System.out.println(Base64.getEncoder().encodeToString("号".getBytes(StandardCharsets.UTF_8)));
        System.out.println("===========");
        System.out.println("Base64Url，但是没有忽略=字符：");
        System.out.println(Base64.getUrlEncoder().encodeToString("a".getBytes(StandardCharsets.UTF_8)));
        System.out.println(Base64.getUrlEncoder().encodeToString("阿".getBytes(StandardCharsets.UTF_8)));
        System.out.println(Base64.getUrlEncoder().encodeToString("号".getBytes(StandardCharsets.UTF_8)));
        System.out.println("===========");
        System.out.println("最终需要的，忽略=字符的：");
        System.out.println(Base64.getUrlEncoder().withoutPadding().encodeToString("a".getBytes(StandardCharsets.UTF_8)));
        System.out.println(Base64.getUrlEncoder().withoutPadding().encodeToString("阿".getBytes(StandardCharsets.UTF_8)));
        System.out.println(Base64.getUrlEncoder().withoutPadding().encodeToString("号".getBytes(StandardCharsets.UTF_8)));
        System.out.println("===========");
        System.out.println("解码方法，统一就这一个：");
        System.out.println(new String(Base64.getUrlDecoder().decode("YQ"), StandardCharsets.UTF_8));
        System.out.println(new String(Base64.getUrlDecoder().decode("6Zi_"), StandardCharsets.UTF_8));
        System.out.println(new String(Base64.getUrlDecoder().decode("5Y-3"), StandardCharsets.UTF_8));
    }

Java官方的Base64Url为：

编码：Base64.getUrlEncoder().withoutPadding().encodeToString("xxx".getBytes(StandardCharsets.UTF_8));
解码：new String(Base64.getUrlDecoder().decode("xxx"), StandardCharsets.UTF_8);

Delphi 官方的Base64Url为：

procedure TForm4.btn1Click(Sender: TObject);
begin
  var strs := mmo1.Lines.Text.Split([sLineBreak]);
  mmo2.Lines.Clear;
  for var str in strs do
  begin
    mmo2.Lines.Add(TBase64URLEncoding.Base64URL.Encode(str));
  end;
end;

procedure TForm4.btn2Click(Sender: TObject);
begin
  var strs := mmo2.Lines.Text.Split([sLineBreak]);
  mmo3.Lines.Clear;
  for var str in strs do
  begin
    mmo3.Lines.Add(TBase64URLEncoding.Base64URL.Decode(str));
  end;
end;

TBase64URLEncoding.Base64URL.Encode(str)

TBase64URLEncoding.Base64URL.Decode(str)

-------------

最后不同一下 Base64Url(xxx) != UrlEncode(Base64(xxx))；这完全是两码事，是不同的规则定义。

public static void main(String[] args) throws UnsupportedEncodingException {
        System.out.println(Base64.getUrlEncoder().withoutPadding().encodeToString("a".getBytes(StandardCharsets.UTF_8)));
        System.out.println(Base64.getUrlEncoder().withoutPadding().encodeToString("阿".getBytes(StandardCharsets.UTF_8)));
        System.out.println(Base64.getUrlEncoder().withoutPadding().encodeToString("号".getBytes(StandardCharsets.UTF_8)));
        System.out.println("===========");
        System.out.println(URLEncoder.encode(Base64.getEncoder().encodeToString("a".getBytes(StandardCharsets.UTF_8)), "UTF-8"));
        System.out.println(URLEncoder.encode(Base64.getEncoder().encodeToString("阿".getBytes(StandardCharsets.UTF_8)), "UTF-8"));
        System.out.println(URLEncoder.encode(Base64.getEncoder().encodeToString("号".getBytes(StandardCharsets.UTF_8)), "UTF-8"));
        
    }

/* 输出：
YQ
6Zi_
5Y-3
===========
YQ%3D%3D
6Zi%2F
5Y%2B3

*/

posted on 2017-03-03 15:17 del88 阅读(7920) 评论(0) 收藏举报