BASE64编解码好

Posted on 2016-07-06 14:21 bw_0927 阅读(690) 评论(0) 收藏举报

http://lnwdl.blog.163.com/blog/static/3883041220121073563710/

BASE64是一种编解码规则，不是加/解密手段。这种编解码方式的起源据说是印刷行业，因为原始数据经过BASE64编码后都是可打印的ASCII字符，这样就可以保存并且人为的解码进行理解了。现在，这种编码方式广泛用于计算机技术，我们有必要对他进行一下了解。

编码方式

Base64的编码过程是将每三个字节，即24个bit，变成以6个bit为一组的单位，共有24/6=4组。每个组的6个bit最高能表示2^6即64个数，这也是Base64的由来。这64个数的表示范围为[0，63]，建立一个64长度的字符索引表，输入值为索引表下标[0，63]，输出表中对应下标的字符。不同的Base64变种在编码过程主要是索引表不一样。

如图所示，3个byte用红、紫、绿表示，4个组A=A1 A2 A3 A4 A5 A6，B= B1 B2 B3 B4 B5 B6，C= C1 C2 C3 C4 C5 C6，D = D1 D2 D3 D4 D5 D6。因为在绝大多数语言中，byte都为最小操作单元，所以这四个组的输出byte值将会是A’ = 0 0 A1 A2 A3 A4 A5 A6，B’ = 0 0 B1 B2 B3 B4 B5 B6 ， C’= 0 0 C1 C2 C3 C4 C5 C6，D’ = 0 0 D1 D2 D3 D4 D5 D6。一个byte只需要用到其中的6个bit，当然最高两位要置0了。

应用一点点计算机编码知识，假设红byte为R，紫byte为P，绿byte为G，那么：

· A’ = R >> 2，红byte右移两位，表示A取R的高六位。

· B’ = (R << 4 & 0x3F) | P >> 4。R左移4位变为A5 A6 B1 B2 0 0 0 0，看B’的红色部分高两位为零，所以要 & 上0x3f，因为0x3f的二进制表示为0 0 1 1 1 1 1 1，这样就变成 0 0 B1 B2 0 0 0 0 。P >> 4将P的高四位变为低四位，高四位置0，变为0 0 0 0 B3 B4 B5 B6。很显然 0 0 B1 B2 0 0 0 0 | 0 0 0 0 B3 B4 B5 B6 = 0 0 B1 B2 B3 B4 B5 B6

· C’ = (P << 2 & 0x3F) | G >> 6。P左移2位变为B5 B6 C1 C2 C3 C3 C4 0 0，看C’的红色部分高两位为零，所以要 & 上0x3f，这样值为0 0 C1 C2 C3 C3 C4 0 0。G右移6位为 0 0 0 0 0 0 C5 C6。很显然 0 0 C1 C2 C3 C3 C4 0 0 | 0 0 0 0 0 0 C5 C6 = 0 0 C1 C2 C3 C4 C5 C6。

· D’ = G & 0x3F。只需将G的高两位C5，C6置0，就是0 0 D1 D2 D3 D4 D5 D6。

不能整除3怎么办？

上面讲的是byte长度能整除3，实际只有1/3概率可整除，另两个1/3是余数为1和余数为2。对于不整除的情况，Base64的做法是补齐，不是补齐byte，而是补齐编码之后的子串，使编码之后得到的字串能够被4整除，因为解码只能是4个字符解成3个byte。补齐字串用了第65个字符 = 即等号。下面分别描述。

余数为1的情况

余数为1也就是上图只能剩红byte R了，那么：

· A’ = R >> 2。这个保持不变。

· B’ = R << 4 & 0x3F。P没有了，只能取R的最低两位了。

· C’ = '='，即C’为填充字符= 。

· D’ = '='，即D’为填充字符= 。

余数为2的情况

余数为2也就是上图有红byte R，紫byte P，绿byte G没有了。那么：

· A’ = R >> 2。这个保持不变。

· B’ = (R << 4 & 0x3F) | P >> 4。这个也保持不变。

· C’ = P << 2 & 0x3F。因为G没有了，只能取P的低四位。

D’ = '='，即D’为填充字符= 。

前面讲到，不同Base64编码只是字符索引表不一样，基本的Base64编码使用了如下字符索引表（也称正向索引表）：

static char intToBase64[] = {

'A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O', 'P', 'Q', 'R', 'S', 'T', 'U', 'V', 'W', 'X', 'Y', 'Z', /* 索引 0 ~ 25*/

'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z', /* 索引 26 ~ 51*/

'0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '+', '/' }; /* 索引52 ~ 63*/

下面是nginx中对Base64的编码实现：

void
ngx_encode_base64(ngx_str_t *dst, ngx_str_t *src)
{

u_char         *d, *s;
    size_t          len;
    static u_char   basis64[] =
            "ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789+/";

    len = src->len;
    s = src->data;
    d = dst->data;

    while (len > 2) {
        *d++ = basis64[(s[0] >> 2) & 0x3f];
        *d++ = basis64[((s[0] & 3) << 4) | (s[1] >> 4)];
        *d++ = basis64[((s[1] & 0x0f) << 2) | (s[2] >> 6)];
        *d++ = basis64[s[2] & 0x3f];

        s += 3;
        len -= 3;
    }

if (len) {
*d++ = basis64[(s[0] >> 2) & 0x3f];

        if (len == 1) {
            *d++ = basis64[(s[0] & 3) << 4];
            *d++ = '=';

        } else {
            *d++ = basis64[((s[0] & 3) << 4) | (s[1] >> 4)];
            *d++ = basis64[(s[1] & 0x0f) << 2];
        }

*d++ = '=';
}

dst->len = d - dst->data;
}

解码方式

解码是将4个字符变成三个byte，即24bit。编码是通过字符表映射索引值到字符上，那么显然解码就是将字符回索引值，即有个反向索引表，这个反向索引表与索引表一一对应，每个Base64变种修改一下这两个表即可。反向索引表是以字符的ASCII码码值作为下标查找反向索引表。比如上面的正向索引表intToBase64定义了加号+的索引值为62，字符+的ASCII码值为43，那么反向索引表下标值为43的值一定是62。再比如正向索引表中字符A的索引表值为0，A的ASCII码值为65，那么反向索引表下标为65的值一定是0。在基本Base64中，最大ASCII码值为z即122，那么反向索引表的长度为122+1=123。下面是对应前面的基本索引表的基本反向索引表。

static char base64ToInt[] = {

-1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, 62/* 符号+*/, -1, -1, -1, 63, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, -1, -1, -1, -1, -1, -1, -1, 0 /* 符号A */, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, -1, -1, -1, -1, -1, -1, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51 };

因为编码有余数情况，所以解码同样要处理余数情况。设这四个字符的对应的反向索引值为Q1、Q2、Q3、Q4，要求解的3个byte分别为M1，M2，M3。注意反向索引值最高为63，所以其byte表示的最高两位总为0。

没有余数的情况

·   M1 = Q1 << 2 | Q2 >> 4。Q1可表示为0 0 x x x x x x，左移两位变成x x x x x x 0 0。Q2也表示为 0 0 x x x x x x，右移四位变成0 0 0 0 0 0 x x 。那么这两个或一下正好是 x x x x x x x x。也就是由字符Q1的有效六位组成M1的高六位，然后用Q2的最高两个有效位组成M2的最低两位。

·   M2 = Q2 << 4 | Q3 >> 2。如M2所描述那样，M2的高四位是Q2的低四位，低四位是Q3的高四位。Q2：0 0 x x x x x x –> x x x x 0 0 0 0，Q2：0 0 0 x x x x x x –> 0 0 0 0 x x x x。很显然x x x x 0 0 0 0 | 0 0 0 0 x x x x = x x x x x x x x。

·   M3 = Q3 << 6 | Q4。M3的高两位是Q3的最低两位，低六位是Q4的有效六位。

余数为1的情况

余数为1即编码的最后两个字符都是=。也就是说只有Q1、Q2。只需要联合Q1和Q2组成余出来的1个字节M1即可。

       M1 = Q1 << 2 | Q2 >> 4。

    余数为2的情况

余数为2即编码的只有最后一位是=。也就是说通过Q1，Q2，Q3组成余下来的两个字节M1，M2即可。

· M1 = Q1 << 2 | Q2 >> 4。

· M2 = Q2 << 4 | Q3 >> 2。

下面是nginx中对base64的解码的实现：

ngx_int_t
ngx_decode_base64url(ngx_str_t *dst, ngx_str_t *src)
{
    static u_char   basis64[] = {
        77, 77, 77, 77, 77, 77, 77, 77, 77, 77, 77, 77, 77, 77, 77, 77,
        77, 77, 77, 77, 77, 77, 77, 77, 77, 77, 77, 77, 77, 77, 77, 77,
        77, 77, 77, 77, 77, 77, 77, 77, 77, 77, 77, 77, 77, 62, 77, 77,
        52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 77, 77, 77, 77, 77, 77,
        77, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14,
        15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 77, 77, 77, 77, 63,
        77, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40,
        41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 77, 77, 77, 77, 77,

     77, 77, 77, 77, 77, 77, 77, 77, 77, 77, 77, 77, 77, 77, 77, 77,
        77, 77, 77, 77, 77, 77, 77, 77, 77, 77, 77, 77, 77, 77, 77, 77,
        77, 77, 77, 77, 77, 77, 77, 77, 77, 77, 77, 77, 77, 77, 77, 77,
        77, 77, 77, 77, 77, 77, 77, 77, 77, 77, 77, 77, 77, 77, 77, 77,
        77, 77, 77, 77, 77, 77, 77, 77, 77, 77, 77, 77, 77, 77, 77, 77,
        77, 77, 77, 77, 77, 77, 77, 77, 77, 77, 77, 77, 77, 77, 77, 77,
        77, 77, 77, 77, 77, 77, 77, 77, 77, 77, 77, 77, 77, 77, 77, 77,
        77, 77, 77, 77, 77, 77, 77, 77, 77, 77, 77, 77, 77, 77, 77, 77
    };

return ngx_decode_base64_internal(dst, src, basis64);
}

static ngx_int_t
ngx_decode_base64_internal(ngx_str_t *dst, ngx_str_t *src, const u_char *basis)
{
size_t len;
u_char *d, *s;

    for (len = 0; len < src->len; len++) {
        if (src->data[len] == '=') {
            break;
        }

        if (basis[src->data[len]] == 77) {
            return NGX_ERROR;
        }
    }

    if (len % 4 == 1) {
        return NGX_ERROR;
    }

s = src->data;
d = dst->data;

    while (len > 3) {
        *d++ = (u_char) (basis[s[0]] << 2 | basis[s[1]] >> 4);
        *d++ = (u_char) (basis[s[1]] << 4 | basis[s[2]] >> 2);
        *d++ = (u_char) (basis[s[2]] << 6 | basis[s[3]]);

        s += 4;
        len -= 4;
    }

    if (len > 1) {
        *d++ = (u_char) (basis[s[0]] << 2 | basis[s[1]] >> 4);
    }

    if (len > 2) {
        *d++ = (u_char) (basis[s[1]] << 4 | basis[s[2]] >> 2);
    }

dst->len = d - dst->data;

return NGX_OK;
}

变种

因为Base64编解码的变种只与索引表和反向索引表有关系，所以可以在ASCII码(1字节范围内）做任意变种。下面描述一个变种例子。

假如要将中文用基本Base64索引表编码成字串，将其作为参数在浏览器里传输，很不幸，因为基本表中会出现+和/字符，这个一般会被浏览器理解成空格和路径分割符。所以为了让其工作正常，需要把索引表的最后两个字符+和/分别替换成点 . 和下划线 _ 。

  正向索引表：

static char intToBase64[] = { 'A', 'B', 'C', 'D', 'E', 'F', /* 索引 0 ~ 5*/

'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O', 'P', 'Q', 'R', 'S',  /* 索引6 ~ 18*/

'T', 'U', 'V', 'W', 'X', 'Y', 'Z', 'a', 'b', 'c', 'd', 'e', 'f',  /* 索引 19 ~ 31*/

'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's',  /* 索引 32 ~ 44*/

't', 'u', 'v', 'w', 'x', 'y', 'z', '0', '1', '2', '3', '4', '5',  /* 索引 45 ~ 57*/

'6', '7', '8', '9', '.'/*原先是字符+*/, '_'/*原先是字符/ */ };  /* 索引58 ~ 63*/

反向索引表改的稍微多点，字符. 的ASCII码值为46，下划线码值为95。则需要将原来+和/ 的索引位置改成-1，将索引位置46从-1改成62，位置95处从-1改成63。

static byte base64ToInt[] = { -1, -1, -1, -1, -1, -1, -1, -1,

-1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1,

1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1,

-1, -1/*原先是62*/, -1, -1, 62/*原先是-1*/, -1/*原先是63*/, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, -1,

-1, -1, -1, -1, -1, -1, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12,

13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, -1, -1, -1, -1,

63/*原先是-1*/, -1, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40,

41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51 };

刷新页面返回顶部

Never too late

公告