Python解码base64遇到Incorrect padding错误

项目提供接口给第三方对接，返回消息说接口报错，查看系统日志定位错误位置，报错是

2022-03-28T03:12:07.692756725Z 2022-03-28 03:12:07,692 2031 ERROR ** odoo.addons.fdfs.models.attachment: Incorrect padding

定位到错误代码为

bin_value = content.decode('base64')

先说一下base64的编码过程，再来分析错误。

base64是一种用64个字符来表示任意二进制数据的方法，用记事本打开exe、jpg、pdf这些文件时，我们都会看到一大堆代码，因为二进制文件包含很多无法显示和打印的字符，所以，想要记事本这样的文本处理软件能处理二进制文件，就需要一个二进制到字符串的转换方法，base64就是一个最常见的二进制编码方法。

base64的原理很简单，选出64个字符——小写字母a-z，大写字母A-Z，数字0-9，符号“+”、“/”（再加上作为垫字的“=”，实际上是65个字符）作为一个基本字符集，然后，把数据都转换成这个基本字符集中的字符。转换方式可以分为四步：

将每三个字节作为一组，一共是24个二进制位。
将这24个二进制位分为四组，每个组有6个二进制位。
在每组前面加两个00，扩展成32个二进制位，即四个字节。
根据下表，得到扩展后的每个字节的对应符号，这就是Base64的编码值。

　　0　A　　17　R　　　34　i　　　51　z

　　1　B　　18　S　　　35　j　　　52　0

　　2　C　　19　T　　　36　k　　　53　1

　　3　D　　20　U　　　37　l　　　54　2

　　4　E　　21　V　　　38　m　　　55　3

　　5　F　　22　W　　　39　n　　　56　4

　　6　G　　23　X　　　40　o　　　57　5

　　7　H　　24　Y　　　41　p　　　58　6

　　8　I　　25　Z　　　42　q　　　59　7

　　9　J　　26　a　　　43　r　　　60　8

　　10 K　　27　b　　　44　s　　　61　9

　　11　L　　28　c　　 45　t　　　62　+

　　12　M　　29　d　　 46　u　　　63　/

　　13　N　　30　e　　 47　v

　　14　O　　31　f　　 48　w　　　

　　15　P　　32　g　　 49　x

　　16　Q　　33　h　　 50　y

base64编码就是把3字节的二进制数据编码为4字节的文本上数据，长度增加33%，好处是编码后的文本数据可以在邮件正文、网页等直接显示。

现在出现一个一个问题：如果要编码的数据不是3的倍数，那最后剩下一个或两个字节总么办？

二个字节的情况：将这二个字节的一共16个二进制位，按照上面的规则，转成三组，最后一组除了前面加两个0以外，后面也要加两个0。这样得到一个三位的Base64编码，再在末尾补上一个"="号。比如，"Ma"这个字符串是两个字节，可以转化成三组00010011、00010110、00010000以后，对应Base64值分别为T、W、E，再补上一个"="号，因此"Ma"的Base64编码就是TWE=。
一个字节的情况：将这一个字节的8个二进制位，按照上面的规则转成二组，最后一组除了前面加二个0以外，后面再加4个0。这样得到一个二位的Base64编码，再在末尾补上两个"="号。比如，"M"这个字母是一个字节，可以转化为二组00010011、00010000，对应的Base64值分别为T、Q，再补上二个"="号，因此"M"的Base64编码就是TQ==。

>>> base64.b64encode(b'i\xb7\x1d\xfb\xef\xff')
b'abcd++//'
>>> base64.urlsafe_b64encode(b'i\xb7\x1d\xfb\xef\xff')
b'abcd--__'
>>> base64.urlsafe_b64decode('abcd--__')
b'i\xb7\x1d\xfb\xef\xff'

base64还可以自己定义64个字符的排列顺序，这样就可以自定义Base64编码，不过，通常情况下完全没有必要。Base64是一种通过查表的编码方法，不能用于加密，即使使用自定义的编码表也不行。Base64适用于小段内容的编码，比如数字证书签名、Cookie的内容等。由于=字符也可能出现在Base64编码中，但=用在URL、Cookie里面会造成歧义，所以，很多Base64编码后会把=去掉。

# 标准Base64:
'abcd' -> 'YWJjZA=='
# 自动去掉=:
'abcd' -> 'YWJjZA'

去掉=后怎么解码呢？因为Base64是把3个字节变为4个字节，所以，Base64编码的长度永远是4的倍数，因此，需要加上=把Base64字符串的长度变为4的倍数，就可以正常解码了。

总结：base64编码长度必须为4的倍数，不足则需要补上缺失个数的=才能正常解码，编码也可能是以url安全的方式进行的。如果是这种情况，将能够在数据中看到减号和下划线字符，应该使用base64.b64decode(strg, '-_')去解码。

最终，我发现项目程序报错的原因是编码长度非4的倍数。

posted @ 2022-03-28 22:44 呆贝斯阅读(1592) 评论(0) 收藏举报

刷新页面返回顶部

呆贝斯的地盘

呆笨死，唯有勤学

Python解码base64遇到Incorrect padding错误

公告