什么是Base64
Base64是一种用64个字符来表示任意二进制数据的方法。
用记事本打开exe、jpg、pdf这些文件时,我们都会看到一大堆乱码,因为二进制文件包含很多无法显示和打印的字符,所以,如果要让记事本这样的文本处理软件能处理二进制数据,就需要一个二进制到字符串的转换方法。Base64是一种最常见的二进制编码方法。
Base64编码原理
Base64由64个字符组成,分别是A-Z
、a-z
、0-9
、+
、/
,首先对二进制数据进行处理,每6个bit一组,如果要编码的二进制数据不是3的倍数,最后会剩下1个或2个字节怎么办?Base64用\x00字节在末尾补足后,再在编码的末尾加上1个或2个=号,表示补了多少字节,解码的时候,会自动去掉。
人工编码
现在我们来编码中文,例如我爱编程
这4个汉字。我们知道,汉字由两个字节表示。
1、首先,使用cmd
进入命令行,使用chcp
查看系统使用的字符集,这里返回活动代码页: 936
,查找代码对应得到是gb2312
字符集。
2、查找GB2312简体中文编码表:http://tools.jb51.net/table/gb2312,或者通过Excel的CODE函数计算,找到4个汉字对应的二进制。
我 爱 编 程
二进制:1100111011010010 1011000010101110 1011000111100000 1011001111001100
6位分组:110011 101101 001010 110000 101011 101011 000111 100000 101100 111100 110000
,最后不过6位,补两个0。
可以使用Excel的BIN2DEC
函数得到对应的十进制数:
51 45 10 48 43 43 7 32 44 60 48
查找编码表得到对应的Base64编码如下:
ztKwrrHgs8w=
3、测试
public class Base64Test {
public static void main(String[] args) throws UnsupportedEncodingException {
String encode = Base64.encode("我爱编程".getBytes("gb2312"));
System.out.println("encode = " + encode);
byte[] decode = Base64.decode(encode);
String str = new String(decode, "gb2312");
System.out.println("str = " + str);
}
}