Java基础回顾-转换流

转换流

转换流原理

字符编码和字符集

字符编码

计算机中储存的信息都是用二进制数表示的,而我们在屏幕上看到的数字、英文、标点符号、汉字等字符是二进制数转换之后的结果。按照某种规则,将字符存储到计算机中,称为编码。反之,将存储在计算机中的二进制数按照某种规则解析显示出来,称为解码。比如说,按照A规则存储,同样按照A规则解析,那么就能显示正确的文本符号。反之,按照A规则存储,再按照B规则解析,就会导致乱码现象。

编码:字符(能看懂的)--字节(看不懂的)

解码:字节(看不懂的)-->字符(能看懂的

字符编码character Encoding :就是一套自然语言的字符与二进制数之间的对应规则。

编码表:生活中文字和计算机中二进制的对应规则


字符集

字符集charset:也叫编码表。是一个系统支持的所有字符的集合,包括各国家文字、标点符号、图形符号、数字等。

计算机要准确的存储和识别各种字符集符号,需要进行字符编码,一套字符集必然至少有一套字符编码。常见字符集有ASCII字符集、GBK字符集, Unicode字符集等。

可见,当指定了编码,它所对应的字符集自然就指定了,所以编码才是我们最终要关心的。

ASCII字符集

  • ASCll ( American Standard Code for Information Interchange,美国信息交换标准代码)是基于拉丁字母的一套电脑编码系统,用于显示现代英语,主要包括控制字符(回车键、退格、换行键等)和可显示字符(英文大小写字符、阿拉伯数字和西文符号)。
  • 基本的ASCII字符集,使用7位 ( bits )表示一个字符,共128字符。ASCII的扩展字符集使用8位( bits )表示一个字符,共256字符,方便支持欧洲常用字符。

lSO-8859-1字符集

  • 拉丁码表,别名Latin-1,用于显示欧洲使用的语言,包括荷兰、丹麦、德语、意大利语、西班牙语等。o ISO-5559-1使用单字节编码,兼容ASCII编码。

ISO-8859-1字符集

  • 拉丁码表,别名Latin-1,用于显示欧洲使用的语言,包括荷兰、丹麦、德语、意大利语、西班牙语等。o ISO-5559-1使用单字节编码,兼容ASCIl编码。

GBxxx字符集

  • GB就是国标的意思,是为了显示中文而设计的一套字符集。
  • GB2312:简体中文码表。一个小于127的字符的意义与原来相同。但两个大于127的字符连在一起时,就表示一个汉字,这样大约可以组合了包含7000多个简体汉字,此外数学符号、罗马希腊的字母、日文的假名们都编进去了,连在ASCII里本来就有的数字、标点、字母都统统重新编了两个字节长的编码,这就是常说的"全角"字符,而原来在127号以下的那些就叫"半角"字符了。
  • GBK:最常用的中文码表。是在GB2312标准基础上的扩展规范,使用了双字节编码方案,共收录了21003个汉字,完全兼容GB2312标准,同时支持繁体汉字以及日韩汉字等。
  • GB18030∶最新的中文码表。收录汉字70244个,采用多字节编码,每个字可以由1个、2个或4个字节组成。支持中国国内少数民族的文字,同时支持繁体汉字以及日韩汉字等。

Unicode字符集

  • Unicode编码系统为表达任意语言的任意字符而设计,是业界的一种标准,也称为统一码、标准万国码。
  • 它最多使用4个字节的数字来表达每个字母、符号,或者文字。有三种编码方案,UTF-8、UTF-16和UTF-32。最为常用的UTF-8编码。
  • UTF-8编码,可以用来表示Unicode标准中任何字符,它是电子邮件、网页及其他存储或传送文字的应用中,优先采用的编码。互联网工程工作小组(IETF )要求所有互联网协议都必须支持UTF-8编码。所以,我们开发Web应用,也要使用UTF-8编码。它使用一至四个字节为每个字符编码,编码规则:
  1. 128个US-ASCll字符,只需一个字节编码。
  2. 拉丁文等字符,需要二个字节编码。
  3. 大部分常用字(含中,使用三个字节编码。
  4. 其他极少使用的Unicode辅助字符,使用四字节编码。

编码引出的问题

在IDEA中,使用FileReader读取项目中的文本文件。由于IDEA的设置,都是默认的UTF-8编码,所以没有任何问题。但是,当读取Windows系统中创建的文本文件时,由于Windows系统的默认是GBK编码,就会出现乱码。

import java.io.BufferedOutputStream;
import java.io.FileOutputStream;
import java.io.FileReader;
import java.io.IOException;

/*
     FileReoder可以读取IDE默认编码格式(UTF-8)的文件
     FiLeReader读取系统默认编码(中文GBK)会产生乱码
 */
public class DemosFileReader {
    public static void main(String[] args) throws IOException {
        FileReader fr = new FileReader("FileAndIO\\src\\main\\java\\abc.txt\\我是GBK编码格式的文本文档.txt");
        int len = 0;
        while ((len = fr.read())!=-1){
            System.out.print((char)len);
        }
        fr.close();
    }
}

会出现编码和解码使用的规则不一致,就会乱码~

如何解决这个问题呢?

解决方法:使用转换流


OutputStreamWriter类

OutputStreamWriter 是字符流通向字节流的桥梁:可使用指定的 charset 将要写入流中的字符编码成字节。

java.lang.Object
继承者 java.io.Writer
继承者 java.io.OutputStreamWriter

继承自父类的共性成员方法

  1. abstract void close() 关闭此流,但要先刷新它。
  2. abstract void flush() 刷新该流的缓冲。
  3. void write(char[] cbuf) 写入字符数组。
  4. abstract void write(char[] cbuf, int off, int len) 写入字符数组的某一部分。
  5. void write(int c) 写入单个字符。
  6. void write(String str) 写入字符串。
  7. void write(String str, int off, int len) 写入字符串的某一部。

构造方法

  1. OutputStreamWriter(OutputStream out)
    创建使用默认字符编码的 OutputStreamWriter。
  2. OutputStreamWriter(OutputStream out, Charset cs)
    创建使用给定字符集的 OutputStreamWriter。
  3. OutputStreamWriter(OutputStream out, CharsetEncoder enc)
    创建使用给定字符集编码器的 OutputStreamWriter。
  4. OutputStreamWriter(OutputStream out, String charsetName)
    创建使用指定字符集的 OutputStreamWriter。

参数

  1. OutputStream out:字节输出流,可以用来写转换之后的字节到文件中
  2. charsetName:指定的编码表名称,不区分大小写,不指定就默认使用UTF-8

使用步骤

  1. 创建一个OutputStreamWriter对象,构造方法中传递字节输出流和指定的编码表名称。
  2. 使用OutputStreamWriter对象中的方法Write,把字符转换为字节存储到缓冲区中。【编码】
  3. 使用OutputStreamWriter对象中的方法flush,把内存缓冲区中的字节刷新到文件中【使用字节流写字节的过程】
  4. 释放资源
import java.io.*;

public class DemosOutputStreamWriter {
    public static void main(String[] args) throws IOException {
        show1();
    }
/*
    ### 构造方法

1. ==OutputStreamWriter(OutputStream out)==
       创建使用默认字符编码的 OutputStreamWriter。
2. OutputStreamWriter(OutputStream out, Charset cs)
       创建使用给定字符集的 OutputStreamWriter。
3. OutputStreamWriter(OutputStream out, CharsetEncoder enc)
       创建使用给定字符集编码器的 OutputStreamWriter。
4. ==OutputStreamWriter(OutputStream out, String charsetName)==
       创建使用指定字符集的 OutputStreamWriter。

### 参数

1. OutputStream out:字节输出流,可以用来写转换之后的字节到文件中
2. charsetName:指定的编码表名称,不区分大小写,不指定就默认使用UTF-8

### 使用步骤

1. 创建一个OutputStreamWriter对象,构造方法中传递字节输出流和指定的编码表名称。
2. 使用OutputStreamWriter对象中的方法Write,把字符转换为字节存储到缓冲区中。【编码】
3. 使用OutputStreamWriter对象中的方法flush,把内存缓冲区中的字节刷新到文件中【使用字节流写字节的过程】
4. 释放资源
 */
    private static void show1() throws IOException {
        OutputStreamWriter osw = new OutputStreamWriter(new FileOutputStream("FileAndIO\\src\\main\\java\\abc.txt\\i.txt"), "Utf-8");
        OutputStreamWriter osw2 = new OutputStreamWriter(new FileOutputStream("FileAndIO\\src\\main\\java\\abc.txt\\j.txt"), "gbk");
        osw.write("你好 编码解码");
        osw2.write("你好 编码解码");//乱码,因为idea默认utf-8编码解码,我自定义的GBK编码,所以在idea里会乱码
        osw.flush();
        osw.close();
        osw2.flush();
        osw2.close();

    }
}

InputStreamReader类

转换流java.io.InputStreamReader,是Reader的子类,是从字节流到字符流的桥梁。它读取字节,并使用指定的字符集将其解码为字符。它的字符集可以由名称指定,也可以接受平台的默认字符集。

java.io . InputstreamReader extends Reader
InputStreamReader:是字节流通向字符流的桥梁:它使用指定的 charset 读取字节并将其解码为字符。(解码:把看不懂的变成能看懂的)

继承自父类的共性成员方法

​ int read(读取单个字符并返回。
​ int read ( char[] cbuf)一次读取多个字符,将字符读入数组。
​ void cLose关团该流并释放与之关联的所有资源。

构造方法

​ InputStreamReader(InputStream in)创建一个使用黑f认字符集的InputStreamReader。
​ InputStreamReader(InputStream in,String charsetName)创建使用指定字符集的InputStreamReader。

参数

​ Inputstream in :字节输入流,用来读取文件中保存的字节
​ String charsetName :指定的编码表名称,不区分大小写,可以是utf-8/UTF-8,gbk/GEK . . ..不指定默认使用UuTF-8

使用步骤

​ 1.创建InputStreamReader对象,构造方法中传递字节输入流和指定的编码表名称
​ 2.使用工nputstreamReader对象中的方法read读取文件
​ 3.释放资源

注意事项

​ 构造方法中指定的编码表名称要和文件的编码相同,否则会发生乱码


import java.io.*;

public class DemosInputStreamReader {
    public static void main(String[] args) throws IOException {
        show1();
    }
/*
    java.io . InputstreamReader extends Reader
    InputStreamReader:是字节流通向字符流的桥梁:它使用指定的 charset 读取字节并将其解码为字符。(解码:把看不懂的变成能看懂的)

    继承自父类的共性成员方法:
        int read(读取单个字符并返回。
        int read ( char[] cbuf)一次读取多个字符,将字符读入数组。
        void cLose关团该流并释放与之关联的所有资源。

    构造方法:
        InputStreamReader(InputStream in)创建一个使用黑f认字符集的InputStreamReader。
        InputStreamReader(InputStream in,String charsetName)创建使用指定字符集的InputStreamReader。
    参数:
        Inputstream in :字节输入流,用来读取文件中保存的字节
        String charsetName :指定的编码表名称,不区分大小写,可以是utf-8/UTF-8,gbk/GEK . . ..不指定默认使用UuTF-8

    使用步骤:
        1.创建InputStreamReader对象,构造方法中传递字节输入流和指定的编码表名称
        2.使用工nputstreamReader对象中的方法read读取文件
        3.释放资源

    注意事项:
        构造方法中指定的编码表名称要和文件的编码相同,否则会发生乱码
 */
    private static void show1() throws IOException {
        InputStreamReader isr = new InputStreamReader(new FileInputStream("FileAndIO\\src\\main\\java\\abc.txt\\i.txt"), "utf-8");
        InputStreamReader isr2 = new InputStreamReader(new FileInputStream("FileAndIO\\src\\main\\java\\abc.txt\\j.txt"), "GBK");
        InputStreamReader isr3 = new InputStreamReader(new FileInputStream("FileAndIO\\src\\main\\java\\abc.txt\\j.txt"), "UTF-8");

        int len = 0;
        while ((len = isr.read())!=-1){
            System.out.print((char) len);
        }
        System.out.print("\r\n");
        while ((len = isr2.read())!=-1){
            System.out.print((char) len);
        }
        System.out.print("\r\n");
        while ((len = isr3.read())!=-1){
            System.out.print((char) len);
        }
        isr.close();
        isr2.close();
        isr3.close();
    }
}


练习题:转换文件编码

import java.io.*;

public class DemosTest {
    public static void main(String[] args) throws IOException {
        show1();
    }
/*
练习:转换文件编码
    将GBk编码的文本文件,转换为UTF-8编码的文本文件。

分析:
    1.创建InputStreamReader对象,构造方法中传递字节输入流和指定的编码表名称GBK
    2.创建outputStreamwriter对象,构造方法中传递字节输出流和指定的编码表名称UTF-8
    3.使用InputStreamReader对象中的方法read读取文件
    4.使用outputStreamlwriter对象中的方法wvrite,把读取的数据写入到文件中5 .释放资源
 */
    private static void show1() throws IOException {
        InputStreamReader isr = new InputStreamReader(new FileInputStream("FileAndIO\\src\\main\\java\\abc.txt\\我是GBK编码格式的文本文档.txt"), "GBK");
        OutputStreamWriter osw = new OutputStreamWriter(new FileOutputStream("FileAndIO\\src\\main\\java\\abc.txt\\k.txt"), "UTF-8");
        int len = 0;
        char[] chars = new char[1024];
        while ((len = isr.read(chars))!=-1){
            osw.write(chars,0,len);
        }
        osw.close();
        isr.close();
    }
}

posted @ 2021-05-07 18:54  牛牛ō^ō  阅读(104)  评论(0编辑  收藏  举报