• 博客园logo
  • 会员
  • 众包
  • 新闻
  • 博问
  • 闪存
  • 赞助商
  • HarmonyOS
  • Chat2DB
    • 搜索
      所有博客
    • 搜索
      当前博客
  • 写随笔 我的博客 短消息 简洁模式
    用户头像
    我的博客 我的园子 账号设置 会员中心 简洁模式 ... 退出登录
    注册 登录
Y-wee
博客园    首页    新随笔    联系   管理     

FileInputStream读中文乱码问题

FileInputStream读中文乱码问题

1、前提

以读取编码是GBK的文件为案例,文件内容只有中文和中文符号

2、原因

FileInputStream读中文乱码是因为一个中文对应两个字节存储(负数),也就是说,读取对应中文的字节数应该是偶数; 而英文对应一个字节存储。FileInputStream每次读取一个数组长度的字节时,读取的中文字节数可能是奇数,也就是只读到中文的一半字节,出现乱码。

3、解决方法

  • 一次读取所有字节,此方法不靠谱,因为不确定总字节数。

  • 在输出时进行判断,遍历数组判断负数的个数,如果是奇数,说明读取到中文的一半字节,对数组进行扩容再输出;否则正常输出

4、代码案例

package 第二题;
​
import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.IOException;
import java.io.UnsupportedEncodingException;
import java.util.Arrays;
​
public class MainTest {
​
public static void main(String[] args) throws UnsupportedEncodingException {
// 创建File对象
File file = new File("D:\\filetest\\file4.txt");
FileInputStream fileInputStream = null;
try {
// 新建一个FileInputStream对象
fileInputStream = new FileInputStream(file);
// 新建一个字节数组
byte[] buf = new byte[2];
// read(buf):此方法的返回值就是当前读取的字节个数,将数据读取到buf数组
// 将readLen变量也就是read方法的返回值,当此变量等于-1,则读到文件末尾
int readLen = -1;
            //读取文件数据
while ((readLen = fileInputStream.read(buf)) != -1) {
int pos=0;//记录负数的个数
for(byte v:buf)
{
if(v<0)
{
pos++;
}
}
//负数个数为偶数,读取完整,没有读取到半个中文
if(pos%2==0)
{
// 将字节数组转换成字符串
String content = new String(buf, 0, readLen);
System.out.print(content);
}else {//负数个数为奇数,读取不完整,会乱码
 //再读取下一位字节
                   int nextByteValue=fileInputStream.read();
                   int nextLen=readLen+1;
                   //字节数组扩容一位
                   buf= Arrays.copyOf(buf,nextLen);
                   buf[readLen]= (byte) nextByteValue;
                   String content=new String(buf,0,nextLen);
                   System.out.print(content);
//奇数,字节补全
//针对数组扩容一个字节单元
/* buf=Arrays.copyOf(buf, readLen+1);
int nextByteValue=fileInputStream.read();
           buf[readLen]= (byte) nextByteValue;
      String content = new String(buf, 0, readLen);
System.out.print(content);*/
}
}
} catch (FileNotFoundException e) {
// 输出堆栈信息
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
} finally {
try {
// 文件输入流关闭(释放资源)
fileInputStream.close();
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
}
}
​

5、补充内容

ANSI编码代表本地编码,中文默认是GBK。 https://www.cnblogs.com/yaya-yaya/p/5768616.html编码参考资料

 

记得快乐
posted @ 2020-08-01 13:49  Y-wee  阅读(1777)  评论(0)    收藏  举报
刷新页面返回顶部
博客园  ©  2004-2025
浙公网安备 33010602011771号 浙ICP备2021040463号-3