一个低级错误引发Netty编码解码中文异常
发布时间:2019-10-04 15:49

最近在调研Netty的使用,在编写编码解码模块的时候遇到了一个中文字符串编码和解码异常的情况,后来发现是笔者犯了个低级错误。这里做一个小小的回顾。

在设计Netty的自定义协议的时候,发现了字符串类型的属性,一旦出现中文就会出现解码异常的现象,这个异常并不一定出现了Exception,而是出现了解码之后字符截断出现了人类不可读的字符。编码和解码器的实现如下:

// 实体
@Data
public class ChineseMessage implements Serializable {
 private long id;
 private String message;
// 编码器 - 错误示范,不要拷贝 
public class ChineseMessageEncoder extends MessageToByteEncoder ChineseMessage {
 @Override
 protected void encode throws Exception {
 // 写入ID
 out.writeLong);
 String message = target.getMessage;
 int length = message.length;
 // 写入Message长度
 out.writeInt;
 // 写入Message字符序列
 out.writeCharSequence;
// 解码器
public class ChineseMessageDecoder extends ByteToMessageDecoder {
 @Override
 protected void decode throws Exception {
 // 读取ID
 long id = in.readLong;
 // 读取Message长度
 int length = in.readInt;
 // 读取Message字符序列
 CharSequence charSequence = in.readCharSequence;
 ChineseMessage message = new ChineseMessage;
 message.setId;
 message.setMessage);
 out.add;
复制代码

简单地编写客户端和服务端代码,然后用客户端服务端发送一条带中文的消息:

// 服务端日志
接收到客户端的请求:ChineseMessage
io.netty.handler.codec.DecoderException: java.lang.IndexOutOfBoundsException: readerIndex + length exceeds writerIndex ......
// 客户端日志
接收到服务端的响应:ChineseMessage
io.netty.handler.codec.DecoderException: java.lang.IndexOutOfBoundsException: readerIndex + length exceeds writerIndex ......
复制代码

其实,问题就隐藏在编码解码模块中。由于笔者前两个月一直996,在疯狂编写CRUD代码,业余在看Netty的时候,有一些基础知识一时短路没有回忆起来。笔者带着这个问题在各大搜索引擎中搜索,有可能是姿势不对或者关键字不准,没有得到答案,加之,很多博客文章都是照搬其他人的Demo,而这些Demo里面恰好都是用英文编写消息体例子,所以这个问题一时陷入了困局。

2019年国庆假期前夕,由于团队一直在赶进度做一个前后端不分离的CRUD后台管理系统,当时有几个同事在做一个页面的时候讨论一个乱码的问题。在他们讨论的过程中,无意蹦出了两个让笔者突然清醒的词语:乱码和UTF-8。笔者第一时间想到的是刚用Cnblogs的时候写过的一篇文章:《小伙子又乱码了吧-Java字符编码原理总结》。当时有对字符编码的原理做过一些探究,想想有点惭愧,1年多前看过的东西差不多忘记得一干二净。

直接说原因:UTF-8编码的中文,大部分情况下一个中文字符长度占据3个字节,而Java中字符串长度的获取方法String#length是返回String实例中的Char数组的长度。但是我们多数情况下会使用Netty的字节缓冲区ByteBuf,而ByteBuf读取字符序列的方法需要预先指定读取的长度ByteBuf#readCharSequence;,因此,在编码的时候需要预先写入字符串序列的长度。但是有一个隐藏的问题是:ByteBuf#readCharSequence方法底层会创建一个length长度的byte数组作为缓冲区读取数据,由于UTF-8中1 char = 3 or 4 byte,因此ChineseMessageEncoder在写入字符序列长度的时候虽然字符个数是对的,但是每个字符总是丢失2个-3个byte的长度,而ChineseMessageDecoder在读取字符序列长度的时候总是读到一个比原来短的长度,也就是最终会拿到一个不完整或者错误的字符串序列。

UTF-8编码的中文在大多数情况下占3个字节,在一些有生僻字的情况下可能占4个字节。可以暴力点直接让写入字节缓冲区的字符序列长度扩大三倍,只需修改编码器的代码:

public class ChineseMessageEncoder extends MessageToByteEncoder ChineseMessage {
 @Override
 protected void encode throws Exception {
 // 写入ID
 out.writeLong);
 String message = target.getMessage;
 int length = message.length * 3; // 1 直接扩大字节序列的预读长度
 // 写入Message长度
 out.writeInt;
 // 写入Message字符序列
 out.writeCharSequence;
复制代码

当然,这样做太暴力,硬编码的做法既不规范也不友好。其实Netty已经提供了内置的工具类io.netty.buffer.ByteBufUtil:

// 获取UTF-8字符的最大字节序列长度
public static int utf8MaxBytes{}
// 写入UTF-8字符序列,返回写入的字节长度 - 建议使用此方法
public static int writeUtf8{}
复制代码

我们可以先记录一下writerIndex,先写一个假的值,再使用ByteBufUtil#writeUtf8写字符序列,然后根据返回的写入的字节长度,通过writerIndex覆盖之前写入的假值:

public class ChineseMessageEncoder extends MessageToByteEncoder ChineseMessage {
 @Override
 protected void encode throws Exception {
 out.writeLong);
 String message = target.getMessage;
 // 记录写入游标
 int writerIndex = out.writerIndex;
 // 预写入一个假的length
 out.writeInt;
 // 写入UTF-8字符序列
 int length = ByteBufUtil.writeUtf8;
 // 覆盖length
 out.setInt;
复制代码

至此,问题解决。如果遇到其他Netty编码解码问题,解决的思路是一致的。

Netty学习过程中,编码解码占一半,网络协议知识和调优占另一半。

Netty的源码很优秀,很有美感,阅读起来很舒适。

Netty真好玩。

服务热线
在线咨询