巧妙复制一个流

场景

实际业务中可能出现重复消费一个可读流的情况，比如在前置过滤器解析请求体，拿到body进行相关权限及身份认证；认证通过后框架或者后置过滤器再次解析请求体传递给业务上下文。因此，重复消费同一个流的需求并不奇葩，这类似于js上下文中通过 deep clone一个对象来操作这个对象副本，防止源数据被污染。

const Koa = require('koa');
const app = new Koa();

let parse = function(ctx){
    return new Promise((res)=>{
        let chunks = [],len  = 0, body = null;
        ctx.req.on('data',(chunk)=>{
            chunks.push(chunk)
            len += chunk.length
        });
        ctx.req.on('end',()=>{
            body = (Buffer.concat(chunks,len)).toString();
            res(body);
        });
    })
}
// 认证
app.use(async (ctx,next) => {
    let body = JSON.parse(decodeURIComponent(await parse(ctx)));
    if(body.name != 'admin'){
        return ctx.body = 'permission denied!'
    }
    await next();
})
// 解析body体，传递给业务层
app.use(async (ctx,next) => {
    let body = await parse(ctx);
    ctx.postBody = body;
    await next();
})
app.use(async ctx => {
  ctx.body = 'Hello World\n';
  ctx.body += `post body: ${ctx.postBody}`;
});

app.listen(3000);

上述代码片段无法正常运行，请求无法得到响应。这是因为在前置过滤器的认证逻辑中消费了请求体，在第二级过滤器中就无法再次消费请求体，因此请求会阻塞。实际业务中，认证逻辑往往是与每个公司规范相关的，是一个“二方库”；而示例中的第二季过滤器则通常作为一个三方库存在，因此为了不影响第三方包消费请求体，必须在认证的二方包中保存 ctx.req 这个可读流的数据仍然存在，这就涉及到本文的主旨了。

实现

复制流并不像复制一个对象一样简单与直接，流的使用是一次性的，一旦一个可读流被消费（写入一个Writeable对象中），那么这个可读流就是不可再生的，无法再使用。可是通过一些简单的技巧可以再次复原一个可读流，不过这个复原出来的流虽然内容和之前的流相同，但却不是同一个对象了，因此这两个对象的属性及原型都不同，这往往会影响后续的使用，不过办法总是有的，且看下文。

实现一：可读流的“影分身之术”

可读流的“影分身之术”和鸣人的差不多，不过仅限于被克隆对象的流这一特性，即保证克隆出的流有着相同的数据。但是克隆出来的流却无法拥有原对象的其他属性，但我们可通过原型链继承的方式实现属性及方法的继承。

let Readable = require('stream').Readable;
let fs = require('fs');
let path = require('path');

class NewReadable extends Readable{
    constructor(originReadable){
        super();
        this.originReadable = originReadable;
        this.start();
    }

    start() {
        this.originReadable.on('data',(chunck)=>{
            this.push(chunck);
        });

        this.originReadable.on('end',()=>{
            this.push(null);
        });
        
        this.originReadable.on('error',(e)=>{
            this.push(e);
        });
    }

    // 作为Readable的实现类，必须实现_read函数，否则会throw Error
    _read(){
    }
}

app.use(async (ctx,next) => {
    let cloneReq = new NewReadable(ctx.req);
    let cloneReq2 = new NewReadable(ctx.req);
    // 此时，ctx.req已被消费完(没有内容)，所有的数据都完全在克隆出的两个流上

    // 消费cloneReq，获取认证数据
    let body = JSON.parse(decodeURIComponent(await parse({req: cloneReq})));

    // 将克隆出的cloneReq2重新设置原型链，继承ctx.req原有属性
    cloneReq2.__proto__ = ctx.req;
    // 此后重新给ctx.req复制，留给后续过滤器消费
    ctx.req = cloneReq2;

    if(body.name != 'admin'){
        return ctx.body = 'permission denied!'
    }
    await next();
})

点评: 这种影分身之术可以同时复制出多个可读流，同时需要针对原来的流重新进行赋值，并继承原有属性，这样才能不影响后续的重复消费。

实现二：懒人实现

stream模块有一个特殊的类，即 Transform。关于Transfrom的特性，我曾在 深入node之Transform 一文中详细介绍过，他拥有可读可写流双重特性，那么利用Transfrom可以快速简单的实现克隆。

首先，通过 pipe 函数将可读流导向两个 Transform流（之所以是两个，是因为需要在前置过滤器消费一个流，后续的过滤器消费第二个）。

let cloneReq = new Transform({
    highWaterMark: 10*1024*1024,
    transform: (chunk,encode,next)=>{
        next(null,chunk);
    }
});
let cloneReq2 = new Transform({
    highWaterMark: 10*1024*1024,
    transform: (chunk,encode,next)=>{
        next(null,chunk);
    }
});
ctx.req.pipe(cloneReq)
ctx.req.pipe(cloneReq2)

上述代码中，看似 ctx.req 流被消费（pipe）了两次，实际上 pipe 函数则可以看成 Readable和Writeable实现backpressure的一种“语法糖”实现，具体可通过 node中的Stream－Readable和Writeable解读了解，因此得到的结果就是“ctx.req被消费了一次，可是数据却复制在cloneReq和cloneReq2这两个Transfrom对象的读缓冲区里，实现了clone”

其实pipe针对Readable和Writeable做了限流，首先针对Readable的data事件进行侦听，并执行Writeable的write函数，当Writeable的写缓冲区大于一个临界值（highWaterMark），导致write函数返回false（此时意味着Writeable无法匹配Readable的速度，Writeable的写缓冲区已经满了），此时，pipe修改了Readable模式，执行pause方法，进入paused模式，停止读取读缓冲区。而同时Writeable开始刷新写缓冲区，刷新完毕后异步触发drain事件，在该事件处理函数中，设置Readable为flowing状态，并继续执行flow函数不停的刷新读缓冲区，这样就完成了pipe限流。需要注意的是，Readable和Writeable各自维护了一个缓冲区，在实现的上有区别：Readable的缓冲区是一个数组，存放Buffer、String和Object类型；而Writeable则是一个有向链表，依次存放需要写入的数据。

最后，在数据复制的同时，再给其中一个对象复制额外的属性即可：

// 将克隆出的cloneReq2重新设置原型链，继承ctx.req原有属性
cloneReq2.__proto__ = ctx.req;
// 此后重新给ctx.req复制，留给后续过滤器消费
ctx.req = cloneReq2;

至此，通过Transform实现clone已完成。完整的代码如下(最前置过滤器)：

// 认证
app.use(async (ctx,next) => {
    // let cloneReq = new NewReadable(ctx.req);
    // let cloneReq2 = new NewReadable(ctx.req);
    let cloneReq = new Transform({
        highWaterMark: 10*1024*1024,
        transform: (chunk,encode,next)=>{
            next(null,chunk);
        }
    });
    let cloneReq2 = new Transform({
        highWaterMark: 10*1024*1024,
        transform: (chunk,encode,next)=>{
            next(null,chunk);
        }
    });
    ctx.req.pipe(cloneReq)
    ctx.req.pipe(cloneReq2)
    // 此时，ctx.req已被消费完(没有内容)，所有的数据都完全在克隆出的两个流上

    // 消费cloneReq，获取认证数据
    let body = JSON.parse(decodeURIComponent(await parse({req: cloneReq})));

    // 将克隆出的cloneReq2重新设置原型链，继承ctx.req原有属性
    cloneReq2.__proto__ = ctx.req;
    // 此后重新给ctx.req复制，留给后续过滤器消费
    ctx.req = cloneReq2;

    if(body.name != 'admin'){
        return ctx.body = 'permission denied!'
    }
    await next();
})

说明

ctx.req执行两次pipe到对应cloneReq和cloneReq2，然后立即消费cloneReq对象，这样合理吗？如果源数据够大，pipe还未结束就在消费cloneReq，会不会有什么问题？

其实 pipe函数里面大多是异步操作，即针对源和目的流做的一些流控措施。目的流使用的是cloneReq对象，该对象在实例化的过程中 transform函数直接通过调用next函数将接受到的数据传入到Transform对象的可读流缓存中，同时触发‘readable和data事件’。这样，我们在下文消费cloneReq对象也是通过“侦听data事件”实现的，因此即使ctx.req的数据仍没有被消费完，下文仍可以正常消费cloneReq对象。数据流仍然可以看做是从ctx.req --> cloneReq --> 消费。
使用Transform流实现clone 可读流的弊端：

上例中，Transfrom流的实例化传入了一个参数 highWaterMark,该参数在Transfrom中的作用在上文 深入node之Transform 中有过详解，即当Transfrom流的读缓冲大小 < highWaterMark时，Transfrom流就会将接收到的数据存储在读缓冲里，等待消费，同时执行 transfrom函数；否则什么都不做。

因此，当要clone的源内容大于highWaterMark时，就无法正常使用这种方式进行clone了，因为由于源内容>highWaterMark，在没有后续消费Transfrom流的情况下就不执行transfrom方法（当Transfrom流被消费时，Transfrom流的读缓冲就会变小，当其大小<highWaterMark时，又可以执行transfrom方法继续存储源数据），无法存储源文件内容。

所以设置一个合理的highWaterMark大小很重要，默认的highWaterMark为 16kB。

posted @ 2018-08-20 11:07 royalrover 阅读(1423) 评论(0) 收藏举报

刷新页面返回顶部

巧妙复制一个流

场景

实现

实现一：可读流的“影分身之术”

实现二：懒人实现

公告