flink elasticsearch sink table 忽略部分字段开发

接上一篇，实现flink对elasicsearch的source/table

代码 https://github.com/cclient/flink-connector-elasticsearch-sink

flink elasticsearch sink 的 table写，默认会写些'冗余'列进es

es table写，官方支持自定义主键列，和主键列的连接方式(-)

以这几个列连接，计算id ,做为es的_id 写入es

同时也像logstash/nifi 那样支持动态index,配置索引列，写入对的应索引

写入没有问题

问题是这些参于计算的列，也都会一并写入_source,虽然可以通过配置es的mapping，减少这些列的开销，但毕竟doc结构不整洁，看着碍事（实际logstash也有同样的问题，logstash指定的document_id 会写入最终doc source内,和_id重复）

有没有办法不写入这些列？

官方没有这功能，就想办法定制调整

结合flink的应用经验，并结合上篇es source的适配经验，很简单就实现了

1 官方的sink table是dynamic table 生成的是rowdata

2 sink 结合scheme 实现对rowdata的解析，转为json字符串，bulk写入es

问题就出现在这一步，scheme有列信息 rowdata 有列数据

把要转为字符串的rowdata及scheme 都去掉相应的列，问题就应该解决了

添加自定义参数名，ignore-fields 构造时加载

遍历旧scheme，过滤掉ignore-fields 列，生成新的scheme，以scheme做序列化

报错

因为rowdata和scheme不匹配，rowdata内的列也需要去掉

rowdata不支持k/v访问，但字段顺序和scheme一致，通过scheme算出ignore-fields在rowdata内的index

过滤掉rowdata的相关列，重新生成rowdata即可，主要代码rowDataRemoveFiledByIndex

    public RowData rowDataRemoveFiledByIndex(RowData row,int[] ignoreFieldIndeies){
        Object[] newRows=new Object[row.getArity()-ignoreFieldIndeies.length];
        for (int i = 0,j=0; i < row.getArity(); i++) {
            if(!intArrayContains(ignoreFieldIndeies,i)){
                newRows[j]=((GenericRowData)row).getField(i);
                j++;
            }
        }
        return GenericRowData.of(newRows);
    }

    private void processUpsert(RowData row, RequestIndexer indexer) {
        RowData rowData=rowDataRemoveFiledByIndex(row,this.ignoreFieldIndeies);
        byte[] document = this.serializationSchema.serialize(rowData);
        String key = (String)this.createKey.apply(row);
        if (key != null) {
            UpdateRequest updateRequest = this.requestFactory.createUpdateRequest(this.indexGenerator.generate(row), this.docType, key, this.contentType, document);
            indexer.add(new UpdateRequest[]{updateRequest});
        } else {
            IndexRequest indexRequest = this.requestFactory.createIndexRequest(this.indexGenerator.generate(row), this.docType, key, this.contentType, document);
            indexer.add(new IndexRequest[]{indexRequest});
        }

    }

如此问题解决，测试通过，写入es不再会有'冗余'字段

但该方法只是功能满足，实际性能有损失

scheme的加载是一次性的，没有影响

但对每一行数据rowdata，都要过滤字段，执行RowData rowData=rowDataRemoveFiledByIndex(row,this.ignoreFieldIndeies); 生成新的rowdata，大数据下开销相对较大，有一定性能损失

最完美的办法是在序列化的时候，也就是flink的原码基础上做，序列化时对rowdata不必要的字段做过滤，而不是构造一个过滤字段后的rowdata,由flink序列化

更好的办法要调整flink的core和序列化的核心公共代码了，改起来难度稍高，也会影响其他组件，暂时现有的方案

真有必要时再尝试改动序列化部分，编译flink,后部署

posted @ 2021-07-01 08:25 cclient 阅读(581) 评论(1) 收藏举报

刷新页面返回顶部

吾生也有涯，而知也无涯

心有阳光，正视黑暗

flink elasticsearch sink table 忽略部分字段开发

公告