利用hive源码解析sql查了哪些表哪些字段

在hiveserver2中使用了org.apache.hadoop.hive.ql.parse.BaseSemanticAnalyzer对抽象语法树(AST)进行语义分析,分析的过程可以得出hive查询的表及其字段
于是我利用相关的类去做测试:

package com.baidu.waimai;

import org.apache.hadoop.hive.conf.HiveConf;
import org.apache.hadoop.hive.ql.Context;
import org.apache.hadoop.hive.ql.parse.*;
import org.apache.hadoop.hive.ql.session.SessionState;

public class TestHiveParser {
    public static void main(String[] args) throws Throwable {
//        String sql = "select * from (select name from test.test1 where id = 1) a";
        String sql = "select * from test.test1";

        HiveConf hiveConf = new HiveConf();
        hiveConf.set("hive.stats.collect.tablekeys", "true");
        hiveConf.set("hive.stats.collect.scancols", "true");

        SessionState sessionState = SessionState.start(hiveConf);
        sessionState.initTxnMgr(hiveConf);
        SessionState.setCurrentSessionState(sessionState);

        Context ctx = new Context(hiveConf);
        ctx.setTryCount(Integer.MAX_VALUE);
        ctx.setCmd(sql);
        ctx.setHDFSCleanup(true);

        ParseDriver pd = new ParseDriver();
        ASTNode tree = pd.parse(sql);
        tree = ParseUtils.findRootNonNullToken(tree);
        System.out.println(tree);
        BaseSemanticAnalyzer baseSemanticAnalyzer = SemanticAnalyzerFactory.get(hiveConf, tree);
        System.out.println(baseSemanticAnalyzer);
        baseSemanticAnalyzer.analyze(tree, ctx);
        TableAccessInfo tableAccessInfo = baseSemanticAnalyzer.getTableAccessInfo();
        System.out.println(tableAccessInfo);

        ColumnAccessInfo columnAccessInfo = baseSemanticAnalyzer.getColumnAccessInfo();
        System.out.println(columnAccessInfo);

        sessionState.close();
        ctx.clear();
    }
}

最后可以根据columnAccessInfo去得到查询的表及其字段。
但这么做不太满足我们的需求,比如说下面这句sql,我想要的结果是查询了test.test1表的name字段,但是它连id字段也拿出来了。

select * from (select name from test.test1 where id = 1) a

先记录一下,之后如果找到源码有解决方法的话再更新

posted @ 2017-09-18 15:32  -六月飞雪-  阅读(890)  评论(0编辑  收藏  举报