开源AI、BI工具DataEase 连接Cloudera CMP 7.3(或类 CDP 的 CMP 7.13 平台,如华为鲲鹏 ARM 版)支持Hadoop大数据源
截至 2025 年 11 月,DataEase(v2.10+ 版本) 作为一款国产开源、可私有化部署的 BI 可视化工具,已支持对接多种 CMP 7.3 生态及其他主流大数据源。其核心连接方式为 JDBC/ODBC 或原生驱动,适用于金融、政务、制造等行业的混合数据架构。
以下是 DataEase 官方支持或经社区验证可稳定连接 的 CMP 7.3 及相关hadoop大数据源清单:
✅ 一、CMP 7.3 生态核心组件
|
数据源 |
支持方式 |
驱动要求 |
备注 |
|
Apache Hive |
✅ JDBC |
hive-jdbc-*.jar(推荐使用集群配套版本) |
支持 HiveServer2,兼容 CDH / CMP / MRS 等发行版 |
|
Impala |
✅ JDBC(自定义) |
Cloudera 官方 ImpalaJDBC42.jar |
需手动上传驱动,填写自定义 JDBC URL |
|
Spark SQL |
✅ Thrift Server (JDBC) |
spark-thriftserver-jdbc.jar 或 hive-jdbc |
需启动 Spark Thrift Server |
|
HBase |
⚠️ 间接支持 |
通过 Phoenix JDBC |
需部署 Apache Phoenix 提供 SQL 接口 |
|
Kudu |
❌ 不直接支持 |
— |
可通过 Impala 查询 Kudu 表(间接支持) |
💡 提示:Hive 和 Impala 是 DataEase 在 CMP 7.3 场景中最成熟、最常用的数据源。
✅ 二、其他主流大数据/分析型数据库(非 CMP 7.3 但常共存)
|
数据源 |
支持方式 |
驱动要求 |
兼容性说明 |
|
ClickHouse |
✅ 原生支持 |
内置 JDBC 驱动 |
v2.1+ 起官方集成,性能优异 |
|
Doris / Apache Doris |
✅ 原生支持 |
内置 MySQL 协议驱动 |
通过 MySQL JDBC 连接(Doris 兼容 MySQL 协议) |
|
StarRocks |
✅ 原生支持 |
内置 MySQL JDBC |
同 Doris,使用 MySQL 方式连接 |
|
Presto / Trino |
✅ JDBC |
trino-jdbc-*.jar |
需上传驱动,URL 格式:jdbc:trino://host:8080/catalog |
|
Kylin |
✅ JDBC |
kylin-jdbc-*.jar |
查询构建好的 Cube,适合预聚合场景 |
|
Elasticsearch |
⚠️ 有限支持 |
通过 JDBC 插件(如 elasticsearch-sql-jdbc) |
社区方案,复杂查询可能受限 |
|
MongoDB |
❌ 不支持 |
— |
无 SQL 接口,无法通过 JDBC 直连(需 ETL 到关系库) |
✅ 三、传统关系型 & 云数仓(常与 CMP 7.3 混合使用)
|
数据源 |
支持情况 |
|
MySQL / PostgreSQL / Oracle / SQL Server |
✅ 原生内置,开箱即用 |
|
华为 GaussDB |
✅ 支持(通过 PostgreSQL 或 MySQL 模式) |
|
阿里云 AnalyticDB |
✅ 支持(MySQL 或 PostgreSQL 版本) |
|
Snowflake |
⚠️ 理论可行(JDBC),但国内网络和许可证限制 |
|
Redshift |
⚠️ 需上传 Amazon JDBC 驱动,海外环境适用 |
🔧 四、连接通用方法(以 CMP 7.3 生态为例)
步骤 1:获取对应 JDBC 驱动
- Hive / Spark SQL:从集群管理平台(如 CDH Manager、MRS Client)下载配套 hive-jdbc-standalone.jar
- Impala:从 Cloudera 官网 下载
- Trino:从 Trino 官网 获取 JDBC
步骤 2:在 DataEase 中注册驱动
- 路径:系统设置 → 数据源驱动 → 新增驱动
- 类型选择:
- Hive / Spark SQL → 选 “Hive”
- Impala / Trino / Kylin → 选 “自定义 JDBC”
- 上传 JAR 文件,填写驱动类(如 org.apache.hive.jdbc.HiveDriver)
步骤 3:创建数据源
- 填写 JDBC URL、用户名、密码
- 示例(Hive on MRS):
Text
编辑
1jdbc:hive2://zk1:2181,zk2:2181/;serviceDiscoveryMode=zooKeeper;zooKeeperNamespace=hiveserver2
📊 五、典型混合架构支持场景
✅ DataEase 可同时连接上述多个数据源,并在仪表板中跨源联动(需通过“关联数据集”功能)。
⚠️ 六、注意事项
- Kerberos 认证:DataEase 不原生支持 Kerberos,若 CMP 7.3 集群启用 Kerberos,建议:
- 使用 LDAP 账号直连(关闭 Kerberos)
- 或通过 Knox 网关代理(JDBC over HTTPS + LDAP)
- 复杂嵌套类型:Hive 中的 STRUCT/ARRAY 字段需在 SQL 中展开(如 col.field),否则无法识别;
- 查询性能:避免在 DataEase 中执行全表扫描,建议在 Hive/Impala 中预计算或分区裁剪。
✅ 总结:DataEase 对 CMP 7.3 生态的支持矩阵
|
组件 |
是否支持 |
推荐度 |
连接方式 |
|
Hive |
✅ 强支持 |
⭐⭐⭐⭐⭐ |
JDBC(HiveServer2) |
|
Impala |
✅ 支持 |
⭐⭐⭐⭐ |
自定义 JDBC |
|
Spark SQL |
✅ 支持 |
⭐⭐⭐⭐ |
Thrift Server JDBC |
|
HBase |
⚠️ 间接 |
⭐⭐ |
通过 Phoenix |
|
Kudu |
❌ 不支持 |
⭐ |
需走 Impala 查询 |

浙公网安备 33010602011771号