跳到主要内容
完全兼容Hive的高性能计算引擎

HivePlus同一SQL,卓越效能

为什么选择 HivePlus

兼容 Hive,不被绑定 — 平滑迁移,即刻享受性能提升

🔗

完全兼容Hive

100%兼容HiveSQL语法与语义,现有查询、UDF、Metastore 无需任何修改。更换Beeline/JDBC 连接串即可切换,随时可切回Apache Hive,零供应商锁定。

性能显著提升

在TPC-DS 10TB标准测试中,顺序执行总时间与Doris持平,是Apache Hive 5倍,Spark4的1.5倍。高并发场景下优势更为明显,30个并发执行成功率100%。

📦

数据不动,平滑迁移

保持原有HDFS和Hive Metastore数据不动,共享同一份存储。充分保护已有IT投资,低数据迁移成本和风险。

🔀

统一交互与批处理

内置容量调度器,一套系统同时服务交互式查询与ETL批处理。可以替代Doris+Spark双栈方案,运维简化、降本增效。

☁️

随处运行

支持Kubernetes、Hadoop YARN、独立进程等多种部署模式。同时支持HDFS与S3存储,支持计算存储分离。

🛡️

UI增强

增强版UI开箱即用,较以往TezUI更易使用,全面提升DAG作业可观测性。

标准测试,综合性能优异

基于TPC-DS 10TB标准基准测试,103条查询,使用业内认可的测试方法。

TPC-DS 10TB

HivePlus vs Doris vs Spark

单次执行与Doris(外表)基本持平,是Spark4的1.5倍,是Hive4的5倍。 高并发场景下优势持续扩大,并发度越高领先越多。 执行稳定性远超竞品,30个并发全部执行成功,其他均执行超时或失败。

0x
比Hive4快
0x
比Spark4快
0%
并发执行成功率
单次执行总时间
0s
HivePlus
单次执行总时间
0s
Hive4
20并发执行总时间
0s
HivePlus
顺序执行总时间
0s
Spark4
单次查询总执行时间 10TB TPC-DS
HivePlus与Doris4(外表)基本持平,领先Hive4和Spark4。
HivePlus
4725s
Doris4
4223s
Spark4
7283s
Hive4
25201s
HivePlus
Doris
Spark
Hive/Tez
高并发最长查询时间 (秒) 并发越强 优势越大
随着并发度提升,HivePlus的性能优势持续扩大,Doris超过5个并发以上执行超时较多,Hive并发查询比较长。
并发 5
HivePlus 12311s
Spark4 13706s
并发 10
HivePlus 18256s
Spark4 19212s
并发 15
HivePlus 24233s
Spark4 31719s
并发 20
HivePlus 29320s
Spark4 34512s
HivePlus
Spark
执行稳定性对比 标准差越低越稳定
HivePlus 在高并发下保持极低的查询时间标准差,远超竞品
并发 5
HivePlus 35s
Spark4 239s
并发 10
HivePlus 78s
Spark4 281s
并发 15
HivePlus 296s
Spark4 751s
并发 20
HivePlus 478s
Spark4 810s
HivePlus
Spark

统一交互查询与批处理

一套系统,同时满足交互式分析与大吞吐批处理需求

🖥️

交互式查询(OLAP)

通过内置容量调度器,交互式查询可分配更高优先级,确保秒级响应。结合LLAP I/O缓存加速数据读取,实现类MPP的交互体验

⚙️

批处理 (ETL)

长时间运行的 ETL任务在后台可靠执行,利用完善的容错机制和Task/Vertex重运行确保任务完成。批处理任务可充分利用空闲资源

👥
交互式查询
低延迟优先
HivePlus
容量调度器
⚙️
批处理任务
高吞吐优先

传统方案需要分别部署 Doris或者Trino等MPP数据库(交互)+ Hive、Spark等(批处理)两套系统,运维复杂、成本翻倍。 HivePlus 用一套系统统一两者 — 一个系统就够了。

随处运行,存算分离

不受环境限制,本地、云端或混合部署均可运行

☁️

Kubernetes原生

支持Helm Chart和TypeScript生成器部署,即速完成生产环境搭建。

🐘

Hadoop兼容

完整兼容现有Hadoop集群,无缝替换Tez执行引擎,零迁移成本。

💻

独立运行

无需YARN或K8S,可作为独立进程运行,适合开发测试和小规模场景。

🗄️

多存储后端

同时支持HDFS 和S3,实现计算与存储完全分离,可选启用智能缓存。

🌐

混合云部署

支持本地、云端或混合部署,结合Spot实例与自动伸缩大幅降低成本。

🔐

安全控制

继承Hive安全体系,支持原有Hadoop集群的Ranger、Kerberos等认证授权。

计算层 Compute LayerKubernetesK8sHadoop YARNYARNStandaloneLocalHivePlus计算引擎新一代DAG调度引擎HDFS本地存储S3 / OSS对象存储更多存储弹性适配存算一体/存算分离

新一代DAG调度引擎

并发DAG执行

Session模式下支持多个DAG并发执行。结合ContainerGroup跨DAG共享Worker,实验显示可将Worker分配量减少40倍,执行时间缩短30%。

📦

ContainerGroup

将Worker按特征分组,同一组可跨Vertex、跨DAG共享。Worker可并发执行来自不同DAG的TaskAttempt,最大化资源复用。

🧠

DAG/Task 智能调度

支持common/individual/capacity三种模式,支持动态调整优先级。

🔄

多模式运行架构

DAGAppMaster支持LocalThread/LocalProcess/Yarn/Kubernetes 四种模式,ContainerWorker 同样四种模式,可自由组合甚至混合使用。

🛡️

完善容错机制

完整实现 Task/Vertex 级重运行(rerun),从 fetch-failure 正确恢复。被抢占 TaskAttempt 不计入重试次数,确保Spot实例场景可靠执行。

📊

HivePlus Shuffle Handler

内置Shuffle Handler作为DaemonTask运行,无需外部Shuffle服务。单个Worker可并发运行多个Shuffle Handler,区别于Tez/Spark的单Handler限制。

🔧

DaemonTask

自定义后台服务框架,在新Worke 创建时自动启动,状态全局共享。利用此机制运行LLAP I/O服务和内置Shuffle Handler。

📈

自动弹性伸缩

基于内存利用率的三态调度器(STABLE/SCALE_OUT/SCALE_IN),扩容自动请求新Worker,缩容等待DAG完成后回收节点。

🎯

推测执行

自动检测慢任务并启动备份TaskAttempt,与多Shuffle Handler协同规避Fetch 延迟。

技术路线图

从 HivePlus 到 AI Native,持续演进

已发布

HivePlus

首个本地化生产Ready版本,在数据处理领域验证引擎的卓越性能。

持续优化

Shuffle 优化深化

进一步提升Shuffle Handler性能,降低数据延迟。

即将发布

完善异构环境统一调度

优化整合K8s/YARN/Local多种部署方式,不同异构环境的计算资源全面整合。

规划中

打破Task:Slot 1:1 限制

突破传统Task与Slot一对一绑定,允许多个Task交叉复用同一Slot。

规划中

DAG算法增强

深入优化DAG算法,更智能的任务调度与资源分配。

愿景

AI Native 架构

为LLM和AI工作负载原生支持,成为AI基础设施核心。

AI Native Ready

正在为 AI 时代构建新一代数据处理基础设施

🦆

现代引擎集成

兼容MotherDuck等云端数据服务体系,让AI工作负载直连云端现代数据处理引擎。

智能DAG调度

同样的资源,更强承载。传统批处理优化经验可延伸至AI工作负载。

🪶

轻量化设计

只需一个命令,即可开始使用。无需繁重的集群配置,开箱即用。