HivePlus|兼容Hive的大数据高性能处理引擎

产品优势

为什么选择 HivePlus

兼容 Hive，不被绑定 — 平滑迁移，即刻享受性能提升

🔗

完全兼容Hive

100%兼容HiveSQL语法与语义，现有查询、UDF、Metastore 无需任何修改。更换Beeline/JDBC 连接串即可切换，随时可切回Apache Hive，零供应商锁定。

⚡

性能显著提升

在TPC-DS 10TB标准测试中，顺序执行总时间与Doris持平，是Apache Hive 5倍，Spark4的1.5倍。高并发场景下优势更为明显，30个并发执行成功率100%。

📦

数据不动，平滑迁移

保持原有HDFS和Hive Metastore数据不动，共享同一份存储。充分保护已有IT投资，低数据迁移成本和风险。

🔀

统一交互与批处理

内置容量调度器，一套系统同时服务交互式查询与ETL批处理。可以替代Doris+Spark双栈方案，运维简化、降本增效。

☁️

随处运行

支持Kubernetes、Hadoop YARN、独立进程等多种部署模式。同时支持HDFS与S3存储，支持计算存储分离。

🛡️

UI增强

增强版UI开箱即用，较以往TezUI更易使用，全面提升DAG作业可观测性。

性能基准

标准测试，综合性能优异

基于TPC-DS 10TB标准基准测试，103条查询，使用业内认可的测试方法。

TPC-DS 10TB

HivePlus vs Doris vs Spark

单次执行与Doris(外表)基本持平，是Spark4的1.5倍，是Hive4的5倍。高并发场景下优势持续扩大，并发度越高领先越多。执行稳定性远超竞品，30个并发全部执行成功，其他均执行超时或失败。

比Hive4快

比Spark4快

并发执行成功率

单次执行总时间

HivePlus

单次执行总时间

Hive4

20并发执行总时间

HivePlus

顺序执行总时间

Spark4

单次查询总执行时间 10TB TPC-DS

HivePlus与Doris4(外表)基本持平，领先Hive4和Spark4。

HivePlus

4725s

Doris4

4223s

Spark4

7283s

Hive4

25201s

HivePlus

Doris

Spark

Hive/Tez

高并发最长查询时间 (秒) 并发越强优势越大

随着并发度提升，HivePlus的性能优势持续扩大，Doris超过5个并发以上执行超时较多，Hive并发查询比较长。

并发 5

HivePlus 12311s

Spark4 13706s

并发 10

HivePlus 18256s

Spark4 19212s

并发 15

HivePlus 24233s

Spark4 31719s

并发 20

HivePlus 29320s

Spark4 34512s

HivePlus

Spark

执行稳定性对比标准差越低越稳定

HivePlus 在高并发下保持极低的查询时间标准差，远超竞品

并发 5

HivePlus 35s

Spark4 239s

并发 10

HivePlus 78s

Spark4 281s

并发 15

HivePlus 296s

Spark4 751s

并发 20

HivePlus 478s

Spark4 810s

HivePlus

Spark

统一架构

统一交互查询与批处理

一套系统，同时满足交互式分析与大吞吐批处理需求

🖥️

交互式查询(OLAP)

通过内置容量调度器，交互式查询可分配更高优先级，确保秒级响应。结合LLAP I/O缓存加速数据读取，实现类MPP的交互体验

⚙️

批处理 (ETL)

长时间运行的 ETL任务在后台可靠执行，利用完善的容错机制和Task/Vertex重运行确保任务完成。批处理任务可充分利用空闲资源

👥

交互式查询

低延迟优先

HivePlus

容量调度器

⚙️

批处理任务

高吞吐优先

传统方案需要分别部署 Doris或者Trino等MPP数据库（交互）+ Hive、Spark等（批处理）两套系统，运维复杂、成本翻倍。 HivePlus 用一套系统统一两者 — 一个系统就够了。

灵活部署（即将发布）

随处运行，存算分离

不受环境限制，本地、云端或混合部署均可运行

☁️

Kubernetes原生

支持Helm Chart和TypeScript生成器部署，即速完成生产环境搭建。

🐘

Hadoop兼容

完整兼容现有Hadoop集群，无缝替换Tez执行引擎，零迁移成本。

💻

独立运行

无需YARN或K8S，可作为独立进程运行，适合开发测试和小规模场景。

🗄️

多存储后端

同时支持HDFS 和S3，实现计算与存储完全分离，可选启用智能缓存。

🌐

混合云部署

支持本地、云端或混合部署，结合Spot实例与自动伸缩大幅降低成本。

🔐

安全控制

继承Hive安全体系，支持原有Hadoop集群的Ranger、Kerberos等认证授权。

底层引擎

新一代DAG调度引擎

⚡

并发DAG执行

Session模式下支持多个DAG并发执行。结合ContainerGroup跨DAG共享Worker，实验显示可将Worker分配量减少40倍，执行时间缩短30%。

📦

ContainerGroup

将Worker按特征分组，同一组可跨Vertex、跨DAG共享。Worker可并发执行来自不同DAG的TaskAttempt，最大化资源复用。

🧠

DAG/Task 智能调度

支持common/individual/capacity三种模式，支持动态调整优先级。

🔄

多模式运行架构

DAGAppMaster支持LocalThread/LocalProcess/Yarn/Kubernetes 四种模式，ContainerWorker 同样四种模式，可自由组合甚至混合使用。

🛡️

完善容错机制

完整实现 Task/Vertex 级重运行（rerun），从 fetch-failure 正确恢复。被抢占 TaskAttempt 不计入重试次数，确保Spot实例场景可靠执行。

📊

HivePlus Shuffle Handler

内置Shuffle Handler作为DaemonTask运行，无需外部Shuffle服务。单个Worker可并发运行多个Shuffle Handler，区别于Tez/Spark的单Handler限制。

🔧

DaemonTask

自定义后台服务框架，在新Worke 创建时自动启动，状态全局共享。利用此机制运行LLAP I/O服务和内置Shuffle Handler。

📈

自动弹性伸缩

基于内存利用率的三态调度器（STABLE/SCALE_OUT/SCALE_IN），扩容自动请求新Worker，缩容等待DAG完成后回收节点。

🎯

推测执行

自动检测慢任务并启动备份TaskAttempt，与多Shuffle Handler协同规避Fetch 延迟。

未来布局

技术路线图

从 HivePlus 到 AI Native，持续演进

已发布

HivePlus

首个本地化生产Ready版本，在数据处理领域验证引擎的卓越性能。

持续优化

Shuffle 优化深化

进一步提升Shuffle Handler性能，降低数据延迟。

即将发布

完善异构环境统一调度

优化整合K8s/YARN/Local多种部署方式，不同异构环境的计算资源全面整合。

规划中

打破Task:Slot 1:1 限制

突破传统Task与Slot一对一绑定，允许多个Task交叉复用同一Slot。

规划中

DAG算法增强

深入优化DAG算法，更智能的任务调度与资源分配。

愿景

AI Native 架构

为LLM和AI工作负载原生支持，成为AI基础设施核心。

面向未来

AI Native Ready

正在为 AI 时代构建新一代数据处理基础设施

🦆

现代引擎集成

兼容MotherDuck等云端数据服务体系，让AI工作负载直连云端现代数据处理引擎。

⚡

智能DAG调度

同样的资源，更强承载。传统批处理优化经验可延伸至AI工作负载。

🪶

轻量化设计

只需一个命令，即可开始使用。无需繁重的集群配置，开箱即用。