为什么选择 HivePlus
兼容 Hive,不被绑定 — 平滑迁移,即刻享受性能提升
完全兼容Hive
100%兼容HiveSQL语法与语义,现有查询、UDF、Metastore 无需任何修改。更换Beeline/JDBC 连接串即可切换,随时可切回Apache Hive,零供应商锁定。
性能显著提升
在TPC-DS 10TB标准测试中,顺序执行总时间与Doris持平,是Apache Hive 5倍,Spark4的1.5倍。高并发场景下优势更为明显,30个并发执行成功率100%。
数据不动,平滑迁移
保持原有HDFS和Hive Metastore数据不动,共享同一份存储。充分保护已有IT投资,低数据迁移成本和风险。
统一交互与批处理
内置容量调度器,一套系统同时服务交互式查询与ETL批处理。可以替代Doris+Spark双栈方案,运维简化、降本增效。
随处运行
支持Kubernetes、Hadoop YARN、独立进程等多种部署模式。同时支持HDFS与S3存储,支持计算存储分离。
UI增强
增强版UI开箱即用,较以往TezUI更易使用,全面提升DAG作业可观测性。
标准测试,综合性能优异
基于TPC-DS 10TB标准基准测试,103条查询,使用业内认可的测试方法。
HivePlus vs Doris vs Spark
单次执行与Doris(外表)基本持平,是Spark4的1.5倍,是Hive4的5倍。 高并发场景下优势持续扩大,并发度越高领先越多。 执行稳定性远超竞品,30个并发全部执行成功,其他均执行超时或失败。
统一交互查询与批处理
一套系统,同时满足交互式分析与大吞吐批处理需求
交互式查询(OLAP)
通过内置容量调度器,交互式查询可分配更高优先级,确保秒级响应。结合LLAP I/O缓存加速数据读取,实现类MPP的交互体验
批处理 (ETL)
长时间运行的 ETL任务在后台可靠执行,利用完善的容错机制和Task/Vertex重运行确保任务完成。批处理任务可充分利用空闲资源
传统方案需要分别部署 Doris或者Trino等MPP数据库(交互)+ Hive、Spark等(批处理)两套系统,运维复杂、成本翻倍。 HivePlus 用一套系统统一两者 — 一个系统就够了。
随处运行,存算分离
不受环境限制,本地、云端或混合部署均可运行
Kubernetes原生
支持Helm Chart和TypeScript生成器部署,即速完成生产环境搭建。
Hadoop兼容
完整兼容现有Hadoop集群,无缝替换Tez执行引擎,零迁移成本。
独立运行
无需YARN或K8S,可作为独立进程运行,适合开发测试和小规模场景。
多存储后端
同时支持HDFS 和S3,实现计算与存储完全分离,可选启用智能缓存。
混合云部署
支持本地、云端或混合部署,结合Spot实例与自动伸缩大幅降低成本。
安全控制
继承Hive安全体系,支持原有Hadoop集群的Ranger、Kerberos等认证授权。
新一代DAG调度引擎
并发DAG执行
Session模式下支持多个DAG并发执行。结合ContainerGroup跨DAG共享Worker,实验显示可将Worker分配量减少40倍,执行时间缩短30%。
ContainerGroup
将Worker按特征分组,同一组可跨Vertex、跨DAG共享。Worker可并发执行来自不同DAG的TaskAttempt,最大化资源复用。
DAG/Task 智能调度
支持common/individual/capacity三种模式,支持动态调整优先级。
多模式运行架构
DAGAppMaster支持LocalThread/LocalProcess/Yarn/Kubernetes 四种模式,ContainerWorker 同样四种模式,可自由组合甚至混合使用。
完善容错机制
完整实现 Task/Vertex 级重运行(rerun),从 fetch-failure 正确恢复。被抢占 TaskAttempt 不计入重试次数,确保Spot实例场景可靠执行。
HivePlus Shuffle Handler
内置Shuffle Handler作为DaemonTask运行,无需外部Shuffle服务。单个Worker可并发运行多个Shuffle Handler,区别于Tez/Spark的单Handler限制。
DaemonTask
自定义后台服务框架,在新Worke 创建时自动启动,状态全局共享。利用此机制运行LLAP I/O服务和内置Shuffle Handler。
自动弹性伸缩
基于内存利用率的三态调度器(STABLE/SCALE_OUT/SCALE_IN),扩容自动请求新Worker,缩容等待DAG完成后回收节点。
推测执行
自动检测慢任务并启动备份TaskAttempt,与多Shuffle Handler协同规避Fetch 延迟。
技术路线图
从 HivePlus 到 AI Native,持续演进
HivePlus
首个本地化生产Ready版本,在数据处理领域验证引擎的卓越性能。
Shuffle 优化深化
进一步提升Shuffle Handler性能,降低数据延迟。
完善异构环境统一调度
优化整合K8s/YARN/Local多种部署方式,不同异构环境的计算资源全面整合。
打破Task:Slot 1:1 限制
突破传统Task与Slot一对一绑定,允许多个Task交叉复用同一Slot。
DAG算法增强
深入优化DAG算法,更智能的任务调度与资源分配。
AI Native 架构
为LLM和AI工作负载原生支持,成为AI基础设施核心。
AI Native Ready
正在为 AI 时代构建新一代数据处理基础设施
现代引擎集成
兼容MotherDuck等云端数据服务体系,让AI工作负载直连云端现代数据处理引擎。
智能DAG调度
同样的资源,更强承载。传统批处理优化经验可延伸至AI工作负载。
轻量化设计
只需一个命令,即可开始使用。无需繁重的集群配置,开箱即用。