Hive 是基于 Hadoop 生态的大数据仓库工具,通过类 SQL 的 HQL 语法简化大规模结构化 / 半结构化数据的离线批处理,底层依赖 HDFS 存储数据,计算引擎支持 MapReduce、Tez、Spark 等;其架构包含用户接口、元数据存储(Metastore)、驱动层(编译、优化、执行 HQL),数据模型支持数据库、内 / 外部表、分区、分桶等;虽实时性较差,但能高效处理 PB 级数据,降低大数据分析门槛,广泛应用于数据仓库建设、日志分析、离线报表生成等场景,是离线大数据分析的核心工具之一。