大信息领域列式存储与云存储的融合发展

更高的查询效率：分析场景通常只需要查询部分列（比如“统计各用户的order_amount之和”），列式存储可以直接读取目标列的数据，不需要扫描全表（行式存储必须读完整行）；
更好的压缩比：同一列的数据类型一致（比如order_amount都是数字），可以用更高效的压缩算法（如Snappy、Gzip），压缩比通常是行式存储的3-5倍；
支持谓词下推（Predicate Pushdown）：计算引擎可以将过滤条件（比如“order_amount > 100”）推给存储层，存储层先过滤数据再返回给计算层，减少数据传输量。

常见的列式存储格式

Parquet：Apache基金会项目，支持嵌套数据结构，兼容Spark、Presto等几乎所有大数据引擎；
ORC：Hadoop生态的列式格式，压缩比更高，适合Hive场景；
Delta Lake/Iceberg：云原生表格式（在Parquet之上加元数据层），支持事务、版本控制、增量查询。

1.2 云存储：为“弹性”而生的基础设施

什么是云存储？

云存储是云计算厂商提供的按需付费的存储服务，核心是“对象存储（Object Storage）”——数据以“对象”的形式存在“桶（Bucket）”中，每个对象包含数据本身、元数据（如文件名、大小、创建时间）和唯一标识符（Key）。

云存储的核心优势（为什么大数据选它？）

无限弹性：不需要购买服务器扩容，想存多少存多少，按需申请；
高可用性：厂商通常承诺99.9999999%（9个9）的 durability（数据持久性），不用担心硬盘损坏；
低成本：相比本地服务器存储，云存储的单位成本更低（比如AWS S3标准存储约0.023美元/GB/月），还支持“存储分层”（热数据存标准存储，冷数据存归档存储，成本再降70%）；
全局访问：只要有网络，就能从任何地方访问数据，适合分布式计算引擎（如Spark on EMR、Presto on Cloud）。

云存储的局限（为什么需要列式存储？）

不支持高效分析：云对象存储的原生接口（如S3的REST API）是为“读写完整对象”设计的，不支持“列裁剪”或“谓词下推”——如果直接读S3上的CSV文件，计算引擎必须下载整个文件才能过滤数据；
小文件问题：云存储对小文件（比如<1MB）的处理效率低（每读一个小文件都要发一次API请求），而大数据场景中容易产生大量小文件（比如实时流数据写入）。

1.3 融合的本质：用“列式存储的分析能力”补“云存储的性能短板”

现在，我们可以把两者的优势与局限列成一张表：

特性	列式存储（Parquet/ORC）	云存储（S3/OSS）
分析效率	高（列裁剪、谓词下推）	低（读全量数据）
存储成本	高（本地服务器）	低（按需付费）
弹性扩容	难（需要买服务器）	易（按需申请）
数据持久性	低（依赖本地硬盘）	高（9个9）

融合的目标：让云存储具备列式存储的分析能力，同时让列式存储享受云存储的弹性与成本优势。
融合的结果：一种“云原生的列式存储架构”——数据以列式格式（Parquet/Delta）存放在云存储上，计算引擎（Spark/Presto）直接查询云存储上的列式数据，利用列式存储的优化技术（列裁剪、谓词下推）提升效率，同时利用云存储的弹性降低成本。

第二章：手把手实践——列式存储与云存储的融合架构搭建

接下来，我们用**“Spark + S3 + Parquet + Delta Lake”**的组合，搭建一个融合架构，完成“电商用户行为分析”的场景。

2.1 步骤一：环境配置——让Spark能访问S3

要让Spark读取S3上的文件，需要配置S3的访问凭证（Access Key/Secret Key），并添加对应的依赖包。

1. 下载Spark依赖包

Spark默认不包含S3的驱动，需要手动下载以下JAR包，放到Spark的jars目录下：

hadoop-aws-3.3.1.jar（Hadoop的S3客户端）；
aws-java-sdk-bundle-1.12.262.jar（AWS SDK的捆绑包）。

（如果用阿里云OSS，替换为hadoop-aliyun-3.3.1.jar和aliyun-sdk-oss-3.15.0.jar）

2. 配置S3凭证

在Spark代码中添加S3的访问配置（或通过spark-defaults.conf配置）：

import org.apache.spark.sql.SparkSession
val spark = SparkSession.builder()
.appName("Cloud Columnar Storage Demo")
.master("local[*]") // 本地测试，生产用集群模式
// 配置S3访问
.config("spark.hadoop.fs.s3a.access.key", "YOUR_AWS_ACCESS_KEY")
.config("spark.hadoop.fs.s3a.secret.key", "YOUR_AWS_SECRET_KEY")
.config("spark.hadoop.fs.s3a.endpoint", "s3.amazonaws.com") // S3 endpoint
.config("spark.hadoop.fs.s3a.path.style.access", "true") // 路径风格（Bucket在路径中）
.getOrCreate()

验证配置是否生效

读取S3上的一个测试文件（比如test.csv）：

val testDF = spark.read.csv("s3a://your-bucket-name/test.csv")
testDF.show(5) // 显示前5行，能正常输出说明配置成功

2.2 步骤二：数据写入——将用户行为数据存为S3上的Parquet格式

接下来，我们将模拟的电商用户行为数据（包含user_id、behavior_type、timestamp、amount）写入S3，用Parquet格式存储。

1. 生成模拟数据

import org.apache.spark.sql.functions._
import org.apache.spark.sql.types._
// 定义Schema
val schema = StructType(Seq(
StructField("user_id", IntegerType, nullable = false

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/959939.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

2025年六安市成人自考机构口碑推荐排行榜

摘要 2025年，成人自考教育行业迎来快速发展，在职人士对学历提升需求激增。本文基于权威数据和用户口碑，综合评估国内成人自考机构，推出前十排名榜单，并提供详细比较表单，助您高效选择可靠机构。榜单重点突出服务…