发布会回顾|袋鼠云发布多模态数据中台,重构AI时代的数据底座

news/2025/10/27 17:13:32/文章来源:https://www.cnblogs.com/DTinsight/p/19169634

在AI全面渗透产业的浪潮中,数据平台的能力边界正在被重新定义。
在2025袋鼠云秋季数智发布会上,袋鼠云重磅发布“数栈多模态数据中台”,标志着数栈正式完成从结构化数据中台向AI时代“全模态、全场景”的全面升级。袋鼠云产品专家潮汐深度解析了多模态数据中台的战略逻辑、产品架构与客户实践。

➡️下载演讲资料:

一、AI时代的变局:从单模态到多模态的数据变革

AI应用的爆发正在倒逼企业的数据体系加速演进。
从国家政策层面持续推动数据要素化进程,到全球范围内GPT、DeepSeek、通义等模型的突破,AI正从模型训练进入应用落地的“下半场”。而支撑这一切的“燃料”,正是高质量、多模态的数据

AI时代对数据的要求已发生六大变化:

  • 从“稳定增长”到“爆炸增长”的数据规模;
  • 从“单模态”到“多模态”的数据类型;
  • 从“准确完整”到“真实高覆盖”的数据质量;
  • 从“离线处理”到“动态实时”的时效要求;
  • 从“独立割裂”到“结构化关联”的数据逻辑;
  • 以及从“弱管控”到“强安全”的数据合规体系。

AI不再只依赖于数据库中的表格数据,而是需要理解视频、语音、文本、日志、图像等多模态信息的融合。这意味着,企业数据平台必须具备多模态采集、统一开发与智能治理的能力,才能实现真正的 AI-ready 数据基础设施

二、数栈多模态数据中台:让数据为AI全面Ready

面对这一趋势,袋鼠云发布的“多模态数据中台”正是应势而生。
传统数据平台在AI场景下存在三大瓶颈:采存不统一、开发不统一、元数据管理不统一。而数栈通过底层架构重构,打造了“一体化、多模态、智能化”的数据中台体系,实现了从采集、存储、加工、治理到安全服务的全链路统一。

整体方案:从采到用的企业级多模态数据中台

袋鼠云“数栈多模态数据中台”是一个面向企业级AI应用的多模态数据基础设施方案。
它以“一个平台采、管、用全模态数据”为目标,打通了从数据采集、加工、治理到服务输出的全链路,构建出“可搜、可见、可管、可用、可溯”的智能数据体系。

从底向上看,平台首先接入来自对象存储、业务系统、IoT设备、MPP与Hadoop集群的多源数据,包括结构化表、半结构化日志与JSON、以及文档、图像、音频、视频等非结构化内容。
通过统一采集机制(实时采集、离线同步、本地上传、文件解析),这些多模态数据被集中到同一平台进行清洗、加工、转换与任务调度,形成标准化的数据资产。

在此基础上,数栈提供统一的数据治理与服务体系,实现:

  • 数据检索:跨模态统一搜索与语义查询;
  • 元数据管理:多模态元数据统一建模与全链路血缘追踪;
  • 安全与合规:租户隔离、分级权限与访问审计;
  • 数据服务:基于统一资产输出API、指标、标签、制品等形式的数据服务。

这一整体架构让企业的数据从分散走向融合,从孤岛走向体系化,为AI模型提供完整、可信的多模态语料基础。

产品架构:全模态、全场景的一体化智能底座

升级后的数栈多模态数据中台,全面扩展了支持的数据类型、算力体系与开发模式,形成覆盖“数据—算力—开发—资产—智能”的产品架构。

  • 数据对接与采集层
    除原生支持的RDB、MPP、Hadoop等结构化数据源外,数栈进一步支持半结构化数据(如JSON、日志、网页)及非结构化数据(文档、图片、音频、视频)。数据可通过实时采集与离线同步等方式接入平台,统一纳入中台进行存储与管理。
  • 算力与引擎层
    支持HDFS、MPP、MinIO对象存储及Milvus向量存储,实现多模态数据的融合管理;
    集成DeepSeek、通义千问等不同参数量模型,满足从轻量RAG到企业级大模型训练的多层需求;
    支持基于YARN、K8s及Standalone模式的CPU与GPU混合调度,充分发挥算力弹性;
    计算框架方面,除Hadoop与MPP主流引擎外,进一步兼容PyTorch与Ray,可直接处理非结构化数据任务。
  • 数据开发层
    在离线批处理、实时流处理与OLAP分析场景下,均可进行多模态数据处理。
    除传统的数据清洗、过滤、聚合外,平台内置50余种通用算子,涵盖文档分段、图片OCR、视频特征提取、音频识别等任务。
    同时支持高代码与低代码两种开发模式:开发者可拖拽建模,也可使用Python、PyTorch脚本灵活编排,实现“一个平台完成所有数据开发任务”。
  • 数据资产层
    构建统一的元数据中心,实现数据标准创建、血缘自动生成、治理与质量校验、安全管控等核心能力。
    所有治理后的数据资产均可被快速检索,并以API、指标、标签等方式对外提供服务。
  • 智能应用层
    在数据资产之上,数栈内置多类基础智能体能力,如智能取数、指标归因分析、任务异常排查、数据RAG等,帮助企业基于自身数据快速构建AI应用与Agent服务,覆盖业务运营、管理决策、金融投顾等多类场景。

通过这一架构,数栈实现了“数据形态全覆盖、开发模式全融合、治理体系全打通”,从根本上扩展了企业数据平台在AI时代的能力边界。企业不再需要在不同系统之间迁移和拼接,而是在一个平台内即可完成从数据采集、加工治理到AI应用的全流程,让数据真正“为AI全面Ready”。

三、从采到用:多模态数据的全链路能力升级

在多模态数据中台体系中,数据的采集、处理、治理、安全与服务构成了完整的技术闭环。
数栈的升级正是围绕这一链条展开,通过多模态对接、融合开发、统一治理和智能服务,构建出“采得全、开发快、管得住、用得好”的企业级AI数据底座。

多模态数据统一采集与存储

数据接入是多模态体系的起点。数栈可灵活对接多种数据存储底座,覆盖结构化、半结构化和非结构化三大类数据。

平台支持:

  • 通过对接对象存储和文件系统采集 PDF、Word、音频、视频等文件类数据;
  • 通过对接网页与 IoT 设备采集 JSON、日志等半结构化数据;
  • 通过连接关系型数据库底座采集业务系统中的结构化数据。

所有数据均可通过离线同步、实时采集或本地上传等方式汇入平台。系统会在接入过程中自动完成文件解析、内容拆分和向量化(Embedding)处理,并将向量数据存入 Milvus 向量数据库,将元数据同步入 MySQL 库。

这一机制让来自不同源的异构数据在底层实现“统一落库”,为后续的多模态开发、治理与服务打下标准化基础。

多模态数据一体化处理

在数据开发环节,数栈实现了三方面关键升级:

一是多模态一站式融合开发。
开发者可在同一平台、同一工作流内完成结构化、半结构化与非结构化数据的关联处理,实现多模态任务的端到端联动。

二是高低代码融合与算子生态。
平台在原有 Python、PyTorch 等脚本任务能力基础上,内置 50 余种通用算子,涵盖文档解析、图片识别、音视频处理、OCR 识别、语音转写、情感分析等多模态任务。
用户可自由上传自定义算子,实现内部复用与共享。
低代码拖拽式任务配置可帮助非技术人员快速上手,而高代码模式则赋予资深开发者更高灵活度,真正实现“所有人都能上手开发”。

三是算力混合调度。
在传统 CPU 调度基础上新增 GPU 资源管理,支持基于 YARN、K8s、Standalone 模式的 CPU/GPU 混合调度,满足高复杂度、多模态计算任务的资源需求。

凭借这三项能力,数栈使企业能够在一个平台中完成从数据采集到分析建模的全流程开发,极大提升了数据开发效率与资源利用率。

多模态数据处理实践

以银行贷款风控场景为例,数栈展示了多模态融合开发的典型流程。

银行在贷款审批中往往需要同时处理合同文档、身份证图片、面签视频及外部征信数据。
通过数栈,这一过程可被自动化完成:

  • 合同 PDF:OCR 识别合同条款,通过结构化提取任务抓取关键信息(贷款人姓名、金额、利率、期限等),再结合 NLP 进行合规性分析。
  • 面签视频:语音识别(ASR)转录语音内容,动作检测识别替代或作弊风险。
  • 身份证图像:OCR 提取身份信息,并与面签视频关键帧人脸进行比对验证。
  • 征信数据:通过外部 API 获取用户信用分与信用记录。

系统将上述结果统一汇聚为结构化的用户画像数据,为银行提供自动化的放贷风险判断。这一过程展示了数栈在多模态任务中的端到端智能处理能力:不同模态的数据在同一平台协同计算、统一治理并直接服务于业务决策。

统一元数据管理

在数据统一落库后,数栈的数据资产模块会对所有原始与加工后的数据进行统一的元数据管理。
平台支持为不同数据类型构建元数据模型,定义其技术属性、业务属性与管理属性,并自动生成血缘关系与版本追溯。

  • 统一检索:支持多模态内容的向量化搜索,不仅能按元数据字段检索,还能基于文本、视频内容进行语义级检索。
  • 多模态预览:用户可直接在资产详情页中预览文档、音视频等文件。
  • 血缘追踪与版本控制:自动生成全链路血缘图谱,展示任务与数据之间的关联关系;同时支持多版本回溯,确保每次变更可查、可控。

统一的元数据体系使企业能够从底层掌握全局数据脉络,实现“从源头到应用”的可视化治理。

四重安全保障体系

数据安全是多模态数据统一管理的核心。
数栈从架构层面构建了四重安全保障机制:

  1. 租户隔离与项目共享:开发任务在项目层面隔离,数据在租户层面可控共享,实现“大范围隔离、小范围协作”。
  2. 细粒度权限控制:统一权限策略覆盖结构化与非结构化数据,支持表级、字段级、文件级、目录级多层授权。
  3. 数据分级与访问匹配:内置与自定义数据等级映射用户权限,实现基于等级的访问控制。
  4. 全量安全审计:对运行代码、数据修改、授权审批等全操作行为进行细粒度记录与追溯,确保可控与合规。

通过这套体系,企业在充分释放数据价值的同时,保障了隐私安全与合规要求。

统一数据服务与智能应用

治理后的数据资产可通过多种方式激活使用:

  • 以数据制品、指标标签等形式同步到企业知识库;
  • 通过标准化 API 对外提供数据服务;
  • 以 MCP 方式供大模型与 AI 工具调用,支撑模型训练、推理与知识 RAG 场景。

基于这些能力,企业可以快速构建智能应用,如基于多维数据的质量评估、学生素质测评、健康管理指导与分层运营分析。高质量数据推动业务创新,丰富的业务又反哺数据完善,从而形成数据与智能的双向循环。

AI辅助数据开发与管理

在数据开发与治理过程中,数栈内置的 “灵瞳”智能体 为开发者提供了全新的 Copilot 体验。

灵瞳常驻于平台侧边栏,结合通义、DeepSeek 等模型能力与数栈的元数据库、血缘信息及知识库,为用户提供四类智能协同能力:

  1. 代码 Copilot:自然语言生成 SQL,自动优化与续写代码,并提供报错分析。
  2. 数据治理 Copilot:基于血缘分析自动识别表结构变更影响点,生成质量校验规则。
  3. 数据分析 Copilot:结合数据制品进行 RAG 问答与指标波动归因分析,结果可追溯。
  4. 产品操作 Copilot:以图文方式指导新手用户完成操作,或直接执行如任务创建、冻结等动作。

灵瞳不仅是一个问答助手,更是数据开发与管理过程中的智能合作者,帮助企业实现人机协同的高效开发体验。

四、客户案例:某制造业企业的多模态数据中台升级

某大型制造企业在建设多模态数据中台前,存量数据超过 20PB,日增约 3TB,其中非结构化数据占比达 74%,主要包括车载传感器视频、技术文档和用户手册。
由于数据模态割裂,问题分析效率低、关联成本高。

在数栈的多模态数据中台方案支撑下,企业实现了以下能力升级:

  • 将 MES、ERP、车辆传感器时序数据、视频图像与文档数据统一接入;
  • 通过 MinIO 存储原始数据,Milvus 存储向量化特征;
  • 结合离线与实时处理,执行结构化加工、视频关键帧提取、语音转文本等任务;
  • 统一管理数据血缘、质量与元数据编目。

成果显著:

  • 质量问题追溯时效提升 96%,用户画像维度特征提升 5 倍
  • 电池生产良品率提升 2.3%,车主情绪客诉率下降 40%

通过多模态统一开发与管理,该企业实现了从数据孤岛到智能运营的全面转型。

可以看到,多模态数据中台的建设不再是单纯的技术升级,而是一次企业认知与能力体系的重构。从底层的多模态采集、融合开发,到上层的智能体协同与业务应用闭环,数栈正帮助企业真正打通数据从采、管、用到生长的全链条,让数据成为AI时代最核心的生产力。

对于越来越多的数据驱动型企业而言,这不仅是一次工具的更替,更是一场关于“智能生产力体系”的重建:

  • 让数据更全面 —— 从结构化走向全模态;
  • 让开发更高效 —— 从多工具切换走向一体化开发;
  • 让治理更智能 —— 从规则驱动走向智能协同。

未来,袋鼠云将继续携手更多行业客户,共同推动 Data + AI 的深度融合落地,帮助每一家企业在这场智能化浪潮中,建立起属于自己的确定性竞争力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/947917.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Docker容器里面部署的Jenkins的Java17升级到21版本(无需删除之前容器,内部在线升级) - 攻城狮

发现Jenkins出现了如此提示: Java 17 end of life in JenkinsYou are running Jenkins on Java 17, support for which will end on or after Mar 31, 2026. Refer to the documentation for more details. 原因是ja…

布谷直播系统源码:高并发直播架构设计到搭建部署配置

在移动互联网时代,直播已成为内容传播、电商带货和社交互动的核心载体。面对动辄百万甚至千万级的瞬时用户涌入,如何构建一个稳定、流畅、可扩展的高并发直播系统,是每个技术团队必须攻克的堡垒。山东(泰安)布谷科技…

25.10.27联考题解

CF2110D 求最小值的问题可以考虑转化成二分答案然后判断合法性。于是先二分答案,然后发现判断合法性本质就是判断连通性,因为是 DAG 于是考虑拓扑排序维护到一个点的合法最大值即可。 B 考虑 \(k=0\) 怎么做?我们直…

医疗器械行业数字化破局:一体化平台正在淘汰多系统集成模式

当“系统集成”消耗企业30%IT预算的时代即将结束,一体化架构正重新定义医疗供应链数字化当“系统集成”消耗企业30%IT预算的时代即将结束,一体化架构正重新定义医疗供应链数字化 “我们使用了五套系统,CRM管客户、E…

报表知识

FORM frm_pf_status USING lt_status_name TYPE slis_t_extab. SET PF-STATUS PF_1000EXCLUDING lt_status_name. . ENDFORM. DATA: gt_excluding TYPE slis_t_extab. " ALV工具栏按钮排除表 CLEAR gt_excluding…

【IEEE出版 | 往届均已完成见刊检索 | 见刊检索稳定】第七届信息与计算机前沿术国际学术会议(ICFTIC 2025)

第七届信息与计算机前沿技术国际学术会议(ICFTIC 2025)将在中国青岛举行,会期是2025年12月5-7日。【中国石油大学(华东)、山东省智能人工学会、山东计算机学会主办】 【往届均已完成见刊检索,见刊检索稳定】 第七届信…

动态点分树

讲解动态点分树,附例题及代码。更新日志 2025/10/27:开工。概念 首先你应当会点分树。 动态点分树可以支持每次加一个叶子结点并动态维护点分树结构平衡的数据结构。 思路 利用替罪羊树的思想,考虑 \(\alpha\) 重构…

2025年隔热条厂家权威推荐榜:尼龙隔热条/PA66尼龙隔热条/建筑用隔热条/断桥铝门窗隔热条/幕墙隔热条/阳光房隔热条/国标隔热条精选

2025年隔热条厂家权威推荐榜:尼龙隔热条/PA66尼龙隔热条/建筑用隔热条/断桥铝门窗隔热条/幕墙隔热条/阳光房隔热条/国标隔热条精选 随着建筑节能要求的不断提高和绿色建筑理念的深入推广,隔热条作为建筑节能的关键材…

【前端效率工具】:告别右键另存,不到 50 行代码一键批量下载网页图片

🧑‍💻 写在开头 点赞 + 收藏 === 学会🤣🤣🤣先看效果:在素材网站一键批量保存所有图片废话不多说,直接上手! 项目结构image-downloader-extension ├── manifest.json # 扩展的"身份证"…

特殊符号的输入

特殊符号的输入符号 说明 Alt编码© 版权符号 Alt+0169 注册商标 Alt+0174™ 商标 Alt+0153• 项目符号 Alt+0149 正负号 Alt+0177 乘号 Alt+0215 除号 Alt+0247 度 Alt+0176… 省略号 Alt+0133√ 对勾 Alt+251≤ …

Luogu P3237 [HNOI2014] 米特运输 题解 [ 蓝 ] [ 树形 DP ] [ 哈希 ]

米特运输 不是很难,但是思路很巧妙的一道题。 手模样例,观察合法方案的性质,容易发现,只要有一个节点权值是固定的,那么整棵树所有节点的权值便也固定了。 而由于每个节点之间是倍数关系,因此我们需要一个基本单…

「Gym 104901F」Say Hello to the Future

题目大意 给定一个序列,定义其权值为划分序列的方案数,使得划分出来的每个区间 \([l, r]\) 有 \(\max_{i = l}^r {a_i} \leq r - l + 1\) 。对于每个 \(1 \leq i \leq n\) 求只将 \(a_i\) 修改为 \(1\) ,序列的权值…

渐进过程中大O与小o混用

在数学中,大O符号(O)和小o符号(o)都用于描述函数的渐进行为,但它们的含义和强度不同。在实际使用中,需要注意它们的定义和适用场景,以避免误用。 \(O(x)\) 表示一个函数的渐进上界。具体来说,如果存在正常数C…

Navicat 17 超详细保姆级下载安装教程:附激活工具使用步骤​

这篇教程给你讲的Navicat 17安装方法,从下载到激活一步不落,中间碰到问题也能帮你解决,跟着做保准能装好。​这篇教程给你讲的Navicat 17安装方法,从下载到激活一步不落,中间碰到问题也能帮你解决,跟着做保准能装…

消息队列的有序性

RabbitMQ单一队列和单一消费者模式:确保一个队列只被一个消费者消费,这样可以保证消息按照发送的顺序被处理。因为队列本身就是一个先进先出的结构。 消息排序:在消息生产者端,为消息添加序列号和时间戳,消费者根…

【LTDC】DMA2D —— 嵌入式系统的 GPU

前言 ST 公司设计了一个专门用于图像处理的 DMA:DMA2D,可以之际通过 DMA2D 搬运或填充图像,而不经过 CPU,极大减轻了 CPU 的负担。为了学习 DMA2D,我也专门写了这篇文章,现在就让我们来看看吧! DMA2D 工作模式 …

各个版本的sqlite-jdbc jar下载链接

https://repo1.maven.org/maven2/org/xerial/sqlite-jdbc

[电脑]win10下SVN图标不显示

[电脑]win10下SVN图标不显示转自 : https://blog.csdn.net/qq_43331089/article/details/128876896win10系统的SVN图标不现实了。正常情况下,会在文件夹上有一个对勾 但是对勾以及所有的SVN图标都突然消失了,都不知道…

2025/10/27~2025/11/2 做题笔记 - sb

2025/10/27 第一代图灵机 一样的套路,考虑每一个右端点对应的最左边可以到哪里,显然是最小的 \(j\) 使得 \(\max\limits_{j \le k \le i}pre_k = j - 1\)。考虑线段树维护一个区间内的最大的答案和最大的 \(pre_i\),…

echart - f

series: [{name: "直接访问",type: "bar",// 修改柱子宽度barWidth: "35%",data: [200, 300, 300, 900, 1500, 1200, 600],itemStyle: {// 修改柱子圆角barBorderRadius: 5}}]series中的…