从“看得见”到“能决策”:Operation Intelligence 重构企业智能运维新范式 - 实践

news/2025/9/27 17:30:28/文章来源:https://www.cnblogs.com/tlnshuju/p/19115350

从“看得见”到“能决策”:Operation Intelligence 重构企业智能运维新范式 - 实践

2025-09-27 17:27  tlnshuju  阅读(0)  评论(0)    收藏  举报

在 AI 原生时代,数字世界的复杂度已远超人类直觉所能掌控。当 AI 推理在毫秒间达成千次调用,当微服务依赖链复杂如神经网络,传统监控却仍在“记录状态”:人工排查耗时数小时,业务风险后知后觉。企业需要的不再只是监控工具,而是让系统获得‘自主决策力’——从被动记录(Monitoring)到全景感知(Observability),最终演进为主动决策的新运维范式。为此,阿里云提出的 Operation Intelligence 理念,让系统具备“类人决策”能力,并以三大要素构建这一理念:

  • 感知进化:突破传统监控的"素材孤岛",构建全域感知网络,实现从终端设备到业务流程的全链路感知;

  • 认知跃迁:融合大模型与算法算子,将原始数据转化为可解释的关系图谱;

  • 行动闭环:通过大模型与算法驱动自动处置,实现从"人工救火"到"系统自愈"的质变。

正如控制论学派之父诺伯特·维纳(Norbert Wiener)所言:"智能的本质是架构通过感知环境,并采取行动而产生的适应性反馈"。Operation Intelligence 正是通过实时感知-认知-决策的闭环,让数字系统获得类人的动态适应能力。对此,日志服务 SLS、云监控 CMS 发布全新能力,助力企业构建 Operation Intelligence 能力。

日志服务 SLS:构建 Operation Intelligence

数据基座与应用引擎

Operation Intelligence 作为驱动业务创造价值的核心引擎,这背后是对海量、异构、高噪声的运营数据(Operation Data)进行高效提炼、结构化转换与深度加工的过程——将原本分散、孤立、语义模糊的数据流,转化为可追溯、可分析、可行动的高质量内容资产。日志服务 SLS 作为可观测数据应用平台,正是支撑这一转化过程的关键基础设施。它不仅承担着数据汇聚与存储的基础职能,更通过一体化的技能架构,在数据接入、处理、建模、查询与分析等各个环节提供端到端的能力支撑,帮助企业完成从原始数据到智能决策的价值闭环。

千亿级数据秒级分析背后:SLS 的存储、计算与语义建模三位一体架构

日志服务 SLS 构建了专为超大规模异构数据设计的高性能存储引擎,原生支持时序素材、列式存储与向量化计算,建立千亿级日志与指标的高密度压缩与秒级检索分析。面对复杂的非结构化内容,如应用日志、用户反馈或错误堆栈,平台通过向量引擎实现的语义理解,解读文本中的关键意图与情感倾向,“理解”人类语言背后的含义。同时,通过对用户、设备、IP、服务等核心实体的行为轨迹进行关联建模,日志服务 SLS 将碎片化的事件记录串联成完整的动态行为图谱,形成具有上下文连续性的全景视图,为后续分析提供坚实的数据基础。

在此之上,日志服务 SLS 配备极致性能的分布式计算引擎,支持千亿行级别数据的实时查询与复杂分析。最新推出的完全精确模式显著提升 SQL 任务的执行精度与并发能力,单任务最高并发突破 1000,单次可处理上百 TB 级别的数据规模。结合自动物化视图功能,在后台持续增量更新高频访问的中间结果,大幅降低前端交互式分析与仪表盘展示的延迟,使得大规模数据分析不再是耗时等待的任务,而成为即时可用的日常操作,提升运维、研发与业务团队的响应效率。

为了让不同来源、不同形态的信息真正实现语义统一与价值融合,日志服务 SLS 基于核心建模能力 UModel 构建标准化的数据模型,将日志、指标、链路及实体数据统一映射为结构清晰、属性完整、关系明确的“数字孪生”对象,赋予每一条原始记录以业务上下文和逻辑意义。这种结构化建模方式不仅增强数据的可解释性,也为上层 AI 模型提供高质量的训练与推理输入,使其能够准确识别异常模式、预测潜在风险、发现隐藏关联,从而支撑更高级别的自动化决策。

从数据到决策: SPL 和流程编排打通运维智能“最后一公里”

为了打通跨域分析的最后一公里,日志服务 SLS 提供统一的查询语言 SPL(Search Processing Language),覆盖日志、指标、链路和实体等多个数据层级,实现语法层面的一致性与处理上的无缝衔接。借助 Extend、Join 等灵活的操作符,工程师可以在一次查询中轻松达成日志内容与用户画像、服务性能、调用链路之间的实时关联,彻底打破传统排查中因系统割裂导致的信息孤岛问题。过去需要多个团队协作、跨平台比对才能完毕的根因定位工作,如今只需一条 SPL 查询即可迅速完成,真正实现从“数据拼接”到“洞察生成”的效率跃迁。

当素材的存储、计算、建模与查询能力全面贯通后,日志服务 SLS 经过基于规则与 AI 结合的智能分析流程编排,自动触发多步骤调查逻辑,模拟专家思维路径,对复杂故障场景进行敏捷拆解与归因判断。无论是性能劣化、服务中断还是安全威胁,平台都能基于历史基线、行为模式和上下文依赖,自动生成可能原因列表并给予证据链支持,显著缩短平均修复时间(MTTR)。预警机制也不再局限于静态阈值告警,而是融合动态基线、趋势预测与异常评分,实现更具前瞻性和精准度的主动干预。

云监控 2.0:专注 AIOps,感知更全、行动更快

研发交付的持续优化,Operation Intelligence 正在 BizOps、SecOps 和 DevOps 三大关键领域发挥核心作用。而云监控 2.0 专注于 AIOps,通过日志、指标、追踪和实体行为的深度融合,为运维提供依据。同时,为应对 AI 原生时代的挑战,云监控 2.0 构建覆盖 AI 应用层 → 平台服务层 → 基础设施层的 AI 全栈可观测体系,打造从数据采集到智能决策的完整闭环。就是无论是业务运行的健康度洞察、安全威胁的快速响应,还

感知更全:全域覆盖,统一语义

Operation Intelligence 的前提是“全面感知”。云监控 2.0 打破指标、日志、链路、事件四大模态之间的壁垒,构建统一数据底座。通过统一探针管理与“接入中心”机制实现高效的采集整合,跨账号、跨地域、多工作空间的同一采集类型仅需对接一次,即可达成资源批量导入与探针复用,大幅提升纳管效率。无论是 ECS 主机负载、Kubernetes 容器状态、Prometheus 自定义指标,还是前端用户体验(RUM)、应用调用链路(APM),亦或是 GPU 利用率、RDMA 网络带宽、CPFS 存储性能,系统均可完成即时采集与聚合。

在完成采集的同时,借助阿里云可观测体系的核心建模能力 UModel,以“统一实体图谱”为骨架,将日志(Log)、指标(Metric)、链路(Trace)、事件、变更等多源可观测数据,自动抽取成实体(Entity)及其关系网络,绘制一张精准且动态更新的“全局地图”,每个数据库、应用服务、容器节点甚至业务流程,都在这张地图上有唯一身份标识,并与上下游依赖清晰关联。UModel 将分散在不同监控程序中的信息整合到同一知识图谱中,让问题定位不再需要切换多个平台。加速故障闭环,根因分析时间显著缩短,可直接驱动自动化处置策略执行。为大模型提供结构化、高语义密度的数据输入,使智能诊断结果更准确、更具解释性。

行动更快:从“人工排查”到“智能闭环”

和代码发布有关?”,智能运维助手即可触发多轮对话,不仅能生成 SQL/PromQL 查询语句,更能结合拓扑关系和算法算子,自动做完从数据检索、异常检测到根因推测的完整分析链路,自动规划排查路径:先锁定异常实体,再沿拓扑下钻,调用异常检测、瓶颈分析、差异比对等算法算子,最终给出根因、影响面及回滚、重启、扩容等可执行预案。更进一步,它知道“用户下单失败”涉及哪些微服务,“模型推理延迟”可能受哪些资源制约,结合丰富的 MCP Server 生态和阿里云统一的 OpenAPI,即可建立高效的障碍处置和恢复。此外,算法增强的可观测算子将计算下推到底层,大幅降低分析延迟与 Token 消耗,使亿级数据的实时洞察成为可能。通过“数据统一化、认知模型化、交互智能化”,云监控 2.0 推动 AIOps 进入新范式,让运维从“看见”迈向“理解”与“决策”。就是Operation Intelligence 的终极目标是“自动行动”。为此,阿里云推出可观测智能运维助手, 结合 UModel 实体图谱,具备强大的上下文感知与语义理解能力,将大模型能力深度融入运维流程。运维人员只需用自然语言提问:“昨天哪个服务的错误率最高?”“这个慢调用是不

持续加码学术合作与社区生态:

发布 CnOps 社区推动国内运维生态演进

在产品能力全面升级的同时,阿里云与中国科学院软件研究所、浙江大学等高校、机构开展深度合作,从学术、产业的不同视角推动云原生应用的智能化开发、测试、运维与持续演化,围绕可维护性、系统韧性与智能决策能力提升,开展从底层科技突破到平台构建再到行业应用的全链条创新,并在以下层面展开深度探索:

  • 在软件开发层面,积极探索场景驱动的微服务化拆分与智能服务化方法,结合轻量化容器部署与动态架构评估模型,构建框架可演化能力的量化评估与自适应调整;

  • 在韧性保障方面,依托大模型驱动的端到端测试用例生成、全链路故障注入分析与健康状态诊断技术,形成覆盖应用系统与运维控制器的全栈韧性增强方案;

  • 在智能运维方面,通过多模态素材增强与时空推理模型构建强泛化性故障预测能力,结合大模型微调、知识图谱增强与多智能体协作机制,打造协助复杂运维场景的自动化决策体系。

基于以上合作,阿里云与中科院软件所在本次大会正式发布 ChaosBlade-Box 2.0。ChaosBlade-Box 2.0 通过拓扑感知、自动化故障空间探测、LLM 韧性评估等模块,显著提升混沌实验的可见性、易用性和自动化水平。让混沌工程进化为韧性测试平台,有效降低大规模微服务系统进行韧性验证的复杂度。

此外,为了进一步推动社区生态,构建领域知识普惠,阿里云联合上述高校、机构正式发布 CnOps 社区。社区作为一个以“智能运维与可观测”为核心的开放、包容、分享的中立工艺社区,旨在聚集技术专家、开发者和爱好者,共同探讨、学习和分享运维领域最佳实践与最新科技。CnOps 社区不仅是知识平台,更是运维智能的“技术货架”,共同探讨交叉领域的技巧挑战,推动运维领域的创新与进步。社区上线以来,超过千余位“自来水”开发者每天在使用 CnOps 社区学习、了解可观测/智能运维领域知识。

结语:Operation Intelligence,

全链路提效到业务场景深度重构

从 Monitoring 到 Observability,再到当下。Operation Intelligence 价值不仅体现在技术突破,从成本优化到业务创新的全链路提效,更在于对业务场景的深度重构,为研发、运维、业务与安全管理带来可衡量的实质性价值。研发团队能够高效定位 AI 模型的性能瓶颈,显著提升问题排查效率,加速迭代节奏;运维人员不再被海量告警淹没,通过智能聚合与根因推荐,奏效识别核心问题,缩短平均故障恢复时间(MTTR),构建从“被动救火”到“主动防控”的转变;业务决策者得以精准掌握各条业务线的资源使用与成本分布,为预算规划、资源配额和精细化运营提供数据支撑;在安全与合规层面,系统支持大规模日志的长期留存、敏感信息识别与脱敏处理,并结合访问审计能力,全面满足强监管行业的合规要求。日志服务 SLS 与云监控 2.0 的协力之下,逐步演进为驱动企业高效、稳定、智能运营的数字化中枢,让复杂系统的管理变得可视、可管、可优。

日志服务 SLS 不仅完成对运营数据(Operation Data)的系统性提炼与价值重塑,更推动企业构建起一个自我感知、自我诊断、持续进化的智能运营体系。在这个体系中,数据不再是沉睡的记录,而是驱动决策、优化体验、保障稳定的核心资源。日志服务 SLS 以其强大的整合能力与智能化水平,助力企业在高度麻烦的数字环境中提升韧性、释放潜能,迈向以智能为核心驱动力的下一代运营范式。而云监控 2.0 的发布,标志着可观测能力进入新阶段。它不再只是环境的“仪表盘”,而是进化为具备感知、认知与决策能力的“数字大脑”。大家正从“看得见”走向“看得懂”,从“事后响应”迈向“事前预防”,最终建立架构自愈、资源自优、风险自知。

从学术合作、社区生态,再到产品升级,Operation Intelligence 不再是可选项,而是企业构建长期竞争力的核心基础设施。阿里云也持续深耕数据与智能,让每一次计算、每一次调用、每一次创新,都在 Operation Intelligence 的护航下稳健前行。正如阿里云云原生应用平台负责人周琦所言:“Operation Intelligence 不是运维的终点,而是智能商业的起点。当系统具备“自感知、自决策、自进化”的能力,企业将真正跨越“技术黑盒”,在 AI 原生时代构建起“数据驱动决策、智能重塑价值”的核心竞争力。”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/919736.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

使用JOL查看对象布局

[main] INFO com.crazymakercircle.threadpool.SeqOrScheduledTargetThreadPoolLazyHolder - 线程池已经初始化 [InnerLockTest.showNoLockObject]:# Running 64-bit HotSpot VM. # Using compressed oop with 3-bit …

集训队互测投题——封印

《封印》解题报告 题目大意 你是一名大魔法师,现在遇到了 \(n\) 只怪物,第 \(i\) 只怪物的出现时间为 \([l_i,r_i)\),有经验值 \(w_i\)。对于怪物 \(i\),你可以选择一个实数 \(k_i\in[l_i,r_i]\),并在 \([l_i,k_i…

短视频流量|基于SprinBoot+vue的短视频流量数据分析系统(源码+数据库+文档) - 指南

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

河北省住房和城乡建设厅网站首页建公司网站

本文介绍基于Python语言,基于Excel表格文件内某一列的数据,计算这一列数据在每一个指定数量的行的范围内(例如每一个4行的范围内)的区间最大值的方法。 已知我们现有一个.csv格式的Excel表格文件,其中有一列数据&#…

一天一款实用的AI工具,第4期,AI翻译成英语

专业的英语翻译工具,帮你翻译成流畅的英文,助你提升翻译的质量。现实问题 传统机器翻译字面直译,译文生硬不自然,翻得干巴巴没味道,用户几乎无法干预翻译过程或风格。 工具介绍 本期介绍这款【AI翻译成英语工具】…

Docker基础与工程部署

Docker基础与工程部署pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "…

安装MariaDB服务器流程介绍在Ubuntu 22.04系统

更新系统包列表 首先,打开终端并运行以下命令来更新Ubuntu的包列表: sudo apt update 这将确保你安装的是最新版本的软件包。 安装MariaDB服务器 接下来,使用下面的命令安装MariaDB服务器: sudo apt install maria…

关于征求网站建设什么是品牌

查看全部教程开发请点击:全网最全-QCC51xx-QCC30xx(TWS)系列从入门到精通开发教程汇总(持续更新中) ==================================================================== 版权归作者所有,未经允许,请勿转载。 ==========================================

初次尝试在kubernetes 1.31 上安装 人工智能模型运行平台 llm-d - 详解

初次尝试在kubernetes 1.31 上安装 人工智能模型运行平台 llm-d - 详解pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: &…

三种神器让LLM输出结构化数据:LangChain、LlamaIndex与Function Calling实战指南

💡 引言:为什么结构化输出如此重要? 在构建大语言模型应用时,你是否遇到过这样的困扰:模型输出的数据格式混乱,难以直接使用?想象一下,当你需要从一段文本中提取用户信息时,模型却返回了自由散漫的文本段落—…

有什么好的加盟店项目该如何建设和优化一个网站

无线透传技术与其他数据传输技术(如有线连接)相比,具有以下优势和劣势: 1. 优势: 简单易用:无线透传模块由于直接进行数据透传,省去了许多数据处理和协议转换的步骤,使得数据传输更为快速和高效。   传输…

野指针

野指针Posted on 2025-09-27 17:10 steve.z 阅读(0) 评论(0) 收藏 举报野指针(Wild Pointer)是指向未知或无效内存地址的指针,是C/C++编程中常见的一种错误类型。 野指针的几种情况: 1. 未初始化的指针 int *…

win11安装ensp

安装包 1. eNSP+V100R003C00SPC100+Setup:https://www.alipan.com/s/mWWEg4rpsnj(严格) 2.VirtualBox-5.2.44-139111-Win:https://www.alipan.com/s/qJZBMJs3U9H(严格) 3.Wireshark-4.4.5-x64:https://www.alip…

自己湿热内蕴出汗痒和岳母生病2天不洗澡发痒的不同-完美解释小孩为啥没那么容易痒

先解释小孩为啥没那么容易痒,是因为他的身体比较平衡、既没有我的"湿热内蕴”, 也没有岳母的 "年老卫气渐虚",所以既没看到过他出汗后抓痒,也没看到、听到他说有两天没洗澡就身上发痒-虽然他自己常…

无刷电机驱动工程及PID算法FOC算法完成(超高质量超高质量

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

vue: ubuntu安装vue环境

一,官网: https://nodejs.org/en/download 二,安装: # Download and install nvm: curl -o- https://raw.githubusercontent.com/nvm-sh/nvm/v0.40.3/install.sh | bash # in lieu of restarting the shell \. "…

golang实现ai聊天窗口

在Go语言中实现AI聊天窗口需要结合前端界面、后端服务以及AI模型调用。以下是一个分步实现的详细方案,包含关键代码示例和架构设计: 一、整体架构设计前端:使用HTML/CSS/JavaScript构建Web界面,通过WebSocket与后端…

源码反码补码

源码的每一位按位取反得到反码,反码是补码加一,反码解决的是正负零的问题。这让正零和负零是一个数,使得0统一

图的分类法:解耦数据和图表类型

HKUST 25 Fall COMP 6411D Data Visualization 课堂笔记可视化的可视化 当我第一眼看到 slide 中“chart taxonomies” ,我有两个反应:图表数量也太多了 这个分类方式并不是很直观,Comparsion / Relationship / Di…