别再人盯系统了!DevOps Agent自主值守,智能预见运维风险

re:Invent 2025,亚马逊云科技带来一系列重磅发布,掀起全球云计算创新浪潮。为帮助开发者们深入了解各项技术创新成果、上手使用最新功能,特推出本系列解读文章,助您探索云上未来的无限可能!

re:Invent 2025,亚马逊云科技推出Amazon DevOps Agent(预览版),这款前沿Agent可通过系统性分析历史事件及运维模式,帮助运维人员快速响应事件、找出根本原因,并预防未来再次发生类似问题。

前沿Agent代表着全新一类的AI Agent,它们可自主运行、大规模扩展,无需持续人工干预就能持续稳定工作数小时甚至数天之久。

当生产环境突发故障时,值班工程师往往背负巨大压力:他们不仅要在短时间内快速找出问题根本原因,还要妥善处理与各方利益相关者的沟通协调事宜。为此,他们必须跨多个监控工具分析数据、核查近期部署记录,并协调应急响应团队开展工作。然而,服务成功恢复后,团队往往因精力有限,难以及时复盘此次事件处理过程中的经验教训,也无法将其转化为体系化的优化方案。

Amazon DevOps Agent就如同一位全天候在线、自主运行工作的运维工程师,一旦出现问题,它便会自动关联您运维工具链中的各类数据,包括指标、日志以及GitHub或GitLab中近期的代码部署记录。该工具能够定位可能的问题根源,并给出针对性的解决方案,助力缩短平均故障解决时间,让系统尽快恢复正常运行。此外,它还负责事件协调工作,通过Slack频道向利益相关者同步更新事件进展,并留存详尽的事件调查时间线。

上手Amazon DevOps Agent十分便捷:您只需通过亚马逊云科技管理控制台,将Amazon DevOps Agent连接现有工具即可。

在可观测性数据获取方面,这款Agent可与Amazon CloudWatch、Datadog、Dynatrace、New Relic及Splunk等多款主流服务无缝协作。在代码部署跟踪方面,它还能集成GitHub Actions、GitLab CI/CD,跟踪部署流程及其对云资源产生的影响。此外,借助自带(BYO)MCP服务器功能,您还能将更多工具集成到事件调查流程中,例如企业自研的定制工具、专业平台或Grafana、Prometheus等开源可观测性解决方案,进一步拓展Agent的能力边界。

Amazon DevOps Agent正如同团队中的一名虚拟成员,您可以将其配置为自动响应来自工单系统的事件。它内置了对ServiceNow的原生支持,同时通过可配置的Webhook,还能响应PagerDuty等其他事件管理工具推送的事件。

在调查过程中,该Agent会将调查结果同步更新至工单及相关Slack频道,确保相关人员及时了解调查动态。

支撑所有这些功能高效运作的,正是Agent构建的智能应用拓扑,这是一份覆盖系统所有组件及其交互关系的完整图谱,其中包含部署历史信息,能在调查期间帮助运维人员快速识别出可能与部署相关的潜在原因,为精准解决问题提供有力支持。

Amazon DevOps Agent工作原理

为了向您直观展示它的工作原理,本例在Amazon CloudFormation堆栈中部署了一个简易的Amazon Lambda函数,调用该函数时会故意生成错误信息。

步骤1

创建Agent Space

Agent Space用于界定Amazon DevOps Agent在执行任务时可访问的资源范围。

您可以根据自身的运维模式来规划Agent Space的组织方式。部分团队会为单个应用配置一个Agent Space,有些团队则会为每个负责管理多项服务的值班团队创建一个Agent Space,还有些企业会采用集中式管理的方式。

本演示将介绍如何为单个应用程序创建Agent Space,这种配置有助于隔离针对该特定应用程序的调查流程和资源,便于在应用程序上下文环境中跟踪和分析事件。

在亚马逊云科技管理控制台的Amazon DevOps Agent板块中,选择创建Agent Space,输入名称,并创建所需的Amazon IAM角色,该角色将用于访问本人或其他用户亚马逊云科技账户中的各项资源。

本演示将选择启用Amazon DevOps Agent Web应用,后续将详细介绍相关内容,该操作也可在后续阶段完成。

准备就绪后,点击“创建”。

创建完成后,选择进入拓扑。

该视图会展示Amazon DevOps Agent为高效执行任务而筛选出的核心资源、实体及关联关系。需要注意的是,该视图并非呈现Amazon DevOps Agent可访问或监测的全部内容,仅展示其当前判定为最相关的对象。默认情况下,拓扑视图包含您账户下的各类亚马逊云科技资源。随着Agent完成的任务不断增多,它会自动发现新的资源,并将其添加至该列表中。

步骤2

为运维人员配置Amazon DevOps Web应用

Amazon DevOps Agent Web应用为值班工程师提供了一个可视化Web界面,方便他们通过该界面手动触发调查任务、查看包含相关拓扑元素在内的调查详情、引导调查方向,以及针对调查内容提出问题。

您可以直接在亚马逊云科技控制台的Agent Space中,点击“运维人员访问链接”直接访问该Web应用。此外,您也可借助Amazon IAM Identity Center为团队配置用户访问权限。Amazon IAM Identity Center支持直接管理用户与用户组,或对接身份提供商(IdP),从而能够以集中化的方式管控哪些人员可以访问Amazon DevOps Agent Web应用。

至此,您已配置好Agent Space,它能够集中针对该特定应用程序的事件调查工作与资源,同时也已授权DevOps团队通过Web应用发起调查。

完成该应用程序的一次性配置后,您可开始调用存在故障的Lambda函数,每次调用该函数时都会生成错误信息。与Lambda错误计数相关联的Amazon CloudWatch告警随即切换为警报状态。在实际业务场景中,您可能会收到来自ServiceNow等外部服务的告警通知,您可以配置Amazon DevOps Agent,使其收到此类警报后自动启动调查流程。

本演示将通过点击“启动调查”,手动启动调查流程,您也可以从多个预设的调查起点中选择其一,快速开启调查工作:

  • 最新告警:调查最近触发的警报,分析底层监控指标与日志数据,定位问题根本原因。

  • CPU高使用率:排查计算资源中CPU使用率过高的问题,确定占用过多资源的进程或服务。

  • 错误率激增:通过分析指标与应用日志,调查应用错误率近期骤升的现情况,定位故障源头。

本例输入了部分信息,包括调查详情、调查起点、事件发生的日期和时间,以及对应事件的亚马逊云科技账户ID。

在Amazon DevOps Agent Web应用中,您可以实时查看调查进展情况。它会先识别应用程序堆栈,随后关联来自Amazon CloudWatch的指标数据、调取来自Amazon CloudWatch Logs或Splunk等外部数据源的日志、核查GitHub上近期的代码变更记录,并分析Amazon X-Ray捕获的追踪数据。

Amazon DevOps Agent还会识别错误模式,并生成一份详尽的调查总结报告。在本次演示场景中,调查结果显示这些均为故意设置的测试异常,同时呈现了触发告警的函数调用时间线,甚至还针对错误处理环节给出了监控优化建议。

该Agent会借助Slack中的专用事件沟通频道开展工作,必要时通知值班团队,并向利益相关者同步实时状态更新。通过调查会话界面,您可以直接与Agent交互,提出诸如“你分析了哪些日志”之类的澄清问题,或提供额外上下文信息来引导调查方向,例如“重点关注这些特定日志组并重新执行分析”。如果需要专家支持,您只需一键创建Amazon Support工单,工单会自动填充Agent的调查结果,您还可以直接在调查会话窗口中与亚马逊云科技技术支持专家交流。

在本次演示中,Amazon DevOps Agent精准识别出了在Lambda控制台中,手动调用函数的操作,而该函数本身就是用于主动触发错误的。

除事件响应功能外,Amazon DevOps Agent还会分析近期发生的事件,识别具有重大影响的改进措施,从而预防同类问题未来再次发生。

在事件处置过程中,该Agent可通过其“事件缓解方案”选项卡提供即时可用的缓解方案,助力快速恢复服务。缓解方案包含详细的标准化实施方案,为开发者以及Kiro等智能开发工具提供详尽的落地指导。

在构建长期系统韧性方面,它会通过检查可观测性能力缺口、基础设施配置漏洞以及部署流水线短板,锁定潜在的优化点。在本次人为触发错误的简易演示场景中,由于尚未积累足够数据,因此未生成具有实际参考价值的优化建议。

例如,它可能会检测到某一核心服务既未部署多可用区架构,也未配置全面的监控策略。随后,该Agent会综合考虑运维影响、实施复杂度等因素,生成详尽的优化建议并提供实施指导。

后续将推出快速迭代版本,进一步拓展Amazon DevOps Agent的分析能力,来纳入代码缺陷排查与测试覆盖率优化。

可用性

Amazon DevOps Agent在美国东部(北弗吉尼亚州)的亚马逊云科技区域可用。尽管该Agent本身部署于美国东部(北弗吉尼亚州)(us-east-1)区域,但它仍能够监控部署在任何区域、跨多个亚马逊云科技账户的的应用程序

Amazon DevOps Agent预览期间,您可以免费使用,但每月的Agent任务时长会设有上限。

对于曾无数次在深夜排查生产环境故障的从业者而言,Amazon DevOps Agent无疑是一款得力工具,它将深度运维洞察与切实可行的落地建议有机结合,助力团队从被动的故障抢修模式,转向主动开展的系统优化模式。

如需了解更多信息并注册预览版体验,请参阅Amazon DevOps Agent页面。

Amazon DevOps Agent页面:

https://aws.amazon.com/devops-agent

我们将持续推出更多关于re:Invent 2025重磅发布的解读文章,帮助您快速上手!

本篇作者

Sébastien Stormacq

自20世纪80年代中期首次接触Commodore 64以来,Seb专注于软件架构、开发工具以及移动计算领域。他凭借自己的技术热情、干劲、客户至上、好奇心和创造力,激发构建者挖掘亚马逊云科技云服务的价值。

新用户注册海外区域账户,可获得最高200美元服务抵扣金,覆盖Amazon Bedrock生成式AI相关服务。“免费计划”账户类型,确保零花费,安心试用。

星标不迷路,开发更极速!

关注后记得星标「亚马逊云开发者」

听说,点完下面4个按钮

就不会碰到bug了!

点击阅读原文查看博客!获得更详细内容!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1186284.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

语音工程师必备:FSMN-VAD快速搭建技巧

语音工程师必备:FSMN-VAD快速搭建技巧 1. 引言 1.1 语音端点检测的技术价值 在语音识别、语音唤醒和音频预处理等实际工程场景中,语音活动检测(Voice Activity Detection, VAD) 是不可或缺的前置环节。其核心任务是准确识别音频…

AutoGen Studio部署案例:企业知识管理系统构建教程

AutoGen Studio部署案例:企业知识管理系统构建教程 1. 引言 随着人工智能技术的快速发展,企业对智能化知识管理的需求日益增长。传统的知识库系统往往依赖人工维护和关键词检索,难以应对复杂查询、语义理解与自动化处理等挑战。基于多智能体…

Glyph开源价值解析:为何选择自主部署方案

Glyph开源价值解析:为何选择自主部署方案 1. 技术背景与问题提出 随着大语言模型在自然语言处理领域的广泛应用,长文本上下文建模成为提升模型推理能力的关键挑战。传统方法通过扩展基于token的上下文窗口来支持更长输入,但这种方式带来了显…

如何用文字生成萌宠图片?Cute_Animal_For_Kids_Qwen_Image步骤详解

如何用文字生成萌宠图片?Cute_Animal_For_Kids_Qwen_Image步骤详解 1. 技术背景与核心价值 在儿童教育、绘本创作和亲子互动内容开发中,高质量的可爱动物图像需求日益增长。传统图像设计依赖专业美术人员,成本高且周期长。随着大模型技术的…

YOLOFuse避坑指南:单模态用户迁移注意事项说明

YOLOFuse避坑指南:单模态用户迁移注意事项说明 1. 引言 随着多模态感知在自动驾驶、安防监控和夜间检测等场景中的广泛应用,基于RGB与红外(IR)图像融合的目标检测技术正成为研究与工程落地的热点。YOLOFuse 是一个专为双流多模态…

如何用AI捏出理想声音?Voice Sculptor镜像快速上手

如何用AI捏出理想声音?Voice Sculptor镜像快速上手 1. 快速启动与环境配置 1.1 启动WebUI服务 使用Voice Sculptor镜像后,首先需要启动其内置的Web用户界面。在终端中执行以下命令: /bin/bash /root/run.sh该脚本会自动完成模型加载和服务…

从口语到书面语一键转换|FST ITN-ZH镜像实战指南

从口语到书面语一键转换|FST ITN-ZH镜像实战指南 1. 简介与核心价值 1.1 什么是中文逆文本标准化(ITN) 在语音识别(ASR)系统广泛应用的今天,一个普遍存在的问题是:识别结果虽然“听得清”&am…

FunASR语音识别数据安全:敏感信息处理策略

FunASR语音识别数据安全:敏感信息处理策略 1. 引言 随着语音识别技术在智能客服、会议记录、医疗转录等场景的广泛应用,用户音频数据中可能包含大量敏感信息,如个人身份信息(PII)、健康数据、金融信息等。FunASR 作为…

MediaPipe Hands技术揭秘:彩虹

MediaPipe Hands技术揭秘:彩虹骨骼可视化与高精度手势追踪 1. 技术背景与核心价值 随着人机交互技术的不断演进,基于视觉的手势识别正逐步成为智能设备、虚拟现实和增强现实等场景中的关键感知能力。传统触摸或语音交互方式在特定环境下存在局限性&…

ms-swift+Swift UI:可视化监控训练全过程

ms-swiftSwift UI:可视化监控训练全过程 在大模型时代,微调(Fine-tuning)已成为释放预训练模型潜力的核心手段。然而,随着模型规模不断攀升、训练任务日益复杂,传统的命令行式训练方式已难以满足开发者对可…

翻译流程再造:HY-MT1.5-1.8B效率提升

翻译流程再造:HY-MT1.5-1.8B效率提升 1. 引言 随着全球化进程的加速,高质量、低延迟的机器翻译需求日益增长。传统云端大模型虽具备强大翻译能力,但在实时性、部署成本和隐私保护方面存在瓶颈。为应对这一挑战,轻量高效且性能卓…

万物识别镜像实战应用:智能相册分类项目尝试

万物识别镜像实战应用:智能相册分类项目尝试 随着个人数字照片数量的快速增长,如何高效管理与检索成为一大挑战。传统的手动分类方式耗时耗力,而基于AI的自动图像识别技术为这一问题提供了智能化解决方案。本文将介绍如何利用“万物识别-中文…

Multisim示波器使用技巧:从零实现信号观测

从零开始玩转Multisim示波器:手把手教你精准观测电路信号你有没有过这样的经历?在仿真一个放大电路时,明明参数都设好了,可输出波形就是“抽风”——抖动、漂移、甚至根本看不到稳定图像。这时候,问题往往不在于电路设…

YOLO-v8.3 JavaScript调用:Node.js环境集成方案

YOLO-v8.3 JavaScript调用:Node.js环境集成方案 YOLO-v8.3 是 Ultralytics 公司在 YOLO 系列持续迭代中推出的最新优化版本,进一步提升了目标检测与实例分割任务的精度与推理效率。该版本不仅支持 Python 生态下的训练与部署,还通过 ONNX 模…

升级YOLO11后:目标检测体验大幅提升

升级YOLO11后:目标检测体验大幅提升 1. 背景与升级动因 目标检测作为计算机视觉领域的核心任务之一,其性能直接影响智能监控、自动驾驶、工业质检等多个应用场景的落地效果。YOLO(You Only Look Once)系列自问世以来&#xff0c…

多场景AI应用落地实践:DeepSeek-R1在教育题解中的部署案例

多场景AI应用落地实践:DeepSeek-R1在教育题解中的部署案例 1. 引言:教育智能化中的轻量化推理需求 随着人工智能技术在教育领域的深入渗透,智能题解、自动批改和个性化辅导等应用场景对模型的逻辑推理能力提出了更高要求。传统大模型虽具备…

智能客服实战:用BGE-M3快速搭建多语言问答匹配系统

智能客服实战:用BGE-M3快速搭建多语言问答匹配系统 1. 引言:智能客服中的语义匹配挑战 1.1 多语言支持的业务需求 随着全球化进程加速,企业客户群体日益多元化。传统关键词匹配方式在处理中文、英文及其他小语种混合提问时表现乏力&#x…

亲测阿里开源MGeo模型,中文地址相似度识别效果惊艳

亲测阿里开源MGeo模型,中文地址相似度识别效果惊艳 1. 引言:中文地址匹配的现实挑战与MGeo的破局之道 在电商、物流、本地生活服务等业务场景中,地址数据的标准化和实体对齐是数据清洗的核心环节。然而,中文地址存在高度非结构化…

Qwen2.5-0.5B入门指南:Docker容器化部署详细步骤

Qwen2.5-0.5B入门指南:Docker容器化部署详细步骤 1. 引言 1.1 学习目标 本文旨在为开发者提供一份完整、可操作的 Qwen2.5-0.5B-Instruct 模型 Docker 容器化部署教程。通过本指南,您将能够: 在本地或服务器上快速启动 Qwen2.5-0.5B 模型…

Qwen3-4B-Instruct-2507与Baichuan2对比:指令遵循能力评测

Qwen3-4B-Instruct-2507与Baichuan2对比:指令遵循能力评测 1. 技术背景与评测目标 随着大语言模型在实际业务场景中的广泛应用,模型的指令遵循能力已成为衡量其可用性的核心指标之一。良好的指令理解与执行能力,意味着模型能够准确解析用户…