计算机视觉与生成式AI及推理的集成技术

news/2025/12/6 15:49:11/文章来源:https://www.cnblogs.com/codeshare1135/p/19315843

如何将计算机视觉流程与生成式AI及推理技术集成

生成式AI正在为分析现有视频流开辟新的可能性。视频分析正在从计数对象演变为将原始视频内容转化为实时理解。这使得人们可以获得更具可操作性的洞察。

某中心的AI蓝图——视频搜索与摘要(VSS)——将视觉语言模型(VLM)、大型语言模型(LLM)和检索增强生成(RAG)与优化的数据摄取、检索和存储流程结合在一起。作为某中心大都会平台的一部分,它支持存储和实时视频理解。

在之前的版本中,VSS蓝图引入了高效视频摄取、上下文感知RAG、计算机视觉(CV)流程和音频转录等功能。欲了解这些基础功能的更多信息,请参阅相关技术文档。

本文解释了最新VSS蓝图2.4版本中的新功能,该版本提供了四大升级,使开发者能够:

  1. 提升物理世界理解能力:VSS现已集成某中心Cosmos Reason,这是一个先进的推理VLM,可为更丰富的视频分析和洞察提供高级物理AI推理和场景理解。
  2. 增强问答能力:新的知识图谱功能和跨摄像头支持包括多流问答、改进的知识图谱生成、基于智能体的图谱遍历、Neo4J和ArangoDB,以及cuGraph加速。
  3. 通过事件审查器在边缘解锁生成式AI:审查CV流程发现的感兴趣事件,并用生成式AI提供上下文洞察。新的端点使VSS能够配置为CV流程的智能附加组件,非常适合低延迟边缘部署。
  4. 扩展的硬件支持部署:VSS现已可在多个基于某中心布莱克威尔架构的平台上运行,包括某中心Jetson Thor、某中心DGX Spark以及某中心RTX Pro 6000工作站和服务器版本。

通过Cosmos Reason提升物理世界理解能力

Cosmos Reason是一个开放的、可定制的、70亿参数的最先进推理VLM,用于物理AI。它使视觉AI智能体能够像人类一样,利用先验知识、物理理解和常识来理解和作用于现实世界。Cosmos Reason使开发者能够构建能够通过分析PB级记录视频或数百万实时流来观察、分析和作用于物理世界的AI智能体。Cosmos Reason NIM现已可用,为构建具有快速、可扩展推理能力的智能视觉AI智能体提供了一个生产就绪的VLM端点。

使用VSS蓝图2.4构建的视频分析AI智能体可以利用Cosmos Reason提取准确且丰富的密集字幕、通过集合提示枚举感兴趣的对象、提供有价值的见解,并对来自制造线、物流仓库、零售店和交通网络等多个行业的镜头进行根本原因分析。

VSS 2.4支持与Cosmos Reason的原生集成。这种支持将视频摄取过程与VLM紧密耦合,允许进行高效的批处理和加速,这是基于REST API的VLM接口无法实现的。Cosmos Reason仅70亿参数的小尺寸,使其易于用于边缘部署和云端。Cosmos Reason完全可定制,并且能够使用专有数据进行微调。

利用知识图谱和跨摄像头支持增强问答能力

摄取大量视频具有挑战性,因为数据是非结构化的、连续的且体量极大,这使其难以高效搜索、索引或摘要。单个视频可能包含数小时的镜头,包括同时发生的多个事件,并且需要大量计算资源仅用于解码和分析。标准的计算机视觉流程通常无法跟上规模,产生孤立的检测结果,而缺乏理解实际发生情况所需的更广泛上下文。

VSS通过使用GPU加速的视频摄取流程解决了这个问题。当视频文件或直播流进入时,它被分解成更小的块,Cosmos Reason VLM为每个块生成丰富的描述或字幕。然后,一个LLM从VLM生成的字幕中提取必要的信息,构建一个捕获视频重要细节的知识图谱。一旦知识图谱构建完成,一个大型语言模型会遍历该图谱,回答用户关于视频的问题。

VSS 2.4通过以下方式增强了问答准确性和跨摄像头理解能力:

  • 知识图谱中的实体去重
  • 基于智能体的图谱遍历
  • CUDA加速的图数据库

在VSS蓝图的早期版本中,构建知识图谱可能导致重复的节点和边。在VSS蓝图2.4中,增加了知识图谱后处理,以删除任何重复条目,并合并跨视频共有的节点和边。这意味着,像同一辆车在多个摄像头间移动这样的常见实体,现在被合并为单一实体,这提高了VSS理解物体在视频中及跨摄像头移动过程中独特对象的能力。

一旦知识图谱生成并经过后处理,就使用LLM遍历图谱并收集必要信息来回答用户关于视频的问题。

在VSS 2.4中,引入了基于智能体的推理用于高级知识图谱检索。如果启用,一个基于LLM的智能体将智能地分解问题,然后使用一组工具来搜索图谱、查找相关元数据、重新检查视频中的采样帧,并在必要时进行迭代,以准确回答用户的问题。

准确率对比(表)

  • 基准:LongVideoBench | VSS 2.3.1准确率:48.16 | VSS 2.4准确率:64.32 | 准确率变化:+16.16%
  • 基准:MLVU | VSS 2.3.1准确率:61.24 | VSS 2.4准确率:71.44 | 准确率变化:+10.20%

现在,利用知识图谱后处理合并实体和关系以及高级的基于智能体的检索,可以回答跨多个摄像头流的问题。

为了向开发者提供最新的工具,支持的图数据库后端已扩展至包括ArangoDB。用户现在能够将VSS配置为使用Neo4J或ArangoDB图数据库后端。ArangoDB带来了一系列增强功能,包括用于加速知识图谱生成的CUDA加速图函数。

这些用于实现知识图谱生成和智能体问答的新功能最适合能够处理大型LLM和多个并发VLM请求的多GPU部署。

使用VSS事件审查器增强CV流程

对于小规模和边缘部署,新的VSS事件审查器功能引入了API端点,使得将VSS轻松集成到现有的计算机视觉流程中,以实现低延迟警报和对视频片段的直接VLM问答。

事件审查器允许VSS仅对关键时刻提供VLM洞察,而不是在所有文件或流上持续运行VSS。这种方法大大降低了计算成本,使VSS非常适合轻量级部署和边缘平台。

虽然标准CV流程擅长检测物体和人员,或应用分析来识别事件(如可能的车辆碰撞),但它们经常产生误报,并且缺乏更深入的场景理解。

VSS可用于增强这些CV流程,具体方式是分析由CV系统标记的短视频片段,审查检测到的事件,并发现传统方法可能遗漏的额外见解。

图4显示了VSS如何增强现有流程。计算机视觉流程代表任何能够接收视频文件或流并输出感兴趣的短视频片段的专有系统。然后可以调用事件审查器端点,将这些短视频片段传递给VSS,以生成警报并与VLM进行后续问答。

为了演示此功能,VSS GitHub仓库中使用GroundingDINO提供了一个示例DeepStream检测流程。该示例流程摄取视频,运行检测,然后在检测到的物体数量超过设定阈值时输出片段。该流程的目的是从视频中找出需要VSS与VLM一起检查的最重要事件。

然后,VSS将使用VLM处理每个小片段,回答用户定义的一组是/否问题。这些响应被转换为每个问题的真/假状态,可用于向用户生成低延迟警报。一旦短视频片段被VSS处理完毕,您可以询问更详细的后续问题。

这种方法仅选择性地将由轻量级检测流程确定的感兴趣的片段用于VLM。它可以通过减少VLM调用并释放GPU用于其他工作负载,从而大幅降低计算成本。

通过扩展的硬件支持灵活部署

VSS蓝图2.4完全支持多个某中心布莱克威尔平台,包括用于边缘部署的某中心RTX Pro 6000服务器和工作站版本以及某中心Jetson Thor。对某中心DGX Spark的支持即将推出。

支持平台与推荐用途(表)

  • 平台:1 某中心Jetson Thor | LLM:Llama 3.1 8B | VLM:Cosmos Reason 1 | 推荐用途:事件审查
  • 平台:1-2 某中心RTX PRO 6000 Blackwell WS/SE | LLM:Llama 3.1 70B | VLM:Cosmos Reason 1 | 推荐用途:事件审查,视频摘要,视频问答(向量RAG)
  • 平台:4-8 某中心RTX PRO 6000 Blackwell WS/SE | LLM:Llama 3.1 70B | VLM:Cosmos Reason 1 | 推荐用途:事件审查,文件摘要,视频问答(图谱RAG)

有关支持的平台的完整列表,请参阅VSS文档的“支持的平台”部分。

开始使用视觉智能体AI

新的VSS蓝图2.4版本为边缘带来了新的视觉智能体AI功能、提升问答准确性的改进、跨摄像头理解以及平台支持的扩展。知识图谱创建和遍历的增强提高了问答准确性,并支持跨摄像头查询。

对于边缘部署和警报用例,事件审查器功能是一种将VSS用作CV流程智能附加组件以实现低延迟警报的方式。扩展的平台支持包括某中心RTX Pro和某中心Thor。

要快速开始使用VSS蓝图,请使用某中心Brev Launchable。该launchable提供快速的一键部署和Jupyter笔记本,引导您如何启动VSS、访问Web UI以及使用VSS REST API。访问GitHub仓库以获取更多技术资源,如训练笔记本和参考代码。更多技术问题,请访问某中心开发者论坛。

有关生产部署和云服务提供商的详细信息,请参阅VSS文档的“云”部分。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码

公众号二维码

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/990302.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

socket编程 - 详解

socket编程 - 详解pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Co…

2025年五大源头井式炉厂家推荐,井式炉实力供应商全解析

在工业热处理领域,井式炉作为周期式作业的核心设备,是杆类、长轴类零件热处理的关键工具,其性能直接影响工件精度与生产效率。面对市场上众多井式炉供应商,如何选择源头井式炉厂家与井式炉实力供应商?以下为你推荐…

2025 年温州包车公司联系方式推荐:聚游汽服多车型定制 高性价比保障,安全便捷!

导读 近年来,随着温州文旅产业的蓬勃发展、商务交流的日益频繁,以及企业团建、家庭出游等多元化出行需求的持续释放,包车服务行业迎来了快速发展期。据温州市交通运输协会数据显示,2024 年温州地区包车服务订单量同…

2025 年贵阳 GEO 厂商最新推荐榜,技术实力与市场口碑深度解析,助力企业精准选合作方贵阳 GEO 训练营,贵阳 GEO 实战培训,贵阳 GEO 全案服务,贵阳 GEO 流量挖掘公司推荐

引言 在 AI 营销成为企业流量争夺关键赛道的当下,GEO 服务对企业品牌在 AI 语境中树立良好形象、获取竞争优势意义重大。为给企业提供可靠的合作参考,本次 2025 年贵阳 GEO 厂商推荐榜,由中国地理信息产业协会、中国…

2025年五大知名的西点培训学校推荐,看哪家收费合理?

在烘焙行业蓬勃发展的当下,掌握专业西点技艺成为许多人就业创业的敲门砖。面对市场上琳琅满目的西点培训学校,如何找到知名的西点培训学校、高性价比的西点培训学校?以下依据教学品质、口碑评价与性价比维度,为你推…

CSP-S2025游记

初赛 9.19 被CPP强行提早一天会学校,遂不爽。 被猫学长投喂了麻薯,拜谢猫学长%%%。 做了2020年真题,90.5pts,赢。 晚上整个寝室楼都只有OIer,为什么其它竞赛一个赛季那么短? 9.20 因为学校压根就没什么人,所以七…

详细介绍:【Nacos】集群搭建和配置实战攻略

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

2025年五大郑州木头包装箱厂排行榜,口碑好的托盘包装箱生产

为帮助企业精准锁定适配自身需求的包装合作伙伴,避免选型陷入价格战陷阱或合规风险盲区,我们从资质合规性(如危险品包装认证、IPPC检疫资质)、技术解决方案能力(含特殊场景包装设计、成本优化方案)、交付响应效率…

Memoirs and Experience Summarise: to my OI career

【咕咕咕】 我什么也不知道。不知道,这一年真真切切提高的分数和排名,为什么会是这个结果。无所谓了。才考完想发泄一下情绪,于是有了这么个东西,当时也没写多少。 然后我爸看到之后催我赶紧写完???Leisure wri…

希腊移民企业推荐,比较好的希腊移民公司与希腊移民资深企业全解

在全球化浪潮下,希腊购房移民凭借低门槛、高性价比的优势,成为不少家庭布局欧洲的优选路径。然而,市场上移民机构鱼龙混杂,如何找到比较好的希腊移民公司、靠谱的希腊移民企业和希腊移民资深企业?以下依据专业度、…

2026 太原 KET/PET 辅导机构口碑排名:权威测评

在太原小店区、迎泽区、杏花岭区、尖草坪区、万柏林区、晋源区、清徐县、阳曲县、娄烦县、古交市,每到孩子备战 KET/PET 的阶段,家长们是不是都在为找靠谱的课外补习机构操碎了心?想选一家有权威机构资质的,却被五…

2025 年最新推荐不锈钢水箱源头厂家榜单:覆盖多场景需求,附国内协会测评数据与优质厂商详情不锈钢保温水箱/304 不锈钢水箱/不锈钢消防水箱/不锈钢人防水箱/组合式不锈钢水箱公司推荐

引言 当前不锈钢水箱市场需求旺盛,但行业乱象频发。据中国建筑金属结构协会 2025 年《不锈钢水箱行业质量白皮书》显示,市场上 38% 的不锈钢水箱存在材质不达标问题,非食品级不锈钢占比超 25%;工艺不合格导致的水箱…

Avira优化器本地权限提升漏洞深度剖析

本文详细披露了Avira优化器中的一个本地权限提升漏洞。该漏洞源于Avira.OptimizerHost.exe服务以SYSTEM权限运行且通过不安全的命名管道接收命令,攻击者可通过代码注入和证书克隆绕过验证,实现从普通用户到SYSTEM权限…

详细介绍:DocxFactory: 一个C++操作word的开源库(不依赖office控件)

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

页分裂 页合并(索引为什么会慢慢膨胀)

🔥 一句话总纲B+Tree 就像图书馆书架:书(行)放满了一格(页) → 再放就得搬书、再开新格 → 结构调整就是页分裂/合并。1️⃣ B+Tree 页结构回顾 每个页(Page):默认大小 16KB 叶子节点存索引列 + 行指针(或全…

解读上海中臻达建设有限公司的品牌知名度、口碑与合作伙伴

在钢结构建筑领域,上海中臻达建设有限公司的名字逐渐被更多人所熟知。许多人都十分关心中臻达的品牌知名度如何、口碑好不好以及它的合作伙伴有哪些。接下来,就让我们深入了解这家公司。 行业优势:技术创新与全周期…

走出线性陷阱:重构信息化与数字化的非连续性关系 ——基于范式差异与转型路径的再思考

当前企业界普遍沿用“信息化—数字化—智能化”的三步走线性叙事,将传统信息化视为数字化转型的必然前置工程。本文基于战略管理实践、企业信息系统演进及行业案例观察指出:信息化与数字化在问题意识、技术架构与业务…

【小工具】详细比较微信小程序的 onLoad 和 onShow

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

2025年度防撞板工厂直供TOP5专业厂家测评:甄选佛山头部

在公装、家装装饰材料领域,防撞板因兼具防护与装饰属性,成为医院、学校、酒店、写字楼等场景的刚需材料。2024年数据显示,国内防撞板市场规模突破60亿元,年增速达28%,但行业痛点突出:30%的投诉集中在交付延迟、环…

2026 石家庄 KET/PET 课外教育机构口碑排行榜:权威测评推荐

在石家庄长安区、桥西区、新华区、裕华区、井陉矿区、藁城区、鹿泉区、栾城区、井陉县、正定县、行唐县、灵寿县、高邑县、深泽县、赞皇县、无极县、平山县、元氏县、赵县、辛集市、晋州市、新乐市的家长们,你是不是也…