从Gemini Robotics看通用机器人的科技路径

news/2025/10/13 21:12:51/文章来源:https://www.cnblogs.com/lxjshuju/p/19139394

在语言大模型的竞争日趋白热化之际,人工智能的下一个主战场已然清晰——物理世界。将AI的智慧注入到物理实体中,让机器人具备通用的、适应各种场景的能力,已成为全球科技巨头竞相追逐的“圣杯”。在这场竞赛中,谷歌DeepMind近期发布的Gemini Robotics 1.5系列,不仅展示了其在技术上的领先地位,更揭示了其试图主导整个机器人时代的宏大“阳谋”。

打造“机器人界的Android”

谷歌的战略并非是亲自下场,去设计和制造所有形态的机器人。恰恰相反,其核心商业逻辑是,提供一个极其强大的、标准化的AI“大脑”和“操作系统”,让全球所有机器人制造商,无论是工业机械臂、仓储机器人还是人形机器人,都能够采购和集成。

这无疑是在复刻其在智能手机时代,利用Android平台建立平台级生态系统的成功路径。通过将最核心、最复杂的AI能力封装成一个易于调用的服务,谷歌旨在成为未来所有通用机器人背后的“赋能者”,从而在即将到来的具身智能时代,占据产业链的顶端位置。

实现“通用”的技术基石

要实现这一宏伟目标,必须解决通用机器人发展道路上的两大核心技术难题:数据稀缺性实时性

动作迁移技术
具身智能领域最大的发展瓶颈,在于机器人训练内容的稀缺。收集真实机器人的物理交互数据,成本高昂且极其耗时,而且不同型号机器人的信息通常互不通用。

Gemini Robotics 1.5模型中的动作迁移技能,正是为了攻克这一难题。它通过一种新的模型架构,让AI能够从多种不同形态的机器人(异构、多具身)的训练内容中,学习到关于运动和物理学的统一、通用的理解。

这带来的革命性突破,就是零样本技能迁移。这意味着,在一个双臂机器人上训练的“打包午餐”技能,可以无需额外训练,直接在一个人形机器人上成功执行。机器人之间从此允许相互“学习”和共享经验,这极大地加速了通用技能的积累和泛化进程。
机器人打包午餐

Gemini Robotics On-Device
机器人在真实世界中对就是另一个巨大挑战,实时响应网络稳定性的严苛要求。传统的云端AI模型,推理延迟高,且高度依赖稳定的网络连接,这在许多工业、医疗或户外场景中是无法接受的。

为此,谷歌推出了紧凑型版本Gemini Robotics On-Device (GRoD)。它采用了一种巧妙的混合架构:将复杂的感知和推理核心保留在云端,但将一个轻量级的动作解码器部署在机器人本地的芯片上运行。

通过“滚动预测范围”等技巧,GRoD成功地将云端160毫秒的延迟,隐藏在一个50Hz的平滑控制循环背后,最终实现了约250毫秒的低延迟闭环控制。更重要的是,它具备离线弹性,即使在网络完全中断的情况下,本地的解码器依然能够继续执行任务。这使得机器人在仓库、外科手术室或远程勘探等网络不稳定的环境中,也能保持稳定工作。

通用机器人离我们还有多远

那么,有了这些技术突破,一个能走进我们生活和工作的通用机器人,离我们还有多远?

从已实现的场景来看,我们已经非常接近。在演示中,搭载了Gemini Robotics 1.5的机器人,已经能够执行相当复杂的、需要情境感知的任务。例如,它能根据“请帮我打包一份午餐,但别压坏了葡萄”这样的自然语言指令,执行精细的操作;也能在打包行李时,通过调用Google Search查询目的地的天气,从而主动将一把雨伞放入行李箱。

当然,要实现大规模普及,通用机器人仍面临诸多挑战。包括如何进一步提升在复杂动态环境中的灵巧度和安全性,以及如何处理长时序的、更复杂的任务规划等。谷歌发布的ASIMOV-2.0安全基准测试,也正是为了系统性地评估和解决机器人在真实世界中的安全伦理问题。

,其“机器人界Android”的平台化开放战略,可能会极大地加速整个通用机器人产业的成熟与到来。一个由AI驱动、能够真正理解并服务于我们物理世界的机器人新纪元,其大幕已经拉开。就是谷歌DeepMind通过Gemini Robotics 1.5系列,不仅展示了其在具身智能技术上的绝对领先地位,更主要的

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/936427.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

张量的基本操作

从现在开始学习李沐的动手学习深度学习 学习深度学习这个科目,我们必须从基础概念开始学习 对于一个机器学习来说,关键的组件如下:可以学习的数据 如何转换数据的模型 一个目标函数, 用来量化模型的有效性 调整模型…

Windows7 隐藏用户

前言 当你在使用电脑时,真的确信只有你一个人在使用吗?会不会在某些不注意的角落,早已经有黑客悄悄潜入,创建了一个你不知道的用户? 漏洞实现 启动管理员cmd,并创建一个test\(用户,并将其分给administrators组。…

10 月记录

CF2159 CF2152 http://192.168.102.138/JudgeOnline/contest.php?cid=2310 http://192.168.102.138/JudgeOnline/contest.php?cid=2312 http://192.168.102.138/JudgeOnline/contest.php?cid=2314 https://htoj.com…

统计学习方法学习Day01

学习了统计学习方法的第一章 1.5正则化与交叉验证 (1)正则化的目的是模型选择的一个经典方法,正则化的是要使风险最小化的策略。正则化实在经验风险上加上一个正则化项,正则化项主要是防止模型在训练过程中出现过拟…

gpt-5-codex vs gpt-5

非常好的问题——你这张截图展示的是一个模型选择界面,列出了两组模型:gpt-5-codex 系列 和 gpt-5 系列,每组又细分成 low / medium / high 等不同等级(有的还有 minimal)。下面是它们的对比与推荐使用场景分析:…

Jenkins Share Library开发入门(一)

写在前面 今日心情有点小丧,但总体问题不大,有一些突然来的活,还没整完,明天再继续搞把。 有难度吗? 有一些把,我觉得还是要做一些自己不擅长的工作,才会有成长的吧,为什么? 用我们测试同学的话术,就是提升“…

第十三篇

今天是10月13号,今天是满课,上午学习了栈的相关知识,下午学习了Java。

网络安全基础--第五课:跨站脚本攻击XSS - 实践

网络安全基础--第五课:跨站脚本攻击XSS - 实践pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", &…

成员内部类

成员内部类在类的内部定义,与实例变量,实例方法同级别的类外部类的一个实例部分,创建内部类对象时必须依赖外部类对象Outer out = new Outer(); Inner in = out.new Inner();//外部类 public class Outer {//实例变…

用 Fortran 进行英文数字验证码识别

一、引言 Fortran 是历史最悠久的高级语言之一,广泛应用于数值计算与工程模拟。在验证码识别方面,尽管 Fortran 并不是图像处理或 OCR 的主流语言,但我们可以借助系统调用与外部 OCR 工具如 Tesseract 实现简单的验…

webpack优化前端性能

Webpack 优化前端性能主要从构建时优化和运行时优化两个维度进行。以下是全面的优化方案: 1. 代码分割与按需加载 1.1 动态导入 (懒加载) // React 路由懒加载 const Home = lazy(() => import(/* webpackChunkNam…

2025.10.13总结 - A

今天满课,生活充实且乏力。加油

洛谷版自我介绍

清华大学紫荆书院学生科学技术协会 (ZAST) 赛事部 副部长 Deputy Director of the Competition Department, Zijing Association of Science and Technology(ZAST), Tsinghua University 清华大学紫荆书院科协常年举办…

Windows五次shift漏洞复现

前言 当我们每次按五次shift之后都会弹出如下图所示的样式,在早期的windows7版本,就可以利用这个漏洞进行取得意想不到的效果。一、原理 我们可以给sethc进行改名,将本该启动sethc变成启动cmd,然后利用dos命令进行…

P8186 [USACO22FEB] Redistributing Gifts S 题解 - 符星珞

题目描述 FJ 有 \(N\) 个礼物给他的 \(N\) 头奶牛,这 \(N\) 个礼物和 \(N\) 头奶牛都分别按顺序被标记为从 \(1\) 到 \(N\) 的整数。每头奶牛都有一个愿望单,记录着一个含有 \(N\) 个礼物的排列。比起在愿望单中出现…

深入解析:个人用云计算学习笔记 --17(DNS 服务器)

深入解析:个人用云计算学习笔记 --17(DNS 服务器)pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas"…

Windows续

一、Windows 文件系统 1.1 文件系统基本概念 文件系统是操作系统用于明确存储设备或区分上的文件的方法和数据结构。 操作系统中负责管理和存储文件信息的软件机构称为文件管理系统,简称文件系统。 1.2 文件系统格式(…

uml九类例图详解

九种常见UML图(分类+图解) 九种常见UML图1.类图 概述 类图(Class Diagram)是面向对象系统建模中最常用和最重要的图,是定义其它图的基础。 类图主要是用来显示系统中的类、接口以及它们之间的静态结构和关系的一种…

继续学习,争取早日找到实习 - Irving11

关于SQL的一些经典实例 一、TOP n 1、路径问题: csv_path = "student_score.csv" df = pd.read_csv(r"D:\Pycharm\pythonProject3\student_score.csv") 文件路径里的 \ 在 Python 中被当作转义字…

悟空原创:零门槛编程?实现了!拖拉流程,支持窗口界面设计支持生成独立可执行程序

悟空原创:零门槛编程?实现了!拖拉流程,支持窗口界面设计支持生成独立可执行程序悟空原创:零门槛编程?实现了!拖拉流程,支持窗口界面设计支持生成独立可执行程序零门槛编程,不会写代码,只想简单拖拉图形控件就…