谷歌新款具身智能模型 Gemini Robotics 1.5 和 Gemini Robotics-ER 1.5

谷歌新款具身智能模型 Gemini Robotics 1.5 和 Gemini Robotics-ER 1.5

谷歌(Google)公司在 9 月 25 日推出了其最新一代的机器人具身智能模型 Gemini Robotics 1.5Gemini Robotics-ER 1.5, 与之前推出的模型仅用于内部研究不同的是,这次谷歌正式面向开发者公开提供模型的访问 API,也代表了其对模型可用性的自信。

  • Gemini Robotics 1.5 — 性能最强的视觉-语言-动作(VLA,vision-language-action)模型,将视觉信息与人类指令转化为机器人执行任务的动作命令。该模型具备“在行动之前思考”的能力,并能展示其思考过程,帮助机器人评估和完成复杂任务。它还能跨不同的机器人实体进行学习,提升技能迁移效率。
  • Gemini Robotics-ER 1.5 — 性能最强的视觉-语言模型(VLM,vision-language model),同时是世界上首个对物理世界进行推理的模型,并能够原生调用数字工具以及制定详细的多步骤计划来完成任务。该模型在空间理解的基准测试中已取得领先水平。

基于这两个模型,能完成很多以前对机器人来说十分具有挑战性的任务。例如,可以对机器人口述:“请将这些垃圾分别放入正确的堆肥桶、回收桶与垃圾桶中。” (小知识:美国是在上世纪 90 年代开始由各州、县根据自身情况逐步推行垃圾分类政策的)要完成这项任务,机器人需要:(1)查找当地的垃圾回收政策;(2)理解眼前物品的类型与属性、位置;(3)判断应如何分类;(4)分步将物品捡起,并放置到对应位置。

视频-垃圾分类

为使机器人能完成此类复杂、多步骤任务,谷歌设计了一个物理智能体框架,由两款模型协同工作。在该框架中,具身推理模型 Gemini Robotics-ER 1.5 担任“高阶大脑”的角色,擅长在物理环境中规划操作序列和逻辑判断。它在空间理解上表现出色,能以自然语言与人类交互,并评估任务是否成功,以及当前进度,并可以原生使用工具(如 Google 搜索)或用户定义的第三方函数来辅助推理。

然后 Gemini Robotics-ER 1.5 会为每一步操作生成自然语言指令,由 Gemini Robotics 1.5 接收这些指令,结合视觉与语言理解,直接驱动机器人电机执行具体动作。Gemini Robotics 1.5 也具有“思考”能力,使得机器人能更好地解决语义复杂的任务,甚至以自然语言形式解释其思考过程,从而提高透明性。

image


强大的时空推理模型 Gemini Robotics-ER 1.5

Gemini Robotics-ER 1.5 是为机器人场景专门微调的模型,具备以下新能力:

  1. 快速而强大的空间推理
    模型可在低延迟条件下实现最先进的空间理解能力,擅长生成语义精确的二维点坐标。这些坐标基于对物体尺寸、重量与可操作性的推理,从而支持类似“指向任何你能拿起的物品”的交互请求。
  2. 协调复杂的智能体行为
    借助空间与时间推理、任务规划与完成检测能力,模型在长周期任务执行中保持稳定。它还可原生调用外部工具或第三方函数以辅助完成任务。
  3. 灵活的思考 token 预算
    用户可以控制模型在延迟与准确性之间的权衡。复杂任务(如多步组装)可允许模型“思考更久”,而实时反应任务(如检测或指认物体)则可要求快速响应。
  4. 改进的安全过滤机制
    语义层面的安全性得到加强,模型更善于识别并拒绝生成违反物理约束的操作,例如超出机器人载重限制的行为。


先进的空间理解能力

机器人要与物理环境交互,必须具备对环境的精准感知与理解。

2D 坐标点生成

Gemini Robotics-ER 1.5 经过微调,可生成高质量的二维坐标,用于标识物体在图像平面中的位置。结合机器人的三维传感数据,可推断物体在现实空间中的精确位置,以便规划系统生成运动路径。

例如,面对一张厨房场景图像,模型可返回多组物体位置点(若这些物体确实出现在图中)。这些点采用 [y, x]​ 格式并以 0 至 1000 归一化。若请求对象不存在(如“独角兽”),模型不会生成对应点,避免幻觉输出。

提示词

请指出图像中的以下物品:洗洁精、碗碟架、水龙头、电饭煲、独角兽。坐标点格式为 [y, x],归一化到 0-1000 范围内。仅包含图像中实际存在的物体。

响应

image

时间推理

在时间维度上,模型具备理解视频序列中的动作顺序与因果关系的能力。例如,当观看展示双臂机器人操作的短片并被询问“执行步骤的顺序是什么”时,模型能够按照时间戳的顺序进行正确描述,表明它理解了场景中发生的动作,而不仅仅是识别静态物体。

提示词

请详细描述完成任务的每一步。按时间戳分解,并以 JSON 格式输出,包含 'start_timestamp'、'end_timestamp' 和 'description' 三个键。

响应

[{"start_timestamp": "00:02","end_timestamp": "00:13","description": "左侧机械臂从桌上拿起绿色记号笔,并将其放入木制托盘中。"},{"start_timestamp": "00:15","end_timestamp": "00:22","description": "左侧机械臂从桌上拿起蓝色笔,并将其放入黑色网状笔筒中。"},{"start_timestamp": "00:23","end_timestamp": "00:28","description": "右侧机械臂从桌上拿起红色笔,并将其放入黑色网状笔筒中,完成了整理书写工具的任务。"}
]

基于可操作性的推理,实现长周期任务规划

机器人学中,物体的可操作性,即该物体可以被怎样物理交互或使用,如可抓取、可旋转、可支撑重量等。基于可操作性的推理,强调该模型不仅能识别物体是什么(感知层面),还可以理解并推理机器人如何与这个物体交互。如:

  • 在制作咖啡的示例中,模型不仅识别“这是咖啡杯”,还判断杯子可以被抓起,并放到咖啡机下方;
  • 在关闭咖啡机盖子的任务中,模型能够推断盖子的“可旋转”或“可下压”的特性,并规划相应的机器人动作。

例如,在咖啡制作示例中,模型不仅识别放置杯子的位置,还能规划关闭咖啡机盖子的轨迹;任务完成后,还能判断将杯子放在何处便于后续清理。

提示词

请指出我应该把杯子放在哪里才能制作一杯咖啡。返回一个 JSON 对象列表,格式为:[{"box_2d": [y_min, x_min, y_max, x_min], "label": <标签>}],其中坐标归一化到 0-1000 范围内。

响应

如下图,模型在图中以方框形式准确标记了杯子应该放置的位置

image

提示词

接下来,我需要把咖啡机盖子关上。请绘制一条由 8 个点组成的轨迹,指示盖子手柄应该如何移动才能关闭。起点为手柄当前位置。点的格式为 [Y,X],归一化坐标范围为 [0 - 1000]。请输出所有点,包括轨迹点,格式为:[{"point": [Y, X], "label": }, {"point": [Y, X], "label": }, ...]。

响应

image

灵活的思考 token 预算控制

实际示例表明,在使用 Gemini Robotics-ER 1.5 时,思考 token 预算的不同会影响延迟与性能。随着思考预算的增加,模型性能随之提升。对于简单的空间理解任务(如物体检测),即使在极低预算下也能获得高性能;而更复杂的推理任务则更适合较大的预算。

该模型采用推理时计算资源动态扩展策略,使得思考预算可调。开发者可以设置思考预算,甚至关闭额外推理步骤,只需在请求中添加 thinking_config​ 参数即可。


安全性说明

Gemini Robotics-ER 1.5 在安全方面的主要提升包括:

  • 语义安全性:模型能理解并拒绝潜在危险或有害的任务计划,其能力已在相关标准测试集中得到验证。
  • 物理约束认知:模型加强了对机器人载重、工作空间等物理边界的识别能力,能够在生成计划时参考这些限制。

博士点评

谷歌还是 AI 届的王者,最早提出了 Transformer 模型架构。虽然被 OpenAI 偷袭了老家,但它还是全球智力资源、算力资源最密集的公司。从去年组织机构改组,把公司内部两支世界顶级的 AI 开发团队 DeepMind 和 Google Brain 整合起来后,立马推出了 Gemini 系列模型,从基准测试到产品体验,迅速从 OpenAI 扳回一局。相比之下,目前 Meta 公司的重组看起来更混乱无序,就看天价挖过去的“华人天团”是否给力了。

回到机器人具身智能模型,DeepMind 一直是 AI 改变现实世界的狂热研究者,从最早的 AlphaGo 战胜世界围棋冠军李世石,再到 AlphaFold 预测蛋白质结构颠覆了整个生物医药研发体系(创始人是历史上第一位靠 AI 拿了诺贝尔奖的人),并将 AI 用于核聚变控制、气候建模、材料研发等。相比而言, OpenAI 只是在无意中发现了大模型在文本对话和写作上的优势;“外星人”奥特曼借此在人气、商业上为自己博取了巨大利益,但这种成就对社会发展的实际意义相比 DeepMind 还是要低一点。

核能应用

Google 只是开放了模型的 API 使用,需要注册和登录谷歌云服务才能使用,并不是开放模型权重文件的下载,而谷歌的 API 在国内也访问不了。除非国内有机构能像 Deepseek 追赶 OpenAI 的推理模型 GPT-4o 一样,能自主开发实现相同的效果,并开源出来。

但预估 5-10 年内这个技术在国内也没法复现。目前国内顶尖 AI 公司的精力,都还放在追赶国外的语言大模型、多模态大模型性能上;压根没有余力,在机器人具身智能模型上追赶。现在国内玩具身智能模型的,都是高校或者一批新兴的机器人小 Startup,目前都还忙着发论文或拉风投呢。没有大企业的高密度智力资源投入,机器人具身智能模型在国内短期内是难以追赶上谷歌步伐的。

扫码_搜索联合传播样式-标准色版

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/919318.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

个人二级网站怎么做嵌入式软件开发岗位职责

页脚始终保持在页面底部的网页布局方法导语&#xff1a;用CSS创建一个高度自适应布局&#xff0c;如何保证页脚(footer)在内容不超过一屏的情况下始终保持在布局最下方是一个比较头疼的事。下面就由百分网小编为大家介绍一下页脚始终保持在页面底部的网页布局方法&#xff0c;希…

女装网站功能的建设郑州联通网站备案

QCon旧金山大会是由InfoQ举办的连续十年的最大的英语会议&#xff0c;它将在今年11月7-9日在旧金山湾区举行。\\在QCon大会涵盖了一系列深入的技术&#xff0c;架构师、资深开发者所关注的国际事件&#xff0c;聚焦创新领域和软件发展趋势&#xff0c;QCon大会每年在美国、中国…

网站多媒体加载卡顿?视频压缩 + 音频优化,加载速度提升 75% 的实操方法 - 实践

网站多媒体加载卡顿?视频压缩 + 音频优化,加载速度提升 75% 的实操方法 - 实践2025-09-27 09:49 tlnshuju 阅读(0) 评论(0) 收藏 举报pre { white-space: pre !important; word-wrap: normal !important; overfl…

全国做的最棒的网站域名的作用是什么

单例模式 指一个应用程序中&#xff0c;某个类的实例对象只有一个&#xff0c;你没有办法去new&#xff0c;因为构造器是被private修饰的&#xff0c;一般通过getInstance()的方法来获取它们的实例。 getInstance()的返回值是一个对象的引用&#xff0c;并不是一个新的实例&a…

完整教程:测试自动化教程:Parasoft如何流重定向与单元测试自动化

完整教程:测试自动化教程:Parasoft如何流重定向与单元测试自动化pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "…

用 Zig 实现英文数字验证码识别

一、背景介绍 验证码(CAPTCHA)是互联网应用中广泛使用的安全机制之一,主要用于区分真实用户与自动化程序。英文数字验证码识别可以通过 OCR 技术实现。本文将基于 Zig 语言 调用 Tesseract OCR,构建一个轻量级识别…

用 Crystal 实现英文数字验证码识别工具

一、项目简介 更多内容访问ttocr.com或联系1436423940 验证码识别是现代图像处理与 OCR(光学字符识别)技术的重要应用场景之一。本文将使用 Crystal 编程语言构建一个英文数字验证码识别工具,调用 Tesseract OCR 引…

实用指南:Java 面试 -Java基础

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

基于 Nim 的英文数字验证码识别工具实现

一、项目介绍 验证码识别是图像处理与字符识别的典型应用场景之一。本文将基于 Nim 编程语言实现一个简单的英文数字验证码识别工具,通过调用 Tesseract OCR 引擎,实现图像到字符的转换,探索 Nim 在图像处理场景下的…

怎么建立网站快捷方式企业融资渠道及技巧

https://itunesconnect.apple.com/WebObjects/iTunesConnect.woa/ra/ng/app转载于:https://www.cnblogs.com/zhangchengyuan/p/5623348.html

完整教程:数组(Java基础语法)

完整教程:数组(Java基础语法)pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco&qu…

网站收录怎么删班级网站建设方案

静态站点生成器大解析&#xff1a;找出哪一款最适合你 前言 本文将探讨六种不同的静态站点生成器和React框架&#xff0c;包括Gatsby&#xff0c;Next.js&#xff0c;Jekyll&#xff0c;Hugo&#xff0c;Hexo和Eleventy。这些工具各有特色&#xff0c;提供了丰富的功能和使用…

wp网站模板亲子游网站建设内容

CSS之盒子模型 margin: 用于控制元素与元素之间的距离&#xff1b;margin的最基本用途就是控制元素周围空间的间隔&#xff0c;从视觉角度上达到相互隔开的目的。padding: 用于控制内容与边框之间的距离&#xff1b;Border(边框): 围绕在内边距和内容外的边框。Content(内容): …

做网站都需要什么步骤网络管理网址

解题思路&#xff1a; 首先分别将pattern字符串转为字符数组p&#xff0c;将s字符串根据" "切割为字符串数组s1&#xff0c;判断两个数组的长度是否相等&#xff0c;如果不相等&#xff0c;则返回false。之后对两个数组的每个元素与哈希表做比对&#xff0c;哈希表的…

宁波做百度网站音乐版权购买网站

1.插件化开发概述 插件化开发模式正在很多编程语言或技术框架中得以广泛的应用实践&#xff0c;比如大家熟悉的jenkins&#xff0c;docker可视化管理平台rancher&#xff0c;以及日常编码使用的编辑器idea&#xff0c;vscode等。 实现服务模块之间解耦的方式有很多&#xff0…

深入解析:python+django/flask哈利波特书影音互动科普网站

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

手机建立网站软件兴趣电商平台有哪些

一.利用写好的数据库表生成创建表的sql语句 1.简单创建一个数据库&#xff0c;并建一个表&#xff0c;并编辑数据。 a.建库 b.建表 c.编辑表&#xff0c;保存时输入表名 d.刷新一下&#xff0c;出来了 e.转存导出sql文件。 二.利用生成的数据库创建表加同步数据sql。…

重庆装修公司电话游戏seo推广

来源&#xff1a;机器之心除了量子计算&#xff0c;量子物理学的应用范畴还很广。近日&#xff0c;美国东北大学物理学教授 Gregory Fiete 探讨了量子研究的广泛应用。量子物理学家研究的世界与普通人每天生活的世界是同一个&#xff0c;唯一的区别是它被科学家「缩放」到了无法…

广告网站留电话网站开发大概价格

HBase概述 1. Why we need HBase &#xff1f; 在大数据时代来临之前&#xff0c;我们通常依赖传统的关系型数据库&#xff08;如RDBMS&#xff09;来处理数据存储和管理。然而&#xff0c;随着数据量的急剧增长和数据结构的多样化&#xff0c;传统数据库系统开始显露出其局限性…

AI信任心理学:构建可信赖人工智能系统的实用指南

本文深入探讨人工智能系统中的信任心理学,提出基于能力、善意、诚信和可预测性四大支柱的信任框架。文章详细介绍了测量用户对AI信任度的研究方法,包括定性访谈、定量量表和行为指标,并提供了具体的设计策略来构建更…