交互式世界建模新方案!腾讯混元发布世界模型WorldPlay,兼顾实时生成与长期几何一致性;5万条样本!Med-Banana-50K支持增删病灶双向编辑

世界模型正驱动计算智能领域的重心逐渐从语言任务拓展至视觉与空间推理,通过构建动态三维环境的模拟能力,这些模型使智能体得以感知并与复杂场景交互,从而为具身智能、游戏开发等领域开启了新的研究与应用前景。世界模型的前沿正聚焦于实时交互式视频生成,尽管已取得显著进展,但如何同时达成实时生成的低延迟与长期几何的高一致性,仍然是该领域悬而未决的关键问题。

基于此,腾讯混元团队推出了世界模型 WorldPlay,能够实现实时、交互式的世界建模,并保持长期的几何一致性,从而有效解决了现有方法在生成速度与内存占用之间的固有权衡。该系统的实现包括三项关键技术创新:

*双重动作表示法:采用双重动作表示,实现对用户键盘与鼠标输入的稳健动作控制,确保交互响应的准确性与稳定性。

*重构上下文记忆机制:为保障长期一致性,该模型设计了一种动态重构上下文记忆模块,能够重建历史帧的上下文信息,并通过时间重构策略,保持几何关键但时间久远的帧仍可被访问,从而显著缓解记忆衰减问题。

*情境强迫(Context Forcing)蒸馏方法:研究团队提出了一种专为记忆感知模型设计的新型蒸馏方法,称之为「情境强迫」。该方法通过对齐教师模型与学生模型之间的记忆上下文,使学生模型在保持实时推理速度的同时,不丧失利用远程信息的能力,有效抑制误差偏移。

WorldPlay 能够以 24 FPS 的速率稳定生成长序列、720p 的高清流媒体视频,在多项指标上优于现有技术,并在多样化场景中展现出优秀的泛化能力。通过提供系统化的控制、记忆和提炼框架,WorldPlay 在创建实时且一致的世界模型领域迈出了关键一步。

目前,HyperAI超神经官网已上线了「HY-World 1.5: 交互式世界建模系统框架」,快来试试吧~

在线使用:https://go.hyper.ai/Dgd3Z

12 月 29 日-1 月 2 日,hyper.ai 官网更新速览:

  • 优质教程精选:3 个

  • 热门百科词条:5 条

  • 1 月截稿顶会:10 个

访问官网:hyper.ai

公共教程精选

1. HY-World 1.5: 交互式世界建模系统框架

HY-World 1.5(WorldPlay)是腾讯混元团队发布的首个具有长期几何一致性的开源实时交互世界模型。该模型通过流式视频扩散技术实现实时交互世界建模,解决了当前方法中速度与内存之间的权衡问题。

在线运行:https://go.hyper.ai/Dgd3Z



Demo 页面

2. Maya1:高真实感情感语音生成服务

Maya1 是由 Maya Research 发布的一款高保真情感文本转语音(TTS)模型,专为高质量的语音合成任务设计,具有丰富的情感表达和可控的语音风格。该模型专注于通过自然语言描述准确建模说话者的情绪状态、说话速度、语调、音色和表现力,能够生成高度逼真的语音输出,极其接近人类表达。

在线运行:https://go.hyper.ai/RmmI3

效果示例

3. RFdiffusion3:蛋白质设计模型

RFdiffusion3(RFD3)是华盛顿大学蛋白质设计研究所发布的一个模型。这一最先进的生物设计 AI 模型能够生成几乎与活细胞中任何分子相互作用的新型蛋白质,解决了长期以来令蛋白质工程师感到沮丧的研究难题。

效果示例

在线运行:https://go.hyper.ai/gv4Rz

热门百科词条精选

1. 每秒帧数 Frames Per Second (FPS)

2. 双向长短期记忆 Bi-LSTM

3. 门控注意力 Gated Attention

4. 具身导航 Embodied Navigation

5. 门控循环单元 Gated Recurrent Unit

这里汇编了数百条 AI 相关词条,让你在这里读懂「人工智能」:

https://go.hyper.ai/wiki

一站式追踪人工智能学术顶会:https://go.hyper.ai/event

以上就是本周编辑精选的全部内容,如果你有想要收录 hyper.ai 官方网站的资源,也欢迎留言或投稿告诉我们哦!

下周再见!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1119937.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

长城杯 WEB安全 AI WAF

根据提示,题目明确提到 " NexaData公司存储 ",这通常和数据库相关。并且提示 AI_WAF , “AI WAF”通常指的是具备一定语义分析能力或强正则匹配规则的防火墙,它不仅仅匹配简单的关键 词,而是会识别 SQL 语句…

【计算机毕业设计案例】机器学习基于python深度学习的鲜花识别

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

黄仁勋最新演讲:5项创新加持,Rubin性能数据首曝;多样化开源,覆盖Agent/机器人/自动驾驶/AI4S

新年伊始,素有「科技春晚」之称的 CES 2026(Consumer Electronics Show,国际消费电子展)在美国拉斯维加斯拉开序幕。除了具身智能、人形机器人、自动驾驶等仍然占据核心展示位置之外,作为新芯片亮剑的重要秀场&#xf…

CTF 学习笔记

文章目录一,CTF(CaptureThe Flag)1 CTF简介2 CTF赛事2.1 国家赛事2.2 国内赛事3 CTF意义4 CTF学习4.1 竞赛模式4.2 题目类型4.3 学习建议二,CTF题目案例三,CTF靶机实战一步步拿下WordPres1 实验环境1.1WordPress简介1.…

虚拟机安装麒麟操作系统如何重置root密码

最近我们主要学习的是关于如何在虚拟机里面使用麒麟操作系统进行相关的学习。其中,麒麟操作系统属于国产操作系统,它其实和类似于 Ubuntu、CentOS 这样主流的 Linux 操作系统操作起来没有太大的区别。 但是我在实践的过程中遇到了如下的问题:…

大数据领域Storm的监控与调优实践

大数据领域Storm的监控与调优实践 关键词:Storm分布式计算、实时流处理、集群监控、性能调优、吞吐量优化、延迟控制、资源管理 摘要:本文深入探讨Apache Storm的监控体系与调优策略,结合底层架构原理与实际工程经验,系统解析监控…

基于深度学习的杂草检测系统

博主介绍:java高级开发,从事互联网行业六年,熟悉各种主流语言,精通java、python、php、爬虫、web开发,已经做了多年的设计程序开发,开发过上千套设计程序,没有什么华丽的语言,只有实…

ABAQUS二维混凝土细观模型的数字化重建技术(二)图像映射

上篇文章介绍了基于图像进行混凝土细观模型的几何重构法,详细步骤可查看下面的连接。 ABAQUS二维混凝土细观模型的数字化重建技术(一)几何重构 本篇介绍二维混凝土细观模型在ABAQUS中数字化重建技术的第二种方法——基于ABAQUS背景网格的图像映射方法。混凝土图像…

深度学习毕设项目:python基于cnn卷积网络识别树叶是否存在病变

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

ue4 我的ai要用到的一下方法汇总 + ue的ai编程助手

Epic Developer Assistant For Unreal Engine | Epic Developer Community 不懂就问 import unrealfolder_path "/Game/Characters/MainChar/W/Meshes" print(f"正在扫描文件夹: {folder_path}")asset_registry unreal.AssetRegistryHelpers.get_asset_…

【路径规划】改进的蚁群算法无人机栅格地图最短路径规划【含Matlab源码 14857期】

💥💥💥💥💥💥💥💥💞💞💞💞💞💞💞💞💞Matlab武动乾坤博客之家💞…

不会剪辑、不写稿,能不能靠 AI 做电影解说?

在电影解说这个赛道里,很多人一开始就被两个问题劝退:一是不会剪辑,二是不知道解说稿怎么写。但真正做过一段时间就会发现,这两个问题本身并不是门槛,真正的难点在于:能不能持续、稳定地把内容做出来。这也…

双曲余弦ch(x)双曲余弦函数(ch(x))是双曲函数的一种,定义为:‌ch(x) = (eˣ + e⁻ˣ) / 2‌它和三角函数中的余弦函数类似,但定义在双曲线上,常用于数学、物理和工程领

双曲余弦ch(x) 双曲余弦函数(ch(x))是双曲函数的一种,定义为: ‌ch(x) = (eˣ + e⁻ˣ) / 2‌ 它和三角函数中的余弦函数类似,但定义在双曲线上,常用于数学、物理和工程领域。 主要性质 ‌定义域‌:全体实数(x ∈ ℝ) ‌值域‌:[1, +∞) ‌奇偶性‌:偶函数(ch(…

DAB加ai加蓝牙音箱有市场吗

简短结论:DAB AI 蓝牙音箱是有市场潜力的,但定位和目标用户很关键。 下面我分几个维度分析这个产品组合的市场机会: 📈 1. DAB/DAB 市场在增长 ✔️ DAB(数字音频广播)是全球多个国家正在推广的数字无线…

js获取本地视频流并播放

直接上代码<!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta http-equiv"X-UA-Compatible" content"IEedge"><meta name"viewport" content"widthdevice-width, i…

大数据领域数据交易的商业模式探讨

大数据领域数据交易的商业模式探讨:解锁数据价值新密码 关键词:大数据、数据交易、商业模式、数据安全、数据隐私、数据市场、数据应用 摘要:在当今数字化时代,数据已成为一种极具价值的资产。大数据领域的数据交易如同一片新兴的商业蓝海,吸引着众多参与者。本文将深入…

深度测评专科生必用的8款AI论文软件

深度测评专科生必用的8款AI论文软件 2026年专科生论文写作工具测评&#xff1a;如何选择适合自己的AI助手 随着AI技术的不断进步&#xff0c;越来越多的专科生开始借助AI工具提升论文写作效率。然而&#xff0c;面对市场上琳琅满目的论文辅助软件&#xff0c;如何挑选真正适合自…

为什么你的Bonding总是单线跑?一文讲透layer2/layer2+3/layer3+4

文章目录前言一、Linux Bonding驱动底层架构简述二、Hash Policy三、 策略解析&#xff08;layer2 / layer23 / layer34&#xff09;1.layer22.layer233.layer34四、 底层实现细节&#xff08;以Kernel源码为例&#xff09;总结前言 今天同事在部署环境的时候遇到了一个奇怪的…

adb: unable to connect for root: more than one device/emulator

意思是 当前 ADB 同时连着不止一个设备/模拟器,所以 adb root 不知道该对哪一台执行。解决方式就是 先列出设备,然后 指定目标设备序列号 再执行。 1) 先看当前连了哪些设备 bat adb devices -l 你会看到类似: text List of devices attachedemulator-5554 device ..…

计算机深度学习毕设实战-基于python深度学习的鲜花识别人工智能

博主介绍&#xff1a;✌️码农一枚 &#xff0c;专注于大学生项目实战开发、讲解和毕业&#x1f6a2;文撰写修改等。全栈领域优质创作者&#xff0c;博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围&#xff1a;&am…