Tavus发布多模态数字伙伴PALs,能看、听、推理;李飞飞团队推出首款商用世界模型World Labs Marble丨日报

news/2025/11/13 22:59:22/文章来源:https://www.cnblogs.com/Agora/p/19219821

 

image

 

 

开发者朋友们大家好:

 

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

 

本期编辑:@Jerry fong,@鲍勃

01 有话题的技术

1、TEN Framework 新增 WebSocket 支持:赋能轻量化语音智能体开发,加速软硬件集成

 

image

 

 

TEN Framework 新增 WebSocket 支持,为语音智能体开发(尤其是硬件与早期团队)带来更轻量、更灵活的选择。对话式 AI 开源框架 TEN Framework 现已正式支持 WebSocket,为 Voice Agent 开发者提供了 WebRTC 之外的又一高效传输方案。

 

相比 WebRTC,WebSocket 更加轻量、易调试、易集成,特别适用于以下两类场景:

 

1)智能硬件开发者:WebSocket 协议栈简单、资源占用更低,非常适合作为设备端的语音传输通道。

 

2)快速验证 Demo 的团队:无需投入 WebRTC 的复杂学习成本即可构建实时语音交互 MVP;在进入生产阶段时,也可无缝切换至 WebRTC,保持 STT → LLM → TTS 主体链路不变,仅替换传输层即可。

 

TEN Framework 通过模块化扩展图(extension graph)实现传输层可插拔,使开发者能够在「快速上手 → 稳定上线」之间自由切换,加速 Voice Agent 从 PoC 到生产落地的全流程。

 

https://theten.ai/blog/building-real-time-voice-ai-with-websockets

 

(@ TEN)

 

2、Tavus 发布PALs,开创「人类计算」新界面

 

Tavus 近日宣布成功完成 4000 万美元 Series B 轮融资,由 CRV、Scale、Sequoia 和 YC 共同投资。同时,公司重磅发布了其开创性的「PALs」——一种全新的人类计算界面。PALs 旨在教会机器「成为人类的艺术」,使得使用电脑就像与朋友或同事交谈一样自然。这些情感智能、多模态的 PALs 能够看、听、推理,甚至像我们一样,有望彻底颠覆传统 GUI 图形用户界面,将科幻小说中的「类人」交互变为现实。

 

关键亮点

 

  • 4000 万美元 B 轮融资: 由 CRV、Scale、Sequoia 和 YC 等知名机构领投,彰显了市场对 Tavus 愿景和技术的强烈认可。

  • 「PALs」:新一代人类计算界面: PALs 是情感智能、多模态的数字伙伴,具备感知、理解和推理能力,能够看到、听到和像人类一样思考,并提供五个各具独特个性的 PAL 智能体。

 

「PALs」的五大核心能力:

 

  • 无缝接入: 可通过视频通话、电话甚至文本进行面对面交流。

  • 主动思考: 具备主动性,会主动联系、提醒遗忘事项,或仅仅是关心问候。

  • 深度理解: 能够「看到」用户、理解语气、情感和意图,并以更人性化的方式进行沟通。

  • 伴随进化: 具备高级记忆功能,记住用户偏好和需求,并随着时间推移自我适应。

  • 任务能力: 可处理复杂任务,从回复邮件到调整日程、创建文档和进行研究。

 

三大 SoTA 基础模型支撑: Tavus 研究团队开发了三款最先进的基础模型:

 

  • Phoenix-4: 全双工实时渲染模型,用于逼真的面部和表情,具备完整的情感和头部姿态控制。

  • Sparrow-1: 音频理解和对话轮次模型,根据词汇、语义和韵律风格决定何时说什么。

  • Raven-1: 多模态感知和情感理解模型,用于解释情感、理解周围世界,并直观地像人类一样交流。

 

( @hassaanrza@X)

 

3、Nexa AI 发布 Hyperlink 1.0:本地 AI 智能体超级助理,解锁硬核「隐私」智搜

 

Nexa AI 近日推出了 Hyperlink 1.0,一款革命性的「设备内置 AI 智能体超级助理」。Hyperlink 旨在弥合强大云端 AI 智能体的隐私风险与本地工具的智能不足之间的巨大鸿沟。它提供 100% 本地化、离线运行的自然语言文件搜索和带引用的答案,能够即时理解并推理用户的数千份本地文件,如本地化的 Perplexity AI。Hyperlink 尤其适用于法律、金融、医疗等注重隐私的专业人士,通过代理 RAG (检索增强生成)技术,Hyperlink 不仅检索,更能连接信息、发现模式、提供可验证的深度洞察,同时确保数据永不离开用户设备。

 

  • 100% 隐私、本地化、离线运行: 所有文件索引、问题提问、答案生成均在用户设备上完成,无需云端处理、数据传输或互联网连接,确保核心隐私数据绝不外泄,解决了云端 AI 智能体的隐私和安全痛点。

  • 自然语言搜索与带引用答案: 用户可使用自然语言提问(如「总结供应商合同中的关键合规问题」),Hyperlink 会搜索数千份文档,阅读相关部分,合成答案,并提供可点击的引用,直接链接到本地源文件。

  • 无限文件上下文与实时同步: 支持同步和搜索数千份文档,无文件大小限制、配额或使用层级。用户可以索引整个硬盘的 PDF、Word 文档、PPT、图片、会议记录,并进行跨所有文件的查询。文件自动实时同步,无需手动上传。

 

详细链接:

 

https://nexa.ai/blogs/hyperlink-v1

 

( @nexa_ai@X)****

 

4、World Labs Marble 发布:AI 智能体生成「持久化」3D 世界

 

由李飞飞联合创立的 World Labs 11 月 12 日正式推出其首款商业化世界模型产品——Marble。该产品现已开放免费增值(freemium)与付费订阅服务,支持用户通过文本提示词、照片、视频、3D 布局图或全景图生成可编辑、可下载的 3D 环境。

 

所谓「世界模型」,是指一类能构建环境内部表征的 AI 系统,可用于预测未来状态并规划行动路径。目前,竞争对手如 Decart 与 Odyssey 仅推出免费演示版本;谷歌的 Genie 仍处于有限研究预览阶段。

 

Marble 的差异化优势在于其生成的是持久化、可下载的 3D 环境,而非在用户探索过程中动态生成世界。公司表示,这一设计显著减少了场景变形与不一致性。

 

此外,Marble 是业内首款原生集成 AI 编辑工具的模型,并配备混合式 3D 编辑器:用户可先手动构建空间结构框架(如墙体、体块或平面),再由 AI 填充视觉细节。World Labs 联合创始人 Justin Johnson 表示:「这是一种全新类别的模型——生成 3D 世界,其能力将随时间持续提升。事实上,我们已实现了显著改进。」

 

Marble 将同时提供 4 档订阅方案,最高旗舰版每月定价 95 美元,包含 75 次生成。Johnson 认为,Marble 的首批应用场景将集中于游戏开发、影视视效与虚拟现实。

 

(@极客公园)

02 有亮点的产品

1、Delphi 推出 AI 数字分身:告别重复问答,通过访谈即可实现「你」的 24/7 智能交互

 

Delphi 近日宣布推出创新服务,允许用户通过简单的访谈,即可创建自己的 AI 智能体 数字分身。该数字分身能够学习用户的思维模式和知识体系,并以用户的声音,在 24/7 全天候回答问题并与他人进行交互。此举旨在彻底解决个人重复回答相同问题的痛点,赋能个人实现「无处不在」的智能在线存在,极大提升效率和影响力。

 

用户无需任何技术背景,只需接受一次访谈,即可创建自己的 AI 智能体数字分身,数字分身能够以用户本人的声音,全天候不间断地回答问题并与他人进行连接与互动。Delphi 的 AI 智能体能够深入学习用户的思维模式和知识结构,确保回答的准确性和一致性。

 

突破了此前仅限于有在线内容(如 YouTube 视频、博客、播客)用户的限制,现在任何人都可以通过访谈创建「活的档案」。

 

( @daraladje@X)

 

2、Human Computer Lab 推出 LeLamp:重新定义家庭机器人,打造小型伴侣 AI 智能体入门级体验

 

Human Computer Lab 近日推出了 LeLamp,一款旨在重新定义家庭机器人形态的小型伴侣 AI 智能体。该项目源于一项探索小型机器人在人们生活中角色的实验,其核心愿景是让 LeLamp 成为继扫地机器人之后,第一个进入普通家庭的、安全、可爱的智能设备。LeLamp 希望通过提供爱好套件,让用户在构建过程中体验创造「宠物或朋友」的乐趣,从而培养人机情感联结,推动家庭机器人走向更亲近、个性化的未来。

 

官网链接:

 

https://www.lelamp.com/

 

( @SarkaryShahvir@X)

 

3、OpenAI 正式发布 GPT-5.1

 

昨晚,OpenAI 正式发布了 GPT-5.1 模型,并且首次允许用户细致地「调教」模型的聊天风格。本次 GPT-5.1 共发布了两个版本,分别为 GPT-5.1 Instant 和 GPT-5.1 Thinking。

 

GPT-5.1 Instant:

 

  • 更听话: 它现在能更可靠地遵循用户的指令,准确回答我们真正想问的那个问题。

  • 自适应推理 (Adaptive Reasoning): 这是 Instant 模型第一次引入该功能。这意味着它在遇到难题时,会智能地决定先思考一下,从而给出更彻底、更准确的答案;而面对简单问题时,它依然保持极速响应。

 

GPT-5.1 Thinking:

 

  • 效率提升: 它现在能更精准地分配思考时间,在复杂问题上花费更多时间(答案更透彻),在简单问题上响应更快(等待时间更短)。

  • 更易懂: 它的回答现在更清晰,使用了更少的行业术语和未定义的词汇。这让我们在用它处理复杂工作或解释技术概念时,能毫不费力地看懂。

  • 同样温暖:Thinking 模型的默认基调也变得更温暖、更富同理心。

 

image

 

 

而本次更新重点,即 ChatGPT 的个性化体验。OpenAI 的目标是,是让用户毫不费力地将 ChatGPT 的语气和风格,调整到最舒服的状态。 在原有的默认、友好、高效基础上,新增了三种官方风格:

 

  1. Professional (专业): 适用于工作、写作等正式场合。

  2. Candid (坦诚): 更直接,不拐弯抹角。

  3. Quirky (古灵精怪): 顾名思义,它会变得更有趣、更跳脱。

 

除了这种直接选择,更丰富的基本风格和语调,OpenAI 正在实验一项新功能,允许用户直接从设置中微调 ChatGPT 的特征。

 

另外,在 GPT-5.1 的模型介绍 System Card 里,介绍了 OpenAI 在这方面的深入考量。OpenAI 首次在模型的安全评估中,加入了两个全新的、更人性化的维度:心理健康(Mental Health)和情感依赖(Emotional Reliance)。

 

11 月 12 日开始,付费用户(Pro, Plus, Go, Business)将逐步推送 GPT-5.1;免费和未登录用户则将在付费用户推送完毕后跟进;企业和教育版用户拥有 7 天的早鸟期切换开关(默认关闭),之后将统一升级到 GPT-5.1。

 

(@ APPSO)

03 有态度的观点

1、 Meta 首席 AI 官:氛围编程将成为 AI 新时代的入场券

日前,Meta 首席 AI 官 Alexandr Wang(汪滔)在接受 TBPN 播客采访时表示,如果当今的青少年想在快速变化的经济未来中脱颖而出,他们应该深入探索 AI 工具。

 

汪滔认为,**下一代青年最大的机遇在于掌握人工智能。**其强调,年轻人应该投入数千小时学习和实验 AI 模型,并且掌握其门路。

 

针对时下火热的氛围编程(Vibe Coding),汪滔更是认为「赶紧学」,他表示,那一群能与这些 AI 工具一同长大的年轻人,能够在未来的经济体中拥有巨大优势。汪滔更是称之为「现在就是比尔·盖茨、扎克伯格时刻」。

 

虽然强调了氛围编程,但汪滔整体核心是想表达出一种实践性、实验性的学习方法。

 

氛围编程不依赖于正式课程或教程,而是鼓励年轻人借助 AI 编程工具来构建、测试和打破事物。这是一个通过实践学习的过程——提示 AI 模型、分析其响应、迭代代码,并逐渐理解这些系统如何「思考」和执行任务。

 

(@ APPSO)

 

image

 

image

 


阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

 

写在最后:

 

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

 

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

 

image

 

 

素材来源官方媒体/网络新闻

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/964797.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

实用指南:每日一个C语言知识:C 数组

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

Android 对话框 - 对话框全屏显示(设置 Window 属性、采用自定义样式、继承 DialogFragment 达成、继承 Dialog 建立)

Android 对话框 - 对话框全屏显示(设置 Window 属性、采用自定义样式、继承 DialogFragment 达成、继承 Dialog 建立)pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !importa…

2025年陕西短视频制作服务商TOP5实力榜:AI赋能内容创作新时代

随着短视频成为企业品牌传播和流量获取的核心阵地,市场对专业制作服务商的需求持续攀升。本榜单基于技术创新力、行业服务经验、客户满意度及AI应用能力四大维度,结合本地企业服务案例数据,全面解析2025年陕西地区五…

面试官问:什么是Java内存模型? - 教程

面试官问:什么是Java内存模型? - 教程pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Mo…

Spring AI Alibaba 项目源码学习(四)-Graph中的存储分析

Store 存储系统分析 请关注微信公众号:阿呆-bot 概述 本文档分析 spring-ai-alibaba-graph-core 模块中的 Store 存储系统,包括接口设计、实现模式、支持的存储类型和关键设计点。 入口类说明 Store - 存储接口 Stor…

20251113 正睿

A给定 \(n, m, k\),需要构造一个数组 \(a\),使得 \(a_i\) 为 \([1, m]\) 的整数且 \(\sum \gcd(i, i + 1) = k\) \(n \le 10^5, m \le 10^{12}, n - 1 \le k \le (n - 2)m\),可以证明有解。对于这种类型的构造题,结…

好消息,.NET 10 正式发布,更智能、更安全、更高性能的统一开发平台!

前言 好消息,.NET 团队于 2025 11 月 11 日宣布 .NET 10 正式发布,这是迄今为止最高效、最现代、最安全、最智能且性能最高的 .NET 版本。长期支持版本(LTS) .NET 10 是一个长期支持版本(LTS) ,将支持三年 ,直…

从Dalvik字节码角度优化安卓编码

目录静态属性与this指针字段与局部变量final属性与编译优化内部类与桥接方法匿名类与Lambda小结 安卓开发中,Java/Kotlin等高级语言被编译成.class字节码,之后通过dx/d8、r8等工具编译成dex文件(Dalvik字节码),打…

基于Java+SSM+Flask家庭理财系统(源码+LW+调试文档+讲解等)/家庭理财/理财系统/家庭财务/家庭财务规划/家庭账目/家庭财务软件/家庭记账/理财器具/财务多元化/资产管理。

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

.NET Conf China 2025:讲师与主题全揭秘

.NET Conf China 2025:讲师与主题全揭秘备受期待的第七届.NET中国峰会——.NET Conf China 2025,即将于11月30日在上海盛大举行。本次大会聚焦性能跃升、AI融合、跨平台开发三大核心方向,邀请了来自国内外知名科技企…

深入解析:洞穴人的仰望:洞穴人隐喻与进步主义的歧途

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

《JIRA:项目管理与敏捷开发实践》

1、非修改序列算法 这些算法不会改变它们所操作的容器中的元素。 1.1 find 和 find_if find(begin, end, value):查找第一个等于 value 的元素,返回迭代器(未找到返回 end)。 find_if(begin, end, predicate):查找…

20232319 2025-2026-1 《网络与系统攻防技术》实验五实验报告

1.实验内容 任务1:DNS域名信息查询 任务2:获取好友IP地址及地理地址 任务3:使用nmap扫描靶机 任务4:使用Nessus扫描靶机 任务5:网络足迹与Google hacking 2.实验过程 2.1 DNS域名信息查询 2.1.1 查询baidu.com的I…

主动交互和情境感知,AI 硬件是脱离手机屏幕掌控的蓝海机会丨硬件和端侧模型专场@RTE2025 回顾

在本届 RTE2025 大会上,来自产业界和学术界的多位专家深入探讨了 AI 硬件、端侧小模型的发展趋势、架构创新、低功耗解决方案以及语音技术与大模型的深度融合。Rokid 全球创新产品、工程和开放生态负责人赵维奇、Folo…

WSL移植小记

前言给团队小家伙培训到 openmp 部分时顺带给他们配置了 wsl。wsl默认安装在 C 盘,随着 wsl 上安装的工具增多其占用空间也会越来越大,挤占 C 盘空间。为了避免以后 C 盘爆掉的问题,因此写了一个 wsl 迁移笔记供其使…

2025年西北数字人厂商最新TOP5评测:引领陕西甘肃智区域能交互新生态

2025年西北数字人服务厂商TOP5评测:引领智能交互新生态随着虚拟数字人技术在文旅、教育、电商等领域的深度应用,市场对专业化服务厂商的需求持续攀升。本榜单基于技术研发实力、区域服务能力、行业适配广度三大核心维…

centos 环境下部署mongodb并设定密码

1、下载mongodb文件,下载地址为:https://www.mongodb.com/try/download/community 2、下载截图3、创建安装目录mkdir -p /home/software/mongodb4、解压mongo安装文件(此处以截图5.0.9.tgz为例)至 /home/software/…

20232317 2025-2026-1 《网络与系统攻防技术》实验四实验报告

1、实验内容 1.1恶意代码文件类型标识、脱壳与字符串提取 对提供的rada恶意代码样本,进行文件类型识别,脱壳与字符串提取,以获得rada恶意代码的编写作者,具体操作如下: (1)使用文件格式和类型识别工具,给出rada…

谷歌起诉网络犯罪团伙Smishing Triad,揭露大规模钓鱼攻击

谷歌正式起诉总部位于中国的网络犯罪团伙Smishing Triad,该团伙使用"Lighthouse"钓鱼即服务工具包实施大规模短信钓鱼攻击,窃取受害者财务信息,影响全球120个国家数百万信用卡持卡人。谷歌起诉网络犯罪团…

PLC与单片机区

PLC与单片机区 PLC是模块化解决问题,不需要额外认证https://gitee.com/powes/,作者:前沿风暴,转载请注明原文链接:https://www.cnblogs.com/Kreos/p/19219748