400万美元ARR,小企业和个人AI客服Beside融资3200万美元;KalpaLabs:不到1000美元训练语音模型丨日报

news/2025/11/13 21:53:32/文章来源:https://www.cnblogs.com/Agora/p/19219677

 

image

 

 

开发者朋友们大家好:

 

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

 

本期编辑:@Jerry fong,@鲍勃

01有话题的技术

1、KalpaLabs 推出「通用语音模型」:不到 1000 美元训练 800M 参数模型

由前 Google Assistant 核心 ML 负责人 Prashant 和高频交易基础设施专家 Gautam 共同创立的 KalpaLabs,正在构建一款「通用语音模型」。该模型旨在打破当前语音 AI 智能体领域碎片化的现状,整合语音转文本 (STT)、文本转语音 (TTS)、语音输入/语音输出推理及跨模态任务,并引入 LLM 级别的可控性和上下文工程能力。此举旨在将文本 LLM 的成功范式复制到语音领域,解决上下文感知不足、指令遵循能力弱和专业化限制等核心痛点,彻底改变人机语音交互方式。

 

  • 颠覆碎片化语音 AI 智能体现状:针对当前语音技术(STT、TTS、语音设计、会话智能体等)模型和供应商碎片化、上下文传递差、缺乏系统级可控性等问题,KalpaLabs 提出以「通用模型」替代。

  • 引入 LLM 级可控性与上下文理解: 核心目标是为语音 AI 智能体带来 LLM 级别的「系统提示词」可控性,使其能够理解情感/韵律线索、适应口语上下文历史、遵循指令(如「为年长用户慢速说话」、「使用中性美国口音,除非用户在印度」)。

  • 消除「长音频瓶颈」: 创新地重新设计了音频分词 (RVQ) 和解码堆栈,使训练音频的成本与文本相当,同时保留长距离上下文。这使得模型能够一次性生成数小时的音频,并处理非常长的交错文本和音频系统提示词。

  • 模型规模与成本效益: 已预训练了从 800M 到 4.8B 参数的语音模型,使用 2M 小时混合领域音频。其 800M 参数模型训练成本低于 1000 美元,展现出极高的成本效益。

 

相关链接:

 

https://kalpalabs.ai/

 

(@ycombinator)

 

2、ElevenLabs Scribe v2 Realtime 问世:150 毫秒内跨 90+ 语言

 

Elevenlabs 推出 Scribe v2 Realtime——最精准的实时语音转文字模型。

 

专为语音智能体、会议记录者和实时应用程序设计,它可在 150 毫秒内跨 90 多种语言进行转录,包括英语、法语、德语、意大利语、西班牙语、葡萄牙语、印地语和日语。

 

Scribe v2 Realtime 为实时准确性设立了新标准,超越了所有低延迟 ASR 模型。

 

Scribe v2 Realtime 专为智能体使用场景而设计。在包含背景噪音和复杂信息的硬样本中,它的表现显著优于所有其他模型。

 

主要特点:

 

  • 领先的准确性

  • 覆盖 90 多种语言

  • 符合 SOC 2、ISO27001、PCI DSS L1、HIPAA、GDPR 标准

  • 欧盟和印度本地化部署

  • 零数据保留模式。

 

(@Elevenlabs)

3、百度开源多模态思考模型 ERNIE-4.5-VL-28B-A3B-Thinking

 

image

 

 

百度开源了多模态思考模型 ERNIE-4.5-VL-28B-A3B-Thinking。该模型是一款激活参数仅为 3B 的轻量级模型,基于 ERNIE-4.5-VL-28B-A3B 架构构建,通过在中期训练阶段引入海量高质量视觉语言推理数据,显著提升了视觉与文本模态间的语义对齐能力,并在多项基准测试中表现接近或超越业界旗舰模型。

 

该模型通过大规模多模态强化学习,实现卓越的视觉推理、多步分析与因果推断;可解析照片中的 STEM 问题(如电路分析与电阻计算);增强视觉定位,支持语义到坐标精准映射;创新 Thinking with Images 机制,借助图像缩放与搜索捕捉细粒度视觉信息;具备动态工具调用(如图像搜索)与视频时序理解能力,全面赋能复杂视觉任务。

 

根据官方基准测试图表,ERNIE-4.5-VL-28B-A3B-Thinking 在文档和图表理解等多项任务上,其性能表现可与 Gemini 2.5 Pro 和 GPT-5 High 等顶尖模型相媲美,甚至在部分指标上实现超越。

 

模型采用 Apache License 2.0,允许商业使用。

 

相关链接:

 

https://huggingface.co/baidu/ERNIE-4.5-VL-28B-A3B-Thinking

 

(@橘鸭 Juya)

 


02有亮点的产品

1、2 万付费客户、400 万美元 ARR:聚焦小企业与个人 AI 客服,Beside 获 3200 万美元融资

AI 语音初创公司 Beside 近日宣布完成 3200 万美元融资,并正式从隐身模式中亮相,推出了专为小企业设计的「AI 智能体前台」。这款 AI 智能体旨在弥补中小企业无法负担全职助理的空白,通过接听电话、记忆客户细节、预约和跟进等自动化服务,已每月处理数百万通电话,彻底重塑小企业的客户沟通方式,帮助其捕捉更多业务机会。

 

image

 

 

  • 3200 万美元重磅融资与亮眼数据: 完成 2000 万美元 A 轮融资(由 EQT Ventures 领投,Index Ventures 及 Slack 创始人 Stewart Butterfield 等天使投资人参投)及 1050 万美元种子轮融资。在隐身模式下(以 M1 为名)已实现 400 万美元 ARR (年经常性收入),拥有 2 万付费客户,且用户活跃度极高。

  • 「AI 智能体前台」核心功能:通过一个连接到现有电话号码的应用程序,AI 智能体能够自动接听电话、记忆客户细节、预约、处理后续事宜,并支持自定义语音克隆及文本对话。所有交互均被转录和可搜索,为小企业建立「第二大脑」。

  • 聚焦小企业与个人专业人士: 目标市场为无法负担全职助理的小企业主、合同工、房地产经纪人、理发师、调度员等,旨在解决他们因电话无人接听(如英国小企业接听率低于 40%)而错失业务的痛点。

  • 端到端电话基础设施重建: Beside 从零开始重建电话基础设施,而非在现有系统上叠加 AI 智能体,以确保高质量通话和复杂的合规性。长期目标是成为一个拥有 SIM 卡级别集成的完整移动运营商。

 

(@FORTUNE)

2、OpenAI 正测试 ChatGPT 群聊功能,支持文件上传与图像生成

 

image

 

 

昨天,博主 Tibor Blaho 在 X 发帖称,OpenAI 在 ChatGPT 网页端首次预览「群聊」功能。

 

该功能在顶部导航栏新增「发起群聊」按钮,用户可生成链接并邀请他人加入群聊。加入者不仅能查看群聊历史消息,还可在侧边栏的「群聊」区域进行互动。

 

该博主指出,群聊的自定义指令与个人 ChatGPT 的指令相独立,且不会调用个人记忆。

 

用户可选择让 ChatGPT 自动回应,或仅在被提及时参与。

 

此外,该博主曝光的图片还显示,该功能支持消息回复、表情反应、举报、输入状态提示,以及文件上传、图像生成和网页搜索等扩展能力。

 

(@APPSO)

3、Karumi 推出 AI 智能体实时演示平台:个性化「无限」客户体验

由前 StackAI 核心团队成员 Toni 和 Pablo 共同创立的 Karumi,近日发布了其创新的 AI 智能体驱动的演示平台。该平台旨在颠覆 SaaS 行业过时且低效的产品演示模式,通过提供 24/7 全天候、多语言、高度个性化的实时视频演示,有效解决传统演示中高意向潜在客户等待时间长、小账户被忽视等痛点。Karumi 让 AI 智能体拥有浏览器访问能力,能够实时导航产品,结合客户背景数据,提供媲美人类销售代表的清晰和互动体验,从而提高转化率并缩短销售周期。

 

  • 革新演示体验:AI 智能体实时互动视频:Karumi 的核心是提供一个由 AI 智能体驱动的实时、互动视频通话演示,而非预录视频。该智能体能媲美人类销售代表的清晰度和参与度。

  • 24/7 全天候多语言可用性: 无论时区,Karumi 都能随时提供演示,并支持任何语言,极大扩展了服务范围和效率。

  • 浏览器访问与超个性化: AI 智能体能够像人类一样打开标签页、导航产品,并结合潜在客户画像和产品知识,提供超个性化的对话。

  • 解决 SaaS 销售痛点: 帮助 SaaS 公司避免高意向潜在客户等待、服务不足的小账户,并缩短销售周期,通过结合发现、资格认证和演示步骤,将落地页访问到会议的转化率。

 

Demo 体验:

 

https://www.karumi.ai/meet/start/d461afa6-f0d8-4bbe-83ac-ee88a7dbc303

 

网站:

 

https://www.karumi.ai/

 

(@ycombinator)

 


03有态度的观点

1、黄仁勋:AI 并非泡沫,算力需求真实存在

image

 

 

据 Wccftech 报道,英伟达 CEO 黄仁勋近日在接受采访时回应了外界关于「AI 热潮是否类似互联网泡沫」的质疑。他强调,当前 AI 的算力需求是真实存在的,与上世纪末互联网泡沫时期的「暗光纤」现象截然不同。

 

黄仁勋指出,在互联网泡沫时期,大量光纤被铺设但长期闲置,造成了虚假的需求。而如今,几乎所有 GPU 都在被实际使用,企业的计算需求和 AI 查询数量正在指数级增长。

 

他表示:「今天的情况与当年的互联网泡沫不同,AI 的发展建立在真实的算力需求之上。」

 

报道提到,尽管大众对 AI 的认知仍停留在 ChatGPT 或图像生成等应用层面,但技术已发展到能够进行研究和「自我思考」的阶段,尚未全面普及。黄仁勋认为,这意味着产业仍有巨大成长空间。

 

(@APPSO)

2、DeepSeek 高级研究员警告:人工智能十年内恐取代大部分人类工作
 

在中国世界互联网大会(WIC)乌镇峰会上,中国人工智能初创公司 DeepSeek 的高级研究员陈德利罕见地公开露面,发表了针对人工智能社会影响的严峻警告,敦促科技公司承担起「人类守护者」的角色。陈德利的言论凸显了中国科技界对人工智能可能带来的社会颠覆日益增长的担忧。

 

image

 

 

陈德利在小组讨论中表示,人工智能目前正处于提高生产力但仍需要人类监督的「蜜月期」。但他预测,在未来 五到十年内,人工智能可能会发展到足以取代许多人类工作,从而导致大范围失业和社会紧张。他进一步悲观地预测,在 10 到 20 年内,人工智能可能会取代大部分剩余的人类工作,给社会带来「巨大挑战」,届时科技公司必须扮演「吹哨人」的角色,帮助重塑社会结构。

 

这一时间表和论调与西方人工智能领军人物普遍展现的乐观态度形成鲜明对比,反映了中国创新者更为谨慎的态度。陈德利强调,AI 开发者必须将安全和社会福祉置于无节制发展之上,呼吁科技公司在人工智能快速发展之际重新评估发展重点。

 

DeepSeek 自 2025 年初成立以来,一直保持低调,但在全球 AI 领域迅速崛起,以开发出可与美国同行媲美、且对芯片性能要求远逊于美国同类产品的高性价比 AI 模型而闻名。正如《商业时报》和彭博社等媒体所强调的,DeepSeek 的成就不仅使其处于中国人工智能自主研发的前沿,在推动国内芯片技术发展方面发挥了关键作用,其免费或低成本的应用也已导致美国科技公司遭受巨大的市场损失,甚至引发了硅谷对低预算高性能 AI 普世化将加剧失业的恐慌。

 

陈德利的警告不仅限于中国。随着 DeepSeek 模型的普及和强大,全球各行各业都面临变革。该公司技术已利用海量数据集进行训练,并在海关、制造业和化学品监管等领域实现了部分工作的自动化。此次陈德利出席官方支持的大会并发表这一悲观论调,标志着官方对平衡创新与社会挑战的谨慎态度表示支持。

 

(@AIBase)

 

image

 


image

 

 

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

 

写在最后:

 

我们欢迎更多的小伙伴参与**「RTE 开发者日报」**内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

 

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

 

image

 

 

素材来源官方媒体/网络新闻

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/964755.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

优先级队列的学习 - 教程

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

Codeforces Round 1063 (Div. 2)题解

A. Souvlaki VS. Kalamaki 【题目】 给定一个长为n的数组nums,A,B两个人轮流行动。A先开始 第i轮,当前行动人可以跳过或者交换nums[i]和nums[i+1] 开始时A可以对nums任意排序。 要求最后nums必须是非递减,则A胜否则…

system自启动

system自启动[Unit] Description=Docker Application Container Engine Documentation=https://docs.docker.com BindsTo=containerd.service After=network-online.target containerd.service Wants=network-online.t…

25.11.13联考题解

A 神人构造,随机区分度真恶心。 我们考虑将序列分成前半段限制为 \(m\) 和后半段限制为 \(m=0\)。前面我们用 \(n,n-1,\dots,n-m+1\) 并让其合法即可,考虑后面的构造。考虑把序列分成尽量相等的三段,然后大的两段从…

2025.11.13模拟赛

赛场心态下去了,回不来了,悲( T3有望做出来的,没想dp 考虑到其实可以考虑只有一个区间变为大区间然后统计答案即可,考场上想了半天这东西怎么维护 其实拿一个线段树用脚区间+1,-1,维护区间标记为0的权值和 这个…

[CSP-S 2025] 道路修复 road

T2 道路修复(road) 如果不加乡镇,也就是第一档部分分,这就是一个裸的最小生成树模板,kruskal 直接做。 发现乡镇的范围很小只有 \(5-10\),考虑 \(2^k\) 枚举哪些乡镇要用,直接把启用乡镇的代价加到边权和里然后把…

[CSP-S 2025] 社团招新 club

T1社团招新(club) 原题链接 T1出这个... 以下规定三个社团分别为 \(a,b,c\)。 第一眼的思路尝试对每个人对三个社团的满意度取 \(max\),然后依次选最优的,很快发现这么做不行,因为有可能在满足限制后其他人能带来的…

【排查实录】Web 页面能打开,服务器能通接口,客户端却访问失败?原因全在这! - 实践

【排查实录】Web 页面能打开,服务器能通接口,客户端却访问失败?原因全在这! - 实践pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important;…

s2 NOIP模拟赛15-div2新太阳睡觉中心

新太阳睡觉中心 题面 原题链接 题解 简单计数题,但再给出一种与场上做法不一样的做法。 考虑总和转期望。将答案除以 \(2^k\),则为将 \(-1\) 随机确定为 \(01\) 时答案的期望。 根据题目描述,我们对于每一段连续的 …

LCA-雷达题解

雷达 题面 在 \(n \times n\) 的方格上,每个方格都有权值 \(a_{i,j}\) ,可花费 \(a_{i,j}\) 的代价覆盖以 \((i,j)\) 为中心,大小为 \(n \times n\) 的正方形区域。求最小的代价使得整片方格被覆盖。 题解 除了中心…

[USACO24JAN] Cowlendar S题解

[USACO24JAN] Cowlendar S 题面 原题链接 简介:给出 \(a_1....a_n\),对所有满足 s 的 \(L\) 求和 s 为:\(\forall i,4 \times L \leq a_i\) \(a_i \bmod L\) 不超过 \(3\) 种不同的值。\(1 \leq a_i \leq 4 \cdot 1…

2025年11月粮库空调,恒温粮库空调,一体式粮库空调厂家最新推荐,储粮控温权威测评与采购指南!

粮库空调作为保障粮食存储安全的关键设备,其应用场景覆盖了粮食存储的多个核心领域,不同场景对设备的温湿度控制精度、稳定性等需求各有侧重。而广州沃克斯顿环境设备有限公司凭借丰富的产品类型与过硬的技术实力,在…

CF 2093G Shorten the Array

T2 CF 2093G Shorten the Array 原题链接 本着不轻易上算法的原则想了半天,最后还是 01 trie 做完了。 如果只要求异或和为 \(k\) ,就可以用 map 维护每个数出现的最晚的位置,根据异或的性质直接查找需要的数字,统…

【A】Shinichi Kudo

https://www.luogu.com.cn/training/873086 qoj14429. Sequence Is Not Subsequence 下记 \(f(S)\) 表示 \(S\) 的答案。\(f(aaa...a)=|S-1|\times a\)。 \(f(ab)=ba\)。 \(f(abS)=ba+f(bS)\)。P14134 【MX-X22-T5】「…

如何在团队士气低落时重建信任与动力

团队士气低落是组织面临的严峻挑战,其根源往往在于信任缺失、方向迷茫或持续的压力。要在这种情况下重建信任与动力,管理者必须采取一套系统性且以人为本的策略。核心在于立即开启透明、诚实的双向沟通,主动承认问题…

noip2023T3 题解

Ad-hoc 题 这里仅考虑 \(f>g\) 考虑暴力 dp \(dp_{i,j}\) 表示第一个序列遍历到 \(i\) 项,第二个序列遍历到 \(j\) 项。 容易得到转移式子 \(dp_{i,j} = [a_i>b_j]\times [dp_{i-1,j}|dp_{i-1,j-1}|dp_{i,j-1}]…

#题解#牛客: 小心火烛的歪#枚举组合#位运算#dfs#

传送门 分析 1.这是一个枚举组合求最优的问题:集合大小q为7,可以用位运算来进行组合枚举 2.若点火方案f[i][j]==g[i][j]=1则,该方案一定不能用 3.令 g[i][j]+=f[i][j],若该方案可用且在枚举子集内,最终g中没有0则…

20251113周四日记

20251113周四日记今日: 1.早上回学校,开始看3b1b的深度学习课。写笔记。 2.中午和陈全去吃了萨莉亚,回来继续看课写笔记。 3.晚上和同门去吃饭,回来继续看Chapter7以及对diffusion模型的讲解。没事干了。 3Blue1Br…

2025.11.12 周作业 43(并非)速通

闲话 卡了好几道题了,怎么回事呢。 A. CF1796C 不难想到最优解应该是某个数 \(x\) 不断乘上 \(t\),即这个集合(大致)可以表示为: \[\{x, x \times t, x \times t^2, \dots, x \times t^k\} \]容易想到令 \(x=2\) …