Huxe 推出主动式 AI 音频服务,无感内容消费;OpenAI 推出 ChatGPT Pulse:主动提供个性化信息丨日报

news/2025/9/30 9:26:04/文章来源:https://www.cnblogs.com/Agora/p/19119985

 

image

 

 

开发者朋友们大家好:

 

这里是 「RTE 开发者日报」 , 每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

 

本期编辑:@Jerry fong,@鲍勃

01有话题的技术

1、WenetSpeech-Chuan:多维标注大规模四川话语音语料库开源

 

语音理解与生成的飞速发展离不开大规模高质量语音数据集的推动。其中,语音识别(ASR)和语音合成(TTS)被公认为最首要的任务。但对于拥有约 1.2 亿 母语使用者的川渝方言而言,受限于标注资源匮乏,研究进展缓慢,ASR 与 TTS 的表现始终不尽如人意。

 

现有公开的川渝方言语料库在规模、风格和标注维度上普遍存在不足。例如 ASR-CSichDiaCSC 和 ASR-SCSichDiaDuSC 仅能提供小规模数据,覆盖的场景非常有限;此外,川渝方言评测集更是稀缺,仅有 KeSpeech 包含西南官话的测试子集。同时,这些语料往往只提供语音-文本对齐信息,缺乏说话人属性或声学质量等元数据,极大限制了其在自监督学习、风格建模和多任务训练中的应用,导致主流 ASR 与 TTS 系统在川渝方言任务上表现欠佳,并在真实场景中泛化能力不足。

 

为解决上述问题,西北工业大学音频语音与语言处理研究组(ASLP@NPU)联合希尔贝壳、中国电信人工智能研究院、南京大学和 Wenet 开源社区,提出了 WenetSpeech-Chuan, 首个大规模多维标注的川渝方言语音语料库,涵盖 10000 小时、9 大领域的川渝方言语音数据,并包含 ASR 转录、文本置信度、说话人情感、年龄、性别、语音质量评分等多种标注信息。同时,我们还发布了 WSC-Eval,这是一个全面的川渝方言评测基准,包含两个部分:WSC-Eval-ASR(人工标注集,用于评测不同场景(Easy/Easy)声学条件下的 ASR 性能),以及 WSC-Eval-TTS(简单和困难子集,用于标准测试与泛化能力测试)。实验结果表明,基于 WenetSpeech-Chuan 训练的模型在川渝方言 ASR 与 TTS 任务中表现优异,性能超越最先进(SOTA)的系统,并与商业系统相媲美,凸显了该数据集与流程的重要价值。

 

相关技术报告 「WenetSpeech-Chuan: A Large-Scale Sichuanese Corpus with Rich Annotation for Dialectal Speech Processing」 已公开发布。我们已全面开源数据、代码和模型,诚邀各位开发者与研究者试用,共同推动川渝方言语音技术的发展!

 

项目主页链接:

 

https://github.com/ASLP-lab/WenetSpeech-Chuan

 

(@音频语音与语言处理研究组)

 

2、全球首个音文对齐「慢思考」反诈数据集与生成框架开源发布,斩获 ACM Multimedia 2025

 

全球电信诈骗犯罪活动持续蔓延,每年造成的经济损失高达万亿美元,给社会带来了严峻的挑战。传统的反诈骗方法在面对日益复杂的骗术时,往往显得力不从心。

 

在此背景下,大型语言模型(LLM)的「慢思考」推理能力为反诈领域带来了新的希望。然而,如何有效分析真实语音通话中的诈骗信号,并将其转化为文本进行处理,即跨越「模态鸿沟」,成为当前面临的关键难题。语音中的语气、停顿、声调等细微之处往往隐藏着重要的诈骗线索,如何准确捕捉这些信息,亟待解决方案。

 

近日,一项在计算机多媒体领域顶会 ACM Multimedia 2025 上被接收的突破性研究成果——TeleAntiFraud-28k,为这一难题提供了答案。

 

该研究由机智流社区(SmartFlowAI)核心成员尖米,携手中移互联网、东北大学等知名机构的研究者共同完成。TeleAntiFraud-28k 是全球首个专为电信诈骗分析设计的、开源的、音文对齐的「慢思考」数据集。

 

该项目不仅提供了包含 28,511 个样本、总时长超过 307 小时的高质量数据集,还开源了一整套创新的数据生成框架与评测基准。这一开创性工作旨在为全球的多模态反诈研究奠定坚实的基础,有望显著提升电信诈骗的识别和防范能力。

 

image

 

 

(@机智流)

02有亮点的产品

1、珞博智能完成红杉中国数千万元天使+轮融资

 

image

 

 

AI 陪伴硬件公司珞博智能(Robopoet)近日完成数千万元天使 + 轮融资。本轮融资由红杉中国独家领投,老股东金沙江创投、零一创投跟投。

 

红杉中国合伙人苏凯推动了此轮投资,此前他还主导投资了泡泡玛特、卡游等 IP 消费品公司。

 

今年 6 月,珞博智能完成数千万人民币的天使轮融资,由上影新视野基金、金沙江创投联合领投,零一创投跟投。

 

珞博智能成立于 2024 年初,创始人孙兆治曾多年在欧洲设计汽车,2015 年回国,先后加入小鹏、滴滴,任设计负责人,2021 年加入小鹏机器人公司鹏行智能任产品设计负责人,2024 年开始此次创业。

 

珞博智能目前主要的产品是 AI 电子宠物 「Fuzozo 芙崽」,它可以与用户语音互动,还拥有记忆功能,可以根据用户互动频率和方式,演化出不同的性格。孙兆治此前曾告诉我们,这款产品主要面向的是 「Z 世代」(90 后、00 后)女性用户,它参考了养成类游戏的玩法,希望能做到跟用户构建情感羁绊,而不只是好玩。

 

和其它调用大模型的硬件类似,Fuzozo 长期的商业模式是一次性硬件售卖加持续的软件订阅,如超出免费互动额度,需等待额度恢复或付费购买额度。但目前产品仍处于早鸟免费期。

 

Fuzozo 的日记玩法,它会根据当天与 「主人」 的互动,以 AI 生成 「心事」(短文段)和日记(相对长篇幅)。

 

这款产品今年 618 购物节在京东平台首先开启预售,初始售价为 399 元,珞博智能方面称,半个月时间 Fuzozo 在京东卖出超 3000 件,进入潮流盲盒销售排行榜前 10 ,它前面的产品全部来自泡泡玛特。

 

大模型交互能力越来越强、潮玩 IP 价值被泡泡玛特们不断推高,它们的交叉点就是 AI 陪伴硬件(或称 AI 玩具),这类玩具具备交互、记忆的能力,用户能更深层次与它互动,而不只是挂在包上。

 

这催生了一个新赛道,中商产业研究院统计,2025 年 1-8 月,中国 AI 玩具相关投融资事件数量达 17 起,金额达 200.65 亿元。预计 2025 年市场规模增至 290 亿元,2030 年增至 850 亿元。(@晚点团队)

 

2、蚂蚁集团、招商局再出手,首形科技融资过亿

 

image

 

 

首形科技宣布完成新一轮过亿融资,由蚂蚁集团领投,锦秋基金联合投资,同时引入厚雪资本弘晖基金等知名风险投资基金和鹏城愿景基金等科研机构基金。老股东顺为资本招商局创投、Taihill 持续超额追投,深蓝资本担任独家财务顾问。本轮融资将主要用于情绪基座模型的迭代,以及多场景应用的落地。

 

今年以来,首形科技已经完成了三轮融资,资本进展快速:6 月,该公司完成 Pre-A 轮融资,由招商局创投、深创投领投,五源资本、浔商创投参投;8 月,其又完成 Pre-A 轮融资,由顺为资本领投,招商局创投、深创投、智元机器人超额加注,奇绩创坛、五源资本追投。

 

首形科技创始人胡宇航博士毕业于哥伦比亚大学,长期研究机器人自我建模、情绪交互与仿生控制。在博士阶段,他的科研成果连续发表于 Nature Machine Intelligence、Science Robotics 等国际顶级学术期刊,并提出「自监督学习+自我建模」的方法体系,使机器人能够通过观察自身学习结构与运动规律,从而具备自主适应和终身学习的潜力。同时,他也提出「人机面部共情表达预测模型」,让机器人能够理解人类细微的面部变化,并做出自然可信的回应。这些成果成为首形科技的技术起点。

 

首形科技为机器人打造了一个情绪基座模型,融合语言、表情、语音、语境等多模态信息,使机器人能够理解和表达情绪。首形科技还发起了 Origin 计划,情绪基座大模型能够为目前的对话类大模型提供更直观的情绪表达能力,能够让虚拟数字生命成为可感知、可交流、自主的实体,未来将提供沉浸式、长期可持续的角色实体交互体验。

 

目前,首形科技已形成超逼真类人机器人 Elf 系列、Lan 系列,以及高性能无刷微型电机三大产品线。该公司提到,要让人形机器人本身成为「具备艺术收藏价值的科技品类」。其最新推出的**「精灵·璇」**,被设定为来自精灵王国的公主,不仅拥有超仿生面孔,甚至在皮肤纹理、肌肉运动等方面都极其逼真。(@机器人前瞻)

 

3、Neon Mobile 推出付费电话录音服务,用户数据或被用于训练 AI 模型

 

image

 

 

一款名为 Neon Mobile 的应用近期迅速蹿升至 Apple App Store 社交网络类排名前列,该应用声称通过付费让用户录制电话录音,并将其数据出售给 AI 公司以训练模型。此举引发了对用户隐私和数据安全的高度担忧。

 

  • 付费录音与数据出售: Neon Mobile 宣称支付用户每分钟 30 美分(拨打给其他 Neon 用户)或高达每天 30 美元(拨打给其他任何人)的费用,以换取用户电话录音的使用权。其用户协议表明,这些数据将被出售给「AI 公司」,用于「开发、训练、测试和改进机器学习模型」。

  • 潜在隐私风险: 尽管 Neon Mobile 声称仅录制用户一侧的通话(除非对方也是 Neon 用户),并会移除个人身份信息,但其用户协议授予了 Neon 极广泛的数据使用许可,包括但不限于销售、使用、存储、修改和分发录音,这为更深层次的数据滥用留下了空间。

  • 法律合规的「擦边球」: 法律专家指出,仅录制通话一方的行为可能是在规避「窃听法」(wiretap laws),这些法律通常要求通话双方都同意录音。然而,这种做法仍可能涉及隐私问题,尤其当数据被用于创建身份仿冒或进行欺诈时。

  • 用户隐私交换的趋势: Neon Mobile 的高排名表明,部分用户愿意为「小额收益」牺牲个人隐私,这反映了在 AI 时代,用户对隐私的态度可能正在发生变化,即使这种交换可能带来长远的负面影响。

  • 数据安全与合作伙伴的隐忧: Neon Mobile 未披露其数据销售的合作伙伴,也未说明这些合作伙伴如何使用用户数据。此外,公司本身也面临数据泄露的风险。

 

( @TechCrunch)

 

4、Keplar 融资 340 万美元,用 AI Voice 取代传统市场调研

 

总部位于旧金山的 AI 市场调研初创公司 Keplar 宣布完成 340 万美元种子轮融资。该公司利用先进的语音 AI 技术,通过与客户进行对话式访谈,旨在颠覆传统市场调研行业,提供更快速、更低成本的洞察。

 

  • AI Voice 驱动的客户访谈: Keplar 的平台能够将任何产品问题转化为访谈指南,并由 AI 语音智能体(Voice AI)主动联系客户,进行深入的、具有探索性的对话,以了解客户的喜好与痛点。

 

  • 颠覆传统市场调研: 传统市场调研耗时数周且成本高昂,Keplar 通过 AI 自动化流程,将研究 setup 时间缩短至分钟级,并显著降低成本,提供与人工调研相似的报告和演示文稿。

  • 媲美真人的交互体验: 凭借 LLM 的进步,Keplar 的语音 AI 交互已达到高度逼真,受访者甚至会忘记自己正在与 AI 对话,并会根据 AI 智能体的名字(如 Ellie, Andrew, Ryan)与其互动。

  • 已获知名企业客户认可: Keplar 的服务已获得 Clorox 和 Intercom 等知名企业的应用。

  • 强劲的市场竞争: Keplar 面临 Outset、Listen Labs 等已获得大量融资的竞争对手,表明该领域受到资本的广泛关注。

 

(@TechCrunch)

 


03有态度的观点

1、Eric Schmidt 呼吁美国科技行业拥抱中国的 996 工作制

 

Google 前 CEO Eric Schmidt 认为,为了与中国科技公司竞争,美国科技业从业者需要放弃工作生活平衡,拥抱中国的 996 工作制。他在 All-In 播客中表示,他不相信远程办公,部分是因为远程办公无助于美国科技公司与中国残酷的工作文化竞争。他说,如果你想要在科技领域获得成功,你必须权衡,我们的对手是中国人,中国工人的工作生活平衡是 996,即每周工作六天,早上 9 点到晚上 9 点。996 工作制于 2021 年被禁止,但 Schmidt 坚称中国科技公司仍然在推行 996 工作制。据《连线》报道,美国的初创公司,尤其是 AI 领域的初创公司,也热衷于推行中国的 996 工作制。( @Solidot)

image

 

image

 

 

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

 

写在最后:

 

我们欢迎更多的小伙伴参与**「RTE 开发者日报」**内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

 

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

 

image

 

 

素材来源官方媒体/网络新闻

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/922649.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

厦门旅游网站建设目的哈尔滨网站设计哪里有做

什么是数据结构?数据结构是什么?要了解数据结构,我们要先明白数据和结构,数据就是一些int char 这样的变量,这些就是数据,如果你是一个篮球爱好者,那么你的球鞋就是你的数据,结构就是…

C++学习:C++类型转换专栏 - 指南

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

网站多域名怎么做北京建机职业技能鉴定中心证书查询

1、 你有几次遇到需要解压 .tar 文件但无法记住所需的确切参数?别名可以帮助你!只需将以下内容添加到 .bash_profile 中,然后使用 untar FileName 解压缩任何 .tar 文件。 alias untartar -zxvf 2、 下载文件时,如果出现问题想要…

太原网站建设找山西云起时企业宣传片拍摄思路

小弟多次想把调用门和RPL分开单独说,但几次尝试都没有成功,我发现它们之间是紧偶合、密不可分,RPL的产生主要是为解决系统调用时的“越权”问题,系统调用的实现方式中,以调用门和中断门最为适合。由于以后我们将用中断…

网站不能上传附件ps软件下载中文版免费下载

面向对象 面向对象技术简介 类(Class): 用来描述具有相同的属性和方法的对象的集合。它定义了该集合中每个对象所共有的属性和方法。对象是类的实例。方法:类中定义的函数。类变量:类变量在整个实例化的对象中是公用的。类变量定义在类中且在函数体之外。类变量通常不作为实…

kubelet源码阅读(三)——kubelet调用device plugin的allocate接口

kubernetes-master/pkg/kubelet/cm/devicemanager/endpoint.go 入参:devs是设备ID 响应:AllocateResponse包含了需要注入到容器中的工作件(envs环境变量、mounts挂在信息、devices设备信息、annotations注解信息、c…

建网站做cpa小影wordpress主题

F1 显示当前程序或者windows的帮助内容。 F2 当你选中一个文件的话,这意味着“重命名” F3 当你在桌面上的时候是打开“查找:所有文件” 对话框 F10或ALT 激活当前程序的菜单栏 windows键或CTRLESC 打开开始菜单 CTRLALTDELETE 在win9x中打开关闭程序对话…

NAFNet (Simple Baselines for Image Restoration) 阅读笔记 - 教程

NAFNet (Simple Baselines for Image Restoration) 阅读笔记 - 教程pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: &quo…

有关网站建设的文章京东电子商务网站建设

原理 最小二乘法由勒让德(A.M.Legendre)于1805年在其著作《计算彗星轨道的新方法》中提出,主要思想是最小化误差二次方和寻找数据的最佳匹配函数,利用最小二乘法求解未知参数,使得理论值与观测值之差(即误差,或称为残差)的二次方和达到最小,即: E = ∑ i = 1 n ϵ …

海口的网站建设公司创新的盐城网站开发

引言:编写批处理程序,实现批量删除当前目录及子目录下的空文件夹。 一、新建Windows批处理文件 参考博客: CSDNhttps://mp.csdn.net/mp_blog/creation/editor/132137544 二、写入批处理代码 1.右键新建的批处理文件,点击【编辑…

解决OpenWrt系统上出现“git: remote-https is not a git command...”的问题

在OpenWrt上安装git软件包后,执行git clone命令时,出现了下面的报错: git: remote-https is not a git command. See git --help. fatal: remote helper https aborted session 通过AI工具进行,发现原来是没有安装…

密码技术概论

View Post密码技术概论密码技术概论 一、 时代背景:从信息化到智能化技术发展路径:信息化 → 数字化 → 网络化 → 智能化。 核心驱动力:万物互联(IoT)的开启,将一切连接入网。 数字时代特征:数字化:将物理世界…

临猗商城网站建设平台wordpress vantage

shell,perl,python的区别 2012-03-18 10:48:42| 分类: 默认分类 | 标签: |字号大中小 订阅 shellsedawk三者中功能最弱,没有调试程序,大多数操作必须通过运行其他程序才能执行,所以需要更多时间、内存并在进程表中…

国内搜索引擎网站wordpress类似于知更鸟的中文主题

1.我们先创建一个空的大文件夹 2.打开该文件夹的终端 输入npm init -y 2.1.打开该文件夹的终端 2.2在该终端运行 npm init -y 3.安装webpack 3.1打开webpack网址 点击“中文文档” 3.2点击“指南”在点击“起步” 3.3复制基本安装图片画线的代码 4.在一开始的文件夹下在创建一…

合肥建设局网站官网四川全美网络科技有限公司

什么是Istio? 在现代软件开发中,微服务架构已经成为构建可扩展、灵活系统的首选方法。然而,随着微服务数量的增加,服务间的通信、监控和管理变得越来越复杂。为了解决这些问题,服务网格(Service Mesh&…

麒麟网站建设wordpress打开文章很慢

游戏开发基础part3--Paint 画笔 Paint画笔是绘图的辅助类,一般它是作为画布的参数来实现相应的效果,Paint类中包含文字与位图的样式、颜色等属性信息。Paint的常用方法如下: 1.setAntiAlias(boolean aa) 作用:设置画笔是否无锯齿 …

网站建设厃金手指花总十一网络营销策划方案的目的

文章目录 1、 新建应用时选择与自己真机匹配的sdk版本2、 根据报错提示连接打开处理方案3、查询真机版本对应的**compileSdkVersion** 和 **compatibleSdkVersion** 提示3.1版本之后和3.1版本之前的不同命令(此处为3.0版本)4、根据查询修改参数5、连接成…

wap网站开发价钱外包开发一个app多少钱

PLC作为下位机,接收上位机的执行命令,并将执行结果反馈给上位机。工具/原料电脑、PLC、USB转RS232数据线和RS232转RS485模块(或者USB转RS485)方法/步骤PLC与电脑线路连接,根据电脑的串口情况,1.电脑自带RS232串口,那么…

IntelliJ IDEA 中 Shared Build Process Heap Size 的重要性与配置

IntelliJ IDEA 中 Shared Build Process Heap Size 的重要性与配置Posted on 2025-09-30 08:45 且行且思 阅读(0) 评论(0) 收藏 举报共享构建进程堆大小(Shared Build Process Heap Size)是IntelliJ IDEA中用于…