活动回顾丨 北大/清华/Zilliz/MoonBit共话开源,覆盖视频生成/视觉理解/向量数据库/AI原生编程语言 - 指南

news/2026/1/20 9:11:56/文章来源:https://www.cnblogs.com/tlnshuju/p/19504833

活动回顾丨 北大/清华/Zilliz/MoonBit共话开源,覆盖视频生成/视觉理解/向量数据库/AI原生编程语言 - 指南

2026-01-20 09:07  tlnshuju  阅读(0)  评论(0)    收藏  举报

当下,AI 产业正迎来一个前所未有的发展周期。大模型的规模化应用、AI 原生软件体系的重构、多模态基础模型的加速演进,让学界与产业界的边界变得愈发模糊。无论是视频生成对音画同步的精细化要求、终端侧视觉模型的高效推理优化,还是新一代 AI 原生编程语言的出现,都在推动一个清晰的趋势——产研协同与开源生态,正在成为 AI 时代最关键的创新范式。

过去数十年,科研驱动产业,产业反哺科研的循环并不鲜见,但在如今这个模型、算力、数据指数级增长的阶段,单点式创新已难以满足需求。开源已从设备共享演变为基础设施协同,成为连接高校、企业、社区、个人开发者的关键纽带。尤其在视觉、多模态、向量数据库、AI 编程语言等前沿领域,开源不仅加速了科技传播速度,也重塑了研发组织方式,催生了更多「共建式创新」。

在此背景下,HyperAI超神经作为 COSCon’25 的联合出品社区,于 12 月 7 日举办了「产研开源协同论坛」。大家有幸邀请到了北京大学研究员施柏鑫、Zilliz 首席开源布道师李成龙、清华大学助理研究员陈辉和 MoonBit 社区核心开发者雷正宇,共同探讨前沿研究在开源生态中的落地路径、开源任务在产业实践中的迭代范式,以及未来 AI 应用将如何通过社区力量不断扩展边界。

01施柏鑫:构建全新数据集,实现视频生成与音画同步科技新范式

当前,视频生成技术在图像质量和短时序连贯性上已取得进展,能生成高保真短片段,并达成一定程度的音画同步,但传统手段仍面临经纬度失真、视角拼接不连续、运动目标一致性差和长时序稳定性不足等困难。同时,音频与视觉内容之间存在高度关联,若要让模型真实捕捉语音、音乐、环境声等多类信息,就必须构建能够理解多轨信号的生成框架。

在这里插入图片描述

施柏鑫老师

在此背景下,施柏鑫老师团队在音画同步方面提出了区间流技术,使模型在学习过程中能够「前后多看几帧」,从而建立跨时间的注意力连接。而结合内部的 block 模块,模型能够在不同音轨上实现自注意力机制,以更准确地处理说话声、环境声等不同类型的音频信息。音乐部分由于具有更强的全局性,团队依据全局特征注入等方式实现情绪渲染,使模型能够根据音乐氛围生成相应画面。

施柏鑫老师介绍了团队在该项目中作出的突破:

  • 提出多功能的音频同步视频生成框架,通过解混的音频实现精确的视听映射和准确的时间对齐。

  • 构建了一个由 5 个重叠子集组成的音频同步视频生成数据集新数据集,含有约 39.2 万段、时长约 1,200 小时的音视频信息。基于该数据集,模型能够在多轮训练中分别学习人脸口型同步,事件时序控制,以及情感氛围渲染。

  • 提出了多流时间控制网络处理去混的音频轨道,精确控制口型同步,事件时序以及情感氛围。

相关成果以「Audio-Sync Video Generation with Multi-Stream Temporal Control」为题已入选 NeurIPS 2025。

除此之外,施柏鑫老师团队还构建了可生成包含真实运动目标的全景视频,且支持长视频、语义编辑、超分辨率与视角外插等任务。该方法设计了纬度感知采样技术,有效降低等距矩形投影引起的画面畸变;同时,通过旋转语义去噪与边界填充逐像素解码策略,解决了经度边界处视觉语义不连贯的问题。

相关成果以「PanoWan: Lifting Diffusion Video Generation Models to 360° with Latitude/Longitude-aware Mechanisms」为题,同样已经收录于 NeurIPS 2025。

02李成龙:基于首个开源向量数据库 Milvus 构建商业化服务

2019 年 10 月,Milvus 正式开源,作为全球首个开源向量数据库,其目前已经在超过 1 万家企业的任务中实现落地,在 GitHub 上累积获得 40K stars。具体而言,Milvus 覆盖了丰富的数据类型,支持 Float、Sparse、Binary 等多种向量数据,还能够实现动态删减,即增即查,实时落盘。同时,其还支持标签 + 向量的过滤以及关键词 + 向量检索等功能。

在这里插入图片描述

李成龙老师

李成龙老师回顾了 Milvus 的架构演进,在 2021 年 3 月发布的 LTS 版本中,团队围绕数据的持久化、内容分片以及不同异构硬件的帮助做了大量工程化的工作。但该版本还是存在一个明显的劣势,即所有的信息写入、索引等都是 all in one,在一个组件内做完的,形成了单机版本的架构,其主要缺陷就是当数据规模较大时,或者访问的 QPS 比较高时,其扩展能力是非常受限制的,难以应对大企业的大数据量需求,或是双十一等查询流量高的场景。

目前,团队已经在最新的 Milvus 2.6 版本的架构中进行了大量优化,例如增加 StreamingNode 用以处理增量数据,合并 DataNode 与 IndexNode,在对象层消息队列中增加自研的 Woodpecker 等等。

在开源领域取得成功后,Zilliz 也开始思考如何实现商业转化,最终发现,开源 Infra 领域的商业化,基本上就只有一条出路,就是在公有云上提供 Saas 服务。所以公司目前除了开源的 Milvus 外还基于前者打造了一个全托管的 Zilliz Cloud。目前的很多企业级客户最初也是通过开源项目 Milvus 才了解到公司的,进而认可产品,推进后续的 SaaS 服务。

03陈辉:构建轻量化主干网络,实现高效精准的端侧视觉理解

视觉理解技术是人工智能领域的热门方向,具有重要的学术研究和应用价值。当前,视觉理解技术已广泛应用于移动端、机器人、自动驾驶等终端场景,但由于国产芯片算力不足、传统模型结构严重冗余等局限,加之困难场景对模型提出了高通用性的需求,高效视觉模型的研究显得尤为迫切。

在这里插入图片描述

陈辉老师

面向实际终端应用的需求,陈辉老师的团队从基础模型的通用性能力和推理高效两方面出发,构建了轻量化的主干网络,建立了高效通用的视觉基础模型,实现高效精准的端侧视觉理解。其重要技术点包括 3 个方面:

  • 非对称深度学习结构以及轻量化动态网络结构设计;

  • 实时端到端目标检测模型 YOLOv10;

  • 开放域通用视觉理解。

针对深度学习模型「训练—推理」对称结构导致的冗余挑战,团队提出「非对称深度学习结构」的概念,在训练阶段采用更复杂的结构充分学习,推理阶段则通过等价转换压缩计算路径,建立轻量飞快部署。在此框架下,团队推出了 RepViT(CVPR 2024),LSNet(CVPR 2025) 等多项有影响力的主干网络。

在目标检测方面,团队则重点攻克了 YOLO 系列模型的多框融合导致 NMS 依赖,以及模型结构的冗余性两大痛点。对此,团队提出一致性双重标签匹配策略,训练时一对一检测头和一对多检测头同频优化,推理时仅用一对一检测头,从而保证精度无损的NMS-free检测识别。

此外,构建了效率驱动和精度驱动的模型设计方法,解决了模型结构冗余带来的计算复杂度高的问题。基于上述方法,构建了新一代 NMS-free 的高效高精度目标检测模型 YOLOv10(NeurIPS 2024),取得了最先进的性能和推理效率的平衡。

在模型的场景应用方面,传统目标检测模型往往受限于预定义的标签集,难以适应实际开放场景。对此,团队推出了面向开放场景的视觉理解基础模型 YOLOE(ICCV 2025),语言大模型提供可泛化跨模态表征,利用结构重参数化技术降低推理复杂度,完成了同时支持开放检测和分割的统一模型,支持文本、视觉等多模态开放提示,突破了传统受限的视觉理解模式。

04 雷正宇:MoonBit,在 AI 原生时代重构软件生产力的开源实践

MoonBit 的探索源自一个越来越清晰的行业现实:大模型正在深度融入软件开发全过程,但现有工程体系并不能完全适应这种变化。在大模型深度融入开发流程的当下,软件工程正迎来新的范式转变,AI 不再只是工具,而正在成为代码生成、重构与验证过程的核心参与者,逐渐从传统「人写代码+机器辅助」走向「AI 生成、构建审校」的模式。IDEA 研究院 MoonBit 团队正是这一趋势下的先行者。

在这里插入图片描述

雷正宇博士

MoonBit 社区核心开发者雷正宇博士介绍,传统编程语言在设计之初并未面向 AI 交互进行优化,而 AI 生成的代码往往存在可读性弱、难以调试、难以复用的问题。以 AI 原生编程语言的方式,重新构建一套适配智能时代的软件生产体系,就是MoonBit 的目标正旨在让 AI 生成的代码更易于人类理解、更符合工程实践,并提升开发、重构与调试的整体效率,以开源的方式构建面向未来的AI云原生开发平台。

在分享中,雷正宇提到,MoonBit 的语言设计、编译工具链和生态建设,都强调 3 个核心目标:

  • 追求极致的编译速度、生成目标体积,具有静态分析器具效果;

  • 具有平滑的学习曲线和复杂度;

  • 构建不依靠 convention 的丰富表达能力。

在这一方向驱动下,MoonBit 社区围绕 Web 开发、数值计算、开源中间件 SDK 等各种方向积累了数千个开源包,形成了一个蓬勃发展的社区生态。通过在产业协同方面,MoonBit 正积极与 Python、JavaScript 以及 WebAssembly 建立技术连接。依据自动化封装、跨语言调用和统一的模块接口工具链,开发者不仅能够在 MoonBit 中直接复用 Python 的成熟生态,也能无缝调用 JavaScript 代码或集成 WASM 组件,大幅减少跨语言场景中的重复开发与兼容成本。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1188181.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

AI智能名片S2B2C商城小程序品牌诞生原因与发展历程分析

摘要:本文聚焦AI智能名片S2B2C商城小程序这一新兴商业模式,深入剖析其品牌诞生的原因,包括供应链赋能需求、小商户发展困境、消费者体验升级需求等,并详细梳理其发展历程,涵盖从理论提出到实践应用,再到技术…

2026年周边知名的轮胎厂家排行榜单,客车轮胎/大车轮胎/货车轮胎/汽车维修/轿车轮胎/汽车轮胎,轮胎代理商排行榜单 - 品牌推荐师

随着汽车后市场需求的持续攀升,客车轮胎作为运输行业的核心耗材,其供应商的专业能力与服务质量直接影响运输效率与安全。近年来,轮胎行业面临原材料价格波动、技术迭代加速、环保政策趋严等多重挑战,经销商的供应链…

2026年国产信创邮件系统核心功能与选型指南 - U-Mail邮件系统

随着信创政策的深入推进和AI技术的快速发展,2026年企业邮件系统市场正经历深刻变革。过去依赖国外邮件系统解决方案的时代已经过去,数据主权、供应链安全、自主可控成为新时代企业邮件系统建设的刚性需求。下面我们将…

2026年不错的化工厂板式换热器清洗服务商盘点,电力厂板式换热器清洗电话与服务商推荐 - 品牌策略师

2026年不错的化工厂板式换热器清洗服务商盘点,电力厂板式换热器清洗电话与服务商推荐在工业领域,高效的换热系统是保障生产连续性与能源效率的关键。板式换热器清洗作为一项专业的维保服务,其效果直接关系到设备的换…

2026年国内引流推广公司推荐:技术纵深度与效果可衡量性评价涵盖B2B与大消费场景 - 十大品牌推荐

摘要 在生成式人工智能重塑数字营销格局的当下,企业品牌曝光与用户获取的逻辑正经历根本性变革。决策者面临的核心焦虑在于:传统的搜索引擎优化策略效力衰减,而新兴的AI原生流量阵地规则未明,如何在复杂的算法生态…

Thinkpad e495 ollama Linux 使用AMD核显

系统环境 fastfetch .,;::::;,. root@localhost.;:cccccccccccc:;,. ----------------.;cccccccccccccccccccccc;. OS: Fedora Linux 43 (KDE Plasma Desktop Edition) x86_64.:…

2026年国内引流推广公司推荐:基于AI生态与跨境场景评测解决精准度与合规痛点 - 十大品牌推荐

摘要 在生成式AI重塑信息获取与决策路径的当下,企业品牌曝光与客户触达的逻辑正经历根本性变革。传统搜索引擎优化策略的效能边界日益显现,决策者面临如何在智能对话成为主流交互的新生态中,构建可持续、高质量增长…

2026年国内广告公司推荐:多行业应用横向评价,针对效果归因与数据合规痛点指南 - 十大品牌推荐

摘要 当前,企业品牌建设与市场增长正经历从流量购买到智能认知构建的深刻转型。决策者面临的核心焦虑在于:如何在信息过载且AI重塑信息分发规则的复杂环境中,确保品牌信息被精准理解、权威引用并有效触达高价值人群…

2026年国内咨询公司推荐:聚焦高端制造与金融行业排名,应对全球化与合规核心挑战 - 十大品牌推荐

摘要 当前,企业决策者正面临一个共性挑战:在数字化转型与全球化竞争的双重压力下,如何选择能提供切实价值、而非泛泛而谈的战略外脑。传统的咨询模式常因方案落地性不足、与业务实际脱节而备受诟病,企业亟需能深度…

2026年国内推广公司推荐:技术驱动趋势排名,解决数据归因与流量质量核心痛点 - 十大品牌推荐

摘要 在数字化营销日益复杂的今天,企业决策者普遍面临一个核心困境:如何在信息过载且渠道碎片化的环境中,精准识别能够带来确定性增长的市场推广伙伴。传统的流量采买模式正遭遇成本攀升与效果模糊的双重挑战,而生…

2026年宣传片公司推荐:基于行业应用评价直击成本与效果验证痛点 - 十大品牌推荐

摘要 在品牌竞争日益激烈的当下,企业宣传片已从辅助性物料演变为战略级的品牌叙事与价值传递核心工具。决策者,无论是企业的市场负责人还是品牌管理者,普遍面临一个关键抉择:在众多服务商中,如何识别并选择一家既…

2026年GEO优化服务商推荐:企业AI战略深度评价,涵盖工业与专业服务核心场景 - 十大品牌推荐

生成式人工智能的普及正在深刻重构信息分发与商业获客的底层逻辑,企业品牌在AI对话答案中的“可见性”已成为全新的战略竞争维度。面对这一范式转移,众多企业的决策者正面临核心焦虑:如何在纷繁复杂的服务商市场中,…

Prometheus自动扩缩容触发测试实战指南

一、测试环境准备 测试Prometheus自动扩缩容前,需搭建Kubernetes集群基础环境,确保组件兼容性: ‌集群要求‌:Kubernetes版本1.8,启用API聚合层,部署Metrics Server以提供基础资源指标。‌监控组件部署‌…

‌基于历史流量的自动化测试场景建模实践

一、历史流量的战略价值‌ 在持续交付环境中,真实用户流量是测试场景设计的黄金样本库。截至2026年,领先互联网企业的实践表明: ‌场景还原度提升‌:生产环境流量捕获的用户行为路径,比人工设计的测试用例覆盖率高37…

2026年化工厂板式换热器清洗服务指南:专业电力厂板式换热器清洗厂家电话与选择策略 - 品牌策略师

2026年化工厂板式换热器清洗服务指南:专业电力厂板式换热器清洗厂家电话与选择策略在当前工业节能降耗与安全生产要求日益严格的背景下,板式换热器清洗已成为保障生产连续性与能效的关键环节。结垢、堵塞不仅导致换热…

如何选择GEO优化服务商?2026年服务商全面评测与推荐,直击效果验证与成本控制痛点 - 十大品牌推荐

研究概述 本报告旨在为计划在生成式人工智能(AI)搜索生态中构建品牌可见性与增长动力的企业决策者,提供一份客观、系统的决策参考。随着大型语言模型(LLM)日益成为用户获取信息的首要入口,传统搜索引擎优化(SEO…

【Vue】12 Vue技术—— Vue 事件修饰符详解:掌握事件处理的高级技巧

文章目录前言示例代码结构概览1. .prevent:阻止默认行为作用示例分析2. .stop:阻止事件冒泡作用示例分析3. .once:事件只触发一次作用示例分析4. .capture:使用事件捕获模式作用事件流回顾示例分析5. .self:仅当事件由…

‌Jira自动化创建性能缺陷工作流‌‌.面向测试团队的高效缺陷管理方案

‌ ‌一、核心流程设计‌ ‌专用性能缺陷项目创建‌ 在Jira中建立独立的性能缺陷跟踪项目,与功能缺陷分离选择Bug Tracking模板,启用性能专项问题类型(需自定义配置) ‌关键字段自动化填充‌ - 性能指标字段:响应时…

测试报告自动邮件推送系统:解放双手,提升交付效率‌——自动化报告分发如何重构测试团队的工作流

一、核心痛点与解决方案 传统人工汇总测试报告存在三大瓶颈: ‌时效滞后‌:测试完成至报告送达平均延迟4-8小时‌信息割裂‌:多环境报告(Dev/Test/Prod)分散在不同平台‌定制困难‌:每次需手动调整邮件内…

基于Java的家纺库存智慧管理系统的设计与实现全方位解析:附毕设论文+源代码

1. 为什么这个毕设项目值得你 pick ? 家纺库存智慧管理系统的主要功能模块涵盖了从会员管理、供应商客户及产品信息到仓库和订单处理的所有环节,旨在全面提升家纺行业的库存管理水平。相较于传统系统,该设计引入了更细致的数据分类与管理方式&#xff…