AAAI 2026 最佳论文公布!华人占3篇!图灵奖得主Bengio斩获大奖!

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【顶会/顶刊】投稿交流群

添加微信号:CVer2233,小助手拉你进群!

扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料及应用!发论文/搞科研/涨薪,强烈推荐!

转载自:新智元 | 编辑:KingHZ 好困

【导读】AAAI 2026「七龙珠」,华人团队强势霸榜!从视觉重建到因果发现,再到知识嵌入传承,新一代AI基石正在新加坡闪耀。

万众期待的AAAI 2026开奖了!

今年共有5篇论文摘下杰出论文桂冠,2篇论文获得经典论文奖。

其中,图灵奖得主Yoshua Bengio,达成AI领域首个百万被引作者成就之后,凭借在2011年参与的一篇论文获经典论文奖。

AAAI 2026是第40届AAAI年会,本月20日至27日在新加坡博览中心举行。

杰出论文奖

AAAI人工智能会议杰出论文奖,旨在表彰在技术贡献和论述方面树立了最高标准的优秀论文。

在双盲评审过程中,程序委员会成员会推荐论文,以供评选主技术赛道及各特别赛道的「杰出论文奖」( Outstanding Paper Award)。

今年,有5篇论文获得杰出论文,其中华人作者参与了其中3篇论文。

此外,会议于2021年增设了「优秀论文」(Distinguished Papers)这一类别,以给予特别表彰。

论文:ReconVLA: Reconstructive Vision-Language-Action Model as Effective Robot Perceiver

作者:Wenxuan Song、Ziyang Zhou、Han Zhao、Jiayi Chen、Pengxiang Ding、Haodong Yan、Yuxin Huang、Feilong Tang、Donglin Wang、Haoang Li

机构:香港科技大学(广州)、西湖大学、浙江大学、莫纳什大学

论文地址:https://arxiv.org/abs/2508.10333

视觉-语言-动作模型的最新进展使机器人能够融合多模态理解与动作执行。

然而,实证分析表明,当前VLA模型难以将视觉注意力分配到目标区域,其视觉注意力始终处于分散状态。

为引导视觉注意力正确锚定目标,研究人员提出了隐式锚定范式的重建式VLA模型。

该方法以模型视觉输出为条件,通过扩散变换器重建图像中对应于操作目标的注视区域。这一过程促使VLA模型学习细粒度表征并精准分配视觉注意力,从而有效利用任务相关的视觉信息并执行精确操作。

此外,他们从开源机器人数据集中构建了包含逾10万条轨迹、200万数据样本的大规模预训练数据集,进一步提升了模型在视觉重建任务中的泛化能力。

在仿真环境与现实场景中的大量实验验证了隐式锚定方法的优越性,展现了其在精确操作与泛化能力方面的杰出性能。

论文:LLM2CLIP: Powerful Language Model Unlocks Richer Cross-Modality Representation

作者:Weiquan Huang、Aoqi Wu、Yifan Yang、Xufang Luo、Yuqing Yang、Usman Naseem、Chunyu Wang、Qi Dai、Xiyang Dai、Dongdong Chen、Chong Luo、Lili Qiu、Liang Hu

机构:同济大学、微软、麦考瑞大学

论文地址:https://arxiv.org/abs/2411.04997

这篇论文主要目的是利用LLM的能力来进一步提升多模态表征学习。

将LLM融入CLIP的潜在益处显而易见。然而,要做到这一点很难。

实验表明,直接将LLM集成到CLIP中会导致性能出现灾难性的下降。

他们提出了新方法LLM2CLIP,利用LLM的力量来释放了CLIP潜力。

通过在描述空间(caption space)利用对比学习对LLM进行微调(fine-tuning),文本能力被提取到输出嵌入中,显著提高了输出层的文本区分度。

接着,研究人员设计了一种高效的训练流程,让微调后的LLM充当CLIP视觉编码器的强力教师。

得益于LLM的加入,大家现在可以纳入更长、更复杂的图像描述,而不再受限于原版CLIP文本编码器的上下文窗口和能力限制。

实验证明,该方法在跨模态任务中带来了实质性的提升。

新方法直接将此前SOTA的EVA02模型在长文本和短文本检索任务上的性能提升了16.5%,将一个仅在英语数据上训练的CLIP模型转变为业界领先的跨语言模型。

此外,当集成到像Llava 1.5这样的模型进行多模态训练时,它在几乎所有基准测试中都持续优于CLIP,展现了全面的性能提升。

论文:High-Pass Matters: Theoretical Insights and Sheaflet-Based Design for Hypergraph Neural Networks

作者:Ming Li、Yujie Fang、Dongrui Shen、Han Feng、Xiaosheng Zhuang、Kelin Xia、Pietro Lio

在建模多元实体间高阶关系方面,超图神经网络潜力巨大。

然而,现有方法主要侧重低通滤波,普遍忽视高频信息的作用。

本研究通过理论分析揭示了HGNN的频谱特性,并证明结合低频与高频分量能构建更具表达力与效能的学习模型。特别值得注意的是,我们的分析表明高频信号对于捕捉超图内部局部判别性结构具有关键作用。

基于此发现,研究人员创新性地提出层化框架超图神经网络(HyperSheaflets),该模型融合胞腔层论与小框架变换,在保持高阶依赖关系的同时实现多尺度频谱分解。

该框架显式强调高频分量,与理论分析形成呼应。在基准数据集上的大量实验表明,新方法优于现有技术,验证了高频信息在超图学习中的重要性。

论文:Model Change for Description Logic Concepts

作者:Ana Ozaki、Jandson S Ribeiro

机构:奥斯陆大学、卡迪夫大学

他们研究这样一个问题:在以「带指向的解释」(pointed interpretations)所表示的模型背景下,如何修改一个描述逻辑概念。我们将这一设定称为模型变更(model change),并区分三类主要的变更方式:

  • 驱逐(eviction):仅通过移除元素来实现变更;

  • 接纳(reception):将元素纳入其中;

  • 修订(revision):在一次操作中同时包含元素的移除与纳入。

他们引入了修订的形式化概念,并论证修订并不能(直觉上似乎可以)简化为「驱逐+接纳」的简单组合。

研究人员还针对ELALC描述逻辑概念中,驱逐与接纳的相容性给出了正反两方面的结果,并进一步给出关于ALC概念修订相容性的结果。

论文:Causal Structure Learning for Dynamical Systems with Theoretical Score Analysis

作者:Nicholas Tagliapietra、Katharina Ensinger、Christoph Zimmer、Osman Mian

机构:博世人工智能中心,达姆施塔特工业大学,巴登-符腾堡双元制大学,德国医学人工智能研究所(IKIM)

论文地址:https://arxiv.org/abs/2512.14361

现实世界系统依据其内在因果关系在连续时间中演进,但这类动力学常不可知。现有动力学学习方法通常需对时间离散化(导致在非均匀采样数据上表现欠佳),或忽略底层因果关系。研究人员提出CADYT,一种解决这些挑战的动态系统因果发现新方法。

与当前采用离散时间动态贝叶斯网络建模的先进因果发现方法不同,CADYT框架基于差分因果模型,能以更温和的假设建模系统的连续性。

CADYT利用精确的高斯过程推理来模拟连续时间动力学,从而更贴合底层动态过程。他们提出一种实用实现方案:通过算法马尔可夫条件最小描述长度原则指导的贪心搜索来识别因果结构。

实验表明,CADYT在均匀与非均匀采样数据上均优于当前最优方法,所发现的因果网络更接近真实的底层动力学。

经典论文奖

AAAI经典论文奖旨在表彰从特定年份的会议中选出的一篇或多篇最具影响力的论文。2026年的奖项将颁发给第二十五届人工智能会议上最具影响力的论文。

论文的评选标准主要基于其影响力,例如:

  • 开创了一个新的研究(子)领域

  • 催生了重要的应用

  • 回答了一个长期悬而未决的问题,或厘清了此前晦涩不明的概念

  • 取得了在该子领域历史上具有里程碑意义的重大进展

  • 被人工智能内部(或外部)的其他领域所重视并广泛采用

  • 被大量引用

今年有两篇入选:

论文:Learning Structured Embeddings of Knowledge Bases

作者:Antoine Bordes、Jason Weston、Ronan Collobert、Yoshua Bengio

机构:CNRS、谷歌、IDIAP、蒙特利尔大学

论文地址:https://ojs.aaai.org/index.php/AAAI/article/view/7917

这篇2011年的论文通过将符号事实表示为连续向量,戏剧性地改变了AI系统使用知识的方式,首次使结构化知识能够被神经网络所访问。

这一突破在后续模型的推动下得到完善,确立了通往现代大语言模型(LLM)的直系脉络。

作者Antoine Bordes将发表「AAAI-26经典论文奖」主题演讲,展示该论文的核心概念如今如何成为当代AI的基石,尤其是为检索增强生成(RAG)提供了动力——

因为该技术将LLM与外部知识库连接起来,将其建立在事实数据之上,使得该论文的最初愿景对于构建当今准确、可靠的AI系统变得至关重要。

Antoine Bordes博士是Helsing的首席科学,此前为FAIR的联合管理总监。

论文:Understanding Natural Language Commands for Robotic Navigation and Mobile Manipulation

作者:Stefanie Tellex、Thomas Kollar、Steven Dickerson、Matthew Walter、Ashis Banerjee、Seth Teller、Nicholas Roy

机构:MIT

论文地址:https://ojs.aaai.org/index.php/AAAI/article/view/7979

这篇论文与2011年第25届AAAI会议上,作者当时的工作单位均为MIT。

本文提出了一种新型模型,用于理解半结构化环境中,自主导航与移动操纵系统所接收自然语言指令。

传统方法采用固定结构模型,依据环境与指令,推断动作序列的可能性。

与之相对,他们提出的「广义接地图框架」(Generalized Grounding Graphs)能根据自然语言指令的层次化组合语义结构,动态实例化特定指令的概率图模型。

该系统通过模型推理成功生成并执行与自然语言指令相对应的规划,例如「将轮胎托盘放到卡车上」。

该模型采用众包收集的指令语料库进行训练,通过将每条指令与机器人动作配对来学习模型参数。

通过从自然语言指令推断规划、在仿真环境中执行规划、并邀请用户评估系统表现等方式,研究人员验证了机器人性能。实验表明,该系统能成功执行语料库中多数自然语言指令。

参考资料:

https://aaai.org/conference/aaai/aaai-26/award-talks/

https://aaai.org/about-aaai/aaai-awards/aaai-conference-paper-awards-and-recognition/

https://jandsonribeiro.github.io/home/

https://sites.google.com/view/dravcap

https://personal.cityu.edu.hk/xzhuang7/pubs/2026-LFSFZXL-AAAI-Sheaflets.pdf

本文系学术转载,如有侵权,请联系CVer小助手删文

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

ICCV 2025 论文和代码下载

在CVer公众号后台回复:ICCV2025,即可下载ICCV 2025论文和代码开源的论文合

CVPR 2025 论文和代码下载

在CVer公众号后台回复:CVPR2025,即可下载CVPR 2025论文和代码开源的论文合集

CV垂直方向和论文投稿交流群成立

扫描下方二维码,或者添加微信号:CVer2233,即可添加CVer小助手微信,便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。 一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者论文投稿+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer2233,进交流群 CVer计算机视觉(知识星球)人数破万!如果你想要了解最新最快最好的CV/DL/AI论文、实战项目、行业前沿、从入门到精通学习教程等资料,一定要扫描下方二维码,加入CVer知识星球!最强助力你的科研和工作! ▲扫码加入星球学习

▲点击上方卡片,关注CVer公众号 整理不易,请点赞和在看

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1209312.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

边缘设备部署BERT:树莓派上运行中文语义填空系统实测

边缘设备部署BERT:树莓派上运行中文语义填空系统实测 1. 这不是“大模型”,是能塞进树莓派的中文语义填空专家 你有没有试过在手机备忘录里写半句诗,突然卡壳,想不起下个字?或者编辑文案时反复删改,就为了…

传统vsAI:矩阵求逆效率对比实验报告

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 生成一个矩阵求逆性能对比项目,要求:1. 实现高斯消元法、LU分解等3种传统算法 2. 添加AI优化版本 3. 设计自动化测试框架 4. 可视化性能对比图表 5. 支持从…

IQuest-Coder-V1-40B-Instruct环境部署:Conda配置详细步骤

IQuest-Coder-V1-40B-Instruct环境部署:Conda配置详细步骤 1. 为什么需要专门配置这个模型的运行环境? IQuest-Coder-V1-40B-Instruct不是那种装完Python就能直接跑的轻量工具。它是个400亿参数的代码大语言模型,专为软件工程和竞技编程设计…

探索文化符号字体库:解锁开源字体工具的四大维度

探索文化符号字体库:解锁开源字体工具的四大维度 【免费下载链接】HoYo-Glyphs Constructed scripts by HoYoverse 米哈游的架空文字 项目地址: https://gitcode.com/gh_mirrors/ho/HoYo-Glyphs HoYo-Glyphs 作为一款专注于文化符号系统的开源字体工具&#…

传统计算vs2828理论估:效率提升对比分析

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 构建一个对比演示应用,展示2828理论估与传统计算方法在相同任务上的效率差异。应用应包含典型计算案例,实时显示两种方法的计算时间和结果准确性对比。使用…

破解数字枷锁:解锁音频自由的三大秘密武器

破解数字枷锁:解锁音频自由的三大秘密武器 【免费下载链接】ncmdump 项目地址: https://gitcode.com/gh_mirrors/ncmd/ncmdump 问题诊断:被囚禁的数字音频 当你付费下载的音乐文件被限制在特定播放器中,当精心收藏的歌单无法在车载系…

Gitee vs GitHub:国内开发者的效率对比

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 编写一个性能测试脚本,比较Gitee和GitHub在国内的访问速度、API响应时间和仓库克隆速度。脚本应输出详细的对比数据,并给出优化建议,帮助开发者…

演讲回顾|Apache Pulsar x AI Agent:智能系统消息基础架构

本文整理自 翟佳 在2025 GOTC 全球开源技术峰会上的演讲,一起来看 Pulsar 如何赋能多 Agent 协同~ Pulsar 的云原生架构 Pulsar 的架构演进深植于云原生技术的发展脉络。其设计旨在满足现代应用对运营效率的高要求,技术根源可追溯至 20 世纪 …

MinerU快速入门指南:test.pdf示例运行全流程详解

MinerU快速入门指南:test.pdf示例运行全流程详解 1. 为什么你需要MinerU——PDF提取的真正痛点在哪里 你有没有遇到过这样的情况:手头有一份几十页的学术论文PDF,里面密密麻麻排着三栏文字、嵌套表格、复杂公式和高清插图,而你需…

C盘又满了?这款清理工具让空间翻倍

C盘又满了?这款清理工具让空间翻倍 【免费下载链接】WindowsCleaner Windows Cleaner——专治C盘爆红及各种不服! 项目地址: https://gitcode.com/gh_mirrors/wi/WindowsCleaner 你是否也遇到过这样的情况:正准备下载新游戏时&#xf…

解读机制论视角下的机理、机制与工业时序模型的关系

一、问题的提出:当工业系统开始“被时间序列理解”随着工业系统数字化与智能化程度的不断提高,基于时间序列的建模方法逐渐成为理解与干预工业过程的重要工具。无论是设备状态监测、预测性维护,还是节拍分析、能耗预测与质量趋势评估&#xf…

Qwen3-Embedding-4B省钱部署:云实例选型优化实战

Qwen3-Embedding-4B省钱部署:云实例选型优化实战 1. Qwen3-Embedding-4B是什么?它为什么值得你关注 Qwen3-Embedding-4B不是普通的大模型,而是一把专为“理解文本意义”打磨的精密小刀——它不生成文字,不编故事,只做…

开发者入门必看:5个高效部署Qwen儿童图像模型的实用技巧

开发者入门必看:5个高效部署Qwen儿童图像模型的实用技巧 你是不是也遇到过这样的情况:想给小朋友做一套卡通动物教学素材,却卡在图片生成环节?要么画风太成人化,要么细节太复杂,要么生成速度慢得让人想放弃…

FDCAN电源管理单元硬件架构完整示例

以下是对您提供的技术博文进行 深度润色与结构重构后的版本 。本次优化严格遵循您的全部要求: ✅ 彻底去除AI痕迹 :语言自然、专业、有“人味”,像一位资深嵌入式系统工程师在技术社区中娓娓道来; ✅ 摒弃模板化标题与总结…

小白也能懂的嵌入模型:用Qwen3-Embedding-0.6B做文本分类

小白也能懂的嵌入模型:用Qwen3-Embedding-0.6B做文本分类 你有没有遇到过这样的问题: 一堆用户留言、产品反馈、客服对话,内容五花八门,但你想快速知道哪些是“投诉类”,哪些是“咨询类”,哪些是“表扬类”…

2026年滁州知名上门养老服务品牌企业,安徽赛瑞斯家政口碑佳

本榜单依托全维度市场调研与真实行业口碑,深度筛选出五家标杆养老服务企业,为有照护需求的家庭提供客观依据,助力精准匹配适配的居家照护伙伴。 TOP1 推荐:安徽赛瑞斯家政公司 推荐指数:★★★★★ | 口碑评分:南…

微信联系科哥?CAM++技术支持获取方式汇总

微信联系科哥?CAM技术支持获取方式汇总 1. 这不是语音识别,是说话人验证——先搞清它能做什么 很多人第一次看到“CAM一个可以将说话人语音识别的系统”这个描述时,会下意识理解成“把语音转成文字”,其实这是一个常见的概念混淆…

2026年,银川做Geo优化哪家服务商靠谱?AI搜索优化,AI搜索推荐,AI推荐问答,本地多年实战经验

2026年,在AI搜索时代,银川企业如何借GEO优化破局?宁夏壹山网络用实战说话 生成式AI技术的快速普及,正悄悄改变着用户的信息检索习惯,传统关键词匹配早已满足不了精准获客的需求。生成式引擎优化(GEO)也不再是简…

DiT分片设置多少合适?Live Avatar多卡配置指南

DiT分片设置多少合适?Live Avatar多卡配置指南 在开始阅读之前,如果你正面临多卡部署Live Avatar时的显存瓶颈、分片报错或推理失败问题, 这篇实测指南将为你厘清DiT模型在TPP(Tensor Parallelism Pipeline Parallelism&#xff…

2026中国汽车十大洞见

汽车产业是国民经济重要的支柱产业,也是推动科技创新与绿色转型的关键力量。2025年,我国汽车产业持续巩固转型先行优势,新能源汽车普及应用、智能网联技术创新、产业链韧性建设、国际化布局等多方面取得突破性进展。2026年是我国“十五五”重…