问大模型CAN的co-attention

news/2025/10/29 11:04:15/文章来源:https://www.cnblogs.com/saulstavo/p/19173761

req:
如何理解嵌入向量用于构建一个微型MLP的参数(权重和偏置),一般来说MLP的权重是训练得到的

res:
你问得非常准确,这是理解CAN的关键一步。
在普通MLP里,权重矩阵 W 和偏置向量 b 确实是“可训练的张量”,它们与输入无关,只在反向传播时被更新。
CAN的做法是:把“权重/偏置”本身变成由另一个嵌入向量
即时“生成”的函数,而不再是一团独立的可训练参数。
下面分三步把这件事拆开讲清楚。


  1. 普通MLP vs. CAN-micro-MLP

普通MLP(以1层、输入dim=d₁、输出dim=d₂为例)

W ∈ ℝ^{d₂×d₁}, b ∈ ℝ^{d₂}
→ 训练过程中直接更新 W、b
→ 同一个 W、b 对任何样本都不变

CAN-micro-MLP

W、b不是自由参数,而是由“诱导特征”A的嵌入向量
e_A ∈ ℝ^{D} 经过一个“生成器”实时拼出来的:

[W | b] = reshape( MLP_gen(e_A) )
其中 MLP_gen 是另一套共享的小网络,它的输出长度
= d₂×d₁ + d₂,reshaped 后变成 W 和 b。

于是

  • 不同的 A 会给出不同的 (W, b);
  • 同一个 A 在任何样本上都给出相同的 (W, b);
  • 训练时我们只更新 MLP_gen 的少量参数,而不用存
    N² 个独立的 W、b。

  1. 为什么要这么做?

  • 把“特征组合”的容量从“显式存储”变成“函数生成”,
    参数空间从 O(N²D) 降到 O(ND′)。
  • 生成的 (W, b) 仍然可以随着训练迭代而变——
    只是它们的变化是通过更新 MLP_gen 间接实现的。
  • 这样既能像笛卡尔积那样“给每对组合独立参数”,
    又不需要真的存下所有组合。

  1. 一个极简的 PyTorch 伪代码

class CoActionUnit(nn.Module):def __init__(self, d_emb, d_hidden, d_out):super().__init__()# 生成器:把 e_A 映射成 [W|b]self.gen = nn.Sequential(nn.Linear(d_emb, 128),nn.Tanh(),nn.Linear(128, d_hidden*d_out + d_out)  # W+b)self.d_hidden = d_hiddenself.d_out    = d_outdef forward(self, e_a, e_b):# e_a: [B, d_emb] 诱导侧# e_b: [B, d_emb] 输入侧params = self.gen(e_a)                    # [B, d_h*d_o + d_o]W, b = torch.split(params, [self.d_hidden*self.d_out, self.d_out], dim=1)W = W.view(-1, self.d_out, self.d_hidden) # [B, d_o, d_h]out = torch.bmm(W, e_b.unsqueeze(2)).squeeze(2) + breturn out                                # [B, d_o]
  • 只有 self.gen 里的权重会被反向传播更新;
  • 对不同的诱导特征 ID,我们查表取出对应的 e_a
    然后即时生成它“私有”的 W、b,用完即弃。

一句话总结
CAN 把“为每对特征存一套 W、b”换成“用一个小网络
根据特征 A 的嵌入当场算出 W、b”,从而把参数爆炸
问题转化为“一个共享的小网络”的拟合问题,而这个小
网络的权重才是我们真正训练的对象。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/949654.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2025年10月美白精华产品推荐榜:温和多通路对比评测

入秋以后,紫外线强度虽略有下降,但此前累积的黑色素仍在皮肤深层活跃,色斑、暗沉、肤色不匀成为社交平台高频提问。10月恰逢换季修护窗口,消费者普遍希望找到“既看得见提亮,又不会刺痛泛红”的美白精华。敏感肌人…

2025年10月美白精华产品推荐榜:口碑与成分深度评测

站在镜子前,你或许正为“肤色不匀、晒斑反复、痘印难消”而皱眉;又或许刚做完光电项目,急需一款不刺激却真能提亮的产品。2025年第三季度,国家药监局《化妆品注册备案月报》显示,美白类精华新增备案数同比增27%,…

在AI技术唾手可得的时代,挖掘新需求成为制胜关键——某知名1位量化AI框架需求探索

本文深入分析了一款专注于1位量化大语言模型推理的知名框架,详细介绍了其核心功能、应用场景和使用方法。通过分析用户反馈,揭示了该框架在实际应用中面临的关键挑战和潜在改进方向,为AI技术在实际部署中的优化提供…

2025 年地漏厂家最新推荐榜:涵盖铜 / 防臭 / 抗菌 / 磁悬浮 / 防溢水等类型,精选实力企业助力消费者精准选购

引言 地漏作为住宅排水系统的关键部件,其品质直接关乎室内环境健康与居住舒适度。为给消费者提供权威选购参考,建筑卫生陶瓷协会卫浴分会联合省级水暖阀门行业协会开展专项测评,从市场中筛选出百余个主流地漏品牌及…

PBS, 以太坊的棘刺雕猴 - 教程

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

2025年10月网上兼职赚钱正规平台推荐:知名平台榜单全收录

“下班后想多赚点,又怕被骗”——这是大多数人在搜索“网上兼职赚钱正规平台”时的真实写照。地铁里刷手机的大学生、夜里娃睡后的宝妈、被裁员待业的白领,都想把碎片时间换成真金白银,却常被“押金”“拉人头”“提…

2025年定制啤酒设备制造厂权威推荐:德国啤酒生产设备定制厂家/德国精酿设备厂家供应商/啤酒设备企业/啤酒厂设备优质厂家精选

随着精酿文化的普及和消费升级,中国定制啤酒设备市场正迎来快速增长期。专业啤酒设备制造厂凭借其定制化设计、技术集成和工艺支持能力,成为众多啤酒工坊、特色酒吧和中小型啤酒厂的首选。本文将基于行业技术标准与市…

2025年10月网上兼职赚钱正规平台推荐:市场报告与对比列表

下班后想用手机多赚一点,却担心遇到“押金”“拉人头”“提现不到账”的坑,是大多数寻找网上兼职赚钱正规平台用户的共同心态。2025年人社部《灵活就业质量监测报告》显示,全国灵活就业者已突破2.4亿,其中62%的人首…

【转载】孪生网络(Siamese Network)

【转载】孪生网络(Siamese Network)原文: https://blog.csdn.net/m0_51507437/article/details/132526569本博客是博主个人学习时的一些记录,不保证是为原创,个别文章加入了转载的源地址,还有个别文章是汇总网上…

nvlink和nvswitch的区别

NVLink 和 NVSwitch 是英伟达(NVIDIA)为解决高性能计算和人工智能(AI)场景下多 GPU 间通信瓶颈而设计的两项核心技术。它们虽然紧密相关,但角色和功能有本质区别。下面从基础概念、功能定位、技术演进、工作原理和…

2025年10月敏感肌产品推荐榜:口碑与功效双排行

敏感肌在换季、熬夜或医美后常陷入“想美白又怕刺激”的两难:猛药型淡斑精华易引发刺痛、脱皮,纯保湿面霜又无法改善暗沉。2025年10月,国家药监局发布的《化妆品安全评估年度报告》显示,美白类投诉中42%来自敏感肌…

2025年10月敏感肌产品推荐榜:持证美白舒缓功效全记录

每到换季,敏感肌用户总在“想白”与“怕刺激”之间反复拉扯:猛药型美白产品常伴随泛红、刺痛,甚至屏障受损;纯保湿面霜又无法改善暗沉。2025年10月,国家药监局发布的《化妆品功效宣称评价规范》再次强调“敏感肌适…

别再用手绘架构图了!ArchiMate才是架构师的标准乐高

ArchiMate是企业架构的"通用语法",让不同角色能用一致的符号和关系描述业务、应用和技术之间的复杂连接。俗称:"建筑施工图"的企业架构版文 / 勇哥 原创文章,转载请联系授权在前一篇文章中,我…

2025 年幕墙灯饰画,灯饰画设计,背胶灯饰画厂家最新推荐,聚焦资质、案例、售后的五家机构深度解读

引言 随着幕墙灯饰画、定制化灯饰设计及背胶灯饰画在商业空间装饰、城市景观打造等领域的需求激增,市场对优质厂家的筛选标准愈发严格。本次推荐榜单由中国照明电器协会联合行业权威测评机构共同打造,测评过程严格遵…

基于MATLAB的DUET算法实现欠定盲源分离

1. 算法原理与数学模型 DUET(Degenerate Unmixing Estimation Technique)算法通过时频域稀疏性和W-不相交正交性实现欠定盲源分离。其核心步骤包括:短时傅里叶变换(STFT):将时域信号映射到时频域。 混合参数估计…

2025 年墙体灯饰画,led 灯饰画,灯饰画定制,大型灯饰画 厂家最新推荐,聚焦资质、案例、售后的五家机构深度解读!

引言 为精准筛选 2025 年墙体灯饰画、LED 灯饰画、灯饰画定制及大型灯饰画领域的优质厂家,中国照明电器协会联合行业权威测评机构,开展了为期三个月的专项测评。测评从企业资质(含行政许可、商标认证等)、合作案例…

2025 年商场灯饰画,户外灯饰画,天幕灯饰画厂家最新推荐,聚焦资质、案例、售后的五家机构深度解读

引言 随着商业场景美化需求升级,商场、户外、天幕等领域的灯饰画应用愈发广泛,2025 年行业规模预计同比增长 18%。为精准筛选优质厂家,本次推荐结合中国照明电器协会权威测评数据,从资质认证、项目案例、售后服务三…

本地客户端ssh连接远程服务器,远程服务器的ssh进程都做了哪些工作?

服务端的 sshd 进程在处理一个 SSH 连接时,工作非常复杂和精密。我们可以将其工作流程分为几个关键阶段。 整体工作流程概览连接建立与协议协商 用户认证 通道与会话管理 伪终端与 Shell 启动 数据中继与生命周期管理…

goldengate 12.x安装(oracle)

goldengate在11.2.X版本的时候直接将压缩包解压即可使用,12.X版本出来后,有2种安装方式,1种是图像界面安装,另一种是静默安装方式,跟oracle安装方式保持一致,我这里安装的是静默的安装方式,ogg版本为122022.安装过…

数据采集故障频发,中控技术靠SeaTunnel实现日均TB级核心数据同步任务0出错

在企业数字化浪潮中,数据采集早已不是 "能同步就行" 的简单命题——多元异构数据源的割裂、TB 级数据的吞吐压力、跨系统同步的稳定性挑战,正成为多数企业的 "数据顽疾"。而中控技术,这家服务全…