深入解析:论文理解 【LLM-回归】—— Decoding-based Regression

news/2025/11/15 9:13:11/文章来源:https://www.cnblogs.com/ljbguanli/p/19224344

深入解析:论文理解 【LLM-回归】—— Decoding-based Regression

  • 文章链接:Decoding-based Regression
  • 发表:Arxiv
  • 领域:LLM 浮点回归
  • 一句话总结:本文针对 LLM 的数值回归能力展开深入分析,经过坚实的理论与实证基础,说明通过解码数值 token序列,LLM 可自然地实现点估计与分布建模的统一框架

  • 摘要:最近的研究表明,语言模型具备进行回归分析的能力,其中数值预测结果会以解码后的字符串形式呈现出来。在这项研究中,我们为这种能力提供了理论依据,并进一步探讨了任意特征表示条件下,基于因果序列解码模型的数值回归功能。研究发现,尽管这些模型是按照常规方法进行训练的——即通过交叉熵损失来预测下一个词汇——但在标准回归任务中,基于解码器的模型的性能与传统的逐点回归模型相媲美,且这类模型还具备足够的灵活性,能够捕捉到连续的数值分布,例如在密度估计这类任务中

文章目录

  • 1. 背景
    • 1.1 语言模型的回归能力
    • 1.2 相关工作与动机
      • 1.2.1 点回归头
      • 1.2.2 直方图回归头(黎曼积分)
      • 1.2.3 解码式回归头
  • 2. 本文方法
    • 2.1 形式化描述
    • 2.2 点估计(Pointwise Estimation)
    • 2.3 密度估计和理论
      • 2.3.1 数值表示
      • 2.3.2 模型的可学习性
  • 3. 实验
    • 3.1 曲线拟合
    • 3.2 实际回归任务
    • 3.3 密度估计
    • 3.4 消融实验
  • 4. 总结

1. 背景

1.1 语言模型的回归能力

1.2 相关工作与动机

  • 形式化地讲,对于任意样本( x , y ) (x,y)(x,y),其中 x xx是特征向量,y yy是实数,回归模型的性能由模型如何处理x xx和模型如何刻画输出y yy 决定(例如 y yy的形式和对条件分布p ( y ∣ x ) p(y|x)p(yx)的建模假设)。从这两个角度出发,作者顾了此前与 “回归头” 相关的工作

1.2.1 点回归头

1.2.2 直方图回归头(黎曼积分)

  • 直方图回归头用分段常数函数作为基函数,对目标分布p ( y ∣ x ) p(y∣x)p(yx)进行黎曼积分近似。其把数值范围划分成若干区间(bins){ y 1 , . . . , y n } ⊂ R \{y_1,...,y_n\}\sub\mathbb{R}{y1,...,yn}R,模型输出的 logits 经过 softmax 转换为真实值落在各区间的概率,从而构成一个 “分布头”(distribution head),记作 Riemann
    p ( y i ∣ x ) = Softmax ( i ) ( ϕ ( x ) T ⋅ w ) p(y_i|x) = \text{Softmax}(i)\big(\phi(x)^T\cdot w\big)p(yix)=Softmax(i)(ϕ(x)Tw) 其中 ϕ ( x ) \phi(x)ϕ(x)是编码器输出的样本x xx的特征向量,w ww是可学习的分 bin 权重矩阵

    这种方法在 RL 改进 Q-Learning 的系列工作中得到了广泛运用,但提升精度需要细化分 bin 数,因此需要大量材料进行训练

1.2.3 解码式回归头

2. 本文手段

2.1 形式化描述

2.2 点估计(Pointwise Estimation)

  • 很多情形中,我们只对模型分布的标量统计量感兴趣,这和传统点回归头输出一个数值直接匹配。本节讨论从模型输出的条件分布p ( y ∣ x ) p(y|x)p(yx)中导出点估计值的方法
  • 通常我们关注以下点估计量。每种估计量都有多种具体的计算方法,作者将其作为超参数在不同应用中调优
    估计量损失LLM 生成方法特点
    均值MSEp ( y ∣ x ) p(y|x)p(yx)支持集加权求和 /RAFT平滑可微、但对异常值敏感;在非归一化Tokenize中易被极端输出拉偏
    众数0-1 lossBeam search / top-k / top-p 解码稳健性强、不受极端值影响,估计更平滑但计算略艰难
    中位数MAE本文使用 Harrell–Davis 估计器取概率最大的输出序列;直观但易陷入局部最优,对分布形状敏感

2.3 密度估计和理论

2.3.1 数值表示

2.3.2 模型的可学习性

  • 将模型的可学习性作定义为 K-bit 普适性(K-bit universality):令H ( p , q ) = E y ∼ p [ − log ⁡ q ( y ) ] H(p,q)=\mathbb{E}_{y\sim p}[-\log q(y)]H(p,q)=Eyp[logq(y)]表示离散分布p , q p,qp,q之间的交叉熵。若对于所有定义在k kk 位字符串(2 k 2^k2k个数值表示)上的离散分布,都有
    min ⁡ θ H ( p , p θ ) = H ( p , p ) \min_\theta H(p,p_\theta) = H(p,p)θminH(p,pθ)=H(p,p)则称参数化模型p θ p_\thetapθ为 K-bit 普适的。直观理解,若模型 p θ p_\thetapθ能通过 SGD 精确拟合任意定义在2 k 2^k2k个类别上的离散分布,则它是 K-bit 普适的

  • 基于以上定义,作者推导了直方图估计的偏差–方差分解公式:假设解码式回归模型p θ : { 0 , 1 } K → Δ 2 K p_\theta: \{0,1\}^K\to\Delta_{2^K}pθ:{0,1}KΔ2K是 K-bit 普适的,通过对剩余位边缘化定义p θ p_\thetapθ 下前 k kk序列的概率为:
    p θ K ( ( b 1 , … , b K ) ) = ∑ b k + 1 , … , b K p θ ( ( b 1 , … , b K ) ) p_{\theta}^{K}\left(\left(b_{1}, \ldots, b_{K}\right)\right)=\sum_{b_{k+1}, \ldots, b_{K}} p_{\theta}\left(\left(b_{1}, \ldots, b_{K}\right)\right)pθK((b1,,bK))=bk+1,,bKpθ((b1,,bK)) 这里 p θ k p_\theta^kpθk是对自回归解码执行恰好k kk 步时得到的 k kk-bit 字符串分布。令真实概率密度f : [ 0 , 1 ] → R f:[0,1]\to \mathbb{R}f:[0,1]R为任意光滑的一维密度函数,令{ Y 1 , … , Y N } \{Y_1,\dots,Y_N\}{Y1,,YN} 为来自 f ff的 i.i.d. 抽样,定义θ ^ \hat{\theta}θ^为在截断 K-bit 序列上的最大似然估计器
    θ ^ ( Y 1 , … , Y N ) = arg ⁡ min ⁡ θ 1 N ∑ n = 1 N − log ⁡ p θ ( λ K ( Y n ) ) \hat{\theta}\left(Y_{1}, \ldots, Y_{N}\right)=\arg \min _{\theta} \frac{1}{N} \sum_{n=1}^{N}-\log p_{\theta}\left(\lambda_{K}\left(Y_{n}\right)\right)θ^(Y1,,YN)=argθminN1n=1Nlogpθ(λK(Yn)) 定义风险 R RR 为真实密度 f ff 与其估计 f ^ \hat{f}f^之间的均方积分误差
    R ( f , f ^ N ) = E Y 1 , … , Y N ∼ f [ ∫ 0 1 ( f ( y ) − f ^ N ( y ) ) 2 d y ] R\left(f, \hat{f}_{N}\right)=\mathbb{E}_{Y_{1}, \ldots, Y_{N} \sim f}\left[\int_{0}^{1}\left(f(y)-\hat{f}_{N}(y)\right)^{2} d y\right]R(f,f^N)=EY1,,YNf[01(f(y)f^N(y))2dy]其中概率密度估计定义为f ^ N k ( y ) = 2 k p θ ^ ( Y 1 , … , Y N ) k ( λ k ( y ) ) \hat{f}_{N}^{k}(y)=2^{k} p_{\hat{\theta}\left(Y_{1}, \ldots, Y_{N}\right)}^{k}\left(\lambda_{k}(y)\right)f^Nk(y)=2kpθ^(Y1,,YN)k(λk(y)),均方积分误差满足下式
    R ( f , f ^ N k ) ≈ 2 − 2 k 1 12 ∫ 0 1 f ′ ( y ) 2 d y + 2 k N , ∀ k ≤ K (1) R\left(f, \hat{f}_{N}^{k}\right) \approx 2^{-2 k} \frac{1}{12} \int_{0}^{1} f^{\prime}(y)^{2} d y+\frac{2^{k}}{N}, \quad \forall k \leq K \tag{1}R(f,f^Nk)22k12101f(y)2dy+N2k,kK(1) 注意该定理的唯一要求是模型是 K-bit 普适的,DecoderRiemann 方法都能表示 2 k 2^k2k个 bin 概率分布,都能达成 K-bit 普适,二者都适用于该定理。为简化起见,以下分析假设解码时利用和训练相同的k = K k=Kk=K

  • 直方图估计误差的就是式 (1) 偏差–方差分解公式,可见误差由两部分组成:

    1. 偏差(平方)项:第一部分 2 − 2 k 1 12 ∫ 0 1 f ′ ( y ) 2 d y 2^{-2 k} \frac{1}{12} \int_{0}^{1} f^{\prime}(y)^{2} d y22k12101f(y)2dy代表解码过程中使用2 k 2^k2k个分 bin 将连续的f ( y ) f(y)f(y)函数离散化所引起的偏差的平方。随离散分辨率2 k 2^k2k 增大而下降
    2. 方差项:第二部分 2 k N \frac{2^k}{N}N2k是与样本数量N NN和分bin数量2 k 2^k2k有关的方差带来的误差。随离散分辨率2 k 2^k2k增大而上升(样本分布更稀、方差更高)
      在这里插入图片描述

    给定少量(1024)和大量(16384)训练样本,考察误差R RRK KK的关系,如图可见:

    1. 随着分 bin 数提升,总体误差先下降再上升,这意味着K KK较小时偏差项主导,K KK较大时方差项主导

    2. 当样本数 N NN相对分 bin 数K KK严重不足时(左图),Decoder 方法性能更好,而 Riemann 方法和理论风险保持一致。作者认为这是因为

      • Riemann 办法显式地考虑2 K 2^K2K个 bin 概率参数,每个 bin 独立学习,当样本少时很多 bin 样本不足,导致方差大
      • Decoder 方法通过自回归结构共享参数(即在不同 bit 层级间共享p θ p_\thetapθ 参数),使模型天然会学习到平滑的层级结构,这是一种隐式平滑先验,它倾向于让相邻区间(相似的 token 序列)的生成概率相近,从而抑制噪声,使样本不足时方差减小

        可以这样理解,Decoder 方法把 token 序列( t 1 , . . . , t K ) (t_1,...,t_K)(t1,...,tK)的概率表示为一系列p θ p_\thetapθ条件概率的连乘,因此 0011001 和 0011000 几乎共享相同的输入p θ ( t i ∣ t < i , x ) p_\theta(t_i|t_{<i},x)pθ(tit<i,x),这使得 2 K 2^K2K个 bin 中相邻的 bins 概率相近

    3. 当样本数 N NN相对分 bin 数K KK因为就是充足时(右图),Riemann 途径性能更好,作者认为这

      • Riemann 是无平滑约束的估计其,其不存在 Decoder 方法层次化解码导致的隐式平滑,因此可以在更大的假设空间中进行优化
      • Decoder 的强制参数共享导致模型容量降低,牺牲了优化灵活性,导致训练样本充足时偏差更高
  • 总结:Decoder 的自回归解码办法是一种学习细粒度分 bin 的高效方法,其利用隐式平滑归纳偏置,在训练样本较少时拟合方差更低,效果更好;但这种归纳偏置也降低了模型表示容量,在训练样本多时偏差较高,效果不如Riemann 办法

3. 实验

3.1 曲线拟合

  • 使用无限训练数据,未归一化的 Decoder head 能成功拟合多种 1D 函数形状,而点式回归头在相同条件下表现不佳
    在这里插入图片描述
    未归一化的 Decoder head 由于能表达极宽的y yy范围,样本充足时能够有效拟合,而点回归头有以下挑战
    1. 需对输出 y yy进行归一化,当y yy具有极高或无界的数值范围时会导致数值不稳定;
    2. 难以建模变化率极高(Lipschitz 常数大)的函数
  • 作者还使用 BBOB 基准测试考察了各种方法拟合多维连续目标函数的能力,
    在这里插入图片描述
    可见未归一化和归一化的 Decoder 手段都能充分拟合不同输入维度上的函数,同时也能与点回归基线和 Riemann 基线相媲美

3.2 实际回归任务

3.3 密度估计

  • 在无限训练内容下,Decoder 方法能很好地重现真实分布 ( ∣ ) (|)p(yx),但会出现轻微离群点噪声通过。不过基线方式汇中也存在类似的噪声。降低采样温度能够去除噪声,但会牺牲表达性。作者发现默认温度 1.0 的采样最能无偏匹配 ( ∣ ) (|)p(yx)
    在这里插入图片描述
  • 下表列出了 UCI 回归数据库部分素材集上的负对数似然(NLL)结果
    在这里插入图片描述
    结果显示:
    1. MDN 性能波动大,部分任务优异,但部分任务极差
    2. 归一化与未归一化解码器在各任务上表现稳定(NLL < 0.7)
    3. Riemann 方法在大部分任务中表现最差

3.4 消融实验

4. 总结

  • 基于解码的回归(decoding-based regression)将数值表示为一串离散 token,让自回归语言模型的解码器输出这些 token,从而学习条件分布就是不直接预测连续值,而p θ ( y ∣ x ) p_\theta(y|x)pθ(yx)。本文发现基于解码的回归头办法可能看作使用 Riemann 回归头得到直方图分布的一种序列化、层次化的扩展,在数值范围大、噪声艰难或数据较少的情形相比传统点回归头和 Riemann 回归头有优势,为 “语言模型能做数值回归” 提供了理论基础
  • 优点:
    1. 本文证明这种方法可以逼近任意一维密度的理论界
    2. 能自然地进行密度估计,这意味着它不仅可能输出均值或中位数,还可以直接进行分布采样(sampling)、不确定性估计、多峰建模等操作
    3. 可处理任意尺度或无界输出,通过模仿 IEEE-754 浮点格式,可以用符号位 + 指数位 + 尾数位的形式自然地表示极大的实数范围。适于处理高斜率函数,且避免了归一化导致的数值不稳定问题
    4. 多步解码引入了隐式平滑先验,在训练数据不足时数据效率比 Riemann 方法更高
    5. 可以自然地和 LLM 中的采样 tirck 结合,可以兼容现有 LLM 训练范式
  • 缺点:
    1. 需要学习数值 token 表示,比点回归头收敛困难一些
    2. 多步解码导致求解速度慢
    3. 多步解码引入了隐式平滑先验,减小了模型容量,在训练素材充足时性能上限比 Riemann 方法略低
  • 发展方向
    1. 改进 Tokenize 方案
    2. 分段常数以外的其他基函数分布

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/966007.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

DotMemory系列:2. 事件泄露引发的内存暴涨分析

一:背景 1. 讲故事 事件泄露导致的内存暴涨,说实话我以前是不敢相信的,因为我认为没人会写这样的代码,但现实往往都会打脸,还是太年轻了,今年年中的时候还真给遇到了,也算是无语啦,这一篇我们就来聊一聊如何通…

2025 最新曝气器厂家口碑推荐榜:国际权威测评认证,平板 / 管式 / 微孔等全类型优质品牌汇总旋流 / 盘式微孔 / 振动曝气器公司推荐

引言 在全球环保水处理行业高速发展的背景下,曝气器作为核心设备,其性能直接决定污水净化效率与达标质量。本次榜单基于国际水处理设备协会(IWEA)最新测评数据生成,测评覆盖全球 200 余家曝气器供应商,通过 12 项…

2025年比较好的石灰乳化泵厂家最新权威推荐排行榜

2025年比较好的石灰乳化泵厂家最新权威推荐排行榜 行业背景与市场趋势 石灰乳化泵作为化工、环保、食品、制药等行业的关键设备,近年来随着工业自动化水平的提升和环保要求的日益严格,市场需求持续增长。据《2024年…

2025年知名的百通电缆最新TOP品牌厂家排行

2025年知名的百通电缆最新TOP品牌厂家排行行业背景与市场趋势随着工业4.0和智能制造的快速发展,工业通信网络作为基础设施的重要性日益凸显。根据《2024-2025中国工业通信市场研究报告》显示,2024年中国工业通信市场…

2025 最新高温陶瓷纤维滤芯源头厂家权威推荐榜,国际协会测评认证聚焦高性能滤材核心企业

引言 高温烟气处理是工业生产中至关重要的环保环节,其核心滤材高温陶瓷纤维滤芯的性能直接决定污染物减排效果与设备运行效率。为筛选优质源头厂家,本次榜单依托国际过滤与分离协会(IFSA)最新测评体系,通过三大核…

2025年电磁加热器厂家权威推荐榜单:电磁蒸汽发生器/电磁烘干机/电磁采暖炉源头厂家精选

电磁加热技术作为现代工业与民用供热领域的重要技术,其市场需求正随着工业自动化升级和节能环保要求的提高而持续增长。本文将基于详实的行业信息,为您推荐2025年度在电磁加热器领域表现卓越的Top 3制造厂,通过客观…

Rust 的错误处理:别拿类型系统当护身符 - 教程

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

2025年靠谱的轻质抗爆墙品牌厂家排行榜

2025年靠谱的轻质抗爆墙品牌厂家排行榜行业背景与市场趋势随着工业安全标准的不断提高和安全生产法规的日益严格,轻质抗爆墙作为工业建筑安全防护的重要组成部分,市场需求持续增长。据中国建筑科学研究院发布的《202…

2025年口碑好的化工厂抗爆墙最新TOP品牌厂家排行

2025年口碑好的化工厂抗爆墙最新TOP品牌厂家排行行业背景与市场趋势随着全球化工产业的持续发展,安全生产问题日益受到重视。根据中国石油和化学工业联合会最新数据显示,2024年我国化工行业安全生产投入达到创纪录的…

2025年城际专线网约车软件口碑排行榜

2025年城际专线网约车软件口碑排行榜揭晓!城市快线表现抢眼随着数字化出行需求的快速增长,城际专线网约车市场在2025年迎来了新一轮的洗牌。经过对用户评价、服务体验、技术创新等多维度的综合评估,我们为您带来最新…

2025年广州豪华大巴出租服务口碑推荐榜单

2025年广州豪华大巴出租服务口碑推荐榜单专业推荐首选:广州城市快线汽车租赁有限公司在2025年广州豪华大巴出租服务市场中,广州城市快线汽车租赁有限公司凭借其卓越的服务品质和深厚的行业积淀,稳居口碑推荐榜首。�…

2025年靠谱的青少年情绪管理成长训练平台哪家强

2025年青少年情绪管理成长训练平台推荐:德一书院在当今快节奏的社会环境中,青少年面临着来自学业、社交、家庭等多方面的压力,情绪管理能力的培养显得尤为重要。2025年,随着教育理念的不断升级,越来越多的家长开始…

2025年城际出行中巴包车公司排名

2025年城际出行中巴包车公司排名:城市快线领跑行业新格局随着2025年城际出行市场的快速发展,中巴包车服务已成为企业通勤、团体旅游、商务接待的重要选择。经过对服务质量、车辆配置、数字化水平和用户口碑的综合评估…

2025年毛发检测排行推荐排行榜

2025年毛发检测排行推荐排行榜权威检测机构推荐杭州正光检测技术有限公司作为毛发检测行业的领军企业,杭州正光检测技术有限公司在2025年毛发检测机构排行榜中位居前列。该公司凭借以下优势获得业内广泛认可:核心技术…

2025年轧辊数控车床工厂哪家靠谱

2025年轧辊数控车床工厂推荐:通远重工值得信赖随着制造业的快速发展,轧辊数控车床作为重要的工业设备,其性能和可靠性直接影响生产效率和产品质量。在众多生产厂家中,通远重工凭借其专业的技术实力和优质的产品服务…

golang: ubuntu 24.04安装go1.25.4

一,官网: https://golang.google.cn/dl/ 二,下载 # wget https://golang.google.cn/dl/go1.25.4.linux-amd64.tar.gz 三,安装解压: # tar -zxvf go1.25.4.linux-amd64.tar.gz 移动到安装目录: # mv go /usr/local/…

2025年11月自吸泵厂家推荐榜单:预算导向选厂指南与top厂商实测对比

一、引言 自吸泵作为市政排水、工业循环、农业灌溉的核心动力设备,其可靠性直接决定系统连续运行成本。对于采购主管、工程总包及设备租赁企业而言,如何在预算范围内锁定质量稳定、服务响应快、技术迭代能力强的厂家…

22空间复用MIMO系统的MATLAB仿真实现

一、系统模型与仿真流程 1. 参数设置 % 基本参数 numTxAnts = 2; % 发射天线数 numRxAnts = 2; % 接收天线数 modOrder = 2; % QPSK调制阶数 snrRange = 0:2:20;% SNR范围(dB) numFrames = 1000; % 每个SNR点…

2025年提分系统平台推荐排行榜单

2025年提分系统平台推荐排行榜单榜单前言随着教育科技的高速发展,智能化提分系统已成为学生备考的重要辅助工具。2025年,各大平台在AI技术、教学内容和用户体验方面均有显著突破。经过综合评估,我们为您推荐以下优质…

2025 年养老院机构口碑最新推荐榜:医养康护一体化服务重磅揭晓,失能失智照护优选品牌全解析失能老人住/陪伴式/失智失能照护养老院公司推荐

引言 人口老龄化进程持续加快,优质养老服务成为家庭核心需求,而市场机构良莠不齐的现状让筛选工作陷入困境。本次榜单由国际养老服务协会联合专业测评机构共同打造,历时 3 个月完成全维度测评,覆盖百余家主流机构。…