Fourier Features Let Networks Learn High Frequency Functions in Low Dimensional Domains

news/2025/9/30 10:46:37/文章来源:https://www.cnblogs.com/Bcai0797/p/19120160

Fourier Features Let Networks Learn High Frequency Functions in Low Dimensional Domains

原文:从理论层面解释位置编码在隐式神经表示中对MLP的性能增益。
注:本文内容远超笔者的知识储备,仅简单记录个人理解。

动机

img

基于隐式神经表示(Implicit Neural Representation,INR)的框架,利用MLP对位置坐标进行映射在二维图像、三维模型上已经很广泛。本文作者发现,如果不对坐标进行傅里叶特征处理,则会出现过度平滑的结果。

核回归

作者首先基于核回归(Kernel Regression)的理论对其进行了解释。给定一个数据集\((\mathbf{X},\mathbf{y})=\{(\mathbf{x}_i, y_i)\}^n_{i=1}\),其中\(\mathbf{x}_i\)是输入数据且\(y_i=f(\mathbf{x_i})\)是输出的标量标签。此时核回归的目标就是在任意数据点\(\mathbf{x}\)上构建\(f(\cdot)\)的估计\(\hat{f}(\cdot)\)

\[\hat{f}(\mathbf{x})=\sum_{i=1}^n(\mathbf{K}^{-1}\mathbf{y})_ik(\mathbf{x}_i,\mathbf{x}) \]

其中\(\mathbf{K}\)是一个\(n \times n\)的核(Gram)矩阵,其中\(\mathbf{K}_{ij}=k(\mathbf{x}_i,\mathbf(x)_j)\)\(k\)是一个对称半正定的核函数用以衡量输入数据之间的相似性。

因此,核回归的过程可以视为基于输入数据与数据集中各数据点的相似性对数据集标签的加权和。

用核回归近似深度网络

注:这部分理论笔者并没有完全理解,仅根据原文进行个人总结。

将目标函数\(f\)设定为一个全连接深度网络,其参数为以高斯分布\(\mathcal{N}\)初始化的\(\theta\)。当\(f\)中的层内宽度趋于无限且SGD的学习率趋于0时,\(f(\mathbf{x};\theta)\)在训练中通过Neural Tangent Kernel(NTK)收敛到核回归解(kernel regression solution):

\[k_{NTK}(\mathbf{x}_i,\mathbf{x}_j)=\mathbb{E}_{\theta \sim \mathcal{N}}\left \langle \frac{\partial f(\mathbf{x}_i; \theta)}{\partial \theta}, \frac{\partial f(\mathbf{x}_j; \theta)}{\partial \theta} \right \rangle \]

(中间的推导不太明白略过)当网络通过L2损失函数及学习率\(\eta\)进行训练时,\(t\)轮训练迭代后网络对测试数据\(\mathbf{X}_{test}\)的输出可以近似为:

\[\hat{\mathbf{y}}^{(t)} \approx \mathbf{K_{test}}\mathbf{K}^{-1}(\mathbf{I}-e^{-\eta \mathbf{K}t})\mathbf{y} \]

训练神经网络时的频谱偏差

注:这部分理论笔者并没有完全理解,仅根据原文进行个人总结。

由于NTK的\(\mathbf{K}\)矩阵时对称半正定的,可对其进行特征值分解\(\mathbf{K}=\mathbf{Q}\mathbf{\Lambda}\mathbf{Q}^T\),其中\(\mathbf{Q}\)是正交的且特征值\(\lambda_i \geq 0\)。然后,由于\(e^{-\eta \mathbf{K} t } = \mathbf{Q} e^{-\eta \mathbf{\Lambda} t} \mathbf{Q}^T\),可得:

\[\mathbf{Q}^T(\hat{\mathbf{y}^{(t)}_{train}} - y) \approx \mathbf{Q}^T((\mathbf{I}-e^{-\eta \mathbf{K} t})\mathbf{y}-\mathbf{y}) = -e^{-\eta \mathbf{\Lambda}t} \mathbf{Q}^T\mathbf{y} \]

这意味着,训练误差的第\(i\)\(|\mathbf{Q}^T(\hat{\mathbf{y}^{(t)}_{train}} - y)|_i\)可近似看作以\(\eta \lambda_i\)的速率指数衰减。也就是说,特征值大的项学习更快。在INR场景下,这就导致了MLP在高频部分收敛慢,也就表现出过度平滑的拟合结果。

方法

在上述理论分析的基础上,则有以下解决思路:

  1. 由于坐标的分布比较均匀,和传统机器学习中的输入数据分布不同。因此需要引入稳定的(平移不变的)核。
  2. MLP的收敛过程与\(\mathbf{K}\)的特征值有关,因此希望通过控制带宽(bandwidth)提高模型训练速度与泛化性。

一种符合上述要求的编码方式就是基于三角函数构造的傅里叶特征:

\[\gamma(\mathbf{v})=[a_1 \cos(2\pi \mathbf{b}_1^T \mathbf{v}), a_1 \sin(2\pi \mathbf{b}_1^T \mathbf{v}),\cdots,a_m \cos(2\pi \mathbf{b}_m^T \mathbf{v}), a_m \sin(2\pi \mathbf{b}_m^T \mathbf{v})]^T \]

根据三角函数公式\(\cos(\alpha-\beta)=\cos\alpha\cos\beta+\sin\alpha\sin\beta\),可以推导得到:

\[k_{\gamma}(\mathbf{v}_1, \mathbf{v}_2)=\gamma(\mathbf{v}_1)^T\gamma(\mathbf{v}_2)=\sum_{j=1}^m{a^2_j \cos (2\pi \mathbf{b}_j^T(\mathbf{v}_1-\mathbf{v}_2))}=h_{\gamma}(\mathbf{v}_1 - \mathbf{v}_2) \]

\[where\ h_{\gamma}(\mathbf{v}_{\Delta}) \triangleq \sum_{j=1}^m{a^2_j \cos (2\pi \mathbf{b}_j^T(\mathbf{v}_{\Delta}))} \]

可见,该核具有平移不变性,即计算得到的相似性仅和输入位置的差有关。并且,参数\(a\)\(\mathbf{b}\)的设置能够控制频谱的带宽。

实验

文中对比了三种傅里叶特征的设置:

  • Basic:\(\gamma(\mathbf{v})=[\cos(2\pi\mathbf{v}),\sin(2\pi\mathbf{v})]^T\)
  • Positional Encoding:\(\gamma(\mathbf{v})=[\cdots, \cos(2\pi\sigma^{j/m}\mathbf{v}),\sin(2\pi\sigma^{j/m}\mathbf{v}), \cdots]^T\) for \(j=0,\cdots,m-1\)
  • Gaussian:\(\gamma(\mathbf{v})=[\cos(2\pi\mathbf{B}\mathbf{v}),\sin(2\pi\mathbf{B}\mathbf{v})]^T\),其中\(\mathbf{B}\in\mathbb{R}^{m\times d}\)的各个元素从\(\mathcal{N}(0,\sigma^2)\)中进行采样

img

根据实验结果,傅里叶特征映射后有明显提升,其中Gaussian效果最好。

总结

本文从理论上证明了三角函数构造的映射对MLP的帮助,实验结果上也验证了理论的正确性,是一项非常扎实的工作。笔者也是受本文的启发,对自己的工作进行了改进,确实有非常明显的提升。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/922717.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

「突发奇想,灵光乍现」 - hello

1. 困住自己的,是一种执着,和来自沉迷于某种欲望的享受。

BST(self saved)

#include<iostream> #include<cstdio> using namespace std; int root,tot; struct bst {int v,l,r,vnum,lnum;bst(){v=l=r=vnum=lnum=0;}void nw(int a){v=a;vnum=1;lnum=0;l=r=0;} }tree[1000010]; stru…

jenkins 用户权限 管理配置

这里使用插件 Role-based Authorization Strategy下载插件 插件 管理 搜 Role-based Authorization Strategy 点击下载 安装即可配置Role-based Authorization Strategy 插件 系统管理-全局安全配置-授权策略 选择,…

DirectX- DLL修复工具 免费下载!绿色单文件版!安装使用教程

软件介绍Cloudbox工具箱本身只有7.6M左右大小,一款开源免费的 Windows 聚合工具箱,主要分为四个部分,装机检测、系统常用、影音下载、其他工具。每一类中都有40多款软件,集成 198 款工具,提供绿色免安装软件,能简…

测试集成CI/CD的五大实践:构建高效质量保障体系

测试集成CI/CD的五大实践:构建高效质量保障体系 在数字化转型浪潮下,软件交付速度已成为企业竞争力的关键指标。DevOps实践正在重塑软件开发生命周期,而持续集成/持续交付(CI/CD)作为其核心环节,正面临质量保障的新…

Windows系统Web UI自动化测试学习系列4--开源体系平台测试项目环境部署搭建

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

DirectX修复工具官方中文增强版下载!下载安装教程(附安装包),0xc000007b错误解决办法

软件介绍 DirectX 是 Microsoft 提供的一组用于处理多媒体任务的技术集合,尤其广泛应用于图形和音频渲染领域。如果系统缺少某些 DirectX 组件或者这些组件损坏,则可能导致游戏或应用程序无法正常运行。DirectX修复工…

网站图怎么做哪个网站有ae免费模板

来源&#xff1a;AI前线作者 | Timothy B.Lee译者 | 王强策划 | 刘燕自动驾驶技术行业今天正处于一种奇怪的状态。过去多年来&#xff0c;整个行业已经在自动驾驶技术上投入了庞大的资金&#xff0c;其中许多公司都拥有了看起来跑得不错的自动驾驶汽车原型。但据我所知&#xf…

临沂做wish网站零基础做电商从什么做起

希望你开心&#xff0c;希望你健康&#xff0c;希望你幸福&#xff0c;希望你点赞&#xff01; 最后的最后&#xff0c;关注喵&#xff0c;关注喵&#xff0c;关注喵&#xff0c;佬佬会看到更多有趣的博客哦&#xff01;&#xff01;&#xff01; 喵喵喵&#xff0c;你对我真的…

五莲县网站建设wordpress用什么linux

分析 很多时间&#xff0c;不管是vue2&#xff0c;还是vue3开发中都会遇到&#xff0c;动态渲染图片的功能&#xff0c;但是为什么我们直接将图片的路径直接赋值给变量的时候&#xff0c;图片渲染不出来&#xff0c;而通过require引入加载图片后却能正常渲染呢&#xff1f;主要…

网站建设咨询什么当当网网站建设步骤

Zookeeper1.Zookeeper概述Zookeeper是一个工具&#xff0c;可以实现集群中的分布式协调服务。所谓的分布式协调服务&#xff0c;就是在集群的节点中进行可靠的消息传递&#xff0c;来协调集群的工作。Zookeeper之所以能够实现分布式协调服务&#xff0c;靠的就是它能够保证分布…

【VMware Workstation】Debian 13 桌面版安装

下载系统镜像 访问 debian 官网下载网页下载 debian-13.1.0-amd64-DVD-1.iso 系统镜像下载列表页面:https://www.debian.org/distrib/ 文件名称:debian-13.1.0-amd64-DVD-1.iso MD5:E883FB27DDC95057000F181E6E982…

网站做的app有哪些wordpress文章图片显示不出来

自动生成实体类、Mapper、Mapper.xml文件搭建Spring Boot Mysql MyBatis 项目核心配置pom.xml创建表配置文件生成文件结果项目结构搭建Spring Boot Mysql MyBatis 项目idea 可直接创建相应的项目及配置核心配置pom.xmlmysqlmysql-connector-java5.1.38org.springframework.…

B树,B+树技术分享

分享B树和B+树中学习过程中的知识点B树概念+使用操作 为什么要发明B树? 1.磁盘文件I/O太慢 2.BTS的局限性:二叉平衡树每个节点就放一个关键字,所以搜索起来效率太慢了,比如每个节点就放一个关键字,要放一亿条数据就…

【瑶池数据库动手活动及话题精选(体验Dify on DMS,参与Meta Agent讨论)】

一、动手活动 基于 Dify on DMS 快速构建客服对话数据质检服务,完成任务可领积分、定制手办等好礼! 企业面临传统开发环境割裂及数据流转不畅的挑战?本方案基于数据管理服务 DMS,深度集成云数据库 RDS 与百炼大模型…

无管理员权限电脑完成MySQL数据库创建流程

背景:公司电脑,没有管理员权限 阶段一:准备阶段 步骤一:选择MySQL版本。 个人开发推荐使用绿色版本5.7.44 步骤二:获取资源。 链接:https://downloads.mysql.com/archives/community/ 资源名:Windows (x86, 64-…

上海网络推广公司网站网站建设服务器选择

全国知识图谱与语义计算大会是由中国中文信息学会语言与知识计算专委会定期举办的全国年度学术会议。CCKS 2018吸引了来自学术界和工业界的超800人参加。2019 年全国知识图谱和语义计算大会(www.ccks2019.cn) 将于2019年8月24日至8月27日在杭州召开&#xff0c;CCKS 2019的主题…

组建 网站开发团队wordpress小工具空格

1.微服务云应用平台(ServiceStage),可以完成以下哪些功能?(多选)A.创建应用依赖计算资源B.使用 AOS 模板自动化应用编排C.查看应用各项指标D.在线可视化升级应用E.容器应用需要自己在 Service Storage 上搭建容器管理平台,比如需自己搭建 kubernetes 管理 docker 容器应用Answ…

时钟设计优化实战

1、时钟设计,芯片性能的节拍器 在现代 IC 设计中,时钟网络的优化是实现高性能、高可靠性和低功耗的关键。本文聚焦四大核心技术:CTS 优化、DCD 最小化、时钟门控和时钟域交叉(CDC),带你深入理解并掌握先进的时钟…

河南外贸建站 | 河南外贸建站公司 | 河南外贸独立站定制 - 详解

河南外贸建站 | 河南外贸建站公司 | 河南外贸独立站定制 - 详解pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Co…