Paper Reading: Symbolic Regression Enhanced Decision Trees for Classification Tasks

news/2025/10/29 19:33:51/文章来源:https://www.cnblogs.com/linfangnan/p/19172443

目录
  • 研究动机
  • 文章贡献
  • 本文方法
  • 实验结果
    • 合成数据集实验
    • 真实数据集
    • 噪声数据测试
    • 可解释分析
  • 优点和创新点

Paper Reading 是从个人角度进行的一些总结分享,受到个人关注点的侧重和实力所限,可能有理解不到位的地方。具体的细节还需要以原文的内容为准,博客中的图表若未另外说明则均来自原文。

论文概况 详细
标题 《Symbolic Regression Enhanced Decision Trees for Classification Tasks》
作者 Kei Sen Fong, Mehul Motani
发表会议 The Thirty-Eighth AAAI Conference on Artificial Intelligence (AAAI-24)
发表年份 2024
会议等级 CCF-A
论文代码 文中未公开

作者单位:

  1. Department of Electrical and Computer Engineering, National University of Singapore
  2. N.1 Institute for Health, Institute for Digital Medicine (WisDM), Institute of Data Science, National University of Singapore

研究动机

传统决策树在表格分类任务中虽然具有出色的可解释性优势,但在处理复杂决策边界时存在显著局限性。同时固有的轴平行分割机制限制了模型的表达能力,传统决策树算法通过形式为 \(x_i > k\) 的轴平行超平面对数据集进行划分,当真实边界不沿特征轴分布时,决策树往往需要构建复杂结构和密集决策边界,导致模型臃肿且可解释性下降。为克服传统决策树的局限性,斜决策树被提出作为改进方案。ODT 利用形式为 \(H(x)=h_{d+1}+\sum_{i=1}^{d}h_{i}x_{i}\) 的线性超平面进行分割,虽然能够生成更小更准确的树结构,但其斜分割规则涉及所有 d 个输入特征,使其更容易受到对抗性数据噪声的影响,同时可能降低模型的可解释性。

文章贡献

本文提出的 SREDT 模型融合了符号回归与决策树的优势,其核心思想是在决策树构建过程中,将传统的轴平行分割替换为通过符号回归发现的丰富数学表达式分割。SREDT 基于 CART 算法框架,但在每个节点分割时不再局限于单特征阈值比较,而是使用 GP 驱动的符号回归来探索特征间的复杂非线性关系,使 SREDT 能够发现那些需要多个传统分割才能近似表达的复杂决策边界。这种设计在保持决策树可解释性结构的同时,大幅提升模型的表达能力和效率。通过在 65 个数据集上的系统实验证明其在准确率、F1 分数和推理时间上均优于传统决策树和斜决策树,同时保持了高度可解释性。

本文方法

SREDT 基于 CART 算法,但将其分裂规则搜索过程替换为 SR 驱动的分裂。符号回归设置的函数集包括 \(\{ \text{add}, \text{mul}, \text{sub}, \text{div} \}\),超参数诶:种群大小=400,迭代代数=40,锦标赛规模=200,简约系数=0.001。SREDT 的伪代码如下图所示,输入为当前节点数据集 \(N\)(含 \(D\) 个特征)和指定的分裂评价标准,如 Gini 不纯度。接着使用遗传编程(GP)生成候选表达式(如 \(X_0 \times X_1\)),并评估其分裂效果。然后对每个候选表达式寻找最佳分裂阈值(如 \(X_0 \times X_1 < 0.05\)),最后选择最优表达式和阈值作为节点分裂规则。
image
SR 传统上用于回归任务,SREDT 将其改造为分类器,即将 Gini 不纯度等分类指标作为 SR 的适应度函数。Gini 不纯度公式如下,其中 \(t\) 为当前节点,\(c\) 为类别数,\(n_{i,t}\) 为节点 \(t\) 中第 \(i\) 类样本数。

\[G(t) = 1 - \sum_{i=1}^{c} \left( \frac{n_{i,t}}{n_t} \right)^2 \]

分裂增益计算公式如下:

\[\Delta G = G(t) - \frac{n_f}{n_t} G(f) - \frac{n'_t}{n_t} G(t') \]

本文对 SREDT 设计了 3 种变体:

  1. 预训练SREDT(P-SREDT):使用 AI-Feynman 方程库预训练 RNN 生成初始种群,提升表达式质量。
  2. 前瞻SREDT(L-SREDT):引入单步前瞻机制,评估分裂对下一层树结构的影响。
  3. 局部SREDT(Local SREDT):在 SR 种群中增加局部搜索机制优化表达式中的常数项,损失函数使用可微的平方铰链损失:\(L(z) = (\max(0, -y \cdot \hat{z}))^2\),其中 \(z\) 为样本值与阈值的差,\(y\) 为类别标签(±1)。使用 BFGS 算法优化常数,提升分裂边界的精确性。

实验结果

合成数据集实验

在合成数据集实验中,SREDT 展现出显著优势。XOR 分类问题中,传统决策树需要深度为 3 且包含 6 个叶子节点的结构,SREDT 仅通过深度为 1、2 个叶子节点的简洁树就解决了问题。
screenshot-1761644561269
在半月亮分类问题中,决策树需要 11 个叶子节点和深度 6 才能完成的任务,SREDT 同样以单层结构解决。
screenshot-1761644654046

真实数据集

在真实数据集中,SREDT 在准确率和 F1 两个关键指标上均超越了传统决策树和斜决策树。
image
image
模型紧凑性分析显示,SREDT 在深度比率、叶子节点比率和项数比率方面都表现出更优的简洁性。
image
在推理时间方面,SREDT 比决策树减少 25.8% 的时间,比斜决策树减少 26.6%。SREDT 的训练时间较长,这是其探索更丰富分割空间所带来的必然代价。
image

噪声数据测试

在对抗性数据噪声测试中,当引入随机排列列和随机高斯噪声时,SREDT 的准确率仅下降 1.7%、F1 分数下降 0.72%,表现出稳定性。
image

可解释分析

可解释性方面,SREDT 通过低深度、少叶子节点和少项数的设计,显著降低了用户的认知负荷。实际生成的决策树样本显示,SREDT 能够以人类可理解的形式呈现复杂的决策过程,这在需要模型解释的领域尤为重要。
image

优点和创新点

个人认为,本文通过遗传编程探索非线性分割规则,突破了传统决策树只能进行轴平行分割的局限性,在保持模型可解释性的同时显著提升了表达能力。SREDT 生成的树结构深度更浅、叶子节点更少,但在准确率和 F1 分数上超越传统决策树和斜决策树,实现了效率与效果的双重优化。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/950189.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

专题:2025年医疗健康行业状况报告:投融资、脑机接口、AI担忧|附130+份报告PDF合集、图表下载

原文链接:https://tecdat.cn/?p=44088原文出处:拓端抖音号@拓端tecdat2025年医疗健康行业在“消费透明化”“资本聚焦创新”“技术跨国竞争”“AI风险管控”四大维度呈现显著特征——香港私家医院常见治疗收费差距最…

SQL Server创建指定数据库的账号且看不到其他任何用户创建的数据库

SQL Server创建指定数据库的账号且看不到其他任何用户创建的数据库-- 创建一个 SQL Server 身份验证的登录名CREATE LOGIN 登录名WITH PASSWORD = 设置密码; -- 切换到你希望授权的特定数据库USE 指定数据库名称;GO --…

专题:2025年制造业数智化发展白皮书:数字化转型与智能制造|附130+份报告PDF、数据、绘图模板汇总下载

原文链接:https://tecdat.cn/?p=44117原文出处:拓端抖音号@拓端tecdat20年前,制造业还是“机器轰鸣、人工巡检”的传统图景,一条生产线要靠老师傅的经验把控质量;10年前,自动化设备开始普及,但数据孤岛让“智能…

大家好,我个人爱好开通了一个公众号!!!

大家好,我个人爱好开通了一个公众号!!! 个人爱好,开通了一个公众号“与君说事”,与君说世间事,带您玩转生活圈!让我们一起关注世间百态,共赏人间烟火! 欢迎喜欢我博客园的有缘人,移步微信公众号,搜索关注…

思源笔记多端同步方案:Docker MinIO + Siyuan-unlock

思源笔记多端同步方案:Docker MinIO + Siyuan-unlock1. 需求背景 思源笔记功能强大,有多端 PC 使用需求,但官方同步需付费 78 元。本方案仅需一台服务器即可实现免费同步。 适用人群:拥有一台服务器 多台 PC 需要同…

AI辅助渗透测试小试牛刀

AI辅助渗透测试小试牛刀 传统的自动化渗透测试工具在过去几十年中已成为安全评估的标准组成部分。然而,这些工具的效能主要局限于已知漏洞的广泛扫描和配置检查,其内在的局限性也日益凸显。传统自动化工具本质上是确…

python设置永久的国内镜像源

python设置永久的国内镜像源命令行配置(推荐) 通过pip config命令直接修改全局配置: # 设置全局镜像源pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple/​# 设置信任的主机(解决HTTPS证…

完整教程:FFmpeg 全面教程:从安装到高级应用

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

程序员修炼之道:从小工到专家读后感(2025_10_29)

翻开《程序员修炼之道》的前三章,一种奇特的熟悉感扑面而来——不是那种已知内容的熟悉,而是那种“这正是我需要的”的熟悉。作为一个在代码世界中摸索前行的人,我曾无数次陷入技术的细枝末节,却忘了思考自己究竟在…

VisionPro学习笔记- CogCreateGraphicLabelTool

CogCreateGraphicLabelTool 工具文档 1. 工具概述 CogCreateGraphicLabelTool 是康耐视 VisionPro 视觉软件中的核心图形标注工具,用于在图像上叠加文本或坐标信息,以标识、注释或动态显示检测结果。它的主要功能是通…

Linux内核6.15.4性能调优、网络优化与稳定性增强详解

本文深入解析Linux内核6.15.4版本的关键改进,涵盖内存管理优化、网络协议栈增强、文件系统性能调优及稳定性修复。该版本重点解决了TLB刷新效率、零拷贝接收、TCP重传控制等核心问题,为生产环境部署提供重要参考。Li…

跨平台发布总翻车?真正能“一稿通发”的编辑器长什么样?实测揭晓答案

跨平台发布总翻车?真正能“一稿通发”的编辑器长什么样?实测揭晓答案2025年公众号编辑器怎么选?实测5款主流工具,这款全链路提效神器让运营效率翻3倍! 作为一名深耕新媒体领域十年的资深运营人,我每天都会被同行…

深入解析:爬虫访问第三方 HTTPS 网站时遇到的 SSL 异常处理

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

团队博客 1plus:团队项目NABCD方案

厂房租赁AI赋能小程序NABCD方案 一、Need需求 (一)房东端(开发区企事业单位) 1.背景 企事业单位(甲方)大量房源空置,没得到合理利用。在架起房源与用户间桥梁的过程中,需要着重考虑信息安全与权限管理方面的责…

P11453 [USACO24DEC] Deforestation S

P11453 [USACO24DEC] Deforestation S 题解闲聊:多测一定要清空!!! 以及,听说本题有九倍经验。题目传送门 我的博客-欢迎光临 本题的做法很多,最主要的一个是差分约束。这里我们介绍另一种做法——并查集+树状数…

[SKILL] 常用语句

1. 判断子字符串是否被包含在一个字符串中 index(string1 substring1),index()返回在string1中遇到的第一个substring1及其之后的所有内容,如果不包含substring1则返回nil e.g.string1 = "inv_25_mac" sub…

团队博客 1:团队项目核心信息

我会按照项目核心信息的逻辑顺序,将内容整理为通顺的正常文本格式,去除所有加粗符号,同时保留各部分关键信息和结构,确保信息完整且易于阅读。 租易 - 快捷租房管理小程序:项目核心信息项目的需求分析和商业前景 …

CF2156 Codeforces Round 1061 (Div. 2) 游记(VP)

心不在焉没有状态,$4t$ 混出 $1930$ 就下班。省流 心不在焉没有状态,\(4t\) 混出 \(1930\) 就下班。10.29 内含剧透,请vp后再来。 不是题解!!!!!!! 赛前 晚上蚊子很多,没怎么睡觉,处在一种困与不困的叠加态…

2025年10月市场上板式家具厂家前十榜单

随着2025年板式家具行业的快速发展和消费升级,市场竞争日益激烈,企业需注重产品质量、环保标准和服务体验。本文基于行业调研数据、用户口碑评价及企业综合实力,整理出2025年市场上板式家具制造商的推荐排行榜单,旨…