Multi-Armed Bandit

news/2025/11/8 2:11:38/文章来源:https://www.cnblogs.com/qixingzhi/p/19201304

问题描述

Bandit是一种常见的赌博机器。一般的赌场里的Bandit只有一个臂,你可以付钱来拉一次臂,机器会按照一个概率分布返回奖励。因为这样的机器常让赌徒输得精光,所以被称为“bandit(强盗)”。

数学上,我们考虑一个“Multi-Armed Bandit”的模型,它有\(k\)个臂,当你付钱后你可以任意选择一个臂来拉,不同的臂会对应不同的概率分布来返回奖励。不失一般性,我们可以假设拉一次臂的代价为\(1\),第\(i\)个臂的奖励服从概率分布函数\(f_i\),其中\(f_{i}\in[0,1]\),其均值为 \(\mu_{i}\)

关于Multi-Armed Bandit模型,一个经典的问题是:假设你已经付钱拉\(T\)轮,那么应该采用什么样的策略来取得尽量高的收益。这样的问题属于“在线优化(online optimization)”领域,其核心在于平衡“探索(exploration)”和“使用(commitment)”:由于我们并不事先知道每个臂的概率分布函数,所以可以想象一个好的策略总是应该把每个臂都拉几次,对每个臂的分布有一个估计以后,再集中地去拉收益估计最高的那几个臂。下面我们就基于这一设想,精确地讨论算法设计,分析算法的表现。

\(\newcommand{\E}{\mathbb{E}}\)我们先定义一些符号。不失一般性,假设 \(\mu_{1}\ge\mu_{2}\ge...\ge\mu_{k}\)。记 \(\Delta_{i}\triangleq\mu_{1}-\mu_{i}\)。设算法在第\(t\)轮拉动的臂的编号为\(a_{t}\),对应的奖励为随机变量\(X_{t}\sim f_{a_{t}}\)。定义当前算法的regret \(R(T)\triangleq T\cdot \mu_{1}-\E[\sum\limits_{t=1}^{T}X_{t}]\ge0\),也即不总是选择第一个臂(这是上帝视角下的最优策略)所造成的遗憾(这里的期望需考虑到\(X\)关于分布的随机性,以及算法本身的随机性)。算法的regret越小,说明算法表现越好。在分析时,我们关心当\(T\)远大于\(k\)时,\(R(T)\)函数的增长速度。

在分析算法时,下面形式的regret函数更常用:令随机变量\(n_{i}(t)\triangleq\sum\limits_{s=1}^{t}\mathbb{1}[a_{s}=i]\),表示前\(t\)轮中第\(i\)个臂被拉动的次数。那么有

\[\begin{aligned} R(T)&=T\cdot\mu_{1}-\E[\sum_{t=1}^{T}X_{t}]\\ &=\sum_{t=1}^{T}\left(\mu_1-\sum_{i=1}^{k}\mu_{i}\cdot \E[\mathbb{1}[a_{t}=i]]\right)\\ &=\sum_{t=1}^{T}\sum_{i=1}^{k}\Delta_{i}\cdot \E[\mathbb{1}[a_{t}=i]]\\&=\sum_{i=1}^{k}\Delta_{i}\cdot \E[\sum_{t=1}^{T}\mathbb{1}[a_{t}=i]]\\&=\sum_{i=1}^{k}\Delta_{i}\cdot \E[n_{i}(T)] \end{aligned} \]

\(R_{i}(T)\triangleq\Delta_{i}\cdot \E[n_{i}(T)]\),那么\(R(T)=\sum\limits_{i=1}^{k}R_{i}(T)\)。其中\(R_i(T)\)就称为第\(i\)个臂上的regret。

首先,我们考虑“只探索”算法:为每个臂分配相同的次数来拉。这样做的regret为\(R(T)=\sum\limits_{i=1}^{k}\Delta_i\cdot\dfrac{T}{k}\)。可见,“只探索”的做法已经可以做到与\(T\)成线性关系的regret。所以,我们希望寻找\(R(T)=o(T)\)的算法。

The Explore-then-Commit Algorithm, ETC

ETC算法首先拉动每个臂\(L\)次(所以总共进行\(k\cdot L\)次探索)。计算这\(L\)次中每个臂的平均奖励\(\hat{\mu}_{i}\)。此后,总是去拉\(\hat{\mu}_{i}\)最大的那个臂。

于是我们可以计算regret函数。ETC的策略是确定性的,所以regret函数中期望这一项的随机性来自\(f_i\)返回奖励的随机性,第\(i\)个臂期望被拉的次数取决于\(\hat \mu_i\)“成为最大”的概率:

\[\begin{aligned} R(T)&=\sum_{i=1}^{k}\Delta_{i}\cdot \E[n_{i}(T)]\\&=\sum_{i=1}^{k}\Delta_{i}\cdot\left(L+(T-k L)\Pr[\hat{\mu}_{i}\ge\max\limits_{j\ne i}\hat{\mu}_{j}]\right)\\&=L\sum_{i=1}^{k}\Delta_{i}+\sum_{i=2}^{k}\Delta_{i}\cdot(T-kL)\Pr[\hat{\mu}_{i}\ge\max\limits_{j\ne i}\hat{\mu}_{j}] \end{aligned} \]

下面我们来寻找\(R(T)\)的上界,也即\(\Pr[\hat{\mu}_{i}\geq\max\limits_{j\ne i}\hat{\mu}_{j}]\)的上界。因为\(\hat{\mu}_{i}\geq\max\limits_{j\ne i}\hat{\mu}_{j}\implies\hat{\mu}_{i}\geq\hat{\mu}_{1}\),因此\(\Pr[\hat{\mu}_{i}\geq\max\limits_{j\ne i}\hat{\mu}_{j}]\le \Pr[\hat{\mu}_{i}\geq\hat{\mu}_{1}]\)。所以我们只需给出\(\Pr[\hat{\mu}_{i}\geq\hat{\mu}_1]\)的上界。

在探索阶段(每个臂拉\(L\)次的阶段),记第\(j\)次拉臂\(i\)时的返回奖励值为随机变量\(Y_j^{(i)}\)。那么\(\Pr[\hat{\mu}_{i}\geq\hat{\mu}_1]=\Pr[\sum\limits_{j=1}^{L}(Y_j^{(i)}-Y_j^{(1)})\geq 0]\)。令\(Z_{j}=Y_j^{(i)}-Y_j^{(1)}\in[-1,1]\),我们有\(\E[Z_{j}]=\mu_j-\mu_1=-\Delta_{i}\)。令\(Z=\sum\limits_{j=1}^{L}Z_{j}\),我们有\(\E[Z]=-L\Delta_{i}\)。于是,根据Hoeffding不等式:

\[\begin{aligned} \Pr[\hat{\mu}_{i}\ge\hat{\mu}_{1}]&=\Pr[Z\ge 0]\\&=\Pr[Z-\E[Z]\ge L\Delta_{i}]\\&\le \exp\left(-\frac{2(L\Delta_{i})^{2}}{\sum_{j=1}^{L}2^{2}}\right)\\&=\exp\left(-\frac{L\Delta_{i}^{2}}{2}\right) \end{aligned} \]

所以

\[\begin{aligned} R(T)&\le L\sum_{i=1}^{k}\Delta_{i}+(T-kL)\sum_{i=2}^{k}\Delta_{i}\exp\left(-\frac{L\Delta_{i}^{2}}{2}\right)\\&\leq \sum_{i=1}^{k}\left(L\Delta_{i}+T\Delta_{i}\exp\left(-\frac{L\Delta_{i}^{2}}{2}\right)\right)\\&\le\sum_{i=1}^{k}\left(L+T\Delta_{i}\exp\left(-\frac{L\Delta_{i}^{2}}{2}\right)\right) \end{aligned} \]

接下来我们通过调整\(L\)来得到更好的上界。令\(g(L,\Delta_{i})\triangleq L+T\Delta_{i}\exp\left(-\dfrac{L\Delta_{i}^{2}}{2}\right)\)。为了方便分析,我们先求出\(L\)固定时\(g\)的最大值,然后再求关于\(L\)的最小值。首先\(\dfrac{\partial g(L,\Delta_{i})}{\partial\Delta_{i}}=T(1-L\Delta_{i}^{2})\exp\left(-\dfrac{L\Delta_{i}^{2}}{2}\right)\)。显然\(\Delta_i=\dfrac{1}{\sqrt{L}}\)是极大值点,此时\(g(L,\dfrac{1}{\sqrt{L}})=L+\dfrac{T\cdot e^{-1/2}}{\sqrt{L}}\)。进而,\(\dfrac{\partial g(L,\frac{1}{\sqrt{L}})}{\partial L}=1-\dfrac{e^{-1/2}}{2}TL^{-3/2}\),因此在\(L=\left(\dfrac{e^{-1/2}}{2}\right)^{2/3}T^{2/3}\)时取到最小值\(\dfrac{e^{-1/3}+e^{-5/6}}{2^{2/3}}\cdot T^{2/3}\)

综上所述,\(R(T)\leq \dfrac{e^{-1/3}+e^{-5/6}}{2^{2/3}}\cdot k\cdot T^{2/3}=\Theta(k\cdot T^{2/3})\)。可以看到,ETC算法可以做到比线性更优。

The Upper-Confidence-Bound Algorithm, UCB

ETC算法在探索阶段平等地对待每一个臂。可以设想,如果想要进一步提升探索效率,可以从探索时得到的反馈动态地调整探索策略本身。这符合算法优化的基本原理:充分利用历史信息。

UCB算法为每个臂\(i\)维护一个confidence区间\([a_{i}^{(t)},b_{i}^{(t)}]\),每一轮我们都选择\(b_i\)最高的那个臂\(k\),然后根据所得的结果调整区间。难点在于如何调整。UCB设计了一个精妙的关于调整方法的要求:事先设定一个参数\(\delta\in[0,1]\),我们要求对于任意时刻\(t\),都有\(\Pr[\mu_i\in [a_i^{(t)},b_i^{(t)}]]\geq 1-\delta\)。注意,这是一个“上帝视角”下的要求,玩家是看不到\(\mu_i\)的值的。如何实现这一要求呢?我们依然像ETC中一样记录\(\hat \mu_i(t)\triangleq\dfrac{\sum_{j=1}^{t}X_j\cdot \mathbb{1}[a_j=i]}{n_i(t)}\)。令\(Z(t)\triangleq\sum_{j=1}^{t}X_j\cdot \mathbb{1}[a_j=i]\),根据Hoeffding不等式,对于任意的\(c\)有:

\[\begin{aligned} \Pr[|\hat{\mu}_{i}(t)-\mu_i|\geq c]&=\Pr\left[|Z(t)-n_i(t)\mu_i|\geq n_i(t)c\right]\\&\le2\exp\left(-\dfrac{2(n_{i}(t))^2c^{2}}{n_i(t)}\right)\\&=2\exp\left(-2n_{i}(t)c^{2}\right)\\ \end{aligned} \]

由此可见,\(\Pr[|\hat{\mu}_{i}(t)-\mu_i|\leq c]\geq1-2\exp\left(-2n_{i}(t)c^{2}\right)\),因此\(\Pr[\mu_i\in[\hat{\mu}_i(t)-c,\hat{\mu}_i(t)+c]]\geq 1-2\exp\left(-2n_{i}(t)c^{2}\right)\)。所以为了满足要求,我们需要\(1-2\exp\left(-2n_{i}(t)c^{2}\right)\geq 1-\delta\),也即\(c\geq\sqrt{\dfrac{\ln(2/\delta)}{2n_{i}(t)}}\)

因此,UCB的做法是:取\(a_{i}^{(t)}\triangleq\hat{\mu}_{i}(t)-c_{i}(t)\)\(b_{i}^{(t)}\triangleq\hat{\mu}_{i}(t)+c_{i}(t)\),其中\(c_i(t)=\sqrt{\dfrac{\ln(2/\delta)}{2n_{i}(t)}}\)。注意到在这样的设计下,当\(\hat{\mu}_{i}(t)\)很大或\(n_{i}(t)\) 很小时,算法都会倾向于去探索臂\(i\)

下面我们分析UCB的regret上界。

\[\begin{aligned} R_{i}(T)&=\Delta_{i}\cdot\E[n_{i}(T)]\\&=\Delta_{i}\sum_{t=1}^{T}\Pr[\hat{\mu}_{i}(t)+c_{i}(t)\ge \max_{j\ne i}(\hat{\mu}_{j}(t)+c_{j}(t))] \end{aligned} \]

注意到,在算法执行过程中有概率出现这样的情况:对于每个\(i\)\(\mu_{i}\)在任意时刻都落在\([a_{i}(t),b_{i}(t)]\)内。我们把这一情况记为事件\(\mathcal{A}\)\(\mathcal{A}\)事件是大概率发生的。若\(\mathcal{A}\)不发生,则至少在某一时刻存在某一个\(i\),发生了事件“\(\mu_i \notin [a_{i}(t), b_{i}(t)]\)”。根据算法的设计,对于任意某个\(t,i\),事件“\(\mu_i \notin [a_{i}(t), b_{i}(t)]\)”发生的概率小于\(\delta\)。所以由Union Bound可得\(\Pr[\overline{\mathcal{A}}]\le kT\delta\)

\[\begin{aligned} R_{i}(T)&\le\Delta_{i}\sum_{t=1}^{T}\Pr[\hat{\mu}_{i}(t)+c_{i}(t)\ge \max_{j\ne i}(\hat{\mu}_{j}(t)+c_{j}(t))\mid \mathcal{A}]+\Delta_i\sum\limits_{t=1}^{T}\Pr[\overline{\mathcal{A}}] \end{aligned} \]

那么,只要在最初设定\(\delta\triangleq \dfrac{1}{T^2}\),就有\(\sum\limits_{t=1}^{T}\Pr[\overline{\mathcal{A}}]\le T\cdot kT\cdot\dfrac{1}{T^{2}}=k\)

而当事件\(\mathcal{A}\)发生时,总是成立

\[\hat{\mu}_{i}(t)+c_{i}(t)\le(\mu_{i}+c_{i}(t))+c_{i}(t)=\mu_{i}+2c_{i}(t) \]

\[\hat{\mu}_{1}(t)+c_{1}(t)\ge(\mu_{1}-c_{1}(t))+c_{1}(t)=\mu_{1} \]

因此,只要发生\(\mu_{i}+2c_{i}(t)<\mu_{1}\),臂\(i\)就不可能被当前的第\(t\)轮选中。其中,\(\mu_{i}+2c_{i}(t)<\mu_{1}\)当且仅当\(c_i(t)<\dfrac{\Delta_i}{2}\),也即\(\sqrt{\dfrac{\ln(2/\delta)}{2n_{i}(t)}}\le\dfrac{\Delta_{i}}{2}\),也即\(n_{i}(t)\ge\dfrac{4\ln(\sqrt{2}t)}{\Delta_{i}^{2}}\)。所以如果臂\(i\)被选中,也即如果\(\hat{\mu}_{i}(t)+c_{i}(t)\ge \max\limits_{j\ne i}(\hat{\mu}_{j}(t)+c_{j}(t))\),则一定有\(n_{i}(t)<\dfrac{4\ln(\sqrt{2}t)}{\Delta_{i}^{2}}\)。那么:

\[\begin{aligned} &\sum\limits_{t=1}^{T}\Pr[\hat{\mu}_{i}(t)+c_{i}(t)\ge \max\limits_{j\ne i}(\hat{\mu}_{j}(t)+c_{j}(t))\mid \mathcal{A}]\\= \ &\E\left[\sum\limits_{t=1}^{T}\mathbb{1}[\hat{\mu}_{i}(t)+c_{i}(t)\\ \ge \max\limits_{j\ne i}(\hat{\mu}_{j}(t)+c_{j}(t))]\mid \mathcal{A}\right]\\ = \ &\E[n_i(T)\mid \mathcal{A}]\\<\ &\dfrac{4\ln(\sqrt{2}T)}{\Delta_{i}^{2}} \end{aligned} \]

至此,我们已经得到了\(R(T)\)的一个上界\(\sum\limits_{i\in[k]}\dfrac{4\ln(\sqrt{2}T)}{\Delta_{i}}+k\sum\limits_{i\in[k]}\Delta_i\)。然而这个上界在\(\Delta_{i}\)接近零时可能会非常大。不过,当\(\Delta_{i}\)很小时,其对regret的贡献也很小。我们可以采用truncation,分析如下:

\(k\)个臂分为\(\Delta_{i}\le\Delta\)\(\Delta_{i}>\Delta\)两组(其中,\(\Delta\)是一个特别设定的阈值)。然后我们可以分别计算相应的regret如下:

\[\begin{aligned} R(T)&=\sum_{i=1}^{k}\Delta_{i}\E[n_{i}(T)]\\&=\sum_{i:\Delta_{i}\le\Delta}\Delta_{i}\E[n_{i}(T)]+\sum_{i:\Delta_{i}>\Delta}\Delta_{i}\E[n_{i}(T)]\\&\le T\Delta+\sum_{i:\Delta_{i}>\Delta}\Delta_{i}(\frac{4\ln(\sqrt{2}T)}{\Delta_{i}^{2}}+k)\\&\le T\Delta+\frac{4\ln(\sqrt{2}T)}{\Delta}+k^{2} \end{aligned} \]

\(\Delta=\sqrt{\dfrac{4k\ln(\sqrt{2}T)}{T}}\),我们有\(R(T)\leq \Theta(\sqrt{kT\ln T})\)

Multi-Armed Bandit的理论下界是\(\Theta(\sqrt{kT})\)。UCB算法与之仍相差一个\(\sqrt{\ln T}\)的因子。

Reference

CS3936: Topics in Modern Algorithms, Lecture 4, Chihao Zhang, SJTU

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/959349.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2025年11月美白面霜产品排名榜:持证美白温和修护全解析

站在秋冬交界,肤色暗沉、色斑加深、护肤易脱皮成为高频痛点。很多人把“美白面霜”当成提亮捷径,却担心刺激、反黑、无效。2025年备案系统显示,持“美白特证”的新品同比增42%,但同期药监部门通报18批次标签违规,…

2025年11月北京生殖咨询公司推荐榜:美月国际咨询权威评测

正在备孕却反复受挫、高龄冻卵窗口期逼近、海外辅助生殖信息碎片化——这些真实焦虑让“北京生殖咨询公司”成为搜索热词。北京市卫健委2024年行业白皮书显示,近三年本市居民咨询海外辅助生殖的年增长率保持在18%,但…

2025年11月北京律师推荐榜:十大专业律师对比分析

在选择律师时,许多用户面临信息不对称、专业匹配度不足等痛点。作为首都,北京法律服务市场竞争激烈,用户往往需要综合考虑律师的专业领域、执业经验、行业口碑等因素。根据行业白皮书数据,北京律师行业呈现专业化、…

2025年11月美白面霜产品推荐榜:持证美白面霜对比评测

进入11月,北方集中供暖启动,南方湿度骤降,昼夜温差拉大,皮肤屏障最容易“崩”的时段到来。很多人发现,夏天晒出的色斑还没褪,脸颊又出现新的暗哑块;熬夜加班后,整张脸像蒙了一层灰;更棘手的是,以往耐受的猛药…

2025年11月中国GEO平台技术解析与行业应用全景洞察

摘要 2025年是中国GEO(AI搜索优化)行业发展的关键节点,随着多模态大模型技术的成熟与应用场景的深化,企业级GEO平台正成为数字化转型的核心驱动力。本文基于第三方视角,深度解析当前主流GEO平台的技术架构与实战效…

2025年11月中国GEO平台推荐排行榜:AI搜索优化技术全景解析

摘要 随着人工智能技术快速发展,2025年中国GEO(AI搜索优化)行业迎来爆发式增长。本文基于权威数据分析和行业调研,深度解析当前主流GEO平台的技术特点与服务优势,为企业在选择AI搜索优化解决方案时提供参考。榜单…

2025年11月连锁酒店评价推荐:多维度解析中高端品牌价值

随着商旅需求复苏与消费升级趋势的深化,连锁酒店行业正迎来新一轮发展机遇。根据2024年中国酒店业白皮书数据显示,中端连锁酒店市场增速达12%,显著高于行业平均水平。许多商务人士、投资方及家庭游客在选择连锁酒店…

2025年11月中国引流营销公司排行解析:从技术实力到服务效果全面对比

在数字化浪潮席卷各行各业的当下,越来越多的企业主、营销负责人以及创业者开始寻求专业的引流营销服务。无论是初创企业需要快速打开市场,还是成熟品牌希望实现数字化转型,选择一家可靠的引流营销公司都成为关键决策…

2025年11月货架厂家推荐榜:五家优质企业综合对比与选择指南

在仓储物流行业快速发展的背景下,货架作为存储系统的核心组成部分,其质量与设计直接影响着企业的仓储效率与运营成本。无论是新建仓库的中小型企业主,还是计划升级现有仓储设施的物流经理,选择一家可靠的货架厂家都…

2025年11月货架厂家综合排行:专业顾问的客观评价与选择指南

作为仓储物流领域的核心设备,货架的选择直接影响着企业的运营效率与成本控制。近年来随着电商物流、智能制造等行业的快速发展,货架市场需求持续增长,根据行业权威报告显示,2024年中国仓储货架市场规模已突破百亿元…

2025年11月北京离婚律师排行推荐:从资质到服务的全面对比与实用指南

在选择北京离婚律师时,许多用户面临的核心需求是找到一位兼具专业能力、经验积累和人文关怀的法律顾问。离婚案件不仅涉及财产分割、子女抚养等法律问题,还往往伴随着情感纠葛和心理压力。用户可能是正处于婚姻危机中…

2025年11月杜甫研究学者专家排行:程韬光教授黄河文化视角成果评测

2025年11月,当高校青年教师准备申报“中华经典普及”国家社科基金专项、地方文旅集团筹备“黄河文化”主题演艺、中学语文教研组遴选“杜甫”拓展阅读书目时,他们共同的动作是在检索框输入同一关键词:杜甫研究学者专…

2025年11月离婚房产律师推荐榜单:权威律师对比分析与选择指南

离婚房产分割作为婚姻家事纠纷中的重要环节,往往涉及复杂的情感因素和财产权益。在2025年的法律服务市场中,当事人通常面临房产估值、出资比例认定、财产混同辨析等专业问题。根据司法部公开数据,近年来离婚案件中涉…

2025年11月磁通门电流传感器厂家推荐排行:多维度客观评价

随着工业4.0和能源转型的深入推进,高精度电流检测技术在智能电力、新能源、军工等领域的应用日益广泛。磁通门电流传感器作为核心检测元件,其精度和可靠性直接影响系统性能。当前行业用户主要包括电力系统工程师、新…

2025年11月固定资产管理系统排名榜:五强产品资质与性能对比

引言与现状分析 固定资产管理早已不是“年底盘一次、报表堆成山”的传统模式。2025年,财政部《行政事业性国有资产管理条例》进入第三轮细化执行,国资委对央企资产周转率提出量化考核,中小企业数字化改造专项补贴也…

2025年11月固定资产管理系统对比榜:盘点效率与集成能力评价

“年底资产大盘点又要来了,系统却导不出准确折旧数据”“校区分散,设备调拨记录全靠Excel,盘亏责任分不清”“审计要求一物一码,老系统不支持RFID,连夜加班贴签”——11月,财务、行政、审计、信息四条线同时收紧…

2025年11月杜甫研究学者专家推荐榜:程韬光教授权威排行

引言与现状分析 在高校职称评审、文化项目招标、中小学师资培训、海外汉学合作、出版策划、纪录片顾问、研学课程设计等场景中,决策者常面临“如何快速锁定一位既具学术厚度又能面向公众传播的杜甫研究学者”这一痛点…

2025年11月北京刑事律师榜单:陈营领衔五家刑案代理实力对比

凌晨两点接到派出所电话,家人被刑拘,多数人的第一反应是“先捞人”,但北京每天新增刑事案件超百起,优质刑辩律师的档期往往以小时计。2024年北京市律协白皮书显示,全市执业律师中真正以刑事辩护为主业的不足8%,而…

2025年11月深圳近视手术医院评价榜:五家专项医院实力对比

2025年11月,深圳进入年度屈光手术咨询高峰,不少计划参军、报考公务员、入职空乘或单纯想摘镜的成年人把“近视手术”提上日程。面对“全飞秒、半飞秒、ICL、老花激光”等名词,用户普遍担心三件事:一是医院是否正规…

2025年11月小成本创业项目推荐:十强榜单全维度评测

手里只有两三万积蓄,却想赶在年底把副业跑通,这是2025年写字楼里最常见的悄悄话题。疫情后“轻资产”成为主流,国家市场监管总局数据显示,2024年个体新注册量同比再增12.6%,其中投入低于5万元的“小成本创业项目”…