十二大顶尖大模型决战华尔街与量化投资

大模型越来越强,人们开始探索用大模型来做量化投资。

比如25年11月火遍全网的Alpha Arena全球首个AI投资大赛,现在依然在进行(全军覆没囧...)。

AI能否战胜市场?一直没有系统的研究报告或论文,刚刚,一篇重磅论文的深度实验给出了令人深思的答案。

这项研究以前所未有的规模和深度,汇集了来自OpenAI、谷歌、Anthropic、DeepSeek以及xAI这五家全球顶级AI厂商的十二个大语言模型,让它们在标普500指数的十一大板块中构建投资组合,并分别在市场平稳期和动荡期进行了实盘模拟与严苛测试,最终揭示了混合智能策略才是通往稳健收益的最佳路径

量化投资新范式的构建

自ChatGPT横空出世以来,金融行业便开始经历一场悄无声息却翻天覆地的变革。

大语言模型凭借其强大的数据处理能力和模式识别能力,正逐渐渗透进从情感分析、文本挖掘到风险建模、投资策略生成的每一个环节。

这项研究的核心目标非常明确,就是要探究这些通用的大语言模型是否已经具备了足够的能力,能够在具体的行业板块中挑选出优于基准指数的股票,并为构建更加稳健的投资组合提供实质性的帮助。

为了确保研究的公正性与全面性,研究团队构建了一个庞大的竞技场。

参赛选手包括了OpenAI旗下的GPT-4o、GPT-4.1、o4-mini以及被寄予厚望的GPT-5,谷歌的Gemini 2.5 Pro,Anthropic的Claude Sonnet 3.7、Claude Sonnet 4和Claude Opus 4,xAI的Grok 3及其迷你版Grok 3 Mini,以及DeepSeek的DeepSeek-V3和DeepSeek-R1。

这些模型代表了当前人工智能领域的最高水平,它们各自拥有独特的架构设计、训练数据和推理逻辑。

将它们置于统一的起跑线上,不仅能够横向对比不同厂商的技术实力,更能纵向观察模型迭代对金融决策能力的具体影响。

实验的舞台搭建在标普500指数的十一大板块之上,这涵盖了能源、材料、工业、非必需消费品、必需消费品、医疗保健、金融、信息技术、通信服务、公用事业以及房地产。

研究团队利用大模型的API接口,向每个模型发送标准化的提示词,要求它们基于各大基金的投资原则,从特定的行业指数中挑选出至少20只具有超额收益潜力的股票,并说明挑选理由。

为了消除生成式AI特有的随机性,每个提示词都被重复执行了10次,最终筛选出被提及频率最高的20只股票作为该模型的投资标的。

随后,模型还需要进一步为这些股票分配权重,构建出一个完整的理论投资组合。

这种方法论的创新之处在于它并未止步于AI的原始输出。

研究引入了经典的均值-方差优化(MVPO)框架,这是现代投资组合理论的基石。

对于每个模型生成的股票池,研究团队不仅计算了由AI直接赋予权重的组合表现,还计算了等权重组合、最小方差组合、最大预期回报组合以及最大夏普比率组合的表现。

这种设计巧妙地将生成式AI的推理能力与传统量化金融的严谨数学模型结合了起来,形成了一种混合型的投资决策框架。

通过对比AI原始组合与经过数学优化后的组合,我们可以清晰地分辨出AI在选股(Stock Selection)和择时配置(Weighting)两个维度上的真实能力差异。

为了全面评估模型在不同市场环境下的适应性,研究划分了两个截然不同的测试窗口。

第一个窗口是2025年1月至3月,这是一个相对平稳的市场阶段,各项宏观指标波动在正常范围内。

第二个窗口则是2025年4月至6月,这一时期市场经历了剧烈的动荡,特别是4月初因贸易关税政策引发的股市暴跌,为测试模型的抗风险能力提供了绝佳的压力测试场景。

这种分段式的评估体系,就像是让赛车手分别在晴天和暴雨中驾驶,从而能够全方位地检验AI模型的性能边界。

常态市场下的超额收益表现

在深入分析具体的收益数据之前,研究人员首先对各大模型在选股和配置权重时所展现出的思维逻辑进行了详尽的剖析。

这不仅仅是对输出结果的统计,更是对AI“大脑”内部决策过程的一次窥探。

通过梳理模型生成的理由,可以发现所有十二个模型在投资哲学上存在着显著的共性,那便是对“高质量”、“高增长”和“风险管理”的共同推崇。

几乎所有的模型都倾向于选择行业内的龙头企业,看重企业的盈利能力和成长潜力,并试图通过分散投资来降低单一资产的风险。

在这些共性之外,不同家族的模型也展现出了极具特色的个性化策略。

Claude系列、DeepSeek系列以及Grok系列的模型,明确将地理多元化纳入了考量范围,这意味着它们的视野超越了单纯的财务报表,开始关注全球宏观政治经济对资产价格的影响。

OpenAI的GPT-4.1和谷歌的Gemini则倾向于采用“核心-卫星”策略,即在通过持有稳健的核心资产保证基础收益的同时,配置少量高风险、高回报的卫星资产以博取超额收益。

DeepSeek-V3和Claude Opus 4则表现得更为激进,它们倾向于通过集中持仓表现最好的股票来最大化阿尔法收益。

有趣的是,o4-mini、DeepSeek-R1和Grok 3 Mini这三个针对推理能力进行过专门优化的模型,展现出了更接近人类量化分析师的特质。

它们采用了一种基于因子的综合评分法,依据动量、盈利修正、收入增长和估值指标对股票进行量化打分,然后根据总分来分配权重。

这种结构化、规则导向的推理过程,与那些提供叙事性理由的模型形成了鲜明对比,显示出AI在模仿人类专业逻辑思维方面已经达到了相当高的水准。

下面是各LLM模型在构建投资组合时的推理逻辑汇总表:

这种策略思维的有效性在第一个测试周期(2025年1月至3月)得到了充分验证。

在市场相对平稳的环境下,AI展现出了令人惊叹的盈利能力。

数据表明,在多个板块中,由大模型构建的投资组合在累积回报率和夏普比率(风险调整后收益)上都跑赢了对应的行业基准指数。

特别是能源、金融和信息技术这三个板块,几乎所有的模型都交出了优异的答卷。这说明在市场规律运行正常、历史数据参考价值较高的时期,AI能够有效地识别出那些基本面优良的股票,并给出合理的配置建议。

下图展示了Claude Sonnet 3.7模型在信息技术板块,以及工业板块选股的结果,绿色代表有效且高频选中的股票:

在这一阶段,将AI选出的股票池输入到均值-方差优化模型中,往往能进一步提升收益的稳健性。

这证实了“AI选股+数学优化”的混合模式在常态市场下具有强大的生命力。

AI负责利用其广博的知识库进行定性筛选,剔除劣质资产,锁定潜力股,数学模型则负责在定量层面平衡风险与收益,两者相得益彰。

下表详细列出了2025年1月至3月期间各模型组合的表现情况。

绿色网格表示LLM加权组合跑赢了指数,黄色线条表示经过优化的组合跑赢了指数,红色点状则表示指数跑赢了所有组合。

动荡周期的严峻考验

随着时间推移至2025年4月,市场风云突变。

总统宣布的关税政策引发了市场对全球贸易战的深切担忧,标普500指数经历了剧烈的下挫与随后的艰难修复。

在这一充满不确定性的高波动时期,AI模型的表现出现了明显的分化,甚至可以说是集体的滑坡。

之前在平稳期表现亮眼的模型,在面对突如其来的市场休克时,显得有些手足无措。

数据对比显示出了残酷的现实。

在4月至6月的测试期内,大量原本标示为“跑赢市场”的绿色格子变成了代表“跑输市场”的红色格子。

尤其是在必需消费品、公用事业和通信服务等板块,AI构建的组合普遍表现不佳。

这表明,大语言模型目前仍难以迅速适应极端的市场体制转换(Regime Shift)。

它们的训练数据虽然海量,但往往缺乏对最新突发政治经济危机的实时感知与深度理解,导致它们在面对从未见过的复杂局面时,依赖的是历史经验中偏向稳健的逻辑,而这在极端行情下反而成了劣势。

下表展示了2025年4月至6月动荡期的表现,红色的面积明显增加:

为了解开AI在动荡期折戟沉沙的谜题,研究团队进行了一系列深入的归因分析。

他们首先检验了投资组合的多样性指标,如赫芬达尔-赫希曼指数(HHI)和矩阵有效秩,试图找出是否因为持仓过于集中导致了亏损。

结果显示,无论是表现好的板块还是表现差的板块,其持仓集中度并没有显著差异。

随后,他们又检验了主成分分析(PCA)中的维度数量,看是否风险因子过于单一,结果同样没有发现统计学上的相关性。

甚至连模型构建初始股票池的大小以及其中包含的“错误股票”(非该板块成分股)的数量,也与最终的业绩表现无关。

最终,一把解开谜题的钥匙浮出水面,那就是“相对波动率”(Relative Volatility)。

这是一个衡量投资组合相对于其基准指数风险暴露程度的指标。

数据分析表明,那些跑输市场的投资组合,其相对波动率普遍较低。

换句话说,在市场剧烈波动时,AI模型出于风险控制的本能,倾向于构建过于保守的投资组合。

这种保守策略虽然在一定程度上规避了下行风险,但也极大地限制了组合在市场反弹时的上行潜力。

在传统的金融理论中,风险与收益是对等的,不敢承担波动风险,自然也就无法获取超额收益。

AI在动荡期“因噎废食”的保守倾向,成为了其业绩落后的核心原因。

下表揭示了这种现象,灰色部分为表现不佳的板块,可以看到它们的数值普遍较低:

此外,研究还通过夏普比率进一步验证了这一点。

在动荡期,许多板块的基准指数夏普比率转为负值,而AI投资组合的表现并未能逆转这一趋势,反而加剧了这种风险收益的不匹配。

这说明,当前的大语言模型在应对系统性风险时,仍然缺乏足够的弹性与智慧。

混合智能的未来图景

这项跨越数月、涉及众多顶级模型的宏大实验,最终指向了一个清晰的结论:大语言模型目前尚不足以独立承担全自动投资引擎的重任,但它们已经是非常出色的智能辅助工具。

它们擅长从海量信息中提取有价值的投资逻辑,能够识别出具备增长潜力的优质资产,并为人类投资者提供条理清晰的分析报告。

真正让这些AI模型焕发光彩的,是“人机协作”与“数智融合”的模式。

当我们将AI的选股智慧与成熟的均值-方差优化模型相结合时,投资组合的表现往往能得到显著修正。

这种混合方法既保留了AI在基本面分析上的广度与深度,又利用了数学模型在风险控制上的精确性与纪律性,从而在不确定性中寻找到了确定性的锚点。

未来的量化投资,不会是AI彻底取代人类,也不是AI取代数学公式,而是一种三元融合的新生态:人类提供宏观判断与监管,AI负责信息处理与资产筛选,量化模型负责动态优化与风险对冲

这项研究不仅为金融从业者提供了一份翔实的AI工具使用指南,更为我们描绘了一幅人机共生、智慧互补的金融科技新图景。

在通往财富管理的道路上,最强大的力量不是单纯的算力,而是懂得如何驾驭算力的智慧。

AI不是终点,它是通向更高效金融决策的强大引擎。

本文仅为对论文的解读,内容不构成任何投资建议。

参考资料:

https://arxiv.org/pdf/2512.24526

https://nof1.ai/leaderboard

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1159006.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

顶峰相见,「算网杯」2025 AIGC 开发者大赛1月17日苏州迎来决赛!

1月17日,「算网杯」2025 AIGC 开发者大赛即将在中国科学技术大学苏州高等研究院迎来精彩决赛!大赛自启动便备受瞩目,吸引 500 余名企业、高校开发爱好者踊跃参与。经过层层激烈角逐,最终 99 支实力强队脱颖而出,成功晋…

医疗多任务学习适配层优化

📝 博客主页:jaxzheng的CSDN主页 医疗多任务学习适配层优化:动态调整策略应对医疗数据异质性目录医疗多任务学习适配层优化:动态调整策略应对医疗数据异质性 引言:医疗AI的瓶颈与适配层的崛起 维度四:问题与…

python实现dbc生成矩阵(csv格式)

直接上代码。必要依赖库自行安装: #!/usr/bin/env python3 # -*- coding: utf-8 -*- """ dbc_to_matrix.py 解析 DBC 文件(不依赖 cantools),导出 signals.csv, messages.csv, 并为每个消息生成 64-bit bitmap 文本…

普拉替尼pralsetinib治疗RET融合阳性肺癌的快速客观缓解与治疗持续时间分析

RET融合作为非小细胞肺癌(NSCLC)中的罕见驱动基因变异,其发生率虽仅占1%-2%,但传统化疗与免疫治疗对此类患者的疗效有限,生存期长期停滞不前。普拉替尼(Pralsetinib)作为全球首个高选择性RET酪氨…

手把手教你用8款免费AI论文工具:从零到一轻松搞定知网查重,不留AIGC痕迹!

一、先搞懂:为什么你需要AI论文工具?(附8款工具对比表) 作为研究生,你是不是经常遇到这些问题? 开题报告卡了一周,框架怎么搭都不对;导师批注密密麻麻,改到第三版还是“…

震惊!这家胶片定制厂竟让照片“活”过来,背后真相揭秘!

震惊!这家胶片定制厂竟让照片“活”过来,背后真相揭秘!在数字影像泛滥的今天,一张能够“呼吸”、仿佛承载着时光温度的实体照片,显得尤为珍贵。近期,一家专注于胶片定制与影像艺术化处理的工厂,…

‌UI自动化终于不崩了!我用VLM让脚本自己修复定位,维护成本直降80%

当UI自动化成为“高维护成本的奢侈品”‌ 在2024年之前,我的团队每天有超过3小时的时间花在修复UI自动化脚本上。 不是因为测试逻辑错了,而是因为——‌按钮位置偏移了2像素‌,‌加载动画延迟了0.5秒‌,‌CSS类名被前端重构改成了…

别再用Selenium了!2026年主流工具已全面接入AI视觉识别

软件测试的十字路口 在2026年的今天,软件测试行业正经历一场静默的革命。曾几何时,Selenium作为自动化测试的黄金标准,被无数测试工程师奉为圭臬。然而,随着人工智能(AI)技术的爆发式发展,特别…

房屋租赁管理系统(源码+文档)|基于springboot + vue房屋租赁管理系统

在数字化租房需求爆发的当下,租房小程序凭借 “即用即走” 的轻量化体验,成为连接租客与房源的核心载体。一款稳定、高效、用户体验佳的租房小程序,背后需要一套科学的技术架构与严谨的开发流程支撑。本文将从技术选型、核心功能实现、性能优…

金融投研平台如何导入Word中的复杂金融公式?

河南软件工程大三狗的CMS升级记:从Word粘贴到Latex公式,99元预算的极限操作! 一、项目背景:穷学生的倔强 作为一枚即将毕业的大三狗,自己撸了个CMS新闻管理系统,但后台编辑器太挫——从Word复制内容粘贴进…

军工仿真软件如何实现三维公式与Word数据联动?

富文本编辑器集成文档处理与图片上传功能开发实录 作为一名独立开发网站的技术人员,我近期正全力攻克富文本编辑器在处理 Word 内容粘贴及多种文档导入时的一系列问题。以下是我详细的查找与开发过程记录。 一、需求精准定位 (一)核心功能…

系统软件找不到msxml6.dll如何修复? 免费下载方法分享

在使用电脑系统时经常会出现丢失找不到某些文件的情况,由于很多常用软件都是采用 Microsoft Visual Studio 编写的,所以这类软件的运行需要依赖微软Visual C运行库,比如像 QQ、迅雷、Adobe 软件等等,如果没有安装VC运行库或者安装…

2026 年 FPGA 行业现状:回归工程价值,进入稳定增长阶段

2026 年,FPGA 行业已经明显进入了一个与前几年不同的阶段。如果说 2022~2023 年更多是在消化库存、收缩投入,那么近两年行业的关键词正在逐步回到“落地”“交付”和“系统价值”本身。无论是通信、数据中心,还是工业与专用计算场…

全网最全9个一键生成论文工具,本科生论文写作必备!

全网最全9个一键生成论文工具,本科生论文写作必备! AI 工具让论文写作变得轻松高效 随着人工智能技术的不断进步,越来越多的本科生开始借助 AI 工具来辅助自己的论文写作。这些工具不仅能够帮助学生快速生成初稿,还能有效降低 AIG…

如何搜索硕士论文:实用方法与资源指南

刚开始做科研的时候,我一直以为: 文献检索就是在知网、Google Scholar 里反复换关键词。 直到后来才意识到,真正消耗精力的不是“搜不到”,而是—— 你根本不知道最近这个领域发生了什么。 生成式 AI 出现之后,学术检…

nuxt3模块化API架构

nuxt3模块化API架构 composables/useApi.js (核心 composable)↓ 统一底层 api/modules/├── projects.js → 基于 useApi() 实现├── categories.js → 基于 useApi() 实现├── types.js → 类型定义└── api.js → 统一导出入口↓ Vue 组件调用 …

分析具身 Agent 的技术特征与发展挑战-分析具身 Agent 的技术特征与发展挑战

分析具身 Agent 的技术特征与发展挑战-分析具身 Agent 的技术特征与发展挑战 近年来,随着机器人技术、多模态感知以及大模型能力的快速发展,具身 Agent(Embodied Agent) 成为人工智能领域的重要研究方向。与传统仅存在于虚拟环境中…

系统找不到msvcrt.dll文件 如何修复? 免费下载方法分享

在使用电脑系统时经常会出现丢失找不到某些文件的情况,由于很多常用软件都是采用 Microsoft Visual Studio 编写的,所以这类软件的运行需要依赖微软Visual C运行库,比如像 QQ、迅雷、Adobe 软件等等,如果没有安装VC运行库或者安装…

救命神器2026 TOP10 AI论文软件测评:专科生毕业论文救星

救命神器2026 TOP10 AI论文软件测评:专科生毕业论文救星 2026年专科生论文写作工具测评:为何需要这份榜单? 随着AI技术的不断进步,越来越多的学术辅助工具进入高校师生的视野。然而,面对市场上琳琅满目的AI论文软件&am…