基于金融新闻的大型语言模型强化学习在投资组合管理中的应用

“Financial News-Driven LLM Reinforcement Learning for Portfolio Management”

论文地址:https://arxiv.org/pdf/2411.11059

摘要

本研究探索了如何通过将大语言模型(LLM)支持的情感分析融入强化学习(RL)中,以实现金融交易动态策略的优化。针对苹果公司股票(AAPL)和ING Corporate Leaders Trust Series B基金(LEXCX)的投资组合进行了实验验证。结果显示,加入了情感分析的RL模型在资产净值和累计收益方面均表现更优。尤其是在基金投资组合测试中,该增强模型的表现也超过了采用买入并持有策略的LEXCX。这些发现表明,引入定性市场情绪指标能够提升决策效率,有助于缩小纯量化与质化金融交易策略间的差异。

简介

强化学习(RL)在金融交易领域日益受到关注,因其能够通过序列决策优化交易策略,但在考量如市场情绪等定性因素方面存在不足。本研究致力于通过将情感分析与RL相结合来弥补这一局限,运用大型语言模型(LLMs)从金融新闻中提取情感信息,并将其转化为适合RL模型处理的结构化数据。目的在于验证情感分析可以提升RL算法在交易和投资组合管理中的效能。首先开发了一个基于苹果公司(AAPL)股票的基线RL交易算法,并与集成了情感输入的版本进行了对比分析。接着,研究扩展到包含ING Corporate Leaders Trust Series B(LEXCX)在内的多元化投资组合,比较了结合情感分析的RL模型相对于传统RL模型以及原始LEXCX投资组合的表现差异。

01相关研究

强化学习(RL)在金融交易中展现出强大的能力,特别适用于动态市场条件下的策略优化,并已在单一股票交易和多元化投资组合管理方面取得了成功。诸如深度Q学习和策略梯度等方法已被用于模拟实际交易环境,但这些方法大多仅依赖于价格和成交量数据,未能充分利用市场信号和情绪变化。通过量化来自新闻、社交媒体及分析师报告中的情绪信息,情绪分析可以增强交易策略的有效性,有助于预测短期价格波动并反映市场波动性。利用GPT和BERT等大型语言模型(LLMs),情绪分析的准确性得到了显著提升,能够有效提取与金融相关的特定情境下的情绪信息。然而,目前在学术文献中鲜有研究将基于LLM的情绪分析整合进RL模型中应用于投资组合管理。本研究旨在填补这一研究空白,探索如何通过情绪分析提升RL模型在投资决策中的表现。

02方法

交易强化学习算法

算法目标:

强化学习(RL)交易算法旨在平衡灵活性、优化奖励和控制交易成本,以模拟真实的交易决策过程。

环境兼容性:

使用自定义环境设计,与OpenAI Gym兼容。该环境明确区分了动作空间和观察空间。

动作空间定义:

  • 动作类型:采用0到2的标量表示,其中小于1代表买入操作,1至2之间为卖出操作,等于1则是持有。
  • 动作量:通过一个0到0.5的标量来指定,表示交易的比例。
  • 动态调整机制:一旦选定动作,算法根据当前账户余额和持股情况计算买卖数量,以此动态调整市场暴露度。

奖励结构组成:

  • 利润奖励:基于账户余额的变化给予奖励,鼓励盈利行为。
  • 稳定性惩罚:为了维持账户余额的稳定,减少波动带来的风险。
  • 交易成本惩罚:模拟实际交易中的费用,抑制不必要的频繁交易。

这种综合奖励结构的设计,促进了算法代理学习到既能实现盈利又注重稳定,并且能最小化成本的负责任交易策略。

结合情感分析

将情感分析整合进强化学习算法中,让交易代理能够考量市场情绪,从而增强决策过程中的定性分析层面。情感数据源自金融新闻,并被量化为[-1,1]区间内的数值,然后与传统金融指标一同纳入观察空间。根据情感分数调整交易行为:正面情绪促使买入量增加,负面情绪则使卖出量上升,调整幅度为情感分数的0.1倍。此外,奖励函数也进行了相应调整,新增了情感对齐奖励,如果市场情绪与价格变动趋势一致,代理将获得额外奖励;而在市场高波动期间,这种奖励会相应减少。此机制鼓励代理在受情绪驱动的市场环境中执行与当前情绪相符的交易策略,以提升盈利能力和对市场情绪的敏感度。

项目组合管理的扩展

算法应用扩展:

强化学习(RL)算法被扩展应用于投资组合管理,需同时考虑个别资产的情绪状态和市场整体条件,以优化整个投资组合的净值。

观察空间设计:

采用矩阵形式。

内容:

  • 价格数据:包括每项资产最近五个时间步的开盘价、最高价、最低价、收盘价及成交量,并经过归一化处理。
  • 账户信息:涵盖当前持仓量、账户余额及成本基础。
  • 情绪数据:每个股票的情绪评分,范围在[-1,1]之间。

动作空间操作:

  • 动作值域设定为0到2,允许对每个资产独立执行“买入”或“卖出”操作。
  • 情绪数据影响决策过程,正面情绪增加买入倾向,负面情绪则促使卖出量增大。

奖励函数组成:

  • 主要奖励:基于投资组合净值的变化情况给予奖励。
  • 情绪一致性奖励:鼓励与情绪信号及价格趋势一致的交易行为,增强投资决策的准确性。
  • 波动性调整:在市场高波动期间,减少情绪因素的影响权重,以应对不确定性。

目标导向:

多部分奖励结构旨在促进最大化投资组合净值的同时,考虑到情绪分析带来的洞察力以及实际交易中的成本考量。这种方法确保了不仅追求收益最大化,还能有效管理风险。

03实验

数据预处理

数据预处理阶段涉及收集定量股市数据和定性情绪数据,应用于苹果公司(AAPL)单只股票交易及ING Corporate Leaders Trust Series B(LEXCX)的投资组合交易。对于AAPL的交易模型,获取了其历史日交易数据,包括开盘价、最高价、最低价、收盘价及成交量;而针对LEXCX的投资组合则收集了该基金内各股票的相关数据。所有数据通过Yahoo Finance API从2023年11月16日到2024年11月10日间被收集,并分别保存为独立的CSV文件。此外,利用Finnhub API获取每日相关新闻,并借助OpenAI的大型语言模型生成每日情绪评分,这些评分被分类为五种情绪类别:极度负面、负面、中性、正面和极度正面。之后,将价格数据与每日情绪评分依据日期进行合并,任何缺失的情绪值使用中性评分填补,最终形成供强化学习(RL)模型使用的输入数据集。此数据集整合了定量的价格信息与定性的情绪分析,从而增强了RL代理对市场的响应能力和决策质量。

实验设计

实验设计旨在评估强化学习(RL)代理在模拟股票交易环境中的表现,通过两种设置进行测试:单一股票交易模型(以苹果公司AAPL为样本)和包含情感分析的投资组合交易模型(基于ING Corporate Leaders Trust Series B,即LEXCX)。成功标准包括考察净值、账户余额以及多轮次累计利润,并对比了整合情感分析前后的效果差异。在投资组合实验中,将结果与实际LEXCX投资组合的表现进行了基线比较,两者使用相同的初始投资额。此外,研究还评估了RL算法相对于传统的买入并持有策略,在整体上的有效性。这种方法不仅验证了RL算法的优化能力,还展示了情感分析对提升交易决策质量的潜在价值。

个股投资实验

创建了一个基于OpenAI Gym的自定义环境,用于模拟苹果公司(AAPL)股票的交易情境,目标是最大化净资产。初始化过程中,该环境加载了AAPL的历史日交易数据,观察空间涵盖了开盘价、最高价、最低价、收盘价及成交量,还包括账户余额、成本基础和净资产等信息。动作空间设计为二维连续形式,允许代理选择买入、卖出或持有操作,并确定交易的数量,以便灵活调整投资规模。

奖励机制旨在鼓励盈利同时保持稳定,不仅考虑净资产的增长,还对过度波动进行惩罚,并在每次交易时收取小额费用以抑制高频交易行为。模型采用了近端策略优化(PPO)算法进行训练,历经20,000个时间步,评估阶段则包括100个回合,每回合持续2,000个时间步,期间记录最终净资产、账户余额和累计利润,通过计算平均表现来衡量模型的稳健性。这种方法确保了模型不仅能追求高收益,还能有效管理风险。

投资组合实验

实验将单一股票交易扩展到多元化投资组合,重点放在ING Corporate Leaders Trust Series B (LEXCX)上,并整合了情感分析。环境设置使得RL代理能够对LEXCX中的每只股票独立执行买入、持有或卖出操作,观察空间包括每只股票过去五天的交易数据以及账户相关的指标。RL代理能够访问包含价格和情绪信息的观察空间,其行动空间允许针对每只股票进行灵活操作,并依据市场状况及情绪变化动态调整持仓。

奖励机制旨在促进投资组合的稳定增长,减少不必要的频繁交易,并通过额外奖励来鼓励当情绪与实际价格趋势一致时的操作。为了评估RL代理相对于被动投资策略的优势,实验设置了基准比较,通过对比LEXCX组合的实际表现,评价主动管理带来的增值潜力。RL模型利用近端策略优化(PPO)进行训练,共经历20,000个时间步,随后在100个回合中进行评估,每个回合持续2,000个时间步,期间收集关键绩效指标以检验策略的有效性和适应性。这种方法不仅验证了策略的潜在收益,还展示了其在不同市场条件下的灵活性和响应能力。

结果

实验结果分为两大部分:一是针对单一股票(苹果公司AAPL)的交易实验,二是基于投资组合(ING Corporate Leaders Trust Series B)的交易实验。在每一部分中,均对比分析了未整合情感数据的RL模型与整合了情感数据的增强型RL模型。评估的关键指标涵盖了净值、累计利润及余额,并在多个回合和时间步上进行了考察。在投资组合实验环节,还特别将RL模型的表现与LEXCX投资组合的实际表现进行了对比分析。通过可视化手段展示了这些模型适应市场动态变化的能力,以及利用情感数据优化决策过程的有效性。这一方法不仅突显了情感分析在提升交易策略方面的潜力,也验证了模型在不同场景下的实际应用效果。

个股投资

无情感分析的RL模型在100个评估回合中,平均净值达到了$10,825.41,平均利润为10,825.41,平均利润为$825.41,这表明其在单一股票交易中的有效性。该模型在单一回合内的净值、余额和利润表现稳定,体现了资本的有效利用。此外,无情感分析的RL代理的净值和利润分布较为集中,显示了其决策的稳健性和可靠性。

加入情感分析后,RL模型的平均净值提升至$11,259.51,平均利润为$1,259.51,显示出利用定性数据的优势。情感增强型RL代理不仅在单个回合中表现更加出色,而且能够更精准地与市场情绪同步,从而实现更高的累计收益。值得注意的是,情感增强型RL代理的净值和利润分布中位数显著提高,进一步证实了情感数据在优化交易策略方面的价值。

表1总结了三种场景下的平均利润和净值,显示出RL代理在整合情感数据后的优越表现。

投资组合

无情感分析的RL模型在100个评估回合中,平均净值为$13,952.29,平均利润为$3,952.29,表现稳定。在单个回合内,该模型能够持续增加净值,并维持稳定的账户余额和累计利润。通过观察净值和利润的箱形图可以发现,所有评估回合中的中位数与平均值相当接近,进一步证实了其稳定性。

加入情感数据的RL模型平均净值为$14,201.94,平均利润为$4,201.94,显示出情感数据的价值。情感增强型RL模型在单个回合内的表现更为突出,显示出更强的盈利能力。其净值和利润分布不仅中位数更高,而且表明利用情感数据有助于优化交易决策。与实际的LEXCX投资组合相比,RL代理的表现更加优越,尤其是情感增强型模型,展现了其在动态投资管理方面的潜力。

表2总结了三种场景下的平均利润和净值,强调RL代理的优越表现。

04讨论

强化学习(RL)在金融交易领域表现卓越,尤其是在结合了情感分析的情况下,能够显著改善交易成效。针对苹果公司(AAPL)的单股实验显示,RL代理在应对市场变化时表现稳定,而情感分析进一步提升了其平均净值和利润。在投资组合实验中,情感增强型RL模型的表现超越了实际的LEXCX投资组合,体现了主动管理策略的优势。通过整合定量与定性数据,情感增强型RL模型能更精准地捕捉市场趋势并适应变动。

研究揭示了市场情绪对资产价格及其波动的影响,表明情感数据有助于RL代理理解更广泛的市场动态。尽管初步结果令人鼓舞,但实验主要基于历史数据,并未完全模拟真实市场的复杂条件。未来的研究需要考虑如滑点和交易成本等因素。目前的情感分析依赖于综合情感评分,后续可以探索更为精细的情感提取技术。此外,未来的工作还可以将研究扩展到更大、更多样化的投资组合上,以验证情感驱动交易策略的广泛适用性和有效性。

05总结

本研究探索了强化学习(RL)在金融交易中的应用,分别通过苹果公司(AAPL)单股和ING Corporate Leaders Trust Series B(LEXCX)投资组合进行实验。研究发现,当整合金融新闻中的情感分析时,RL模型的交易表现显著优于仅使用定量数据的模型,证明了定性市场信号的重要性。

在针对AAPL的实验中,情感增强型RL模型实现了更高的净值和累计利润,展示了情感数据在提升交易准确性方面的价值。而在投资组合实验里,情感增强型模型不仅超越了不含情感分析的RL模型,还超过了实际的LEXCX投资组合,体现了其适应性和盈利能力。特别是结合了情感分析的RL代理,持续展现出超越被动投资策略的能力,显示了动态管理投资组合的巨大潜力。

研究指出了未来工作的几个方向,包括改进当前依赖于聚合新闻数据的情感分析,建议引入实时社交媒体的情感分析来丰富数据源。此外,未来的探索还可以集中在超参数优化、迁移学习以及评估模型在不同市场周期中的稳定性。本研究强调了将RL与情感分析结合在金融交易中的变革性潜力,为投资者提供了优化交易策略的强大工具。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/68448.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

K8s运维管理平台 - KubeSphere 3.x 和4.x 使用分析:功能较强,UI美观

目录标题 Lic使用感受优点:优化点: 实操首页项目 | 应用负载 | 配置 | 定制资源定义存储监控告警集群设置 **KubeSphere 3.x** 和 **4.x**1. **架构变化**:2. **多集群管理**:3. **增强的 DevOps 功能**:4. **监控与日…

当AI学会“顿悟”:DeepSeek-R1如何用强化学习突破推理边界?

开篇:一场AI的“青春期叛逆” 你有没有想过,AI模型在学会“推理”之前,可能也经历过一段“中二时期”?比如,解题时乱写一通、语言混搭、答案藏在火星文里……最近,一支名为DeepSeek-AI的团队,就…

【llm对话系统】 LLM 大模型推理python实现:vLLM 框架

在 LLM 的应用中,推理 (Inference) 阶段至关重要。它指的是利用训练好的 LLM 模型,根据输入 (Prompt) 生成文本的过程。然而,LLM 的推理速度往往较慢,尤其是在处理长序列或高并发请求时,效率瓶颈尤为突出。 为了解决这…

Ollama+DeepSeek本地大模型部署

1、Ollama 官网:https://ollama.com/ Ollama可以干什么? 可以快速在本地部署和管理各种大语言模型,操作命令和dokcer类似。 mac安装ollama: # 安装ollama brew install ollama# 启动ollama服务(默认11434端口&#xf…

论文笔记(六十三)Understanding Diffusion Models: A Unified Perspective(三)

Understanding Diffusion Models: A Unified Perspective(三) 文章概括 文章概括 引用: article{luo2022understanding,title{Understanding diffusion models: A unified perspective},author{Luo, Calvin},journal{arXiv preprint arXiv:…

mybatis(104/134)

动态sql标签,用于选择查询 if标签 where标签 :自动生成where,取决于后面有没有条件,会自动去除条件前面的and和or,不会去除语句后面的 trim标签:自动生成where,在语句后自动去除后缀and和or for…

【数据结构】动态内存管理函数

动态内存管理 为什么存在动态内存管理动态内存函数的介绍🎊malloc补充:perror函数🎊free🎊calloc🎊realloc 常见动态内存错误对空指针的解引用操作对动态开辟空间的越界访问对非动态开辟内存使用free释放使用free释放一…

在FreeBSD下安装Ollama并体验DeepSeek r1大模型

在FreeBSD下安装Ollama并体验DeepSeek r1大模型 在FreeBSD下安装Ollama 直接使用pkg安装即可: sudo pkg install ollama 安装完成后,提示: You installed ollama: the AI model runner. To run ollama, plese open 2 terminals. 1. In t…

C++类和对象下详细指南

C类和对象下详细指南 1. 初始化列表与构造函数 1.1 初始化列表概述 初始化列表在C中用于初始化对象的成员变量,特别是当你需要在对象构造时就明确成员变量的值时。通过初始化列表,成员变量的初始化可以在进入构造函数体之前完成。这不仅可以提升性能&…

文档智能扫描,提升无纸化办公效率

随着无纸化办公的推广和移动设备的普及,用户迫切需要将纸质文档快速、准确地转换成电子格式,以提高工作效率和信息管理的便捷性。同时,用户将文档扫描成电子版后,可以自行通过加密和访问控制提高电子文档的安全性,以满…

汇编的使用总结

一、汇编的组成 1、汇编指令(指令集) 数据处理指令: 数据搬移指令 数据移位指令 位运算指令 算术运算指令 比较指令 跳转指令 内存读写指令 状态寄存器传送指令 异常产生指令等 2、伪指令 不是汇编指令,但是可以起到指令的作用,伪…

【玩转全栈】----Django模板的继承

先赞后看,养成习惯!!! 目录 模板继承的好处 模板继承的语法规则 更新代码 上文中的部门管理页面: 【玩转全栈】----Django制作部门管理页面-CSDN博客 大家会发现,由于定义了多个html文件,多个ht…

nosql mysql的区别

NoSQL 和 MySQL 是两种不同类型的数据库管理系统,它们在设计理念、数据模型、可扩展性和应用场景等方面有着本质的区别。 NoSQL 数据库 特点: 灵活的数据模型: NoSQL 数据库通常没有固定的表结构,可以很容易地存储不同结构的文档或键值对。水平扩展: …

python实现dbscan

python实现dbscan 原理 DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一个比较有代表性的基于密度的聚类算法。它将簇定义为密度相连的点的最大集合,能够把具有足够高密度的区域划分为簇,并可在噪声的空间数据库中发现任意形…

Lustre Core 语法 - 比较表达式

概述 Lustre v6 中的 Lustre Core 部分支持的表达式种类中&#xff0c;支持比较表达式。相关的表达式包括 , <>, <, >, <, >。 相应的文法定义为 Expression :: Expression Expression | Expression <> Expression | Expression < Expression |…

gesp(C++六级)(4)洛谷:B3874:[GESP202309 六级] 小杨的握手问题

gesp(C六级)&#xff08;4&#xff09;洛谷&#xff1a;B3874&#xff1a;[GESP202309 六级] 小杨的握手问题 题目描述 小杨的班级里共有 N N N 名同学&#xff0c;学号从 0 0 0 至 N − 1 N-1 N−1。 某节课上&#xff0c;老师安排全班同学进行一次握手游戏&#xff0c;具…

【自然语言处理(NLP)】机器翻译之数据处理(数据收集、数据清洗、数据分词、数据标注、数据划分)

文章目录 介绍机器翻译之数据处理数据收集数据清洗数据分词数据标注数据划分代码实现导包数据查看处理函数数据预处理词元化统计每句话的长度的分布情况截断或者填充文本序列将机器翻译的文本序列转换成小批量tensor加载数据试用一下 个人主页&#xff1a;道友老李 欢迎加入社区…

【物联网】ARM核常用指令(详解):数据传送、计算、位运算、比较、跳转、内存访问、CPSR/SPSR、流水线及伪指令

文章目录 指令格式&#xff08;重点&#xff09;1. 立即数2. 寄存器位移 一、数据传送指令1. MOV指令2. MVN指令3. LDR指令 二、数据计算指令1. ADD指令1. SUB指令1. MUL指令 三、位运算指令1. AND指令2. ORR指令3. EOR指令4. BIC指令 四、比较指令五、跳转指令1. B/BL指令2. l…

过年之无用知识研究:std::is_assignable到底怎么个事?

下面是gcc的std::is_assignable相关源码&#xff1a;template<typename _Tp, typename _Up>class __is_assignable_helper{template< typename _Tp1, typename _Up1,typename decltype(declval<_Tp1>() declval<_Up1>()) //注意这行 >static true_ty…

单链表算法实战:解锁数据结构核心谜题——链表的回文结构

题目如下&#xff1a; 解题过程如下&#xff1a; 回文结构举例&#xff1a; 回文数字&#xff1a;12521、12321、1221…… 回文字符串&#xff1a;“abcba”、“abba”…… 并不是所有的循环嵌套的时间复杂度都是O(n^2) 可以用C写C程序&#xff1a; C里可以直接使用ListNode…