量化專題報告：StockFormer，基于Transformer的強化學習模型探究.pdf

上傳者：0*****
時間：2024/07/31
熱度：884
0人點贊
舉報

量化專題報告：StockFormer，基于Transformer的強化學習模型探究。強化學習通過訓練智能體直接輸出投資決策。強化學習是一種機器學習方法，通過與環境的交互來訓練智能體，使其在不同狀態下采取能夠最大化累積獎勵的行動。在強化學習中，智能體（Agent）通過與環境的互動不斷學習，通過獎勵和懲罰來調整其策略，以便在長期內獲得最大回報。在股票市場中，強化學習可以通過市場狀態的輸入，不斷調整交易策略，最大化長期的投資回報。強化學習在金融領域中的應用主要在狀態輸入，獎勵函數及優化算法三個方面進行了創新。

SAC強化學習加入多項改進以避免模型過擬合。在SAC中，價值網絡是一個雙Q網絡（Double DQN），即使用兩個獨立的Q網絡的同時對目標函數進行估計，在目標值計算時選擇最小的一個，從而降低 Q 值的高估風險，防止模型陷入局部最優或者過擬合。此外，SAC 在策略優化過程中引入了熵正則化項，熵正則化項的引入使得策略在早期階段保持一定的隨機性，避免策略網絡和價值網絡的學習模式過于重合以陷入局部最優，從而提高整體的策略探索能力。對于熵正則項，SAC還引入了自適應熵系數α，通過優化熵系數來自動調整策略的探索程度，使得模型能夠根據當前的訓練情況動態調整探索與開發的平衡。

StockFormer 模型利用 Transformer 深度學習進行預測并優化交易決策。Siyu Gao 等人在 2023 年 IJCAI 上發表的論文 StockFormer: Learning Hybrid Trading Machines with Predictive Coding 中采用 SAC 強化學習作為基礎框架，并采用了3個Transformer 模型分別預測市場相關狀態，短期收益狀態與長期收益狀態作為強化學習的輸入狀態。然后在SAC強化學習中將3個隱狀態進行合成，在組合狀態空間中優化交易決策。利用滬深 300 成分股做訓練，取得了優于基線Transformer模型的效果。

深度學習+強化學習較深度學習+組合優化收益彈性更高。我們將 Transformer 模型作為本篇研究中的基模型構建 Transformer 因子的指數增強組合，再與 Transformer+SAC 強化學習算法形成對照。在 Transformer 模型中，我們采用日頻行情與20個日頻技術因子作為輸入，預測個股周度收益排序作為因子，構建的指數增強組合2019年以來在中證1000內年化收益17.2%，超額收益13.8%，信息比率2.36，表現穩定。在StockFormer模型中，我們替換獎勵函數為超額收益-跟蹤誤差-交易費用，并修改前3個Transformer模型，輸出每日交易行為與持倉，策略年化收益 32.7%，超額收益 29.1%，信息比率 2.57，超額收益波動率較大，但主要為上行波動，模型總體好于 Transformer 的指數增強組合。對策略持倉進行風格分析，發現模型對于市場主線識別能力較強，通過風格擇時帶來一定超額收益。