機器學習應用系列：T2RL，端到端深度強化學習因子挖掘與組合優化框架.pdf

上傳者：6*****
時間：2026/04/02
熱度：52
0人點贊
舉報

機器學習應用系列：T2RL，端到端深度強化學習因子挖掘與組合優化框架。本文構建了一種“預測與決策相耦合”的兩階段量化選股框架 T2RL（Two-stage Transformer Reinforcement Learning Framework），旨在解決傳統深度學習模型僅聚焦于收益率預測而難以實現組合全局優化的問題。該框架將 Transformer 模型與強化學習算法有機結合，第一階段通過深度學習挖掘具備投資信號的因子，第二階段利用強化學習進行動態權重優化，實現從個股預測到投資組合構建的完整閉環，提升策略的收益能力和風險控制水平。

階段一：深度學習因子挖掘。第一階段構建了融合 Transformer與 Actor-Critic 機制的因子挖掘模型 TFAC。該模型利用 Transformer 的自注意力機制提取量價時序數據中的深度表征，并通過 AC框架引入方向準確獎勵函數，使模型同樣注重收益符號的正確性。回測顯示 TFAC因子 RankIC 為 0.1119，多頭組合年化收益率 33.61%，優于傳統 Transformer 模型，且大多數年份跑贏基準。

階段二：強化學習組合權重優化。第二階段構建了基于 Transformer 的 Soft Actor-Critic 組合優化模型 TFSAC。該模型首先根據 TFAC因子篩選出排名前 N 的股票構成候選池，將動作空間壓縮至可控維度；隨后在連續動作空間中學習權重分配策略，以對數收益與方差構建獎勵函數，平衡收益與風險。回測顯示，單日調倉下 T2RL 組合在全 A 范圍內相對萬得全 A 等權年化超額收益率 50.36%，相對因子多頭組合年化超額收益率 31.06%；在 2日及 5日調倉頻率下，組合年化收益率相對因子多頭組合年化超額收益率分別為 24.68%及 6.03%。不同調倉頻次下策略均能穩定跑贏基準和 TFAC等權組合，且在因子短期失效的時期，T2RL 仍可跑贏全 A 指數及多頭等權組合。

滬深 300 指數成分股組合：在滬深 300 成分股內，TFAC 因子的 RankIC 為 6.35%，Top10%多頭組合相對滬深 300 年化超額 8.55%。T2RLHS300 組合在單日調倉下年化收益率 42.64%，相對滬深 300 年化超額收益率 30.87%，相對因子多頭等權組合超額 20.43%；在 2日及 5日調倉頻率下，組合相對滬深 300 超額收益分別為 25.74%和 11.91%，且同樣可以跑贏因子多頭等權組合。分年度看，T2RLHS300 在大多數年份均能跑贏基準和等權組合。

中證 1000指數成分股組合：在中證 1000成分股內，TFAC因子的 RankIC為 9.17%，Top10%多頭組合相對中證 1000年化超額 11.85%。T2RLZZ1000 組合在單日調倉下相對中證 1000 年化超額收益率 48.19%，相對因子多頭組合年化超額收益率 32.21%。在 2 日及 5 日調倉頻率下相對中證 1000 年化超額收益率分別為 42.88%和 27.35%。相對因子多頭等權組合年化超額收益率分別為 27.47%以及 13.62%。