機器學習應用系列：強化學習驅(qū)動下的解耦時序?qū)Ρ冗x股模型.pdf

上傳者：m****
時間：2025/12/26
熱度：84
0人點贊
舉報

機器學習應用系列：強化學習驅(qū)動下的解耦時序?qū)Ρ冗x股模型。本報告提出了一種基于強化學習的解耦時序?qū)Ρ饶Ｐ停―TLC_RL），該模型通過特征空間解耦、對比學習表征增強以及正交約束保障獨立性以及強化學習動態(tài)融合，構(gòu)建了一個兼具深度學習非線性預測能力與良好可解釋性的選股框架。在模型設計中，我們分別構(gòu)建了面向市場系統(tǒng)風險（β空間）、個股特異特征（α空間）和個股基本面信息（θ空間）的編碼器，并通過對比學習與正交約束提升各空間表征的區(qū)分度與互補性。在此基礎上，引入強化學習近端策略優(yōu)化（PPO）算法以實現(xiàn)自適應調(diào)整各空間權(quán)重。

空間編碼器構(gòu)建：本文以時間卷積網(wǎng)絡 TCN作為 beta空間特征的編碼器，以多尺度 Transformer 模型作為 Alpha空間編碼器，以門控殘差 MLP 作為 Theta 空間編碼器。對各個空間分別進行收益預測訓練，各空間編碼器均能有效提取目標信息，且生成因子具備一定選股能力。自 2019年 1月至 2025年 11月， Beta_TCN、Alpha_Transformer、Theta_ResMLP 因子 IC 分別為 0.0954、 0.1128、0.0485，多頭組合前 10%年化收益率分別為 27.73%、32.66%以及 23.88%。除此之外，各空間訓練得到的因子彼此間相關(guān)性較低且具備一定互補性，為后續(xù)多空間融合奠定一定基礎。

融合模型對照組實驗：本文分別測試了兩類空間融合對照組實驗：1）直接對三個空間訓練出的因子進行等權(quán)求和；2）將三個空間的編碼信息進行合并，并通過單層線性層進行處理并接入預測頭進行收益率預測。自 2019年 1月至 2025 年 11 月，DTLC 等權(quán)融合模型因子月平均 IC 為 0.1202，多頭組合（前 10%）年化收益率 32.46%；線性融合 DTLC 模型因子月平均 IC 為 0.1239，多頭組合年化收益率 32.95%。

強化學習驅(qū)動空間融合：本文引入強化學習來實現(xiàn)空間的動態(tài)復權(quán)融合，即在 DTLC 模型的三個編碼器后引入強化學習動態(tài)復權(quán)的空間融合機制。該部分將三個子空間編碼與市場環(huán)境特征共同輸入策略網(wǎng)絡，通過近端策略優(yōu)化（PPO）算法動態(tài)生成空間權(quán)重，實現(xiàn)自適應加權(quán)融合，最終通過預測頭輸出未來收益率預測。自 2019年 1月至 2025年 11月，DTLC_RL 因子月平均 IC為 0.1250，多頭組合年化收益率 34.77%，顯著優(yōu)于 DTLC_Linear 多頭表現(xiàn)。可見強化學習空間融合機制的加入使得因子性能有所提升。

指數(shù)增強測試：自 2019 年 1月至 2025 年 11月，DTLC_RL 因子滬深 300指數(shù)增強相對指數(shù)年化超額收益率 13.72%，近一個月、三個月、一年、三年超額收益率分別為-0.87%、1.53%、14.99%以及 12.58%；DTLC_RL 因子中證 1000 指數(shù)增強相對指數(shù)年化超額收益率 20.37%，近一個月、三個月、一年、三年超額收益率分別為 3.00%、4.52%、19.67%以及 13.76%。