股票分析專題:再探文本FADT選股.pdf
- 上傳者:v*****
- 時間:2022/10/29
- 熱度:627
- 0人點贊
- 舉報
股票分析專題:再探文本FADT選股。本文承接前期研究文本 FADT 選股,重點關注如何對文本因子本身進行升 級。前期研究的核心思路是在特定場景下,以分析師研報文本的詞頻向量為 特征,以研報發布前后兩日個股超額收益為標簽,引導 XGBoost 模型學習 研報情緒蘊含的超額信息。在本文中我們將詞頻向量替換為 FinBERT 隱藏 層編碼的特征向量作為后續淺度學習模型的輸入,隱藏層編碼蘊含更豐富的 文本語義信息,相比詞頻信息損失更少,以此帶來更顯著的 alpha 提升。
引入 FinBERT 編碼以后文本因子收益提升明顯
升級以后的文本因子十分層多頭第一層年化收益由原版的 22.87%提升至 27.50%,相對中證 500 超額收益由 14.75%提升至 19.19%(回測期 20090123-20220930),提升較為明顯。針對改進后的因子我們展示了三組 應用案例:1)構建 25 只股票的主動量化不等權選股組合,年化收益 45.90%, 相對中證 500 年化超額 36.35%;2)限制在總市值 100 億以上的股票池中 用文本因子構建等權精選組合,Top20 年化收益 31.12%,相對中證 500 年 化超額 23.94%;3)構建滬深 300 內精選 30 不等權組合,年化收益 17.58%, 相對滬深 300 年化超額 12.44%。
FinBERT 是專門針對金融領域訓練的 BERT,使用 Adapter-BERT 微調
BERT 是 Google 在 2018 年提出的自然語言處理模型,在超過 11 項的 NLP 任務中均取得十分驚艷的結果。本文使用熵簡科技于 2020 年末開源的 FinBERT 模型,對于金融領域任務具有更強的針對性,在金融領域的相關 任務中表現均超過原版 BERT。由于 FinBERT 微調參數量超過 1 億,我們 使用 Adapter-BERT 技術在基本不影響模型微調性能的前提下,降低微調參 數至約三百萬,提升模型的訓練效率。
模型升級:FinBERT 微調+CLS 層編碼+XGBoost 二次訓練
使用 FinBERT 來對分析師研報文本進行向量編碼并構建文本因子,主要包 括三個步驟:1)使用萬得新聞輿情文本對 FinBERT 進行微調,使得 FinBERT 的分類準確率可以達到 95%以上;2)使用 FinBERT 對分析師研報文本進 行編碼,將預處理過的研報文本輸入給 FinBERT,提取 CLS 層輸出作為研 報的特征向量;3)使用上述編碼好的特征向量替代詞頻向量,使用與原版 模型同樣的標簽,引導 XGBoost 模型樣本內進行交叉驗證訓練,樣本外預 測并構建 forecast_adj_txt_bert 因子。
多組擴展測試表明過擬合概率低,更充分的語義理解帶來顯著 alpha 提升
同樣我們還是關注模型升級過程中是否有過擬合的問題。除了基礎參數,我 們展示了五組擴展測試:1)文本預處理時,截斷和分段的比較;2)FinBERT 微調與不微調的比較;3)CLS 層編碼與全連接層編碼的比較;4)CLS 層 編碼與詞頻特征結合是否有提升;5)僅使用 FinBERT 微調的效果。整體來 看前四組測試都有效,模型升級大概率不是偶然因素導致的過擬合。
與傳統因子相關性低,且不同場景下文本因子均有明顯提升
此外我們討論了 forecast_adj_txt_bert 因子與 Barra 因子及傳統多因子的相 關性,發現相關性較低,alpha 特異性較強。最后我們在不同的場景下討論 了文本因子升級的效果,發現在業績發布場景、賣方分析師評級調整場景下 文本因子均有明顯提升,再次說明模型升級較為穩健。
免責聲明:本文 / 資料由用戶個人上傳,平臺僅提供信息存儲服務,如有侵權請聯系刪除。
- 相關標簽
- 相關專題
- 全部熱門
- 本年熱門
- 本季熱門
- 金融工程專題研究:穩健型選股策略探析.pdf 409 7積分
- 上市公司股東增持行為分析及選股策略.pdf 331 6積分
- 基于量價與基本面結合的深度學習選股策略.pdf 322 6積分
- 量化研究專題:探索股價動態關聯,捕捉屬性敏感的動量溢出.pdf 279 6積分
- 基于股份回購的選股策略:事件特征與組合構建.pdf 277 6積分
- 基于多因子優選行業輪動基金與構建選股策略.pdf 264 6積分
- 國企基本面因子選股策略.pdf 229 6積分
- 科創板選股思路:剔除低預期高波動的趨勢捕捉策略.pdf 228 6積分
- 基于卡爾曼濾波的倉位預測選股策略.pdf 212 8積分
- 尋找熊市底部的十倍股基因-市場底部走出的兩年牛股.pdf 206 6積分
- 策略化選股月報:7月六大策略均錄得正收益,科創板策略單月超額收益超9%.pdf 190 6積分
- 基于可微RankIC損失函數的深度學習選股策略——機器學習選股系列研究之一.pdf 167 6積分
- 金融工程專題報告:綜合資金流視角的選股策略.pdf 91 6積分
- 形態因子研究初探:基于離散形態信號構建的形態合成因子.pdf 85 6積分
- 香江策論:硬核資產SMART選股策略——中國硬核資產系列三.pdf 47 4積分
- 金融工程:深度學習選股訓練目標的多維優化——深度學習系列之二.pdf 45 5積分
- 情緒系數加權個股K線評分的選股策略.pdf 38 6積分
- 政策趨嚴下ESG整合提升策略選股有效性.pdf 30 4積分
- 策略化選股月報(202606):情緒評分再創近兩年新高,科創、情緒價量策略超額顯著.pdf 24 4積分
- 香江策論:硬核資產SMART選股策略——中國硬核資產系列三.pdf 47 4積分
- 金融工程:深度學習選股訓練目標的多維優化——深度學習系列之二.pdf 45 5積分
- 情緒系數加權個股K線評分的選股策略.pdf 38 6積分
- 政策趨嚴下ESG整合提升策略選股有效性.pdf 30 4積分
- 策略化選股月報(202606):情緒評分再創近兩年新高,科創、情緒價量策略超額顯著.pdf 24 4積分
