基於強化式學習結合自編碼器壓縮特徵之資產配置方法
Author: 李逸軒, 張嘉惠
Publish Year: 2022-10-01
Update by: March 26, 2025
摘要
金融科技是人工智慧應用的主要領域之一,其中包括股票漲跌幅預測、資產配置等項目。然而,僅依賴股票價格預測並無法保證投資回報的最大化,投資者還必須兼顧資產配置策略,以達到最大化收益或最小化損失的目的。在這種需要與環境互動以獲得報酬的情境下,強化學習(Reinforcement Learning,RL)成為一種理想的解決方法。因此,在本研究中,我們提出了一種使用RL的ActorCritic技術進行股票投資的策略。為了提升投資決策的效果,我們運用自動編碼器(AutoEncoder,AE)學習股票中的多項技術指標特徵,並用其進行股票持有配置的決策和回報估計。然而,投資組合管理在優化配置策略和精確預測回報方面仍面臨挑戰,特別是在面對市場波動時。傳統策略通常偏向專注於短期或長期投資,這造成市場上缺乏一個能靈活應對各種情境的模型。為解決這個問題,我們的研究提出了一種新的結合強化學習和自動編碼器的方法,希望透過這種方式填補市場上的這個空缺。我們透過消融實驗來探討AutoEncoder的編碼維度與歷史資料長度對狀態編碼的影響。結果顯示,使用過去30日的歷史資料並將其壓至5個維度,能夠得到最佳的狀態編碼效果。我們也發現加入AutoEncoder Predictor的預測結果能提高累積收益。此外,我們更進一探討了三種不同的投資策略:RL+AE Predictor,RL Only,以及AE Predictor。透過效能分析、與大盤相關係數的探討,以及誤判率分析,我們評估這三種策略在不同市場環境下的表現。實驗結果顯示,作為約束的投資策略,RL+AE Predictor在資產最大化上表現最佳,且學習過程穩定。尤其在市場劇變時,該策略展現良好的抗風險能力並能維持穩定的投資回報。此外,該策略與大盤相關係數較低,顯示出其與市場指數波動的獨立性。在誤判率分析,RL+AE Predictor模型的FPR(False Positive Rate,誤判率)為6.46%相較於AE Predictor 38.38%及RL Only 36.09%來的低,顯示其在預測股票資產配置的表現最佳,誤判率最低。我們將此方法驗證於台灣的股票市場環境,以2019年至2021年的台股資料進行實驗,並與TW50指數、傳統投資組合理論(Mean-variance optimization,MVO)、以及使用強化學習Policy Gradient技術的Jiang’s研究進行比較。實驗結果顯示,本研究的贏率在短期投資3個月至中長期6-9個月的投資週期以及長期投資(1年-2年)下優於比較的基準TW50、Jiang’s及MVO,且在長期12個月及24個月的長期投資週期下達到最高總收益。即使在2019年多頭牛市及2020年熊市兩個不同投資起始點進行的2年固定投資時間的長期投資比較中,本論文所提出的方法仍能贏過TW50指數、MVO以及Jiang’s。總結來說,這項研究提供了強化學習和自動編碼器在投資組合管理中,無論在累積回報率還是夏普比率上,都優於傳統的MVO、TW50指數以及Jiang的混合型深度學習方法的實證證據,並強調了AI在複雜的金融決策中的潛力,並指出了需要一個更靈活,通用的模型來填補短期和長期投資策略之間的差距。這些研究成果為投資策略的發展和改進提供了重要的參考價值。