出色不如走運(yùn) (III)?
發(fā)布時(shí)間:2019-02-01 | 來(lái)源: 川總寫量化
作者:石川
摘要:本文使用隨機(jī)因子的實(shí)證結(jié)果定量說(shuō)明了僅靠運(yùn)氣就能夠達(dá)到的選股效果,幫助判斷選股因子是否真正有效。
1 引言
使用因子選股的邏輯是因子 —— 無(wú)論是來(lái)自基本面、量?jī)r(jià)還是宏觀經(jīng)濟(jì)等 —— 都對(duì)股票未來(lái)的收益率有預(yù)測(cè)性。在定量評(píng)價(jià)一個(gè)因子是否有效時(shí),主要的考察方式之一是計(jì)算該因子的收益率是否顯著不為零(原假設(shè))。假設(shè)因子的預(yù)期收益率和該預(yù)期收益率的 standard error 分別為 E[f] 和 s.e.(E[f]),則假設(shè)檢驗(yàn)的 t-statistic 為:
在進(jìn)行單因子檢驗(yàn)時(shí),一般要求該因子的 t-statistic 大于 2,從而以 5% 的顯著性水平拒絕原假設(shè),并認(rèn)為該因子確實(shí)有預(yù)測(cè)股票收益率的能力。然而,如果同時(shí)考慮眾多因子(多重假設(shè)檢驗(yàn),multiple hypothesis testing)并從里面挑出來(lái)最好的,由于 data mining 的問(wèn)題(即運(yùn)氣),即便最好因子的 t-statistic 大于 2,也不能認(rèn)為它是有效的。之前的兩篇文章《出色不如走運(yùn)?》以及《出色不如走運(yùn)(II)?》對(duì)這個(gè)問(wèn)題進(jìn)行了探討。今天這篇是《出色不如走運(yùn)(III)?》。
假設(shè)同時(shí)考察 n 個(gè)因子、這些因子對(duì)于股票收益率的預(yù)測(cè)能力滿足 Uniform distribution。如果從這 n 個(gè)因子中挑出效果最好的,這個(gè)“最好的”因子的 t-statistic 和 p-value 有哪些性質(zhì)呢?我們想要回答的問(wèn)題是:在多重檢驗(yàn)的 n 選 1 問(wèn)題中,對(duì)于給定的顯著性水平 p(比如 5%),單一因子的 p-value 或 t-statistic 應(yīng)滿足什么條件才能拒絕原假設(shè)。根據(jù) order statistic 的概率知識(shí)可知,這 n 個(gè)因子中第 i 好的滿足 Beta distribution:
從 n 個(gè)里面挑出最好的相當(dāng)于令 i = n。根據(jù) Beta distribution 的定義和簡(jiǎn)單計(jì)算有:
令 x = (1 – p)^{1/n} 并利用 prob(U < x) = 1 – prob(U ≥ x) 可知:
在因子分析中,通常關(guān)注的是因子收益率是否顯著不為零 —— 可正可負(fù) —— 因此一般使用雙邊檢驗(yàn)。對(duì)于給定的 p-value(單邊 p/2),由上式可知(將 p 換成 p/2),這 n 個(gè)因子中最好的那個(gè)的 t-statistic 的絕對(duì)值需不小于以下閾值才能拒絕原假設(shè):
當(dāng) n 很大時(shí),從上式可進(jìn)一步推導(dǎo)出單一因子的 p-value 需要小于 p/n 才能在 n 選 1 的 multiple hypothesis testing 下拒絕原假設(shè)。舉例來(lái)說(shuō),我們考察 10 個(gè)因子并希望以 5% 的顯著性水平找到真正有效的因子,則這些因子各自的 p-value 只有小于 5%/10 = 0.5% 才能拒絕原假設(shè)。這正是大名鼎鼎的?Bonferroni correction(邦費(fèi)羅尼校正)。實(shí)際因子選股面臨更復(fù)雜的問(wèn)題:如何從 n 個(gè)因子中選出最好的 k 個(gè),而非 1 個(gè);如何配置選出來(lái)的這 k 個(gè)因子 —— 等權(quán)配置還是按照它們樣本內(nèi)的表現(xiàn)好壞配置。如果不妥善解決 multiple hypothesis?testing 的問(wèn)題,上述這些做法會(huì)導(dǎo)致選擇偏差(selection bias)以及過(guò)擬合偏差(overfitting bias)。
2 選擇偏差和過(guò)擬合偏差
在選擇因子時(shí),通常的做法是在回測(cè)中使用因子定期構(gòu)建投資組合,然后分析因子預(yù)期收益率的 t-statistic。如果該 t 值小于零(且顯著為負(fù))則把該因子反過(guò)來(lái)使用。假設(shè)同時(shí)考察 n 個(gè)因子,并根據(jù)因子 t-statistic 絕對(duì)值的大小采用下列做法之一:
1. 按照樣本內(nèi) n 個(gè)因子 t-statistics 的正負(fù)同時(shí)使用全部因子,按照等權(quán)或者樣本內(nèi)因子效果賦權(quán)來(lái)選股(n 選 n 問(wèn)題) —— 這種做法引入 overfitting bias;
2. 從這 n 個(gè)因子中挑出樣本內(nèi) t-statistic 絕對(duì)值最大的 1 個(gè)(n 選 1 問(wèn)題),使用該因子選股 —— 這種做法引入 selection bias;
3. 從這 n 個(gè)因子中挑出樣本內(nèi) t-statistic 絕對(duì)值最大的 k 個(gè)(n 選 k 問(wèn)題),并按等權(quán)或樣本內(nèi)效果賦權(quán)選股 —— 這種做法同時(shí)引入 selection bias 和 overfitting bias。
Novy-Marx (2015) 研究了多因子選股回測(cè)中的 selection bias 和 overfitting bias 問(wèn)題。本文第一節(jié)中的數(shù)學(xué)推導(dǎo)正是來(lái)自 Novy-Marx (2015),而它僅僅是 n 選 1 的一種簡(jiǎn)化情況。在投資實(shí)務(wù)中,更常見的是上述第二種 n 選 k 的問(wèn)題,它面臨“因子怎么選”和“因子如何配”這兩個(gè)嚴(yán)峻的問(wèn)題,一不小心就會(huì)引入大量的噪聲。
毫無(wú)疑問(wèn),multiple hypothesis testing 下的數(shù)據(jù)挖掘是因子選股的大敵。通過(guò) data mining,僅僅依靠運(yùn)氣,挑出來(lái)的因子 —— 哪怕再?zèng)]有業(yè)務(wù)含義 —— 也會(huì)在樣本內(nèi)獲得顯著不為零的選股收益率,但它只是過(guò)擬合而已。針對(duì) multiple hypothesis testing 中的 data mining,Novy-Marx (2015) 從理論和實(shí)證經(jīng)驗(yàn)兩個(gè)角度分析了上述 n 選 n、n 選 1、n 選 k 三個(gè)問(wèn)題中,多因子策略的 t-statistic 的分布問(wèn)題。該文使用純隨機(jī)產(chǎn)生的因子 —— 理論上沒(méi)有任何預(yù)測(cè)性 —— 在美股上選股、以美股的真實(shí)收益率計(jì)算這些隨機(jī)因子的因子收益率,從而定量分析上述三個(gè)問(wèn)題中多因子選股策略的 t-statistic 的閾值。這些 t-statistic 的閾值遠(yuǎn)超單因子檢驗(yàn)中的 2.0,而如此之高的閾值更是僅僅來(lái)自于運(yùn)氣和 data mining。在實(shí)際選股中,使用多因子構(gòu)建的策略的 t-statistic 唯有超過(guò)這些閾值才意味著它們真的對(duì)收益率有統(tǒng)計(jì)上非顯著為零的預(yù)測(cè)性。
本文下一節(jié)借鑒 Novy-Marx (2015) 的思路產(chǎn)生隨機(jī)因子,使用中證 500 指數(shù)的成分股進(jìn)行實(shí)證分析。
3 實(shí)證研究
本節(jié)針對(duì)中證 500 進(jìn)行實(shí)證。實(shí)證中的回測(cè)期從 2010 年 1 月到 2019 年 1 月,考察 n 個(gè)隨機(jī)因子的選股能力。具體的:
1. 對(duì)于每一個(gè)因子,在每月末,隨機(jī)生成 500 支成分股在該因子上的取值并從高到低排列,選擇取值最高的 10% 做多、取值最低的 10% 做空,以該多空組合的收益率作為該期因子的收益率;
2. 計(jì)算回測(cè)期內(nèi)每個(gè)因子的 t-statistic,如果某個(gè)因子的 t-statistic 為負(fù),則把該隨機(jī)因子反過(guò)來(lái)使用;
3. 按照每個(gè)隨機(jī)因子 t-statistic 絕對(duì)值的大小,挑選絕對(duì)值最大的 k (≤ n) 個(gè)因子,并按照等權(quán)或者正比于它們 t-statistics 的絕對(duì)值大小配置因子;
4. 以最終多個(gè)因子的配置結(jié)果作為最終的選股結(jié)果,計(jì)算該策略在整個(gè)回測(cè)期內(nèi)的 t-statistic;
5. 上述 1 – 4 步完成了 n 選 k(當(dāng) k = 1 和 n 時(shí),問(wèn)題分別變?yōu)?n 選 1 和 n 選 n)的一次實(shí)驗(yàn)。為了得到 n 選 k 問(wèn)題中 t-statistic 的經(jīng)驗(yàn)分布并計(jì)算 5% 顯著性水平下的 t-statistic 的閾值,對(duì)于每一組 n 和 k,將上述 4 步進(jìn)行 5000 次仿真,從而計(jì)算 t-statistic 的閾值。
舉個(gè)例子。下圖是當(dāng) n = 20,k = 3(即從 20 個(gè)隨機(jī)因子中選出樣本內(nèi) t-statistic 絕對(duì)值最大的 3 個(gè),并按 t-statistic 絕對(duì)值大小配置)時(shí),5000 次仿真得到的該策略的 t-statistic 的經(jīng)驗(yàn)分布,其均值為 3.2,其 5% 顯著性水平下對(duì)應(yīng)的 t-statistic(即該分布中 95% 分位數(shù))高達(dá) 4.16。
該結(jié)果表明,如果我們從 20 個(gè)源于業(yè)務(wù)邏輯(或者很多人樂(lè)此不疲的 data mining)的因子中選擇 3 個(gè)最好的來(lái)選股時(shí),該策略的 t-statistic 要超過(guò) 4.16 才能認(rèn)為這 3 個(gè)因子的選股效果不僅僅是運(yùn)氣。接下來(lái)看看不同 n 和 k 的取值下,5% 顯著性水平對(duì)應(yīng)的 t-statistic 的閾值的情況。下圖比較了不同 n 取值下,n 選 1 和 n 選 n 兩種極端情況 —— n 選 1 代表僅有 selection bias;n 選 n 代表僅有 overfitting bias。下圖傳遞出以下信息:
1. 隨著考察的隨機(jī)因子個(gè)數(shù)(n)的增加,策略 t-statistic 的閾值逐漸遞增;
2. 選 n 個(gè)因子比選 1 個(gè)因子有更高的閾值;按樣本內(nèi)表現(xiàn)配置比等權(quán)配置有更高的閾值;它們說(shuō)明 overfitting bias 比 selection bias 更容易在樣本內(nèi)產(chǎn)生過(guò)擬合。
再來(lái)看看更一般的 n 選 k 的情況。下圖顯示了 n = 10、20、40 和 100 時(shí),不同 k 取值下的選股策略的 t-statistic 閾值。在一般的投資實(shí)務(wù)中,嘗試 100 甚至幾百個(gè)因子并選擇其中某些好的是十分常見的。從該實(shí)證結(jié)果中可以觀察到:
1. 隨著 n 和 k 的增加,對(duì)于按照隨機(jī)因子 t-statistic 絕對(duì)值賦權(quán)配置的策略,它們的 t-statistic 閾值遞增;
2. 隨著 n 的增加,等權(quán)配置和按因子樣本內(nèi)表現(xiàn)配置的效果越來(lái)越接近;
3. 對(duì)于等權(quán)配置因子的情況,能夠觀察到策略的效果并不隨 k 遞增;比如當(dāng) n = 10 時(shí),t-statistic 的閾值隨 k 先增大后減小。
上述實(shí)證結(jié)果中,最有意思的大概是第三條。對(duì)于等權(quán)配置的情況,在一開始,使用更多的因子可以降低策略的波動(dòng)率,從而提升 t-statistic 的閾值;而一旦因子個(gè)數(shù)超過(guò)最優(yōu)值,越來(lái)越多排名靠后的因子被選入,它們會(huì)降低策略的收益率,從而降低 t-statistic 的閾值。這是在因子投資實(shí)務(wù)中需要考慮的問(wèn)題。從圖中可以看到,對(duì)于實(shí)證中考察的最極端情況,即“從 100 個(gè)因子選 10 個(gè)最好的”,僅僅靠運(yùn)氣,以隨機(jī)因子構(gòu)建的策略在中證 500 成分股的樣本內(nèi)回測(cè)中就能取得高達(dá) 7 以上的 t-statistic 閾值。Data mining 造成的 selection bias 和 overfitting bias 不容小視。
4 結(jié)語(yǔ)
近年來(lái),海外學(xué)術(shù)界越來(lái)越意識(shí)到 multiple hypothesis testing 造成的因子分析中 data mining 的問(wèn)題。一些先進(jìn)的統(tǒng)計(jì)手段被提出以幫助鑒別哪些是真正有效的因子,哪些僅僅是運(yùn)氣。這些文獻(xiàn)包括《出色不如走運(yùn)(II)?》中介紹的那些,以及本文提及的 Novy-Marx (2015)。
在 empirical asset pricing 和 factor investing 方面,我們都是 data mining 的好手。拿來(lái)一個(gè)因子,如果不好使,可以對(duì)它進(jìn)行差分 —— 美其名曰增長(zhǎng)率;再不好使,二階差分 —— 美其名曰加速度;還不好使,行業(yè)中性、市值中性試一下、用各種其他因子回歸得到殘差再試一下;對(duì)于選出的因子,等權(quán)配如果效果不理想,可以按照事后夏普率配一下;還不理想?使用滾動(dòng)窗口進(jìn)行動(dòng)態(tài)因子擇時(shí)……
誠(chéng)然,對(duì)于有嚴(yán)謹(jǐn)金融邏輯的因子 —— 比如 ROE —— 我們沒(méi)有必要把它和一幫其他“邪門”因子一起比較,然后要求 ROE 也有非常高的 t-statistic,這是對(duì)統(tǒng)計(jì)手段的走火入魔。但是,對(duì)于很多純粹靠 data mining 加工出來(lái)的因子,本文使用隨機(jī)因子的實(shí)證結(jié)果定量說(shuō)明了僅靠運(yùn)氣就能夠達(dá)到的效果,從而幫助判斷選股因子是否真正有效。
While one should combine multiple signals they believe in, one should not believe in a combination of signals simply because they backtest well together.
參考文獻(xiàn)?
Novy-Marx, R. (2015). Backtesting strategies based on multiple signals. NBER Working Paper, No. 21329.
免責(zé)聲明:入市有風(fēng)險(xiǎn),投資需謹(jǐn)慎。在任何情況下,本文的內(nèi)容、信息及數(shù)據(jù)或所表述的意見并不構(gòu)成對(duì)任何人的投資建議。在任何情況下,本文作者及所屬機(jī)構(gòu)不對(duì)任何人因使用本文的任何內(nèi)容所引致的任何損失負(fù)任何責(zé)任。除特別說(shuō)明外,文中圖表均直接或間接來(lái)自于相應(yīng)論文,僅為介紹之用,版權(quán)歸原作者和期刊所有。