使用正交化和自助法尋找顯著因子

發(fā)布時(shí)間：2019-03-20 | 來(lái)源: 川總寫(xiě)量化

作者：石川

摘要：本文在 A 股上復(fù)現(xiàn) Harvey and Liu (2018) 提出的方法，使用正交化和自助法尋找顯著的因子。

1 引言

《出色不如走運(yùn) (II)》一文曾介紹了 Harvey and Liu (2018) 提出的基于回歸的因子有效性檢驗(yàn)方法。該方法避免了因 multiple testing 造成的運(yùn)氣成分、從而鑒別出能顯著解釋資產(chǎn)截面預(yù)期收益率差異的因子。考慮到《出色不如走運(yùn) (II)》涉及的內(nèi)容理論有余、實(shí)證不足，本文以中證 500 指數(shù)成分股為例，做一些實(shí)證分析，同時(shí)也指出在大 A 股中應(yīng)用 Harvey and Liu (2018) 時(shí)遇到的一些坑。

首先簡(jiǎn)單回歸一下 Harvey and Liu (2018) 提出的方法。當(dāng)大量因子同時(shí)被用做 empirical asset pricing 分析時(shí)，它們之中效果最顯著的因子中一定包含了運(yùn)氣的成分。Harvey and Liu (2018) 巧妙之處在于通過(guò)正交化和自助法（Bootstrap）得到了僅靠運(yùn)氣能夠得到的顯著性的經(jīng)驗(yàn)分布；如果當(dāng)排除了運(yùn)氣造成的顯著性之后某個(gè)因子依然顯著，那它就是真正有效的因子。下圖高度概括了該方法的邏輯（正交化和 Bootstrap 是核心）。

值得一提的是，Harvey and Liu (2018) 提出的方法既可以用針對(duì) empirical asset pricing 找出顯著因子；也可以用于更一般的 predictive regression —— 即考察解釋變量 X 能否預(yù)測(cè)被解釋變量 Y。面對(duì)不同的問(wèn)題，正交化和 Bootstrap 的核心思想是一致的，但在具體處理方法上存在差異。《出色不如走運(yùn) (II)》一文以 predictive regression 為例詳細(xì)介紹了該方法，本文不再贅述。以下行文將假設(shè)讀者了解 Harvey and Liu (2018)。但是，我會(huì)針對(duì) empirical asset pricing 問(wèn)題，說(shuō)明使用正交化和 Bootstrap 時(shí)的各種細(xì)節(jié)。這篇實(shí)證的目的更多的是介紹在 A 股上如何復(fù)現(xiàn) Harvey and Liu (2018)。相反的，由于實(shí)證中的因子以及用來(lái)檢驗(yàn)這些因子的一組資產(chǎn)，均無(wú)法避免的存在主觀成分（本文最后一節(jié)會(huì)再聊聊這點(diǎn)），因此實(shí)證結(jié)果僅是示例性的。

2 Block Bootstrap

先來(lái)說(shuō)說(shuō) Bootstrap。本來(lái) Bootstrap 無(wú)需多言（需要背景知識(shí)的朋友請(qǐng)點(diǎn)這里），但是數(shù)據(jù)的特殊性決定了 Bootstrap 的特殊性。在 Harvey and Liu (2018) 的方法中，需要進(jìn)行 Bootstrap 的數(shù)據(jù)是資產(chǎn)的收益率和正交化后的因子收益率時(shí)間序列。由于時(shí)間序列存在自相關(guān)性，因此在重采樣的時(shí)候應(yīng)使用 Block Bootstrap。顧名思義，Block Bootstrap 就是每次從序列中有放回的抽取一個(gè)由連續(xù) n 個(gè)相鄰數(shù)據(jù)點(diǎn)構(gòu)成的 block（大小由 block size 決定）。主流的 Block Bootstrap 算法包括以下三種：

Moving Block Bootstrap（Kunsch 1989, Liu and Singh 1992）；

Circular Block Bootstrap（Politis and Romano 1992）;

Stationary Bootstrap（Politis and Romano 1994）。

下圖說(shuō)明了 Moving Block Bootstrap（MBB）的原理。假設(shè)原始數(shù)據(jù)由 1 – 9 組成，且令 block size = 3。MBB 依次以序列中的每個(gè)數(shù)字為起點(diǎn)構(gòu)建長(zhǎng)度為 3 的 blocks（本例中一共 7 個(gè)），然后從這 7 個(gè) blocks 中有放回的隨機(jī)抽取，直至構(gòu)成和原始序列長(zhǎng)度一樣的 bootstrapped sample。

從上圖的原理可知，MBB 最大的問(wèn)題是對(duì)于原始序列首尾兩端樣本采樣不足。為了規(guī)避這個(gè)問(wèn)題，Circular Block Bootstrap（CBB）被提出。顧名思義，它是將原始數(shù)據(jù)的首尾相連，構(gòu)成一個(gè)圓圈（Circular 一詞的出處），然后再按照給定的 block size 進(jìn)行重采樣，避免首尾兩端采樣不足。

最后一種方法是 Stationary Bootstrap（SB），它和前兩者最大的區(qū)別是使用非固定的 block size。SB 中的 block size 滿(mǎn)足幾何分布；作為輸入而給定的 block size 是它的期望。該方法得到的 bootstrapped 樣本可以更好的滿(mǎn)足平穩(wěn)性的要求，因此當(dāng)原始時(shí)間序列難以滿(mǎn)足平穩(wěn)性時(shí)有更好的效果。

本文的實(shí)證采用 stationary bootstrap，并在第四節(jié)說(shuō)明原因。

3 因子模擬和投資組合

Harvey and Liu (2018) 的目的是找到能夠真正解釋資產(chǎn)截面預(yù)期收益率差異的顯著因子。因此在實(shí)證中，我們需要選定多因子模型，以及用來(lái)檢驗(yàn)這些因子的一組資產(chǎn)。在因子方面，實(shí)證中選擇 Fama and French (2015) 五因子以及 Carhart (1997) 的動(dòng)量因子，一共六個(gè)因子：MKT、HML、SMB、RMW、CMA 和 UMD。構(gòu)建這些因子的標(biāo)的均為中證 500 的成分股；實(shí)證區(qū)間為 2008 年 10 月到 2019 年 2 月。每個(gè)月最后一個(gè)交易日排除停牌的股票，使用剩余成分股構(gòu)建多空投資組合（多、空兩邊均等權(quán)配置），以此計(jì)算每個(gè)因子下個(gè)月的收益率，全部數(shù)據(jù)均來(lái)自 JoinQuant。具體的，這些因子定義如下：

MKT：中證 500 指數(shù)的收益率，為了簡(jiǎn)化沒(méi)有考慮其相對(duì)無(wú)風(fēng)險(xiǎn)利率的超額收益；

HML：做多 Book-to-Price 最高的 150 支、做空 Book-to-Price 最低的 150 支；

SMB：做多流通市值小的一半、做空流通市值大的一半；

RMW：使用營(yíng)業(yè)利潤(rùn) TTM 與總市值之比為排序指標(biāo)、從大到小排序，做多排名靠前的 150 支、做空排名靠后的 150 支；

CMA：使用總資產(chǎn)增長(zhǎng)率為排序指標(biāo)、從小到大排序，做多排名靠前的 150 支、做空排名靠后的 150 支；

UMD：使用 T - 12 到 T - 2 月之間（即過(guò)去 12 個(gè)月到上一個(gè)月）的累積收益率為排序指標(biāo)，從大到小排序，做多排名靠前的 150 支、做空排名靠后的 150 支。

這六個(gè)因子在實(shí)證區(qū)間內(nèi)的累積凈值如下圖所示。

下面再來(lái)看看用來(lái)檢驗(yàn)因子的一組資產(chǎn)。由于多因子模型是用來(lái)給個(gè)股的超額收益定價(jià)的，因此最純粹的實(shí)證是使用個(gè)股?？紤]到本文更多的是為了說(shuō)明如何復(fù)現(xiàn) Harvey and Liu (2018)、實(shí)證結(jié)果僅是示例性的，因此我們也像 Harvey and Liu (2018) 一樣，考慮使用 BP 和流通市值 double sort 得到的投資組合作為資產(chǎn)。具體的，將中證 500 成分股按照 BP 和流通市值的大小各分成五檔，并按照個(gè)股在兩個(gè)指標(biāo)上的檔位取值將它們歸類(lèi)于 5 × 5 = 25 個(gè)投資組合中的某一個(gè)，由此構(gòu)建 25 個(gè)純多頭投資組合。這 25 個(gè)投資組合在實(shí)證區(qū)間內(nèi)的累積凈值如下圖所示。

下面用這 25 個(gè)投資組合檢驗(yàn)上述六個(gè)因子。

4 挑選有效因子

在檢驗(yàn)有效因子時(shí)，Harvey and Liu (2018) 的思路是反復(fù)使用正交化 + 自助法，逐一找到顯著的因子，直到所有剩余因子中沒(méi)有任何顯著的。下面就來(lái)進(jìn)行這個(gè)過(guò)程。在第一輪中，這六個(gè)因子是否顯著都是未知的。首先對(duì)它們進(jìn)行正交化處理。正交化的目的是排除因子對(duì)資產(chǎn)截面預(yù)期收益差異的解釋能力；正交化的手段是對(duì)因子收益率序列在時(shí)序上去均值（demean）。時(shí)序上 demean 不改變這些因子對(duì)于資產(chǎn)收益率波動(dòng)的解釋力度（時(shí)序回歸的 R-squared 不變），但由于 demean 之后因子收益率期望為零，使用 demean 因子對(duì)資產(chǎn)進(jìn)行時(shí)序回歸得到的截距恰好等于資產(chǎn)本身的時(shí)序均值，說(shuō)明 demean 因子在截面上不再具備解釋能力。這六個(gè)因子 demean 之后的時(shí)序如下圖所示。

由于 A 股上旗幟鮮明的牛熊市，demean 之后的 MKT 因子（以及其他一些因子）難以滿(mǎn)足平穩(wěn)性，如不加以處理，將會(huì)影響 Harvey and Liu (2018) 的使用。該方法的本質(zhì)是 demean 之后的因子無(wú)法解釋資產(chǎn)預(yù)期收益率的截面差異（能解釋的都是運(yùn)氣），因此在 bootstrap 時(shí)應(yīng)保證 bootstrapped 樣本中這些 demean 之后的因子的收益率依然為零。如果使用 MBB，由于對(duì)原始序列兩端采樣不足，則會(huì)使 bootstrapped 樣本中 demean 后因子的收益率均值對(duì)于實(shí)證窗口的選擇異常敏感。例如上圖中，原始序列兩端 demean 之后的 MKT 收益率一個(gè)很小、一個(gè)巨大，如果采樣不足會(huì)影響 bootstrapped 樣本。為此，在實(shí)證中選擇將原始序列首尾相連的 Stationary Bootstrap。這是在 A 股中復(fù)現(xiàn) Harvey and Liu (2018) 時(shí)的第一個(gè)坑。

下面再來(lái)說(shuō)說(shuō)第二個(gè)。我在一開(kāi)始選擇的實(shí)證窗口是 2010 年 1 月到 2019 年 2 月，而非從 2008 年 10 月開(kāi)始。然而，由于中證 500 指數(shù)在這段時(shí)間內(nèi)漲上去又跌回來(lái)，導(dǎo)致 MKT 因子的收益率期望接近零。這就意味著，哪怕不 demean，由于 E[MKT] ≈ 0，MKT 因子對(duì)于資產(chǎn)截面收益率的解釋力度也十分有限。對(duì)于一個(gè)真正有效的因子，demean 的目的是排除它的截面解釋能力，把它暫時(shí)視作一個(gè)隨機(jī)因子（隨機(jī)因子的期望收益為零），從而僅考察由于多個(gè)因子 multiple testing 中的運(yùn)氣成分能造成的解釋力度。不幸的是，如果選擇從 2010 年 1 月開(kāi)始的實(shí)證區(qū)間，我們這位 MKT 因子都不需要 demean 就 E[MKT] ≈ 0 了，剩下再怎么檢驗(yàn)，它也難言有效，從而造成錯(cuò)誤的結(jié)論。這就是第二個(gè)坑。OK，坑挖完了也填完了，下面繼續(xù)實(shí)證。

分別使用這六個(gè)因子和 25 個(gè)投資組合收益率做時(shí)序回歸。對(duì)于每個(gè)因子，得到 25 個(gè)回歸截距，它們是這些投資組合在使用該因子時(shí)的定價(jià)錯(cuò)誤。使用這 25 個(gè)截距絕對(duì)值的中位數(shù)作為該因子解釋這些投資組合的能力。定價(jià)錯(cuò)誤低意味著解釋力度高，因此該中位數(shù)越小說(shuō)明因子越有效。此外，為了計(jì)算僅憑運(yùn)氣能夠獲得的顯著性，將原始 25 個(gè)投資組合的收益率序列和 demean 之后六個(gè)因子的收益率序列放在一起（T × 31 階矩陣），令 block size = 4，進(jìn)行 1000 次 stationary bootstrap，得到 1000 個(gè) bootstrapped 樣本。對(duì)于每個(gè)樣本，分別使用每個(gè) demean 因子對(duì)這 25 個(gè)投資組合進(jìn)行時(shí)序回歸、得到 6 個(gè)截距絕對(duì)值中位數(shù)，將這 6 個(gè)中位數(shù)中的最小值作為 test statistic，它就是在這個(gè) bootstrapped 樣本中，僅靠運(yùn)氣能夠獲得的最低定價(jià)錯(cuò)誤。

從 1000 個(gè) bootstrapped 樣本中得到 1000 個(gè) test statistic，便構(gòu)成了它的分布，這就是僅靠運(yùn)氣能夠得到的定價(jià)錯(cuò)誤分布。使用該分布 5% 分位數(shù)作為閾值，如果原始因子獲得的定價(jià)錯(cuò)誤小于該閾值，我們就說(shuō)該因子在 5% 的顯著性水平下有效。在第一輪中，這六個(gè)因子對(duì) 25 個(gè)投資組合定價(jià)錯(cuò)誤絕對(duì)值的中位數(shù)、以及使用 1000 次 stationary bootstrap 獲得的 test statistic 閾值如下表所示。不難看出，MKT 的解釋力度最高且小于閾值，因此 MKT 被選為第一個(gè)有效的因子。第一輪正交化 + 自助法結(jié)束。

下面來(lái)看第二輪（后面的以此類(lèi)推）。在第二輪中，已選出的 MKT 將會(huì)出現(xiàn)在時(shí)序回歸方程的右側(cè)，這么做是為了考察剩余待檢驗(yàn)因子對(duì)于解釋資產(chǎn)預(yù)期收益截面差異的增量貢獻(xiàn)。首先，對(duì)于 SMB、HML、RMW、CMA、UMD 的每一個(gè)，將它們和已經(jīng)選定的 MKT 一起（如果是第 n 輪正交化 + 自助法，則使用前 n – 1 輪中選出的 n – 1 個(gè)因子），對(duì)那 25 個(gè)投資組合進(jìn)行時(shí)序回歸，得到的截距項(xiàng)絕對(duì)值的中位數(shù)作為這五個(gè)因子的解釋力度。

接下來(lái)，使用 MKT（again，如果是第 n 輪正交化 + 自助法，則使用前 n – 1 輪中選出的全部因子）對(duì)待檢驗(yàn)因子正交化。具體做法為，將待檢驗(yàn)因子依次放在回歸方程左側(cè)，將已經(jīng)選出的因子放在回歸方程的右側(cè)，時(shí)序回歸得到截距項(xiàng)；使用原始待檢驗(yàn)因子減去截距項(xiàng)（也是一種 demean 處理），得到的就是其正交化之后的因子。該方法保證了使用 demean 的待檢驗(yàn)因子和已選出因子一起對(duì)資產(chǎn)時(shí)序回歸時(shí)得到的截距和僅使用已選出因子對(duì)資產(chǎn)時(shí)序回歸時(shí)得到的截距相同，從而說(shuō)明 demean 后的待檢驗(yàn)因子無(wú)增量貢獻(xiàn)。

將正交化后的五個(gè)因子和原始 MKT 因子一起，和 25 個(gè)投資組合收益率序列放在一起，構(gòu)成一個(gè) T × 31 階矩陣。對(duì)其并進(jìn)行 1000 次 stationary bootstrap 的到 1000 個(gè) bootstrapped 樣本。對(duì)于每一個(gè)樣本，逐一使用 demean 后的因子，將它和已選出的因子一起（這里是 MKT），對(duì)這 25 個(gè)投資組合回歸，得到截距絕對(duì)值中位數(shù)；然后從這五個(gè)因子中挑出中位數(shù)最低的，它就是該 bootstrapped 樣本的 test statistic。這 1000 個(gè) bootstrapped 樣本的 test statistic 取值便構(gòu)成了它的分布。下表是第二輪中這五個(gè)因子的解釋能力以及 test statistic 的 5% 分位數(shù)閾值。其中，SMB 的解釋力度最高且小于閾值，因此 SMB 被選為第二個(gè)有效因子。第二輪正交化 + 自助法結(jié)束。

按上述說(shuō)明，反復(fù)使用正交化 + 自助法，直至沒(méi)有顯著的因子。在第三輪中的結(jié)果如下，RMW 因子被選出。

第四輪的結(jié)果如下，剩余三個(gè)因子的解釋力度均無(wú)法超過(guò) test statistic 閾值，因此全部被拒絕、檢驗(yàn)結(jié)束。最終選出的因子為：MKT + SMB + RMW。

以上就是對(duì) Harvey and Liu (2018) 的實(shí)證研究。

5 結(jié)語(yǔ)

Harvey and Liu (2018) 這篇文章十分 technical。我在《出色不如走運(yùn) (II)》對(duì)它的理論部分做了介紹，但是不甚滿(mǎn)意，因此便有了這篇實(shí)證，希望這篇沒(méi)那么晦澀（但我覺(jué)著也挺晦澀的……）。想對(duì)它進(jìn)一步加深理解的小伙伴，我推薦翻墻去 YouTube 上看 Prof. Harvey 在 Jacobs Levy Center 年會(huì)上題為 Lucky Factors 的演講，它能幫我們跳出細(xì)節(jié)、從全局掌握該方法的實(shí)質(zhì)。從我的實(shí)證體會(huì)來(lái)說(shuō)，最難的不是方法本身，而是如何盡可能客觀的選擇多因子模型以及用來(lái)檢驗(yàn)該模型的資產(chǎn)。

在 empirical asset pricing 的研究中，最著名的文章當(dāng)屬 Fama 和 French 的一系列文章。無(wú)疑，這和他們開(kāi)創(chuàng)性的研究密不可分，但不容忽視的一點(diǎn)是，人家 marketing 做的好！Ken French 在其網(wǎng)站上定期更新因子收益率序列供所有人免費(fèi)下載。這些高質(zhì)量且被市場(chǎng)廣泛認(rèn)可的數(shù)據(jù)為美股研究的蓬勃發(fā)展奠定了堅(jiān)實(shí)的基礎(chǔ)。反觀 A 股，很難找到大家都認(rèn)可的標(biāo)準(zhǔn)化因子收益率數(shù)據(jù)，這造成不同人對(duì)于哪怕是對(duì)同一因子的研究結(jié)果都有可能大相徑庭。（就我有限的所知，中央財(cái)經(jīng)大學(xué)維護(hù)了針對(duì)全 A 股的 Fama-French 五因子 + Carhart 動(dòng)量因子數(shù)據(jù)。）究其原因是因?yàn)樘幚硪蜃訑?shù)據(jù)背后的細(xì)節(jié)太過(guò)紛繁 —— 按什么頻率調(diào)倉(cāng)；具體使用什么指標(biāo)（比如當(dāng)期還是 TTM）；依何種權(quán)重配置多空組合；如何處理 ST、漲跌停、停牌、退市等股票。

但即便有各種困難，為了在 A 股上得到更加客觀、公允的實(shí)證分析結(jié)果（無(wú)論某個(gè)因子是有效還是無(wú)效都是有價(jià)值的發(fā)現(xiàn)），構(gòu)建標(biāo)準(zhǔn)化因子數(shù)據(jù)的努力都必不可少。（最近，我在構(gòu)思寫(xiě)一篇比較學(xué)術(shù)界主流多因子模型在 A 股上的效果分析文章，但是第一步就是要獲得客觀、標(biāo)準(zhǔn)的因子收益率。）希望未來(lái)能有更多的你、我（特別是市面上的各種量化平臺(tái)）能為此努力，這將是造福量化多因子研究的大功績(jī)。

參考文獻(xiàn)

Carhart, M. M. (1997). On Persistence in Mutual Fund Performance.?Journal of Finance 52(1), 57 – 82.

Fama, E. F. and K. R. French (2015). A Five-Factor Asset Pricing Model.?Journal of Financial Economics 116(1), 1 – 22.

Harvey, C. R. and Y. Liu (2018). Lucky Factors. Working paper, available at SSRN:?https://ssrn.com/abstract=2528780.

Kunsch, H. R. (1989). The jackknife and the bootstrap for general stationary observations. The Annals of Statistics 17(3), 1217 – 1241.

Liu, R. Y. and K. Singh (1992). Moving blocks jackknife and bootstrap capture weak dependence. In Exploring the Limits of Bootstrap (R. Lepage and L. Billard, eds.), 225 – 248. Wiley, New York.

Politis, D. N. and J. P. Romano (1992). A circular block resampling procedure for stationary data. In Exploring the Limits of Bootstrap (R. Lepage and L. Billard, eds.), 263 – 270. Wiley, New York.

Politis, D. N. and J. P. Romano (1994). The stationary bootstrap. Journal of the American Statistical Association 89(428), 1303 – 1313.

免責(zé)聲明：入市有風(fēng)險(xiǎn)，投資需謹(jǐn)慎。在任何情況下，本文的內(nèi)容、信息及數(shù)據(jù)或所表述的意見(jiàn)并不構(gòu)成對(duì)任何人的投資建議。在任何情況下，本文作者及所屬機(jī)構(gòu)不對(duì)任何人因使用本文的任何內(nèi)容所引致的任何損失負(fù)任何責(zé)任。除特別說(shuō)明外，文中圖表均直接或間接來(lái)自于相應(yīng)論文，僅為介紹之用，版權(quán)歸原作者和期刊所有。

在线看片免费人成视久网,无码日本被黑人强伦姧视频 ,中日产幕无线码一区,无码精品av久久久免费

合格投資者聲明

使用正交化和自助法尋找顯著因子