出色不如走運(yùn) (II)？

發(fā)布時(shí)間：2018-10-01 | 來源: 川總寫量化

作者：石川

摘要：本文指出在做因子測試時(shí)應(yīng)考慮多重假設(shè)檢驗(yàn)的影響、排除 data mining 造成的運(yùn)氣成分，從而有效的從大量因子中選出真正能夠解釋截面收益率的好因子；該方法也可用于基金經(jīng)理或投資策略的篩選。

1 引言

兩年前，我寫了一篇《出色不如走運(yùn)？》。該文使用順序統(tǒng)計(jì)量（order statistics）解釋了當(dāng)很多投資者（或基金）使用相同的數(shù)據(jù)構(gòu)建不同的策略時(shí)，最好的那個(gè)一定是非常優(yōu)秀的，但它很有可能僅僅是因?yàn)檫\(yùn)氣好，而非真正的水平高。

如果我們直接從某個(gè)經(jīng)濟(jì)學(xué)規(guī)律中找出了一個(gè)解釋股票預(yù)期收益截面差異的因子，并且該因子在統(tǒng)計(jì)上顯著，那么它可能是真的顯著；但如果我們試了 500 個(gè)因子，然后找到了一個(gè)最牛逼的，那么哪怕它的 t-statistic 非常高，我們也不能保證它就一定是個(gè)真的因子。這就好比我們在大街上隨便抓了一個(gè)人讓他猜 20 次扔硬幣的結(jié)果，如果他全都猜對了，那么他很可能真的擁有天生神力；但是如果我們讓 3 億人同時(shí)玩猜 20 次扔硬幣結(jié)果的游戲，20 輪過后全對的還會有 250 人左右，但是我們會認(rèn)為這些人僅僅是運(yùn)氣好。

這些例子背后的數(shù)學(xué)邏輯是，如果有一個(gè)因變量 Y 和一個(gè)解釋變量 X，通過回歸分析后我們發(fā)現(xiàn)回歸系數(shù)的 t-statistic 很高（比如 2.0，對應(yīng) 5% 的顯著性水平），那么從傳統(tǒng)的單因素假設(shè)檢驗(yàn)角度可以認(rèn)為 X 能夠顯著的解釋 Y。然而，如果我們有很多個(gè)變量（比如 100 個(gè)）X_1、X_2、…、X_{100}，我們?nèi)荚嚵酥蟀l(fā)現(xiàn)第 55 個(gè)變量最好。這時(shí)，如果它的 t-statistic 也是 2.0，我們卻不能說 X_{55} 顯著的解釋 Y。這是因?yàn)閮H僅靠運(yùn)氣，這 100 個(gè)變量（假設(shè)獨(dú)立）中最好的那個(gè)的 t-statistic 大于 2.0 的概率高達(dá) 99%。

如何在層出不窮的因子中排除靠 data mining 挖掘的、而找到真正能夠解釋股票預(yù)期收益截面差異的？如何在大量的基金經(jīng)理（或策略）中排除走運(yùn)的、而找到真正能夠戰(zhàn)勝市場的？這些已成為非常迫切的問題。在《出色不如走運(yùn)》中，我們只說了僅僅憑運(yùn)氣就能得到非常好的結(jié)果，卻沒有說應(yīng)該怎樣排除運(yùn)氣，找到真正的好因子或者好策略。帶著這些問題，今天就來一篇升級版 —— 出色不如走運(yùn) (II)？最后一點(diǎn)提示，本文非常 technical，建議靜下心來閱讀。此外，熟悉《股票多因子模型的回歸檢驗(yàn)》、《為什么要進(jìn)行因子正交化處理？》、以及《用 Bootstrap 進(jìn)行參數(shù)估計(jì)大有可為》對閱讀本文會有幫助。

2 理論依據(jù)

既然是升級版，就不能光靠 order statistics 說事兒了，咱也得武裝升級一下理論。當(dāng)學(xué)術(shù)界有大量因子來解釋同一個(gè)問題 —— 股票截面預(yù)期收益（或者有許多不同的策略在同一個(gè)市場中交易時(shí)），僅考慮單一檢驗(yàn)（single testing ，即每次檢驗(yàn)一個(gè) hypothesis，比如一個(gè)單因子是否有效？）就不再適合了；這時(shí)候必須要考慮 multiple hypotheses testing（多重假設(shè)檢驗(yàn)）造成的影響。在統(tǒng)計(jì)上，multiple hypotheses testing 指的是同時(shí)檢驗(yàn)多個(gè) hypotheses。

在金融領(lǐng)域?qū)?multiple hypotheses?testing 的重視程度在最近幾年得到了飛速發(fā)展。這其中的代表人物要數(shù)杜克大學(xué)的 Campbell Harvey 教授（曾于 2016 年任美國金融協(xié)會主席），他自 2014 年以來發(fā)表了多篇文章、進(jìn)行了多個(gè)演講。其中最具代表性的文章包括：

Harvey et al. (2016) 研究了學(xué)術(shù)界發(fā)表的 316 個(gè)顯著的選股因子，在已有的多重假設(shè)檢驗(yàn)修正 —— 包括 Bonferroni adjustment、Holm adjustment以及 Benjamini-Hochberg-Yekutieli (BHY) adjustment —— 的基礎(chǔ)上，提出了一種能夠利用不同因子之間相關(guān)性的全新檢驗(yàn)框架、以排除 multiple testing 的影響，并指出只有在 single testing 中 t-statistic 超過 3（而非人們傳統(tǒng)認(rèn)為的 5% 的顯著性水平對應(yīng)的 2）的因子才有可能在考慮了多重假設(shè)檢驗(yàn)之后依然有效。Harvey 同時(shí)也指出，3.0 其實(shí)都是非常保守的。

Harvey and Liu (2015a) 利用 Harvey et al. (2016) 的多重假設(shè)檢驗(yàn)研究了如何修正策略的 Sharpe Ratio。一般的經(jīng)驗(yàn)認(rèn)為策略在實(shí)盤中的 Sharpe Ratio 應(yīng)該是其在回測期內(nèi) Sharpe Ratio 的 50%。Harvey and Liu (2015a) 定量計(jì)算了不同大小的 Sharpe Ratio 在實(shí)盤外的“打折程度”（他們稱為 haircut ratio），發(fā)現(xiàn)了 haircut ratio 和 Sharpe Ratio 之間的非線性關(guān)系。

除上述研究外，Harvey and Liu (2015b) 提出了一個(gè)全新的基于 regression 的檢驗(yàn)框架排除 multiple testing 影響、解決因子挑選問題。它的優(yōu)勢是可以按順序逐一挑出最顯著的因子、第二顯著的因子，以此類推，直到再沒有顯著因子。這么做的好處是可以評價(jià)每個(gè)新增加的因子在解釋股票截面收益率時(shí)的增量貢獻(xiàn)。這是傳統(tǒng)的多重假設(shè)檢驗(yàn)無法做到的。此外，該方法也可以被用來找到真正能夠戰(zhàn)勝市場的基金經(jīng)理或投資策略。

本文的主要目標(biāo)是介紹 Harvey and Liu (2015b) 提出的基于 regression 的檢驗(yàn)方法?？紤]到早期的多重假設(shè)檢驗(yàn)修正（即 Bonferroni、Holm、BHY adjustments）也非常容易上手便捎帶著加以說明。至于 Harvey et al. (2016) 提出的方法，其技術(shù)性較強(qiáng)，復(fù)制起來比較困難，因此我們今后找機(jī)會再聊它（倒是可以先記住它的結(jié)論，即 t-statistic 要至少大于 3 才有可能在排除了 multiple testing 影響后依然顯著）。下面首先來看容易上手的 Bonferroni、Holm 以及 BHY adjustments。

3 Bonferroni、Holm、BHY Adjustments

這三種多重假設(shè)檢驗(yàn)修正可以分為兩類：

Bonferroni 和 Holm adjustments 的目的是控制 family-wise error rate（族錯(cuò)誤率）；

BHY adjustment 的目的是控制 false discovery rate。

在多重假設(shè)檢驗(yàn)中，family-wise error rate（FWER）和 false discovery rate（FDR）代表著 Type I error 的兩個(gè)不同的定義。Type I error 是錯(cuò)誤的拒絕原假設(shè)，也叫 false positive 或 false discovery。在我們的上下文中，它意味著錯(cuò)誤的發(fā)現(xiàn)了一個(gè)其實(shí)沒用的因子。假設(shè) K 個(gè) hypotheses 的 p-value 分別為 p_1、p_2、…、p_K。根據(jù)事先選定的顯著性水平，比如 0.05，其中 R 個(gè) hypotheses 被拒絕了。換句話說，我們有 R 個(gè)發(fā)現(xiàn)（discoveries） —— 包括 true discoveries 和 false discoveries。令 Nr ≤ R 代表 false discoveries 的個(gè)數(shù)。由此，F(xiàn)WER 和 FDR 的定義如下：

從定義不難看出，F(xiàn)WER 是至少出現(xiàn)一個(gè) false discovery 的概率，控制它對單個(gè) hypothesis 來說是相當(dāng)嚴(yán)格的，會大大提升 Type II Error。相比之下，F(xiàn)DR 控制的是 false discoveries 的比例，它允許 Nr 隨 R 增加，是一種更溫和的方法。無論采用哪種方法，都會有相當(dāng)一部分在 single testing 中存活下來的“顯著”因子被拒絕。需要說明的是 Bonferroni、Holm 以及 BHY 這三種方法都是為了修正 single testing 得到的 p-value，修正后的 p-value 往往會大于原始的 p-value，也就意味著修正后的 t-statistic 更小，即 hypotheses 不再那么顯著。

下面通過簡單的例子（出自 Harvey and Liu 2015a）解釋這三種方法。假設(shè)一共有六個(gè)因子，它們 single testing 的 p-value 從小到大依次是 0.005、0.009、0.0128、0.0135、0.045、0.06。按照 0.05 的顯著性水平來看，前五個(gè)因子是顯著的。首先來看 Bonferroni correction（中文稱作邦費(fèi)羅尼校正），它對每個(gè)原始 p-value 的調(diào)整如下：

根據(jù)定義，這六個(gè)因子的 Bonferroni p-value 分別為 0.03、0.054、0.0768、0.081、0.27 和 0.36。經(jīng)過修正后，在 0.05 的顯著性水平下，僅第一個(gè)因子依然顯著。接下來看看 Holm 修正（Holm 1979）。它按照原始 p-value 從小到大依次修正，公式為：

根據(jù)上述定義，原始 p-value 最小的因子被修正后，其 Holm p-value 為 0.06；第二個(gè)因子的 Holm p-value 為 max{6×0.005, 5×0.009} = 0.045。以此類推就能計(jì)算出其他四個(gè)因子的 Holm p-value：

經(jīng)過 Holm 修正后，在 0.05 的顯著性水平下，只有前兩個(gè)因子依然顯著。最后來看看 BHY 修正（Benjamini and Hochberg 1995, Benjamini and Yekutieli 2001）。它從原始 p-value 中最大的一個(gè)開始從大到小逆向修正，公示如下：

在本例中，因?yàn)?K = 6，因此 c(K) = 2.45。由 BHY 的定義可知原始 p-value 最大的因子調(diào)整后的 BHY p-value 就是它自己。然后從第二大的開始，依次按照上述公式計(jì)算，最終得到了全部因子調(diào)整后的 BHY p-value，它們是（從小到大排列）：0.0496、0.0496、0.0496、0.0496、0.06、0.06。在 0.05 的顯著性水平下，前四個(gè)因子依然顯著。

BHY 方法是以控制 false discovery rate 為目標(biāo)，它的修正比另外兩種以控制 family-wise error rate 的方法更加溫和。這體現(xiàn)出來的結(jié)果就是在 BHY 調(diào)整下，有更多的因子依然顯著。此外，BHY 方法對檢驗(yàn)統(tǒng)計(jì)量之間的相關(guān)性不敏感，它的適應(yīng)性很強(qiáng)。各位小伙伴不妨使用上面介紹的這三種方法對因子的 p-value 進(jìn)行修正試試。

4 基于 Regression 的檢驗(yàn)

本節(jié)介紹 Harvey and Liu (2015b) 提出的基于 regression 的檢驗(yàn)方法，該方法受到了 Foster et al. (1997) 以及 Fama and French (2010) 的啟發(fā)，在這二者的基礎(chǔ)上又有不少的創(chuàng)新。它的目的是為了從一大堆號稱顯著的因子中排除 data mining、找到真正顯著的；該方法也可以被用于從一大堆基金經(jīng)理或策略中找出真正能夠戰(zhàn)勝市場的。

當(dāng)很多因子被用來解釋截面收益時(shí)，效果最顯著（最顯著可以由最高的 t-statistic、R-squared 等指標(biāo)代表）的因子中一定包含了運(yùn)氣的成分。這個(gè)方法的巧妙之處在于通過正交化和 Bootstrap 得到了僅靠運(yùn)氣能夠得到的顯著性的經(jīng)驗(yàn)分布；如果在排除了運(yùn)氣帶來的顯著性之后某個(gè)因子依然顯著，那它就是真正的因子，而非 data mining 的結(jié)果。

隨著處理方式略有不同，Harvey and Liu (2015b) 這個(gè)方法可以用于 predictive regression（考察哪個(gè) X 能預(yù)測 Y）、panel regression 以及 Fama-MacBeth regression（這兩類回歸可以用于挑選好因子），但它們背后的邏輯完全一致。下面高度概括一下該方法的邏輯（正交化和 Bootstrap 是核心）：

接下來以 predictive regression 為例說明這個(gè)多重假設(shè)檢驗(yàn)方法的具體步驟。Harvey and Liu (2015b) 中給出了使用 panel regression 和 Fama-MacBeth regression 時(shí)所需的改動。為了評價(jià)哪個(gè)因子有效，需要用到 panel regression，因此下一節(jié)會介紹針對 panel regression 的改動。假設(shè)有因變量 Y 和 100 個(gè)解釋變量 X 的 500 期樣本數(shù)據(jù)，我們想看看哪個(gè) X 能夠預(yù)測 Y。多重假設(shè)檢驗(yàn)的步驟為：

第一步：用每個(gè) X 和 Y 回歸（在我們的例子中就是 100 次回歸），得到 100 個(gè)殘差 OX，它們和 Y 正交。這構(gòu)成了 null hypothesis：所有 OX 對 Y 沒有預(yù)測性。

第二步：以這 500 期的 Y 和正交化得到的 OX 為原始數(shù)據(jù)（500 × 101 的矩陣，每一行代表一期，第一列為 Y，第二到第 101 列為 100 個(gè) OX 變量），使用帶放回的 Bootstrap 重采樣從這 500 行中不斷的隨機(jī)抽取，構(gòu)建和原始長度一樣的 bootstrapped 數(shù)據(jù)（也是 500 × 101 矩陣）。整行抽取保留了這 100 個(gè)變量在截面上的相關(guān)性。此外 Bootstrap 的好處是不對原始數(shù)據(jù)中的概率分布做任何假設(shè)。

第三步：使用 bootstrapped 數(shù)據(jù)，用每個(gè) OX 和 Y 回歸得到一個(gè)檢驗(yàn)統(tǒng)計(jì)量（比如是 t-statistic）；找出所有 OX 中該檢驗(yàn)統(tǒng)計(jì)量最大的那個(gè)值，稱為 max statistic。如果我們的檢驗(yàn)統(tǒng)計(jì)量是 t-statistic，那么這個(gè) max statistic 就是 500 個(gè) t-statistic 中最大的。

第四步：重復(fù)上述第二、第三步 10000 次，得到 max statistic 的經(jīng)驗(yàn)分布（empirical distribution），這是純靠運(yùn)氣（因?yàn)?null hypothesis 已經(jīng)是 OX 對 Y 沒有任何預(yù)測性了）能夠得到的 max statistic 的分布。

第五步：比較原始數(shù)據(jù) Y 和每個(gè) X 回歸得到的 max statistic 和第四步得到的 max statistic 的經(jīng)驗(yàn)分布：

a.?如果來自真實(shí)數(shù)據(jù)的 max statistic 超過了經(jīng)驗(yàn)分布中的閾值（比如 95% 顯著性水平對應(yīng)的經(jīng)驗(yàn)分布中 max statistic 的取值），那么真實(shí)數(shù)據(jù)中 max statistic 對應(yīng)的解釋變量就是真正顯著的。假設(shè)這個(gè)解釋變量是 X_7。

b. 如果來自真實(shí)數(shù)據(jù)的 max statistic 沒有超過經(jīng)驗(yàn)分布中的閾值，則這 100 個(gè)解釋變量全都是不顯著的。本過程結(jié)束，無需繼續(xù)進(jìn)行。

第六步：使用目前為止已被挑出來的全部顯著解釋變量對 Y 進(jìn)行正交化，得到殘差 OY。它是原始 Y 中這些變量無法解釋的部分。

第七步：使用 OY 來正交化剩余的 X（已經(jīng)選出來顯著變量，比如 X_7，不再參與余下的挑選過程）。

第八步：重復(fù)上述第三步到第七步：反復(fù)使用已挑出的顯著因子來正交化 Y，再用 OY 來正交化剩余解釋變量 X；在 Bootstrap 重采樣時(shí)，使用 OY、k 個(gè)已經(jīng)選出的 X、和剩余 100 - k 個(gè)正交化后的 OX 作為原始數(shù)據(jù)生成 bootstrapped 樣本；通過大量的 Bootstrap 實(shí)驗(yàn)得到新的 max statistic 的經(jīng)驗(yàn)分布，并判斷剩余解釋變量中是否仍然有顯著的。

第九步：當(dāng)剩余解釋變量的 max statistic 無法超過 null hypothesis 下 max statistic 的經(jīng)驗(yàn)分布閾值時(shí)，整個(gè)過程結(jié)束，剩余的解釋變量全都是不顯著的。

以上以 predictive regression 為例介紹了 Harvey and Liu (2015b) 提出的多重假設(shè)檢驗(yàn)框架。

5 用 Panel Regression 挑選好因子

在分析因子是否能顯著的解釋股票或投資組合的截面預(yù)期收益率時(shí)，回歸方法是 panel / cross-sectional regression 而非前一節(jié)的 predictive regression。需要說明的是，這里的選股因子都是某個(gè)投資組合的（超額）收益率，比如 MKT，HML，SMB 這種。在使用 panel regression 的檢驗(yàn)過程中，Bootstrap 的思想和上一節(jié)介紹的完全一致，但是在正交化、回歸分析、以及 max statistic 的選取有上些差異。

5.1 正交化

在挑選因子中，null hypothesis 是因子對解釋預(yù)期收益率截面差異沒有作用。如果能夠拒絕原假設(shè)，則說明因子是有效的。但是運(yùn)氣的成分往往帶來 false discovery，即本來這個(gè)因子沒用，但是 data mining （嘗試了一大堆因子中找到的效果最好的那個(gè)）使得它看起來有用。為此，和前一節(jié)的 predictive regression 一樣，多重假設(shè)檢驗(yàn)的第一步通過正交化來構(gòu)造出一個(gè)“純凈”的 null hypothesis，即因子不能解釋截面收益率。正交化的方法為：

在尚未選出任何顯著因子時(shí)，對所有潛在因子的正交化處理方法是 demean（去均值）。由于每個(gè)因子都是一個(gè)收益率，因此使用原始的因子值減去它在時(shí)序上的均值就排除了它在截面上的解釋性（因?yàn)?demean 后該因子在截面上的期望收益是零）。

如果已經(jīng)選出了 k 個(gè)顯著的因子，在繼續(xù)挑選第 k + 1 個(gè)顯著因子時(shí)，正交化的方法是使用這 k 個(gè)因子作為解釋變量和第 k + 1 個(gè)因子在時(shí)序上回歸，得到的殘差就是正交化之后的待檢驗(yàn)因子。

5.2 回歸分析

在 predictive regression 中，我們會對因變量和解釋變量都進(jìn)行正交化。假設(shè)已經(jīng)選出了 k ≥ 0 個(gè)顯著變量。在選擇第 k + 1 個(gè)時(shí)，首先將 Y 投影到這 k 個(gè)變量上得到殘差 OY，這就是對 Y 的正交化。之后，再把剩余待檢驗(yàn)的解釋變量 X 逐一投影到 OY 上，得到 OX。然后再用 OY 和每個(gè) OX 獨(dú)立回歸進(jìn)行后續(xù) Bootstrap 步驟。這使得我們可以評估新加入變量 X 在預(yù)測 Y 時(shí)的增量貢獻(xiàn)。

進(jìn)行 panel regression 時(shí)，個(gè)股或者投資組合的收益率作為因變量出現(xiàn)在回歸方程的左側(cè)，對它們不進(jìn)行正交化處理。在回歸方程的右側(cè)，使用已經(jīng)選出的 k（k ≥ 0）個(gè)顯著因子和正交化后的第 k + 1 個(gè)因子（正交化方法參考 5.1 節(jié)）作為解釋變量。始終將已經(jīng)選出的前 k 個(gè)因子加入回歸方程的右側(cè)可保證檢驗(yàn)第 k + 1 個(gè)因子對解釋截面收益率的增量貢獻(xiàn)。將因變量和解釋變量在時(shí)序上回歸，得到的截距項(xiàng)就是這些因子無法解釋的 pricing error。

上面的對比說明：在 predictive regression 中，回歸方程的左側(cè)是 OY（用已經(jīng)選出的 k 個(gè) X 正交化 Y），而右側(cè)只有一個(gè) OX（每個(gè)剩余的 X 正交化后依次和 OY 回歸）；而在 panel regression 中，回歸方程的左側(cè)是 Y（不正交化），而是把已經(jīng)選出的 k 個(gè) X 都放在回歸方程的右側(cè)，因此右側(cè)為 k 個(gè) X 以及一個(gè)新的待檢驗(yàn)的正交化后的 OX。不同的方法是由于這兩種回歸中 null hypothesis 的性質(zhì)不同造成的。雖然這兩種方法的略有不同，但都保證了考察待檢驗(yàn)變量對解釋 Y 的增量貢獻(xiàn)。

在 Harvey and Liu (2015b) 的最新版本 Harvey and Liu (2018) 中對上述回歸有非常詳細(xì)的說明。值得一提的是，雖然作者將這個(gè)回歸稱為 panel regression，但 Harvey and Liu (2018) 對每個(gè)投資品單獨(dú)的使用這些因子進(jìn)行時(shí)序回歸。因此對于 N 個(gè)投資品，一共得到了 N 個(gè) pricing errors；如果直接使用 N 個(gè)投資品一起做 panel regression 并加入 fixed effects 也可以得到 N 個(gè)不同的截距。

5.3 “Max statistic”

在 null hypothesis 下，因子不能解釋收益率的截面差異。這意味著回歸的截距（pricing error）應(yīng)該距離零越遠(yuǎn)越好。由于因子挖掘界 data mining 的“優(yōu)良傳統(tǒng)”，當(dāng)很多因子被測試后，最好的那個(gè)僅僅靠著運(yùn)氣的成分也可以讓 pricing error 非常接近零。為了量化并排除運(yùn)氣的影響，Bootstrap 的目標(biāo)就是得到 null hypothesis 下 pricing error 的經(jīng)驗(yàn)分布，即僅靠運(yùn)氣能夠得到的 pricing error 的經(jīng)驗(yàn)分布。

從 asset pricing 角度來說，如果一個(gè)因子能夠解釋收益率截面差異，那么回歸截距應(yīng)十分接近零。由于一共有 N 個(gè)投資品，使用這 N 個(gè)投資品的 pricing error 絕對值的中位數(shù)作為“max statistic”（實(shí)際上是希望 pricing error? 的絕對值越小越好，因此應(yīng)稱之為 min statistic；為了和前一節(jié)對應(yīng)，故稱之為帶了引號的“max statistic”）來評價(jià)因子。通過 Bootstrap 得到“max statistic”的經(jīng)驗(yàn)分布。如果來自真實(shí)數(shù)據(jù)的最小 pricing error 絕對值的中位數(shù)小于從經(jīng)驗(yàn)分布中得到的閾值，則它對應(yīng)的因子就是真正有效的因子。

6 一個(gè)例子

Harvey and Liu (2015b) 給出了一個(gè)示例性例子說明如何應(yīng)用他們提出的多重假設(shè)檢驗(yàn)框架挑選真正有效的因子。這個(gè)例子考察了學(xué)術(shù)界的 13 個(gè)“顯著”因子。加個(gè)雙引號是因?yàn)樗鼈兌荚?single testing 中顯著，但是在新的多重假設(shè)檢驗(yàn)下很多就失效了。這 13 個(gè)因子為：

Fama and French (1993)：MKT、SMB、HML；

Fama and French (2015)：RMW、CMA；

Hou et al. (2015)：ROE、IA；

Frazzini and Pedersen (2014)：BAB；

Novy-Marx (2013)：GP；

Pastor and Stambaugh (2003)：PSL；

Carhart (1997)：MOM；

Asness et al. (2013)：QMJ；

Harvey and Siddique (2000)：SKEW。

這些因子的 single testing 結(jié)果（以因子收益率的 t-statistic 表示）以及它們之間的相關(guān)性如下圖所示。從圖中不難看出：（1）除了 SMB 外，所有因子的 t-statistic 都大于 2，在 0.05 的顯著性水平下顯著；有些因子的 t-statistic 甚至超過 5?。?）這些因子中有一些對的相關(guān)性非常高，比如 ROE 和 QMJ、CMA 和 IA（它們都是 investment 類的因子）、CMA 和 HML 等。

為了測試因子，最好的因變量應(yīng)該是一攬子股票，因?yàn)槲覀兿Ｍ疾爝@些因子在解釋股票預(yù)期收益率截面差異上的作用。在 Harvey and Liu (2015b) 給出的例子中，二位作者使用的是 25 個(gè)投資組合，而非個(gè)股。他們強(qiáng)調(diào)例子的目的是為了說明多重假設(shè)檢驗(yàn)的步驟。用來作為因變量的 25 個(gè)投資組合來自使用 Fama-French 三因子中的 SMB 和 HML 兩個(gè)因子各自把股池分成 5 組并交叉配對，因此一共 5 × 5 = 25 個(gè)組合。

Harvey and Liu (2015b) 使用了這 25 個(gè)組合的 pricing error 絕對值的中位數(shù)作為挑選因子的指標(biāo)（在文章中，這個(gè)指標(biāo)被記為 m_1^a）。除了這個(gè)指標(biāo)外還有其他三個(gè)指標(biāo)，這里不做討論。首先用這 13 個(gè)因子各自對這 25 個(gè)投資組合進(jìn)行回歸。每個(gè)因子 pricing error 絕對值的中位數(shù)如下圖所示。從單個(gè)因子回歸結(jié)果來看，MKT（市場）因子是最顯著的（它的指標(biāo) 0.285% 是所有因子中最小的），但是里面包含了運(yùn)氣的成分。

下面應(yīng)用多重假設(shè)檢驗(yàn)來排除運(yùn)氣的成分。對這 13 個(gè)因子分別正交化（demean），然后使用 Bootstrap 重采樣進(jìn)行反復(fù)多次的大量實(shí)驗(yàn)。每個(gè)實(shí)驗(yàn)中，單獨(dú)使用 13 個(gè)正交化后的因子和 25 個(gè)投資組合收益率回歸，得到每個(gè)因子的 pricing error 絕對值中位數(shù)的最小值（我們的“max statistic”）。大量 Bootstrap 實(shí)驗(yàn)便得到了“max statistic”的經(jīng)驗(yàn)分布。MKT 因子的取值（0.285%）在這個(gè)分布下出現(xiàn)的概率僅為 3.9%，即 p-value = 3.9%，小于常用的 5% 的閾值。因此我們說即便考慮了運(yùn)氣成分后，MKT 因子依然是顯著的。市場因子是第一個(gè)被選出來的顯著因子，這多少符合預(yù)期。

在接下來的步驟中，使用 MKT 因子正交化其余 12 個(gè)因子。然后用 MKT 因子和正交化之后的每個(gè)剩余因子獨(dú)立對這 25 個(gè)投資組合進(jìn)行回歸分析，得到考慮了每個(gè)剩余因子的 pricing error 絕對值的中位數(shù)，如下圖所示。不難看出，在剩余的 12 個(gè)因子中，CMA 是最好的（它的 pricing error 最低），但是 HML 和 BAB 和它也難分伯仲！因此，在真實(shí)數(shù)據(jù)中，“max statistic”的取值為 0.112%（來自 CMA）。

再一次，使用 Bootstrap 重采樣進(jìn)行反復(fù)多次的大量實(shí)驗(yàn)得到“max statistic”的經(jīng)驗(yàn)分布。CMA 因子的取值（0.112%）在這個(gè)分布下出現(xiàn)的概率僅為 2.2%，依然小于常用的 5% 的閾值。在考慮了運(yùn)氣以及 MKT 因子之后，CMA 因子依然是顯著的。如果不選 CMA 作為第二個(gè)，也可以選 HML 或 BAB 作為第二個(gè)顯著的因子。

如上所述，重復(fù)這個(gè)過程就可以一直分析下去。在找到了最有效的兩個(gè)因子 —— MKT 和 CMA —— 之后，剩余 11 個(gè)因子中第三個(gè)最顯著的因子是 SMB，它的 pricing error 是 0.074%。然而，使用 Bootstrap 得到“max statistic”的經(jīng)驗(yàn)分布后發(fā)現(xiàn)，SMB 因子的取值（0.074%）在這個(gè)分布下出現(xiàn)的概率高達(dá) 13.9%，大于常用的 5% 的閾值，因此認(rèn)為 SMB 以及其他 10 個(gè)因子在進(jìn)一步解釋截面收益率差異時(shí)都不顯著。

經(jīng)過修正多重假設(shè)檢驗(yàn)發(fā)現(xiàn)，MKT 和 CMA（也可以選 HML 或 BAB）是兩個(gè)顯著的因子，其他因子均不顯著，均為 data mining 的產(chǎn)物。以上便實(shí)現(xiàn)了從一攬子所謂顯著的因子中提出運(yùn)氣成分、找到真正有效的因子。這就是這套多重假設(shè)檢驗(yàn)體系最大的價(jià)值。這套體系也可以用于基金經(jīng)理的篩選，具體的例子見 Harvey and Liu (2015b)。

7 結(jié)語

2015 年，Harvey 教授在 Jacobs Levy Center Conference?上進(jìn)行了題為 Lucky Factors 的演講。在演講的開篇，他從生物進(jìn)化的角度指出人類可能有 overfitting 或者 data mining 的傾向。假設(shè)一只機(jī)警的羚羊在草原中聽到了沙沙響聲。如果它開始奔跑，但事后發(fā)現(xiàn)響聲只是由于一陣微風(fēng)造成的（即沒有威脅），那么它無疑犯了 Type I error，為此付出的代價(jià)是消耗一定的能量；但是如果它不奔跑，但事后發(fā)現(xiàn)響聲是因?yàn)橐恢猾C豹沖向它造成的，那么它則犯了 Type II error，為此則付出了生命的代價(jià)?？梢?，從 cost 的角度，它必須選擇奔跑。

這個(gè)故事告訴我們，動物想生存，就必須控制 Type II error，而可以允許更高的 Type I error（false discovery）。這種傾向在進(jìn)化中被一代代傳下來。因此，人類在分析問題時(shí)允許更高的 Type I error、存在 overfitting 或者 data mining 的傾向。下圖左側(cè)是一個(gè)假想的策略凈值曲線，它持續(xù)上漲，回撤可控，Sharpe Ratio 理想。然而，它僅僅是下圖右側(cè)中展示的 200 個(gè)使用零均值純隨機(jī)生成的策略凈值中表現(xiàn)最好的那個(gè)。換句話說，它的表現(xiàn)完全來自運(yùn)氣。出色還是走運(yùn)？回答這個(gè)問題刻不容緩。

S&P Capital IQ 有一個(gè) Alpha Factor Library（α 因子庫），非常自豪的宣稱有 500 個(gè) α 因子！這里面有多少是運(yùn)氣？有多少是真正的 α？本文介紹的幾種方法是為了回答這個(gè)問題所做的努力。美國統(tǒng)計(jì)協(xié)會（American Statistical Association）的 Ethical Guidelines for Statistical Practice 中，有這樣一句話，發(fā)人深?。?/span>

Selecting the one "significant" result from a multiplicity of parallel tests poses a grave risk of an incorrect conclusion. Failure to disclose the full extent of tests and their results in such a case would be highly misleading.

參考文獻(xiàn)

Asness, C. S., A. Frazzini, and L. H. Pedersen (2013). Quality minus junk. AQR Capital Management working paper.

Benjamini, Y. and Y. Hochberg (1995). Controlling the false discovery rate: A practical and powerful approach to multiple testing. Journal of the Royal Statistical Society Series B 57, 289 – 300.

Benjamini, Y. and D. Yekutieli (2001). The control of the false discovery rate in multiple testing under dependency. Annals of Statistics 29, 1165 – 1188.

Carhart, M. M. (1997). Onp persistence in mutual fund performance. Journal of Finance 52(1), 57 – 82.

Fama, E. F. and K. R. French (1993). Common risk factors in the returns on stocks and bonds. Journal of Financial Economics 33(1), 3 – 56.

Fama, E. F. and K.R. French (2010). Luck versus skill in the cross-section of mutual fund returns. Journal of Finance 65(5), 1915 – 1947.

Fama, E. F. and K. R. French (2015). A five-factor asset pricing model. Journal of Financial Economics 116(1), 1 – 22.

Foster, F. D., T. Smith and R. E. Whaley (1997). Assessing goodness-of-fit of asset pricing models: The distribution of the maximal R2. Journal of Finance 52(2), 591 – 607.

Harvey, C. R. and A. Siddique (2000). Conditional skewness in asset pricing tests. Journal of Finance 55(3), 1263 – 1295.

Harvey, C. R. and Y. Liu (2015a). Backtesting. The Journal of Portfolio Management 42(1), 13 – 28.

Harvey, C. R. and Y. Liu (2015b). Lucky factors. Working paper.

Harvey, C. R. and Y. Liu (2018). Lucky factors. Working paper.

Harvey, C. R., Y. Liu, and H. Zhu (2016). … and the cross-section of expected returns. Review of Financial Studies 29(1), 5 – 68.

Holm, S. (1979). A simple sequentially rejective multiple test procedure. Scandinavian Journal of Statistics 6, 65 – 70.

Hou, K., C. Xue, and L. Zhang (2015). Digesting anomalies: An investment approach. Review of Financial Studies 28(3), 650 – 705.

Novy-Marx, R. (2013). The other side of value: The gross profitability premium. Journal of Financial Economics 108(1), 1 – 28.

Pastor, L. and R. F. Stambaugh (2003). Liquidity risk and expected stock returns. Journal of Political Economy 111(3), 642 – 685.

https://en.wikipedia.org/wiki/Bonferroni_correction?

免責(zé)聲明：入市有風(fēng)險(xiǎn)，投資需謹(jǐn)慎。在任何情況下，本文的內(nèi)容、信息及數(shù)據(jù)或所表述的意見并不構(gòu)成對任何人的投資建議。在任何情況下，本文作者及所屬機(jī)構(gòu)不對任何人因使用本文的任何內(nèi)容所引致的任何損失負(fù)任何責(zé)任。除特別說明外，文中圖表均直接或間接來自于相應(yīng)論文，僅為介紹之用，版權(quán)歸原作者和期刊所有。

在线看片免费人成视久网,无码日本被黑人强伦姧视频 ,中日产幕无线码一区,无码精品av久久久免费

合格投資者聲明

出色不如走運(yùn) (II)？

在线看片免费人成视久网,无码日本被黑人强伦姧视频 ,中日产幕无线码一区,无码精品av久久久免费

合格投資者聲明

出色不如走運(yùn) (II)？

出色不如走運(yùn) (II)？