用 IC 評(píng)價(jià)因子效果靠譜嗎？

發(fā)布時(shí)間：2018-08-07 | 來(lái)源: 川總寫(xiě)量化

作者：石川

摘要：傳統(tǒng)的 IC 或者 Rank IC 在評(píng)價(jià)因子選股效果時(shí)不夠合理，有一些陷阱?；?IC 進(jìn)行因子配置不十分靠譜。本文提出對(duì) IC 的一些改進(jìn)，并建議使用加權(quán) IC 來(lái)評(píng)判因子效果。

1 IC 和 Rank IC

在多因子選股實(shí)務(wù)中，人們熱衷于動(dòng)態(tài)評(píng)價(jià)因子在單期截面上的選股效果。為實(shí)現(xiàn)這個(gè)目標(biāo)，通常的做法是用當(dāng)期個(gè)股的因子取值（記為 x）和下一期個(gè)股的收益率（記為 y）在截面上計(jì)算信息系數(shù)（information correlation），簡(jiǎn)稱(chēng) IC。IC 的計(jì)算方法通常有兩種：x 和 y 的相關(guān)系數(shù)，以及 x 和 y 的秩相關(guān)系數(shù)（見(jiàn)下圖）。第一種就是我們常說(shuō)的 IC，第二種可以稱(chēng)作 Rank IC。

這里簡(jiǎn)單介紹下秩相關(guān)系數(shù)。秩相關(guān)系數(shù)（rank correlation coefficient）和相關(guān)系數(shù)類(lèi)似，不同的是它考察的是兩個(gè)隨機(jī)變量之間的單調(diào)相關(guān)性（monotonic correlation）。秩相關(guān)性對(duì)變量之間的線(xiàn)性或非線(xiàn)性相關(guān)性不做假設(shè)。在計(jì)算秩相關(guān)系數(shù)時(shí)，使用的并不是觀測(cè)值本身的數(shù)值，而是它們?cè)诟髯詷颖局械呐判颉Ｖ认嚓P(guān)系數(shù)的取值在 -1 到 1 之間。在統(tǒng)計(jì)學(xué)中，有多種計(jì)算秩相關(guān)系數(shù)的方法，其中最流行的要數(shù) Spearman 秩相關(guān)系數(shù)，它以?Charles Spearman?命名。假設(shè)有兩個(gè)隨機(jī)變量 x 和 y 的 n 對(duì)兒觀測(cè)值，Spearman 秩相關(guān)系數(shù) r_s 的計(jì)算過(guò)程如下：

1. 首先將 x 和 y 的觀測(cè)值轉(zhuǎn)換成它們對(duì)應(yīng)的排序 x_r 和 y_r。

2. 對(duì) x_r 和 y_r 采用傳統(tǒng)的線(xiàn)性相關(guān)系數(shù)公式，則可得到 r_s：

下圖是某因子在一段時(shí)間內(nèi)的滾動(dòng) Rank IC 移動(dòng)平均，從中我們能對(duì)常見(jiàn)選股因子 IC 的取值范圍有個(gè)大概的了解。

從上面的定義可知，無(wú)論使用 IC 還是 Rank IC，都希望它越大越好，越大說(shuō)明因子選股的能力越強(qiáng)（也可以越小越好，那就反過(guò)來(lái)用因子）。我們也經(jīng)常能在一些策略中看到使用 IC（或者 IR，即 IC 的均值除以標(biāo)準(zhǔn)差）的高低來(lái)動(dòng)態(tài)進(jìn)行因子的配置。上面這些用法的核心前提是 IC 能夠正確反映因子選股的能力。然而，真的是這樣嗎？如果這個(gè)核心前提不成立，那么基于 IC 的各種因子擇時(shí)、因子配置、因子打分恐怕難言靠譜。

2 IC 中的陷阱

本節(jié)通過(guò)一個(gè)假想的例子說(shuō)明 IC 和 Rank IC 計(jì)算中存在的陷阱。假設(shè)有十支股票，它們的因子取值從大到小如下表所示。此外，考慮這十支股票的兩組假想的收益率序列。

很容易計(jì)算該因子和這兩組收益率序列的相關(guān)系數(shù)均為 0.2909。如果僅僅看 IC 這個(gè)單一指標(biāo)的話(huà)，我們會(huì)認(rèn)為該因子在當(dāng)期的選股能力很不錯(cuò)。但 IC 背后還有很多故事可講。我們不妨把因子和這兩組收益率序列畫(huà)出來(lái)，并各自做一條線(xiàn)性回歸線(xiàn)來(lái)看一看。令?y 代表收益率，x 代表因子，則線(xiàn)性回歸模型表達(dá)式為：

上式中斜率 b 和 x 與 y 的相關(guān)系數(shù) ρ 滿(mǎn)足如下關(guān)系：

由于這兩組收益率和因子的相關(guān)系數(shù)均為 0.2909，因此我們也以預(yù)期它們和因子的線(xiàn)性回歸斜率相同。事實(shí)上，結(jié)果也正是如此（下圖，斜率均為 0.0058）：

雖然 IC 一樣，但是畫(huà)出圖來(lái)才看到這兩組收益率序列和因子的關(guān)系大相徑庭。假設(shè)從業(yè)務(wù)邏輯來(lái)說(shuō)，個(gè)股的收益率和因子呈正相關(guān)，因此我們要選因子取值大的股票。但是，這個(gè)邏輯在上面兩組收益率序列中會(huì)得到截然不同的結(jié)果：對(duì)于序列一，使用最大的因子取值可以選出收益率最高的股票；而對(duì)于序列二，使用最大的因子取值卻選出了收益率相當(dāng)差的股票。面對(duì)如此結(jié)果，IC 無(wú)辜嗎？如果使用 Rank IC 代替 IC，得到的也是同樣的結(jié)論。這兩組收益率和因子的秩相關(guān)系數(shù)均等于 0.3212。從這個(gè)數(shù)字背后解讀不出任何超過(guò)這個(gè)數(shù)字本身的東西。在量化投資中，我們喜歡并追尋能夠精確計(jì)算出的數(shù)字。但這么做的前提是該數(shù)字有意義。在統(tǒng)計(jì)學(xué)家中流傳著一個(gè)說(shuō)法：

Numerical calculations are exact, but graphs are rough.

單一的統(tǒng)計(jì)量，比如上面的 IC 或者 Rank IC 卻難以體現(xiàn)出圖形反映出來(lái)的因子和收益率之間更多的關(guān)系。這說(shuō)明如果我們僅僅看中 IC，可能會(huì)步入數(shù)據(jù)的陷阱。僅關(guān)注統(tǒng)計(jì)量而忽視圖形信息本身最著名的例子當(dāng)屬安斯庫(kù)姆四重奏（Anscombe's quartet）。安斯庫(kù)姆四重奏是四組基本的統(tǒng)計(jì)特性一致的數(shù)據(jù)，但由它們繪制出的圖形則截然不同。每一組數(shù)據(jù)都包括了 11 個(gè) (x, y) 點(diǎn)。這四組數(shù)據(jù)由統(tǒng)計(jì)學(xué)家弗朗西斯·安斯庫(kù)姆（Francis Anscombe）于 1973 年構(gòu)造，他的目的是用來(lái)說(shuō)明在分析數(shù)據(jù)前先繪制圖表的重要性，以及離群值對(duì)統(tǒng)計(jì)的影響之大。下圖就是這四組數(shù)據(jù)繪制出來(lái)的圖形，可見(jiàn)它們截然不同：

1. 第一組描繪了 x 和 y 之間近似的線(xiàn)性關(guān)系；

2. 第二組中 x 和 y 表現(xiàn)出了明顯的非線(xiàn)性關(guān)系；

3. 第三組中 x 和 y 之間存在線(xiàn)性關(guān)系，但由于一個(gè)明顯的 outlier 的存在改變了數(shù)據(jù)的統(tǒng)計(jì)結(jié)果；

4. 第四組 x 和 y 本來(lái)沒(méi)有線(xiàn)性關(guān)系，但由于一個(gè)顯著 outlier 的存在也使得它們“好像有線(xiàn)性關(guān)系”。

這四組數(shù)據(jù)和它們的統(tǒng)計(jì)特征如下圖所示。這個(gè)例子完美的詮釋了統(tǒng)計(jì)量（比如本文的 IC）不能反映出數(shù)據(jù)的全部信息。更危險(xiǎn)的是，一旦它們被錯(cuò)誤解讀和使用，將會(huì)導(dǎo)致完全錯(cuò)誤的結(jié)果。

3 改進(jìn) IC

上一節(jié)的例子是為了說(shuō)明當(dāng)使用個(gè)股的因子取值和下期收益率在截面上回歸時(shí)，得到的 IC 或者 Rank IC 不能很好的反映出因子選股的效果。對(duì)于這種情況，可以考慮以下兩種改進(jìn)方法。

第一種方法是按照因子取值把個(gè)股分成 n 檔（比如十檔），然后將每一檔視作一個(gè)投資組合，計(jì)算投資組合收益率和投資組合因子在截面上的 IC 或 Rank IC。每一個(gè)投資組合中，可以按照等權(quán)或者市值加權(quán)來(lái)計(jì)算投資組合的收益率和因子取值。因子描述的是一攬子股票所共同承擔(dān)（或者暴露于的）的某一方面的系統(tǒng)性風(fēng)險(xiǎn)。使用因子選股是為了規(guī)避個(gè)股特異性收益率的風(fēng)險(xiǎn)。因此，比起個(gè)股，我們更應(yīng)該關(guān)注一攬子股票的收益率和相應(yīng)因子取值之間的相關(guān)性。這就是使用因子構(gòu)建投資組合、再計(jì)算 IC 的初衷。投資組合的收益率是一攬子股票的均值，也可以更好的消除收益率上的噪聲。

第二種方法仍然從個(gè)股收益率和因子取值的 IC 出發(fā)，但是在計(jì)算時(shí)根據(jù)因子的業(yè)務(wù)邏輯（大到小、還是小到大的關(guān)系）來(lái)給 x 和 y 的取值賦權(quán)，從而得到 weighted IC。由于結(jié)合了從業(yè)務(wù)邏輯出發(fā)的權(quán)重，這個(gè)加權(quán) IC 能更好的反映因子的選股能力。下面以上一節(jié)的因子取值和兩組收益率序列為例解釋這一做法。假設(shè)從業(yè)務(wù)出發(fā)，因子取值越大越好。將十組 (x_i, y_i) 樣本點(diǎn)按照因子值 x 從大到小排序，并假設(shè)它們的權(quán)重按指數(shù)衰減，系數(shù)為 0.9。這十組樣本點(diǎn)的權(quán)重為：

有了權(quán)重向量（記為 w），就可以計(jì)算 x 和 y 之間的加權(quán)均值、加權(quán)方差、加權(quán)協(xié)方差、以及加權(quán)相關(guān)系數(shù)（weighted correlation coefficient）：

根據(jù)上述定義，很容易計(jì)算出因子和這兩組收益率序列的加權(quán)相關(guān)系數(shù)。它們分別為 0.4494（因子和第一組收益率序列），以及 0.0908（因子和第二組收益率序列）。從加權(quán) IC 來(lái)看，第一組的收益率序列比第二組收益率序列更能說(shuō)明因子的選股能力。同樣的，為了繪圖說(shuō)明加入權(quán)重的優(yōu)勢(shì)，對(duì) x 和 y 進(jìn)行 weighted least squares 回歸（WLS）：

令 X 代表系數(shù)矩陣（包括截距項(xiàng)系數(shù) 1 和 x），W 表示由權(quán)重 w_i 作為第 i 個(gè)對(duì)角元素構(gòu)成的對(duì)角矩陣，則帶權(quán)重回歸的解為：

利用線(xiàn)性代數(shù)的運(yùn)算法則，不難求出上式右側(cè)的第一項(xiàng)逆矩陣為：

回歸式中右側(cè)第二項(xiàng)為：

因此，加權(quán)回歸的系數(shù)為（其中 a 為截距，b 為斜率）：

費(fèi)了半天勁寫(xiě)出了 a 和 b 的表達(dá)式（其實(shí)從求解的角度，給出矩陣形式的求解足夠了）只是想說(shuō)明下面這件事兒。如果我們比較加權(quán)相關(guān)系數(shù) ρ(x, y, w) 以及加權(quán)方差（標(biāo)準(zhǔn)差）var(x, w) 和 var(y, w)，以及斜率 b，則不難發(fā)現(xiàn)，和 OLS 一樣，在加權(quán)回歸中，ρ 和 b 仍然滿(mǎn)足如下關(guān)系：

下面就來(lái)畫(huà)圖比較一下 WLS 回歸和上一節(jié) OLS 回歸的結(jié)果。對(duì)于這兩組收益率序列，OLS 回歸的結(jié)果相同。但從選股的角度，我們知道如果因子對(duì)應(yīng)的是第一組收益率，則該因子遠(yuǎn)比其對(duì)應(yīng)第二組收益率有效。但是 OLS 回歸（和普通的 IC）無(wú)法體現(xiàn)這一點(diǎn)。而采用改進(jìn)的 WLS（以及 weighted IC）來(lái)衡量的話(huà)，如果因子產(chǎn)生了第一組收益率序列，則它的 WLS 回歸斜率為 0.01（大于 OLS 的斜率 0.0058）；如果因子產(chǎn)生了第二組收益率序列，則它的 WLS 回歸斜率僅為 0.0017（小于 OLS 的斜率）。這說(shuō)明通過(guò)使用基于因子業(yè)務(wù)規(guī)則的權(quán)重系數(shù)，WLS 比 OLS 更能判斷因子和收益率之間的關(guān)系。

4 結(jié)語(yǔ)

在我上統(tǒng)計(jì)課的時(shí)候，教授總是反復(fù)強(qiáng)調(diào)，拿來(lái)數(shù)據(jù)先畫(huà)出來(lái)看一看。我們之所以能夠相信統(tǒng)計(jì)量，是以搞清楚了數(shù)據(jù)內(nèi)在的結(jié)構(gòu)、形態(tài)為前提的。如果沒(méi)有這個(gè)前提，盲目的相信統(tǒng)計(jì)量就會(huì)導(dǎo)致錯(cuò)誤的判斷。金融數(shù)據(jù)已經(jīng)信噪比極低了，我們當(dāng)然不希望因?yàn)樽约菏褂貌划?dāng)再加入不必要的噪聲。

很多時(shí)候數(shù)據(jù)關(guān)系越復(fù)雜，統(tǒng)計(jì)量傳遞出來(lái)的信息可能越失真。

2017 年，來(lái)自 Autodesk Research 的 Matejka 和? Fitzmaurice 構(gòu)建了當(dāng)代版的“安斯庫(kù)姆四重奏”（Matejka and Fitzmaurice 2017）。他們用計(jì)算機(jī)算法可以生成 x 均值、y 均值、x 標(biāo)準(zhǔn)差、y 標(biāo)準(zhǔn)差、以及 x 和 y 相關(guān)系數(shù)相同的復(fù)雜數(shù)據(jù)集。比如下圖中的 12 個(gè)完全不同的數(shù)據(jù)集就在上述五個(gè)統(tǒng)計(jì)量中取值完全一致 —— x 均值 54.26，y 均值 47.83，x 標(biāo)準(zhǔn)差 16.76，y 標(biāo)準(zhǔn)差 26.93，x 和 y 相關(guān)系數(shù) -0.06。

先別忙著驚訝，上述這些數(shù)據(jù)集都是由下面這張恐龍數(shù)據(jù)集（也有同樣的統(tǒng)計(jì)量）構(gòu)建來(lái)的！

有的朋友也許會(huì)說(shuō)，IC 不夠，再引入更多的統(tǒng)計(jì)量就行了。我們當(dāng)然可以計(jì)算更高階矩的統(tǒng)計(jì)量，但是因?yàn)閿?shù)據(jù)的信噪比極低，這些樣本數(shù)據(jù)計(jì)算出來(lái)的高階統(tǒng)計(jì)量也存在大量誤差。本文提出的改進(jìn)方法屬于從因子和收益率之間的內(nèi)在邏輯出發(fā) —— 比如分檔構(gòu)建組合、或者給不同的權(quán)重。這些都是以?xún)?nèi)在的邏輯為先驗(yàn)，以期更好的判斷因子的選股能力。如果你在使用 IC 或者 Rank IC（以及 IR）來(lái)動(dòng)態(tài)的評(píng)價(jià)、配置因子，那么本文希望能引發(fā)你的思考。在評(píng)價(jià)因子選股效果的道路上，我們也許還有很長(zhǎng)的路要走。

參考文獻(xiàn)

Matejka, J. and G. Fitzmaurice (2017). Same Stats, Different Graphs: Generating Datasets with Varied Appearance and Identical Statistics through Simulated Annealing. CHI 2017 Conference proceedings: ACM SIGCHI Conference on Human Factors in Computing Systems.

免責(zé)聲明：入市有風(fēng)險(xiǎn)，投資需謹(jǐn)慎。在任何情況下，本文的內(nèi)容、信息及數(shù)據(jù)或所表述的意見(jiàn)并不構(gòu)成對(duì)任何人的投資建議。在任何情況下，本文作者及所屬機(jī)構(gòu)不對(duì)任何人因使用本文的任何內(nèi)容所引致的任何損失負(fù)任何責(zé)任。除特別說(shuō)明外，文中圖表均直接或間接來(lái)自于相應(yīng)論文，僅為介紹之用，版權(quán)歸原作者和期刊所有。

在线看片免费人成视久网,无码日本被黑人强伦姧视频 ,中日产幕无线码一区,无码精品av久久久免费

合格投資者聲明

用 IC 評(píng)價(jià)因子效果靠譜嗎？