在线看片免费人成视久网,无码日本被黑人强伦姧视频 ,中日产幕无线码一区,无码精品av久久久免费

用 IC 評(píng)價(jià)因子效果靠譜嗎?

發(fā)布時(shí)間:2018-08-07  |   來(lái)源: 川總寫(xiě)量化

作者:石川

摘要:傳統(tǒng)的 IC 或者 Rank IC 在評(píng)價(jià)因子選股效果時(shí)不夠合理,有一些陷阱?;?IC 進(jìn)行因子配置不十分靠譜。本文提出對(duì) IC 的一些改進(jìn),并建議使用加權(quán) IC 來(lái)評(píng)判因子效果。


1 IC 和 Rank IC


在多因子選股實(shí)務(wù)中,人們熱衷于動(dòng)態(tài)評(píng)價(jià)因子在單期截面上的選股效果。為實(shí)現(xiàn)這個(gè)目標(biāo),通常的做法是用當(dāng)期個(gè)股的因子取值(記為 x)和下一期個(gè)股的收益率(記為 y)在截面上計(jì)算信息系數(shù)(information correlation),簡(jiǎn)稱(chēng) IC。IC 的計(jì)算方法通常有兩種:x 和 y 的相關(guān)系數(shù),以及 x 和 y 的秩相關(guān)系數(shù)(見(jiàn)下圖)。第一種就是我們常說(shuō)的 IC,第二種可以稱(chēng)作 Rank IC。


f1.png


這里簡(jiǎn)單介紹下秩相關(guān)系數(shù)。相關(guān)系數(shù)(rank correlation coefficient)和相關(guān)系數(shù)類(lèi)似,不同的是它考察的是兩個(gè)隨機(jī)變量之間的單調(diào)相關(guān)性(monotonic correlation)。秩相關(guān)性對(duì)變量之間的線(xiàn)性或非線(xiàn)性相關(guān)性不做假設(shè)。在計(jì)算秩相關(guān)系數(shù)時(shí),使用的并不是觀測(cè)值本身的數(shù)值,而是它們?cè)诟髯詷颖局械呐判颉V认嚓P(guān)系數(shù)的取值在 -1 到 1 之間。在統(tǒng)計(jì)學(xué)中,有多種計(jì)算秩相關(guān)系數(shù)的方法,其中最流行的要數(shù) Spearman 秩相關(guān)系數(shù),它以?Charles Spearman?命名。假設(shè)有兩個(gè)隨機(jī)變量 x 和 y 的 n 對(duì)兒觀測(cè)值,Spearman 秩相關(guān)系數(shù) r_s 的計(jì)算過(guò)程如下:


1. 首先將 x 和 y 的觀測(cè)值轉(zhuǎn)換成它們對(duì)應(yīng)的排序 x_r 和 y_r。

2. 對(duì) x_r 和 y_r 采用傳統(tǒng)的線(xiàn)性相關(guān)系數(shù)公式,則可得到 r_s:


f2.png

?

下圖是某因子在一段時(shí)間內(nèi)的滾動(dòng) Rank IC 移動(dòng)平均,從中我們能對(duì)常見(jiàn)選股因子 IC 的取值范圍有個(gè)大概的了解。


f4.png

?

從上面的定義可知,無(wú)論使用 IC 還是 Rank IC,都希望它越大越好,越大說(shuō)明因子選股的能力越強(qiáng)(也可以越小越好,那就反過(guò)來(lái)用因子)。我們也經(jīng)常能在一些策略中看到使用 IC(或者 IR,即 IC 的均值除以標(biāo)準(zhǔn)差)的高低來(lái)動(dòng)態(tài)進(jìn)行因子的配置。上面這些用法的核心前提是 IC 能夠正確反映因子選股的能力。然而,真的是這樣嗎?如果這個(gè)核心前提不成立,那么基于 IC 的各種因子擇時(shí)、因子配置、因子打分恐怕難言靠譜。


2 IC 中的陷阱


本節(jié)通過(guò)一個(gè)假想的例子說(shuō)明 IC 和 Rank IC 計(jì)算中存在的陷阱。假設(shè)有十支股票,它們的因子取值從大到小如下表所示。此外,考慮這十支股票的兩組假想的收益率序列。


f5.png


很容易計(jì)算該因子和這兩組收益率序列的相關(guān)系數(shù)均為 0.2909。如果僅僅看 IC 這個(gè)單一指標(biāo)的話(huà),我們會(huì)認(rèn)為該因子在當(dāng)期的選股能力很不錯(cuò)。但 IC 背后還有很多故事可講。我們不妨把因子和這兩組收益率序列畫(huà)出來(lái),并各自做一條線(xiàn)性回歸線(xiàn)來(lái)看一看。令?y 代表收益率,x 代表因子,則線(xiàn)性回歸模型表達(dá)式為:


image.png


上式中斜率 b 和 x 與 y 的相關(guān)系數(shù) ρ 滿(mǎn)足如下關(guān)系:


image.png


由于這兩組收益率和因子的相關(guān)系數(shù)均為 0.2909,因此我們也以預(yù)期它們和因子的線(xiàn)性回歸斜率相同。事實(shí)上,結(jié)果也正是如此(下圖,斜率均為 0.0058):


f8.png


雖然 IC 一樣,但是畫(huà)出圖來(lái)才看到這兩組收益率序列和因子的關(guān)系大相徑庭。假設(shè)從業(yè)務(wù)邏輯來(lái)說(shuō),個(gè)股的收益率和因子呈正相關(guān),因此我們要選因子取值大的股票。但是,這個(gè)邏輯在上面兩組收益率序列中會(huì)得到截然不同的結(jié)果:對(duì)于序列一,使用最大的因子取值可以選出收益率最高的股票;而對(duì)于序列二,使用最大的因子取值卻選出了收益率相當(dāng)差的股票。面對(duì)如此結(jié)果,IC 無(wú)辜嗎?如果使用 Rank IC 代替 IC,得到的也是同樣的結(jié)論。這兩組收益率和因子的秩相關(guān)系數(shù)均等于 0.3212。從這個(gè)數(shù)字背后解讀不出任何超過(guò)這個(gè)數(shù)字本身的東西。在量化投資中,我們喜歡并追尋能夠精確計(jì)算出的數(shù)字。但這么做的前提是該數(shù)字有意義。在統(tǒng)計(jì)學(xué)家中流傳著一個(gè)說(shuō)法:


Numerical calculations are exact, but graphs are rough.


單一的統(tǒng)計(jì)量,比如上面的 IC 或者 Rank IC 卻難以體現(xiàn)出圖形反映出來(lái)的因子和收益率之間更多的關(guān)系。這說(shuō)明如果我們僅僅看中 IC,可能會(huì)步入數(shù)據(jù)的陷阱。僅關(guān)注統(tǒng)計(jì)量而忽視圖形信息本身最著名的例子當(dāng)屬安斯庫(kù)姆四重奏(Anscombe's quartet)。安斯庫(kù)姆四重奏是四組基本的統(tǒng)計(jì)特性一致的數(shù)據(jù),但由它們繪制出的圖形則截然不同。每一組數(shù)據(jù)都包括了 11 個(gè) (x, y) 點(diǎn)。這四組數(shù)據(jù)由統(tǒng)計(jì)學(xué)家弗朗西斯·安斯庫(kù)姆(Francis Anscombe)于 1973 年構(gòu)造,他的目的是用來(lái)說(shuō)明在分析數(shù)據(jù)前先繪制圖表的重要性,以及離群值對(duì)統(tǒng)計(jì)的影響之大。下圖就是這四組數(shù)據(jù)繪制出來(lái)的圖形,可見(jiàn)它們截然不同:


1. 第一組描繪了 x 和 y 之間近似的線(xiàn)性關(guān)系;


2. 第二組中 x 和 y 表現(xiàn)出了明顯的非線(xiàn)性關(guān)系;


3. 第三組中 x 和 y 之間存在線(xiàn)性關(guān)系,但由于一個(gè)明顯的 outlier 的存在改變了數(shù)據(jù)的統(tǒng)計(jì)結(jié)果;


4. 第四組 x 和 y 本來(lái)沒(méi)有線(xiàn)性關(guān)系,但由于一個(gè)顯著 outlier 的存在也使得它們“好像有線(xiàn)性關(guān)系”。


f9.png


這四組數(shù)據(jù)和它們的統(tǒng)計(jì)特征如下圖所示。這個(gè)例子完美的詮釋了統(tǒng)計(jì)量(比如本文的 IC)不能反映出數(shù)據(jù)的全部信息。更危險(xiǎn)的是,一旦它們被錯(cuò)誤解讀和使用,將會(huì)導(dǎo)致完全錯(cuò)誤的結(jié)果。


f10.png


3 改進(jìn) IC


上一節(jié)的例子是為了說(shuō)明當(dāng)使用個(gè)股的因子取值和下期收益率在截面上回歸時(shí),得到的 IC 或者 Rank IC 不能很好的反映出因子選股的效果。對(duì)于這種情況,可以考慮以下兩種改進(jìn)方法。


第一種方法是按照因子取值把個(gè)股分成 n 檔(比如十檔),然后將每一檔視作一個(gè)投資組合,計(jì)算投資組合收益率和投資組合因子在截面上的 IC 或 Rank IC。每一個(gè)投資組合中,可以按照等權(quán)或者市值加權(quán)來(lái)計(jì)算投資組合的收益率和因子取值。因子描述的是一攬子股票所共同承擔(dān)(或者暴露于的)的某一方面的系統(tǒng)性風(fēng)險(xiǎn)。使用因子選股是為了規(guī)避個(gè)股特異性收益率的風(fēng)險(xiǎn)。因此,比起個(gè)股,我們更應(yīng)該關(guān)注一攬子股票的收益率和相應(yīng)因子取值之間的相關(guān)性。這就是使用因子構(gòu)建投資組合、再計(jì)算 IC 的初衷。投資組合的收益率是一攬子股票的均值,也可以更好的消除收益率上的噪聲。


第二種方法仍然從個(gè)股收益率和因子取值的 IC 出發(fā),但是在計(jì)算時(shí)根據(jù)因子的業(yè)務(wù)邏輯(大到小、還是小到大的關(guān)系)來(lái)給 x 和 y 的取值賦權(quán),從而得到 weighted IC。由于結(jié)合了從業(yè)務(wù)邏輯出發(fā)的權(quán)重,這個(gè)加權(quán) IC 能更好的反映因子的選股能力。下面以上一節(jié)的因子取值和兩組收益率序列為例解釋這一做法。假設(shè)從業(yè)務(wù)出發(fā),因子取值越大越好。將十組 (x_i, y_i) 樣本點(diǎn)按照因子值 x 從大到小排序,并假設(shè)它們的權(quán)重按指數(shù)衰減,系數(shù)為 0.9。這十組樣本點(diǎn)的權(quán)重為:


f11.png


有了權(quán)重向量(記為 w),就可以計(jì)算 x 和 y 之間的加權(quán)均值、加權(quán)方差、加權(quán)協(xié)方差、以及加權(quán)相關(guān)系數(shù)(weighted correlation coefficient)


image.png


根據(jù)上述定義,很容易計(jì)算出因子和這兩組收益率序列的加權(quán)相關(guān)系數(shù)。它們分別為 0.4494(因子和第一組收益率序列),以及 0.0908(因子和第二組收益率序列)。從加權(quán) IC 來(lái)看,第一組的收益率序列比第二組收益率序列更能說(shuō)明因子的選股能力。同樣的,為了繪圖說(shuō)明加入權(quán)重的優(yōu)勢(shì),對(duì) x 和 y 進(jìn)行 weighted least squares 回歸(WLS)


image.png


令 X 代表系數(shù)矩陣(包括截距項(xiàng)系數(shù) 1 和 x),W 表示由權(quán)重 w_i 作為第 i 個(gè)對(duì)角元素構(gòu)成的對(duì)角矩陣,則帶權(quán)重回歸的解為:


image.png


利用線(xiàn)性代數(shù)的運(yùn)算法則,不難求出上式右側(cè)的第一項(xiàng)逆矩陣為:


image.png


回歸式中右側(cè)第二項(xiàng)為:


image.png


因此,加權(quán)回歸的系數(shù)為(其中 a 為截距,b 為斜率):


image.png


費(fèi)了半天勁寫(xiě)出了 a 和 b 的表達(dá)式(其實(shí)從求解的角度,給出矩陣形式的求解足夠了)只是想說(shuō)明下面這件事兒。如果我們比較加權(quán)相關(guān)系數(shù) ρ(x, y, w) 以及加權(quán)方差(標(biāo)準(zhǔn)差)var(x, w) 和 var(y, w),以及斜率 b,則不難發(fā)現(xiàn),和 OLS 一樣,在加權(quán)回歸中,ρ 和 b 仍然滿(mǎn)足如下關(guān)系:


image.png


下面就來(lái)畫(huà)圖比較一下 WLS 回歸和上一節(jié) OLS 回歸的結(jié)果。對(duì)于這兩組收益率序列,OLS 回歸的結(jié)果相同。但從選股的角度,我們知道如果因子對(duì)應(yīng)的是第一組收益率,則該因子遠(yuǎn)比其對(duì)應(yīng)第二組收益率有效。但是 OLS 回歸(和普通的 IC)無(wú)法體現(xiàn)這一點(diǎn)。而采用改進(jìn)的 WLS(以及 weighted IC)來(lái)衡量的話(huà),如果因子產(chǎn)生了第一組收益率序列,則它的 WLS 回歸斜率為 0.01(大于 OLS 的斜率 0.0058);如果因子產(chǎn)生了第二組收益率序列,則它的 WLS 回歸斜率僅為 0.0017(小于 OLS 的斜率)。這說(shuō)明通過(guò)使用基于因子業(yè)務(wù)規(guī)則的權(quán)重系數(shù),WLS 比 OLS 更能判斷因子和收益率之間的關(guān)系。


f19.png

4 結(jié)語(yǔ)


在我上統(tǒng)計(jì)課的時(shí)候,教授總是反復(fù)強(qiáng)調(diào),拿來(lái)數(shù)據(jù)先畫(huà)出來(lái)看一看。我們之所以能夠相信統(tǒng)計(jì)量,是以搞清楚了數(shù)據(jù)內(nèi)在的結(jié)構(gòu)、形態(tài)為前提的。如果沒(méi)有這個(gè)前提,盲目的相信統(tǒng)計(jì)量就會(huì)導(dǎo)致錯(cuò)誤的判斷。金融數(shù)據(jù)已經(jīng)信噪比極低了,我們當(dāng)然不希望因?yàn)樽约菏褂貌划?dāng)再加入不必要的噪聲。


很多時(shí)候數(shù)據(jù)關(guān)系越復(fù)雜,統(tǒng)計(jì)量傳遞出來(lái)的信息可能越失真。


2017 年,來(lái)自 Autodesk Research 的 Matejka 和? Fitzmaurice 構(gòu)建了當(dāng)代版的“安斯庫(kù)姆四重奏”(Matejka and Fitzmaurice 2017)。他們用計(jì)算機(jī)算法可以生成 x 均值、y 均值、x 標(biāo)準(zhǔn)差、y 標(biāo)準(zhǔn)差、以及 x 和 y 相關(guān)系數(shù)相同的復(fù)雜數(shù)據(jù)集。比如下圖中的 12 個(gè)完全不同的數(shù)據(jù)集就在上述五個(gè)統(tǒng)計(jì)量中取值完全一致 —— x 均值 54.26,y 均值 47.83,x 標(biāo)準(zhǔn)差 16.76,y 標(biāo)準(zhǔn)差 26.93,x 和 y 相關(guān)系數(shù) -0.06。


f20.png


先別忙著驚訝,上述這些數(shù)據(jù)集都是由下面這張恐龍數(shù)據(jù)集(也有同樣的統(tǒng)計(jì)量)構(gòu)建來(lái)的!


f21.png


f22.png


有的朋友也許會(huì)說(shuō),IC 不夠,再引入更多的統(tǒng)計(jì)量就行了。我們當(dāng)然可以計(jì)算更高階矩的統(tǒng)計(jì)量,但是因?yàn)閿?shù)據(jù)的信噪比極低,這些樣本數(shù)據(jù)計(jì)算出來(lái)的高階統(tǒng)計(jì)量也存在大量誤差。本文提出的改進(jìn)方法屬于從因子和收益率之間的內(nèi)在邏輯出發(fā) —— 比如分檔構(gòu)建組合、或者給不同的權(quán)重。這些都是以?xún)?nèi)在的邏輯為先驗(yàn),以期更好的判斷因子的選股能力。如果你在使用 IC 或者 Rank IC(以及 IR)來(lái)動(dòng)態(tài)的評(píng)價(jià)、配置因子,那么本文希望能引發(fā)你的思考。在評(píng)價(jià)因子選股效果的道路上,我們也許還有很長(zhǎng)的路要走。



參考文獻(xiàn)

Matejka, J. and G. Fitzmaurice (2017). Same Stats, Different Graphs: Generating Datasets with Varied Appearance and Identical Statistics through Simulated Annealing. CHI 2017 Conference proceedings: ACM SIGCHI Conference on Human Factors in Computing Systems.



免責(zé)聲明:入市有風(fēng)險(xiǎn),投資需謹(jǐn)慎。在任何情況下,本文的內(nèi)容、信息及數(shù)據(jù)或所表述的意見(jiàn)并不構(gòu)成對(duì)任何人的投資建議。在任何情況下,本文作者及所屬機(jī)構(gòu)不對(duì)任何人因使用本文的任何內(nèi)容所引致的任何損失負(fù)任何責(zé)任。除特別說(shuō)明外,文中圖表均直接或間接來(lái)自于相應(yīng)論文,僅為介紹之用,版權(quán)歸原作者和期刊所有。