收益率到底能不能預測(模型篇)?
發(fā)布時間:2018-03-15 | 來源: 川總寫量化
作者:石川
摘要:“不要把時間序列中的長期漂移率項當成可預測性?!辟Y產(chǎn)的收益率可預測嗎?本文介紹檢驗時間序列隨機性的統(tǒng)計模型。
1 引言
不要把時間序列中的長期漂移率項當成可預測性。
這是我近期看到的頗受啟發(fā)的一句話,它出自經(jīng)濟計量學的一本經(jīng)典著作 Campbell et al. (1996)。在量化投資領域,人們較勁腦汁兒想要分析、預測收益率這個時間序列。從時間序列分析到各種機器學習算法,越來越復雜的非線性模型都被拿來,對著收益率序列就是一通比劃,就是為了提高對未來收益率預測的準確性。
但是,可能人們都忽視了一個核心的問題:收益率到底可預測嗎?學術界和業(yè)界比較主流的看法是,資產(chǎn)的價格可以由隨機游走(random walk)過程來描述,這對應的是收益率無法預測。當然,如果價格是純粹的隨機游走,那我們也不需要開發(fā)各種復雜的數(shù)學模型了,就每天扔硬幣、猜漲跌就行了。但是,這不妨礙隨機游走成為研究價格和收益率序列的一個很好的出發(fā)點。
談及隨機游走,人們第一個想到的大概是布朗運動(見《寫給你的金融時間序列分析:初級篇》或《布朗運動、伊藤引理、BS 公式(前篇)》)。由于要求不重疊但等長的時間區(qū)間內(nèi)的過程增量(對數(shù)價格的增量就是對數(shù)收益率)符合 IID 分布(獨立且同分布),布朗運動這個版本的隨機游走的局限性非常強。因此在這個版本的基礎上,人們又提出了另外兩個版本。算上布朗運動,一共有三個版本,它們的定義如下:
隨機游走模型一:假設不同期的(對數(shù))收益率之間滿足 IID 分布。
隨機游走模型二:假設不同期的(對數(shù))收益率之間滿足獨立分布,但可以是不同的分布。
隨機游走模型三:假設不同期的(對數(shù))收益率之間滿足線性相關性為零(但可以在更高階上非獨立)。
模型二在模型一的基礎上,放松了同分布這個限制;而模型三更是僅假設不同的收益率之間滿足一階(線性)的獨立性,而允許收益率在高階上非獨立。我們經(jīng)常觀察到資產(chǎn)收益率的波動率聚類,這說明收益率的二階就不是獨立的,因此模型三似乎更符合現(xiàn)實。
雖然現(xiàn)實中收益率很難滿足模型一的假設,但只有先對它有個正確的理解才能更好的搞清楚后續(xù)的復雜模型。為此,我們用兩期文章來介紹相關內(nèi)容。本篇(模型篇)介紹兩種檢驗方法以判斷一個時間序列是否滿足模型一。下篇(實證篇)使用這兩個方法對A股幾大股指的對數(shù)收益率序列進行實證檢驗,并說明實證結(jié)果對于構(gòu)建量化策略有何種借鑒意義。
這兩種檢驗分別為順序和反轉(zhuǎn)檢驗以及游程檢驗。它們都是非參數(shù)化檢驗。
2 順序和反轉(zhuǎn)檢驗
為了將對檢驗方法的介紹和研究對象結(jié)合起來,假設我們考察的是資產(chǎn)的對數(shù)價格序列的隨機性。因此,它的增量就是對數(shù)收益率。我們假設對數(shù)收益率的分布是對稱的。第一種檢驗對數(shù)收益率是否為 IID 的方法是順序和反轉(zhuǎn)檢驗(sequences and reversals test),由Cowles and Jones (1937) 提出。對一個對數(shù)收益率,首先對其按如下轉(zhuǎn)換變成 0、1 序列:
其中 r_t ~ IID(0, σ^2) 和 p_t 分別為某資產(chǎn)在 t 時刻的對數(shù)收益率和對數(shù)價格。經(jīng)過上述變換后,一個收益率序列就轉(zhuǎn)化為一組由 0 和 1 組成的序列,例如 1001110101011000011010。在這樣一個序列中,任意相鄰的兩個數(shù)如果同為 0 或者同為 1,則稱它們?yōu)橐粋€順序(sequence);反之,如果任意相鄰的兩個數(shù)為 0 和 1、或者 1 和 0,則稱它們?yōu)橐粋€反轉(zhuǎn)(reversals)。根據(jù)這個定義,我們可以在上面那個序列中用紅色和綠色標出一些順序和反轉(zhuǎn)的例子:1001110101011000011010。(注意,在前面我們僅僅標出一些示例。在實際計算時,應該逐一考慮相鄰的每對數(shù)是一個順序還是一個反轉(zhuǎn)。例如在 010 這三個數(shù)中,就有 01 和 10 兩個反轉(zhuǎn)對兒、沒有順序?qū)?。?/span>
在數(shù)學上,上述定義可以轉(zhuǎn)化為如下簡單的數(shù)學公式,通過它們可以計算出一個長度為 n 的時間序列中,順序和反轉(zhuǎn)各自的總個數(shù):
其中 N_s 是順序?qū)旱膫€數(shù),N_r 是反轉(zhuǎn)對兒的個數(shù)。有了 N_s 和 N_r 之后,就可以定義待檢驗的變量了。為了向發(fā)明者致敬,稱這個檢驗量為 CJ 統(tǒng)計量,那是 N_s 和 N_r 的比值:
先來考慮最簡單的情況,即對數(shù)收益率沒有長期漂移率項(即長期均值為 0)。這當然不符合大多數(shù)實際情況,因為它意味著長期來看買入和持有某種投資品是不掙錢的(在商品期貨市場基本符合,但對于股市和債市,這個假設很難成立)。在這種情況下,如果收益率序列滿足 IID,則我們可以預期漲、跌出現(xiàn)的次數(shù)也應該基本一樣,因此這個序列中的順序和反轉(zhuǎn)對兒數(shù)也應該基本一樣。因此,如果假設漂移率項為零,則隨著序列個數(shù) n 的增大,CJ 統(tǒng)計量應該逐漸逼近 1。
然而,一旦考慮了漂移率項,一切就變了。我們不能再假設 CJ 統(tǒng)計量的極限值為 1。無論是一個正的漂移率(意味著長期來看持有該資產(chǎn)是能掙錢的)還是一個負的漂移率(意味著長期來看持有該資產(chǎn)是注定虧損的),這個非零的漂移率都將使收益率序列中順序?qū)旱膫€數(shù)多余反轉(zhuǎn)對兒的個數(shù),即 CJ 應該大于 1。為了量化非零漂移量對 CJ 統(tǒng)計量的影響,我們需要已知增量的具體分布,為此選擇正態(tài)分布。在考慮漂移率的情況下,對數(shù)價格的隨機過程可描述為:
其中 μ 是非零的漂移率。由上述定義可知,對數(shù)收益率為 r_t ~ N(μ, σ^2)。在這種情況下,經(jīng)過必要的數(shù)學推導可以證明 CJ 統(tǒng)計量應近似的滿足如下正態(tài)分布:
其中
因此,實際的檢驗可依如下步驟進行:
1. 將對數(shù)收益率序列變換為 0、1 序列;
2. 計算新序列中順序?qū)汉头崔D(zhuǎn)對兒的個數(shù) N_s 以及 N_r,計算 CJ 統(tǒng)計量;
3. 計算對數(shù)收益率序列的均值和標準差,作為 μ 和 σ 的估計;
4. 計算 π = Φ(μ/σ),這里 Φ 是標準正態(tài)分布的累積密度函數(shù);計算 π_s;
5. 計算 CJ 統(tǒng)計量應滿足的正態(tài)分布的均值和標準差;
6. 根據(jù)第 5 步中的正態(tài)分布計算 CJ 統(tǒng)計量的 p-value,以此判斷對數(shù)收益率序列是否滿足 IID。
3 游程檢驗
第二個可用于 IID 的檢驗稱為 runs test(游程檢驗,也譯作連貫檢驗),由 Mood (1940) 提出。在這個檢驗中,我們同樣先將對數(shù)收益率序列轉(zhuǎn)換成由 0 和 1 構(gòu)成的序列(0 代表負收益、1 代表正收益)。在這個新的序列中,由連續(xù)的“0”或者連續(xù)的“1”構(gòu)成的子序列稱為一個“run”。比如,在 1001110100 這個序列中,連續(xù)的“1”構(gòu)成的 runs 有 3 個(長度分別為 1,3 和 1),連續(xù)的“0”構(gòu)成的 runs 同樣為 3 個(長度分別為 2,1 和 2)。作為對比,在 0000011111 這個序列中,連續(xù)的“0”和“1”各自僅僅構(gòu)成 1 個 run。
如果一個時間序列的增量滿足 IID 且沒有非零漂移率,那么我們可以預期它的“熵最大”,即 0 和 1 雜亂的隨機出現(xiàn)、表現(xiàn)出最大的隨機性。在這種情況下,對于一個長度為 n 的序列,它的期望 runs 個數(shù)等于 (n+1)/2。比如一個由 0 和 1 構(gòu)成的長度為 1000 的時間序列,如果它是純隨機的,那么“0”和“1”構(gòu)成的 runs 的總個數(shù)的期望為 500.5。顯然,在上面的兩個例子中,那兩個序列都各有 10 個數(shù),但是第一個序列的 runs 個數(shù)為 6 而第二個序列的 runs 個數(shù)僅僅為 2;顯然第二個序列(0000011111)更不具備隨機性(它看上去也確實更有規(guī)律)。
和前一種方法一樣,我們需要警惕非零漂移率對 runs 個數(shù)的影響。由于它的存在,我們不能僅憑 runs 的個數(shù)大大偏離 (n+1)/2 就說這個序列不具備隨機性。這是因為非零漂移率會減少 runs 的個數(shù)。為了定量分析非零漂移率的影響,讓我們再次假設對數(shù)收益率 r_t 滿足 N(μ, σ^2)。在這個假設下,下表給出了當 n = 1000,σ = 21%時,不同的漂移率 μ 對應的 runs 個數(shù)的期望。不難看出,runs 個數(shù)的期望隨 μ 遞減。
為了使用 runs test 檢驗對數(shù)收益率的隨機性,構(gòu)建如下統(tǒng)計量:
其中 N_runs 是由“0”和“1”構(gòu)成的 runs 數(shù)量的總和(每個 run 的長度在這個檢驗中不重要),n 為時間序列長度,π = Φ(μ/σ)。數(shù)學上可證 z 在極限情況下近似的符合標準正態(tài)分布。因此,實際的檢驗可依如下步驟進行:
1. 將對數(shù)收益率序列變換為 0、1 序列;
2. 計算新序列中由“0”和“1”構(gòu)成的 runs 的總個數(shù),記為 N_runs;
3. 計算對數(shù)收益率序列的均值和標準差,作為 μ 和 σ 的估計;
4. 計算 π = Φ(μ/σ),這里 Φ 是標準正態(tài)分布的累積密度函數(shù);
5. 計算 z 統(tǒng)計量;
6. 計算 z 統(tǒng)計量在正態(tài)分布假設下的 p-value,以此判斷對數(shù)收益率序列是否滿足 IID。
4 一個例子
下面使用一個假想的例子來考察上文介紹的兩個檢驗方法。為此,我們使用標準正態(tài)分布產(chǎn)生一個隨機游走過程如下,序列的長度為 1000。
盡管這是一個標準的隨機游走,但局部隨機趨勢(local stochastic trend)的存在會給我們造成一種假象,即認為它是有趨勢的。使用本文介紹的兩種檢驗方法考察這個時間序列的隨機性,得到如下結(jié)果:
順序和反轉(zhuǎn)檢驗:CJ 統(tǒng)計量 = 1.064,p-value = 0.311,結(jié)論為該序列滿足隨機游走。
游程檢驗:z 統(tǒng)計量 = -0.917,p-value = 0.359,結(jié)論同樣為該序列滿足隨機游走。
雖然該序列在局部存在趨勢,但在整個時間尺度上看,它滿足隨機游走。(這當然也是必然的結(jié)果,因為這個序列就是用 IID 的標準正態(tài)分布增量產(chǎn)生的。)但我們想通過它說明的問題是,哪怕是一個隨機性很高的時間序列在其局部也會因為隨機趨勢給我們造成一種錯覺 —— 它的隨機性很弱、是可以預測的。
根據(jù)這個錯覺來構(gòu)建策略是非常危險的。這是因為任何資產(chǎn)的實際價格走勢都是某個未知分布的一個realization(實現(xiàn))而已。如果抓住這個錯覺、認為該資產(chǎn)的價格走勢有一定的預測性(即收益率有預測性),并針對它開發(fā)了一個策略,我們根本無法預期該策略在樣本外有同樣的表現(xiàn)。
由于僅有一個實現(xiàn)(過去這段時間的價格走勢只發(fā)生一遍),我們無法在統(tǒng)計上正確的評價該策略的參數(shù)對這個未知收益率分布是否有效,正如我們不知道在樣本外,隨機趨勢有多大以及它什么時候出現(xiàn)。策略在樣本外的表現(xiàn)很有可能和其在樣本內(nèi)的表現(xiàn)大相徑庭。
當然,先不用急著“過度悲觀”,畢竟上面這個例子中使用的時間序列就是一個隨機游走。在本系列的下篇(實證篇)我們會使用真實的來自 A 股指數(shù)的價格序列,分析它們的對數(shù)收益率是否存在非隨機性,以及分析結(jié)果對構(gòu)建量化策略有哪些重要的推論。
5 結(jié)語
作為系列的模型篇,本文介紹了兩種檢驗時間序列隨機性的方法。在下篇中,我們將使用這些方法分析 A 股的股指(如滬深 300 指數(shù))對數(shù)收益率的隨機性。為了和開篇的那句引用相呼應,不妨來個劇透。在大多數(shù)時間內(nèi),指數(shù)的對數(shù)收益率均滿足 IID;只有當明顯的大牛、大熊市的時候,才能觀察到統(tǒng)計上顯著的非隨機性。
無論是時間序列分析還是復雜的機器學習算法,都是為了分析收益率的殘差項(即排除了收益率中的長期漂移率、周期性等之后所剩余的部分)是否存在預測性。如果殘差滿足非隨機性,這些復雜算法自然大有可為。但是不要忘記,在大牛、大熊市中,收益率的漂移率項也顯著的不為零。那么,在一個很強的非零漂移率項面前,殘差中的非隨機性到底是“錦上添花”還是“畫蛇添足”呢(反正不是“雪中送炭”)?下篇中將給出我們的思考。
參考文獻
Campbell, J. Y., A. W. Lo, and C. MacKinlay (1996). The econometrics of financial markets. Princeton University Press.
Cowles, A. and H. E. Jones (1937). Some a posterior probabilities in stock market action. Econometrica 5, 280 – 294.
Mood, A. (1940). The distribution theory of runs. Annals of Mathematical Statistics 11, 367 – 392.
免責聲明:入市有風險,投資需謹慎。在任何情況下,本文的內(nèi)容、信息及數(shù)據(jù)或所表述的意見并不構(gòu)成對任何人的投資建議。在任何情況下,本文作者及所屬機構(gòu)不對任何人因使用本文的任何內(nèi)容所引致的任何損失負任何責任。除特別說明外,文中圖表均直接或間接來自于相應論文,僅為介紹之用,版權歸原作者和期刊所有。