在线看片免费人成视久网,无码日本被黑人强伦姧视频 ,中日产幕无线码一区,无码精品av久久久免费

用 Quantile Regression 分析變量相關(guān)性

發(fā)布時(shí)間:2017-11-20  |   來源: 川總寫量化

作者:石川

摘要:分位數(shù)回歸根據(jù)自變量求出因變量的條件分位數(shù),可以全面地分析變量之間的關(guān)系。它在量化投資中的應(yīng)用廣泛。


1 分位數(shù)和分位數(shù)回歸


分位數(shù)(quantile)是概率中的一個(gè)概念。對(duì)一個(gè)隨機(jī)變量 X 和任意一個(gè) 0 到 1 之間的數(shù) τ,如果 X 的取值 x 滿足 prob(X ≤ x) = τ,那么 x 就是 X 的 τ 分位數(shù)。換句話說,τ 分位數(shù)說明:如果我們按該隨機(jī)變量的分布產(chǎn)生足夠多的樣本點(diǎn),那么在這些樣本點(diǎn)的取值中,有 τ × 100% 個(gè)小于該分位數(shù);有 (1 - τ) × 100% 個(gè)大于該分位數(shù)。最常見的分位數(shù)非中位數(shù)(median)莫屬,它是 50% 分位數(shù) —— 在 X 的分布中,有一半比中位數(shù)小,一半比中位數(shù)大。


也許你仍覺著上面的定義抽象,但是你對(duì)下面的兒童成長圖(child growth chart)一定不陌生。它給出了兒童(這個(gè)表中是男孩)在不同年齡時(shí)身高和體重的不同分位數(shù)(3%、10%、25%、50%、75%、90% 以及 97%)曲線,這有助于兒醫(yī)和父母判斷寶寶成長過程中發(fā)育是否正常。如果一個(gè)娃的體重落在 90% 分位線上,說明他的體重比同齡的 90% 的小伙伴要高;如果一個(gè)娃的身高或體重在表外了(off the chart),那多半就說明他營養(yǎng)不良或過剩了。分位數(shù)在生活中作用很大。


f1.png


上面這個(gè)圖說明兩點(diǎn):


1. 隨著年齡的增加,低分位數(shù)和高分位數(shù)之間的間隔越來越大;


2. 年齡變量的單位增量對(duì)身高(或體重)分布的右側(cè)(高分位數(shù)部分)的影響大于其對(duì)身高(或體重)分布的左側(cè)(低分位數(shù)數(shù)的部分)。


顯然,這兩點(diǎn)向我們展示了身高(或體重)與年齡在整個(gè)分布上的一些關(guān)系。試想一下,如果我們僅有年齡和平均身高(平均體重)的關(guān)系,我們是無法得到上面兩點(diǎn)結(jié)論的。分位數(shù)定量描述了中心趨勢(shì)和統(tǒng)計(jì)離散度,這有助于更我們?nèi)娴胤治鲎兞恐g的關(guān)系。


如何得到如上圖中的分位數(shù)曲線呢?答案是分位數(shù)回歸(quantile regression)。分位數(shù)回歸由 Koenker and Bassett, Jr. (1978) 提出,是一種回歸分析。在傳統(tǒng)回歸中,我們構(gòu)建回歸模型由自變量求出因變量的條件期望;而在分位數(shù)回歸中,我們構(gòu)建回歸模型由自變量求出因變量的條件分位數(shù)。


近年來,分位數(shù)回歸在計(jì)量經(jīng)濟(jì)學(xué)中的應(yīng)用越來越廣泛。利用分位數(shù)回歸,Saastamoinen (2008) 研究了芬蘭市場(chǎng)中的羊群效應(yīng);Alagidede and Panagiotidis (2012) 討論了通貨膨脹和股票收益率之間的關(guān)系;Badshah (2012) 分析了美股中恐慌指數(shù)(VIX)和收益率分布之間的不對(duì)稱性。本文簡(jiǎn)要介紹分位數(shù)回歸,并通過一個(gè)簡(jiǎn)單的例子說明它在量化投資中的潛在作用。


2 最優(yōu)化視角下求解均值和中位數(shù)


讓我們先把回歸問題放在一邊,僅僅考慮一個(gè)隨機(jī)變量 Y 的一組樣本 {y1, y2, …, yn}。在本節(jié)中,我們從求解最優(yōu)化問題的角度說明如何求出樣本均值和中位數(shù)。這對(duì)于后面介紹分位數(shù)回歸很有幫助。


我們都知道,這組樣本的均值就是這 n 個(gè)數(shù)的平均值。從最優(yōu)化的角度來說,該樣本均值正是下列最小化殘差平方和問題的解:


f2.png


最優(yōu)的 μ 應(yīng)滿足 df/dμ = 0。經(jīng)過簡(jiǎn)單的推導(dǎo)不難看出,最小化殘差平方和(即我們常說的最小二乘法)得到的解就是樣本均值


f3.png


與之類似的,最小化殘差絕對(duì)值之和的解就是樣本的中位數(shù)(這里的殘差是樣本點(diǎn)相對(duì)于中位數(shù)而言的),即這組樣本的樣本中位數(shù) M 是如下最優(yōu)化問題的解:


f4.png


對(duì) M 求導(dǎo)得:


f5.png


可見,df/dM 等于 0 的必要條件是 s = n - s,其中 s 是小于 M 的樣本點(diǎn)的個(gè)數(shù),而 n - s 是大于 M 的樣本點(diǎn)的個(gè)數(shù)。這意味著 M 的取值滿足在其兩側(cè)的樣本點(diǎn)個(gè)數(shù)相同,即 M 是中位數(shù)。


來看一個(gè)例子。假設(shè)隨機(jī)變量 Y 的一組樣本是 1 到 9 這 9 個(gè)數(shù)。按照上述最優(yōu)化的思路,我們想找到 M 使得目標(biāo)方程 f = Σi|yi - M| 最小。在 1 到 9 內(nèi)遍歷 M 并求出 f 對(duì)應(yīng)的值有:


f6.png


可見,當(dāng) M = 5 時(shí) f 的取值最小,因此這組樣本的中位數(shù)為 5。現(xiàn)在我們已經(jīng)知道如何從求解最優(yōu)化問題的角度找到樣本的均值和中位數(shù)(一個(gè)特殊的分位數(shù) —— 50% 分位數(shù)),接下來就來看看如何將這個(gè)思路推廣到分位數(shù)回歸上。


3 分位數(shù)回歸


推廣上一節(jié)的最優(yōu)化思路引出分位數(shù)回歸十分簡(jiǎn)單,僅需要兩步走。


第一步:引入回歸問題。在上一節(jié)中,為了簡(jiǎn)化討論,我們考慮的是隨機(jī)變量 Y 自身。在(線性)回歸問題中,我們關(guān)注的是因變量 Y 和某些自變量 X 之間的(線性)關(guān)系。(這里,X 可以代表一個(gè)自變量或者多個(gè)自變量組成的向量。下文中為了簡(jiǎn)化討論,假設(shè)自變量只有一個(gè)。)對(duì)于均值來說,我們將上一節(jié)中的標(biāo)量 μ 變成自變量 X 的線性方程 μ(X, β) —— 其中 β 是 X 的系數(shù),并將最優(yōu)化問題轉(zhuǎn)化為(在這個(gè)問題中,求解的對(duì)象是 X 的系數(shù) β):


f7.png


求解得到 β 后,線性方程 μ(X, β) 就是因變量 Y 的條件期望方程 E[Y|X]。我們熟悉的求解線性回歸的最小二乘法正是如此找到 Y 和 X 的關(guān)系的,它得到的 Y 和 X 之間的關(guān)系正是 E[Y|X]。


對(duì)于中位數(shù)也可以做相同的推演。令上一節(jié)中的標(biāo)量 M 變?yōu)樽宰兞康木€性方程 ξ(X, β)。因此該最優(yōu)化問題轉(zhuǎn)化為:


f8.png


求解得到 β 后,線性方程 ξ(X, β) 就是因變量 Y 的條件中位數(shù)方程。


第二步:將中位數(shù)推廣到一般分位數(shù)。在所有分位數(shù)中間,中位數(shù) —— 又稱 50% 分位數(shù) —— 比較特殊是在于在求解最優(yōu)化問題中,其兩側(cè)樣本點(diǎn)的殘差是等權(quán)重的。把上述最小化殘差絕對(duì)值的問題推廣到一般的 τ 分位數(shù)時(shí),只需把 τ 分位數(shù)兩側(cè)的殘差賦予不同的權(quán)重即可。具體的,對(duì)于 τ 分位數(shù)左側(cè)樣本點(diǎn)的殘差,賦予它們 1 - τ 的權(quán)重;對(duì)于 τ 分位數(shù)右側(cè)樣本點(diǎn)的殘差,賦予它們 τ 的權(quán)重。最優(yōu)化問題由此變?yōu)椋ㄇ蠼獾膶?duì)象為 τ 分位數(shù)對(duì)應(yīng)的系數(shù) β,記為 β_τ):


f9.png


使用線性規(guī)劃求解這個(gè)最優(yōu)化問題,得到最優(yōu)解 β_τ 后,線性方程 ξ(X, β_τ) 就是因變量 Y 的條件 τ 分位數(shù)方程。對(duì)于不同的 τ 的取值(如 5%、10%、15%、……、85%、90%、95%),只需要對(duì)每個(gè) τ 分別求解上述最優(yōu)化問題,就可以得到 Y 的不同條件 τ 分位數(shù)方程。


值得一提的是,如果我們僅有一個(gè)自變量 X,并用它來對(duì) Y 進(jìn)行分位數(shù)回歸,那么任何一個(gè) τ 分位數(shù)回歸方程都是一條直線(有截距項(xiàng)、斜率為 β_τ)。但是在第一節(jié)的兒童成長圖中,身高(體重)的條件 τ 分位數(shù)方程隨年齡的變化明顯不是直線。這是因?yàn)樵跇?gòu)建成長曲線時(shí),通常對(duì)年齡先進(jìn)行了某種非線性變化以更好的反應(yīng)它和兒童的成長的關(guān)系。從分位數(shù)回歸的角度,我們做的依然是線性回歸,只不過這時(shí)自變量已經(jīng)從身高變成了身高的某個(gè)非線性函數(shù)而已。在下文的第 4、5 節(jié)我們考慮兩個(gè)例子,在這兩個(gè)例子中我們都不會(huì)對(duì)自變量進(jìn)行任何變換。因此這兩個(gè)例子中的條件 τ 分位數(shù)方程都是線性的。


4 收入和食物消費(fèi)支出的關(guān)系


先看一個(gè)生活中的例子。Engel (1857) 研究了家庭收入和家庭食物消費(fèi)支出之間的關(guān)系。對(duì)該數(shù)據(jù)同時(shí)進(jìn)行最小二乘法回歸(得到條件均值的方程)和分位數(shù)回歸(得到 10 個(gè)條件 τ 分位數(shù)方程,τ 的取值為 5%,15%,……,95%)如下圖所示。


f10.png


從這個(gè)圖中可以觀察到以下結(jié)論:


1. 食物消費(fèi)支出隨收入而增加;


2. 食物消費(fèi)的分布隨收入增加變得越來越寬(高分位數(shù)和低分位數(shù)之間的間隔越來越大);


3. 最小二乘法回歸對(duì)于低收入對(duì)應(yīng)的觀測(cè)點(diǎn)的擬合度較差;從圖中可見,最小二乘法的紅色曲線處于很多低收入觀測(cè)點(diǎn)之上。


上述分位數(shù)回歸的結(jié)果說明,在食物消費(fèi)支出分布的不同位置(不同分位數(shù)),家庭收入對(duì)其的影響是不同的。下圖展示了這一點(diǎn)。圖中橫坐標(biāo)為食物消費(fèi)支出的分位數(shù),縱坐標(biāo)為不同分位數(shù)回歸的系數(shù) β_τ,它表示一個(gè)單位的家庭收入變化帶來多大的食物消費(fèi)支出。對(duì)于最小二乘法(紅色)來說,它假設(shè)收入對(duì)食物消費(fèi)支出的影響在整個(gè)分布上是恒定的;但是分位數(shù)回歸(黑色)正好得到不同的結(jié)論。顯然,分位數(shù)回歸提供了收入和食物支出之間更為豐富的關(guān)系。


f11.png


5 分位數(shù)回歸在量化投資中的例子


最后通過一個(gè)簡(jiǎn)單的例子介紹分位數(shù)回歸在量化投資中的應(yīng)用。具體的,我們關(guān)注風(fēng)險(xiǎn)和收益之間的關(guān)系。為此,需要給風(fēng)險(xiǎn)和收益各找一個(gè)代理指標(biāo)。以上證指數(shù)(2005 年 1 月 1 日至 2017 年 7 月 31 日)為例,風(fēng)險(xiǎn)的代理指標(biāo)為每周已實(shí)現(xiàn)波動(dòng)率(日頻收益率的平方和)的變化率,記為 ΔVol;收益的代理指標(biāo)為周收益率的絕對(duì)值,記為 |Rm|。對(duì)該數(shù)據(jù)同時(shí)進(jìn)行最小二乘法回歸和分位數(shù)回歸如下圖所示。


f12.png


可見,對(duì)于 ΔVol 的不同分位數(shù),|Rm| 對(duì)其的影響不同。下圖是 τ 和系數(shù) β_τ 的關(guān)系。當(dāng) ΔVol 處于低分位數(shù)通常意味著市場(chǎng)一般比較平穩(wěn),因此周波動(dòng)率也比較穩(wěn)定、ΔVol 較小。這時(shí)收益率的單位變化對(duì) ΔVol 的影響為負(fù),有助于進(jìn)一步維持平穩(wěn)的市場(chǎng)狀態(tài)。當(dāng) ΔVol 處于高分位數(shù)通常意味著市場(chǎng)一般比較震蕩,因此周波動(dòng)率變化劇烈、ΔVol 較大。這時(shí)收益率的單位變化對(duì) ΔVol 的影響為正,即它會(huì)進(jìn)一步加劇市場(chǎng)的波動(dòng)。


f13.png


6 結(jié)語


對(duì)于金融投資中的很多變量,比如收益率,我們往往更關(guān)心它在分布尾部的特性。在這方面,分位數(shù)回歸是一個(gè)有力的工具,它讓我們研究收益率和不同的解釋變量在全分布上的相關(guān)性。當(dāng)變量的分布明顯偏離正態(tài)分布或者存在異常值(outliers)時(shí),傳統(tǒng)的最小二乘法回歸就不那么有效了。然而分位數(shù)回歸不受這些弊端的影響。此外,分位數(shù)回歸滿足單調(diào)變換不變性(invariant to monotonic transformations)。對(duì)于隨機(jī)變量 Y 和它的單調(diào)變換 h(Y) —— 比如 log(Y),h(Y) 的分位數(shù)正好是 h(Q_τ(Y)),即對(duì) Y 的分位數(shù) Q_τ(Y) 直接做同樣的變換;而均值并不滿足類似的性質(zhì),即 E[h(Y)] ≠ h(E[Y])。投資品收益率的分布以不滿足正態(tài)性并存在很多異常值而聞名,因此上述優(yōu)點(diǎn)使分位數(shù)回歸在分析收益率時(shí)有著廣闊的前景。



參考文獻(xiàn)

Alagidede, P. and T. Panagiotidis (2012). Stock returns and Inflation: Evidence from Quantile Regressions.?Discussion Paper Series, Department of Economics, University of Macedonia.

Badshah, I. U. (2012). Quantile regression analysis of the asymmetric return-volatility relation. Journal of Futures Markets 33(3), 235 – 265.

Engel, E. (1857). Die Produktions- und Konsumptionverhaltnisse des Konigreichs Sachsen. Reprinted in “Die Lebenkosten Belgischer Arbeiter-Familien Fruher und Jetzt.” International Statistical Institute Bulletin 9, 1 – 125.

Koenker, R. and G. Bassett, Jr. (1978). Regression Quantiles. Econometrica 46(1), 33 – 50.

Saastamoinen, J. (2008). Quantile regression analysis of dispersion of stock returns – evidence of herding? Working paper, Joensuun yliopisto, Taloustieteet.



免責(zé)聲明:入市有風(fēng)險(xiǎn),投資需謹(jǐn)慎。在任何情況下,本文的內(nèi)容、信息及數(shù)據(jù)或所表述的意見并不構(gòu)成對(duì)任何人的投資建議。在任何情況下,本文作者及所屬機(jī)構(gòu)不對(duì)任何人因使用本文的任何內(nèi)容所引致的任何損失負(fù)任何責(zé)任。除特別說明外,文中圖表均直接或間接來自于相應(yīng)論文,僅為介紹之用,版權(quán)歸原作者和期刊所有。