第 8 章 動態追蹤資料模型
時間序列的動態是出現自我落後項(AR, autoregressive terms),在典型的時間序列模型中,一般這不會有問題。但是,在panel data就會有漸進性質不完美的問題,我們也稱為動態追蹤資料(dynamic panel data, 後簡稱DPD)。本章對這個問題,簡單說明如下,許多進階的理論問題,可見參考文獻。
8.1 原理
一個簡單的DPD迴歸方程式如下
\[ \tag{8.1} {{y}_{it}}=\beta {{y}_{i,t-1}}+{{\mu }_{i}}+{{\varepsilon }_{it}} \]
在純時間序列動態模型時,\(y_{t-1}\) 可視為stochastic regressor,雖然建立在T的估計式非不偏(not unbiased),但當 \(T \to {\infty}\) 時仍是一致(consistent)的。(此點和Exogenous stochastic regressors xt-1的情形略有出入)
DPD的問題是這樣:當依變數 \(y_{it}\) 是個別效果 \(\mu_{i}\)的函數,被解釋變數的落後期 \(y_{it-1}\)也是 \(\mu_{i}\) 的函數;甚至殘差在無序列相關之時,此相關性依然存在。在標準panel data 時,因 \(T\) 往往不大,又panel data估計式的漸進性質是建立在\(N \to {\infty}\) ,不是\(T \to {\infty}\) 。故LSDV和GLS皆是biased 及inconsistent.固定效果下的\([\beta, \sigma]\)估計,可視為 \(N\) 個個別估計式的平均。因此,\(N\) 個 inconsistent 的估計式之平均,依然是 inconsistent。
隨機效果模型下的估計問題,更是明顯。因為落後期 \(y_{it-1}\)和複合殘差\((\mu_{i} + \varepsilon_{it})\) 產生更複雜的相關性,且每個隨機效果項 \(\mu_i\) 均進入群 \(i\) 的每個觀察值。
前述的問題意味動態追蹤資料的估計必須用其他方法,文獻上利用 Arellano and Bond (1991) 和 Arellano and Bover (1995) 的做法,在 Hansen (1982) 的GMM 架構之下,處理動態工具變數。方法來克服動態模型估計所面臨的問題。理論細節不談太多,我們簡述最常使用的2-step Arellano-Bond GMM估計式,這個方法利用同步落後Eq.(8.1),再差分移除橫斷面效果。
\[
\tag{8.2}
{{y}_{it-1}}=\beta{{y}_{i,t-2}}+{{\mu }_{i}}+{{\varepsilon }_{it-1}}
\]
Eqs.(8.1)和(8.2)相減,如下:
\[ {{y}_{it}}-{{y}_{i,t-1}}=\beta ({{y}_{i,t-1}}-{{y}_{i,t-2}})+({{\varepsilon }_{it}}-{{\varepsilon }_{i,t-1}}) \]
\(E(\Delta {{\varepsilon }_{i}}\Delta {{{\varepsilon }'}_{i}})=\sigma _{\varepsilon }^{2}({{\mathbf{I}}_{\mathbf{N}}}\otimes \mathbf{G})\) 且\(\Delta {{{\varepsilon }'}_{i}}=({{\varepsilon }_{i3}}-{{\varepsilon }_{i2}},\ldots ,{{\varepsilon }_{iT}}-{{\varepsilon }_{i,T-1}})\)
上式
\[ \tag{8.3} G=\left[ \begin{matrix} 2 & -1 & 0 & \cdots & 0 & 0 & 0 \\ -1 & 2 & -1 & \cdots & 0 & 0 & 0 \\ \vdots & \vdots & \vdots & \ddots & \vdots & \vdots & \vdots \\ 0 & 0 & 0 & \cdots & -1 & 2 & -1 \\ 0 & 0 & 0 & \cdots & 0 & -1 & 2 \\ \end{matrix} \right] \]
G 其實就是\(E(\Delta {{\varepsilon }_{i}}\Delta {{{\varepsilon }'}_{i}})\)展開式的係數矩陣,以 \(i=1\) 為例,主對角線第1格
\[ \begin{align} & ({{\varepsilon }_{3}}-{{\varepsilon }_{2}})({{\varepsilon }_{3}}-{{\varepsilon }_{2}}) \\ & ={{\varepsilon }_{3}}{{\varepsilon }_{3}}-{{\varepsilon }_{3}}{{\varepsilon }_{2}}-{{\varepsilon }_{2}}{{\varepsilon }_{3}}+{{\varepsilon }_{2}}{{\varepsilon }_{2}} \\ & ={{\varepsilon }_{3}}{{\varepsilon }_{3}}-2{{\varepsilon }_{3}}{{\varepsilon }_{2}}+{{\varepsilon }_{2}}{{\varepsilon }_{2}} \\ \end{align} \]
對上式取期望值後,因為 \(i.i.d.\) 同質變異假設,所以,故主對角線第一格係數是2,其餘類推。每一個 \(i\) 都做這樣的處理,就成了一個依Kronecker product \(\otimes\) 展開的矩陣。
因此,利用Eq.(8.4)估計出參數,成了GMM方法的重心。
\[ \tag{8.4} (y_{it}-y_{i,t-1})=\beta (y_{i,t-1}-y_{i,t-2})+(\varepsilon_{it}- \varepsilon_{i,t-1}) \]
Arellano-Bond 對工具變數的想法如下:
\(t=3\) 是第1期觀察值:\((y_{i,3}-y_{i,2})=\beta (y_{i,2}-y_{i,1})+(\varepsilon _{i,3}-\varepsilon_{i,2})\)
對 \(t=3\) 此期觀察值而言,\(y_{i,1}\)是一個有效的工具變數,因為它和\(y_{i,2}-y_{i,1}\)很相關,卻和 \((\varepsilon_{i,3}-\varepsilon_{i,2})\) 無關。
同理在 \(t=4\) 這期觀察值:\((y_{i,4}-y_{i,3})=\beta (y_{i,3}-y_{i,2})+(\varepsilon _{i,4}-\varepsilon_{i,3})\)
對 \(t=4\) 此期觀察值而言,\(y_{i,2}\)是一個有效的工具變數,因為它和\(y_{i,3}-y_{i,2}\)很相關,卻和 \((\varepsilon_{i,4}-\varepsilon_{i,3})\) 無關。
因此,對每一個橫斷面 \(i\),都有一個有效工具變數矩陣
\[ \tag{8.5} {{Z}_{i}}=\left[ \begin{matrix} [{{y}_{i1}}] & \cdots & \cdots & 0 \\ \vdots & [{{y}_{i1,}}{{y}_{i2}}] & 0 & 0 \\ \vdots & \vdots & \ddots & 0 \\ 0 & \cdots & \cdots & [{{y}_{i1,}}{{y}_{i2}},\cdots ,{{y}_{i,T-2}}] \\ \end{matrix} \right] \]
所有的有效工具變數矩陣則為\(Z=[{{{Z}'}_{1}},{{{Z}'}_{2}},\cdots \cdots ,{{{Z}'}_{N}}{]}'\) ,GMM之動差條件為滿足下式的解:
\[
\tag{8.6}
E({{{Z}'}_{i}}\Delta {{\varepsilon }_{i}})=0
\]
則1-step Arellano-Bond GMM估計式為:
\[ \tag{8.7} \begin{align} & {{{\hat{\beta }}}_{1}}={{[(\Delta {{y}_{-1}}{)}'Z{{({Z}'({{\mathbf{I}}_{\mathbf{N}}}\otimes \mathbf{G})Z)}^{-1}}{Z}'(\Delta {{y}_{-1}})]}^{-1}} \\ & \text{ }\times [(\Delta {{y}_{-1}}{)}'Z{{({Z}'({{\mathbf{I}}_{\mathbf{N}}}\otimes \mathbf{G})Z)}^{-1}}{Z}'(\Delta y)] \\ \end{align} \]
若把 \({Z}'({{\mathbf{I}}_{\mathbf{N}}}\otimes \mathbf{G})Z\) 以 \({{\mathbf{V}}_{\mathbf{N}}}=\sum\limits_{i=1}^{N}{{{{{Z}'}}_{i}}}(\Delta {{\varepsilon }_{i}})(\Delta {{\varepsilon }_{i}}{)}'{{Z}_{i}}\)替代,所得到的估計式就是 2-step Arellano-Bond GMM估計式:
\[ \tag{8.8} {{\hat{\beta }}_{2}}={{[(\Delta {{y}_{-1}}{)}'Z\mathbf{\hat{V}}_{\mathbf{N}}^{-\mathbf{1}}{Z}'(\Delta {{y}_{-1}})]}^{-1}}[(\Delta {{y}_{-1}}{)}'Z\mathbf{\hat{V}}_{\mathbf{N}}^{-\mathbf{1}}{Z}'(\Delta y)] \]
Eq.(8.8)中
\[ \tag{8.9} Var({{\hat{\beta }}_{2}})={{[(\Delta {{y}_{-1}}{)}'Z\mathbf{\hat{V}}_{\mathbf{N}}^{-\mathbf{1}}{Z}'(\Delta {{y}_{-1}})]}^{-1}} \]
最後,當然還有工具變數有效性檢定,也就是 Sargan (1958) 的Sargan test。
Arellano and Bond (1991) 建議的Sargan檢定如下:
\[ \tag{8.10} m=\Delta {\hat{\eta }}'{{[\sum\limits_{i=1}^{N}{{{{{W}'}}_{i}}(\Delta \hat{\eta })(\Delta {\hat{\eta }}'){{W}_{i}}}]}^{-1}}{{{W}'}_{i}}(\Delta \hat{\eta })\sim\chi _{p-K-1}^{2} \]
\(\eta\) 是 Arellano and Bond (1991) 兩步驟估計式的殘差,也就執行Eq.(8.8)所得到的殘差。
另外, Blundell and Bond (1998) 提出的system GMM估計式,有著比前述Arellano-Bond兩階段估計法有著更好的表現。Blundell-Bond system GMM原理並不複雜。他的system(系統)指的是工具變數有兩組:第一組就是Arellano-Bond兩階段用的原始資料水準值;第二組就是原始資料的落後項的差分值。Blundell-Bond 的想法是使用system GMM去處理這兩組動態工具變數,這樣的話,同時也考慮了差分後的定態性質。Blundell-Bond system GMM優於Arellano-Bond兩階段的地方在於,system GMM在時間序列不長時,表現比Arellano-Bond兩階段估計法好的多。因為當時間序列不長,Arellano-Bond兩階段使用的工具變數的性質就會變弱。
8.2 R Lab
動態時使用GMM關鍵是工具變數和處理方式。工具變數分兩類:GMM型和標準型。GMM型是如同前述之Z矩陣,經由一期一期不斷增加,所以是動態擴張;標準型則類同2SLS內的工具變數。
最後宣告工具變數。動態Panel Data的GMM估計式,不同的估計法,給予不同的工具變數生成方式,如果選2SLS,則沒有動態生成法。動態生成法如果沒有限制特定落後期時,會生成極多。Dynamic GMM的工具變數,必須瞭解理論對工具變數的說明,方能完整瞭解。
plm 的估計如下:
library(plm)
temp3=read.csv("data/employUK.csv")
myDat=pdata.frame(temp3,index=c("firm", "year"))
DPD_AB=pgmm(log(emp)~lag(log(emp),1:2)+log(wage)+log(capital)+log(output)
|lag(log(emp),c(2, 99)),
model = "twosteps",
transformation="ld",
data = myDat,
effect = "twoways")
pgmm()是DPD估計的函數,除了data=myDat和effect之前已經提過,內分三塊:
(1) 方程式:垂線分成主式和GMM工具變數框
(2) model=“twosteps” for Arellano-Bond two-step 估計式
(3) transformation=“ld” for system GMM; “d” for difference GMM
估計結果如下,我們選擇顯示robust covariance(robust = TRUE):
## Twoways effects Two-steps model System GMM
##
## Call:
## pgmm(formula = log(emp) ~ lag(log(emp), 1:2) + log(wage) + log(capital) +
## log(output) | lag(log(emp), c(2, 99)), data = myDat, effect = "twoways",
## model = "twosteps", transformation = "ld")
##
## Unbalanced Panel: n = 140, T = 7-9, N = 1031
##
## Number of Observations Used: 1362
## Residuals:
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -1.4630517 -0.0325153 0.0000000 0.0003079 0.0433629 0.9534157
##
## Coefficients:
## Estimate Std. Error z-value Pr(>|z|)
## lag(log(emp), 1:2)1 0.879305 0.151954 5.7866 7.181e-09 ***
## lag(log(emp), 1:2)2 -0.078433 0.091340 -0.8587 0.390508
## log(wage) -0.150954 0.070482 -2.1417 0.032215 *
## log(capital) 0.168390 0.059714 2.8200 0.004803 **
## log(output) 0.041213 0.099510 0.4142 0.678760
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Sargan test: chisq(35) = 44.28214 (p-value = 0.13515)
## Autocorrelation test (1): normal = -2.33624 (p-value = 0.019479)
## Autocorrelation test (2): normal = -0.1976611 (p-value = 0.84331)
## Wald test for coefficients: chisq(5) = 10798.38 (p-value = < 2.22e-16)
## Wald test for time dummies: chisq(6) = 31.21864 (p-value = 2.3025e-05)
最下方的幾個重要檢定:
(A) Sargan test檢定了「工具變數是有效的」之虛無假設,由p-value來看,應該接受此虛無假設。如過需獨立執行這個檢定,則使用下面指令
##
## Sargan test
##
## data: log(emp) ~ lag(log(emp), 1:2) + log(wage) + log(capital) + log(output) | ...
## chisq = 44.282, df = 35, p-value = 0.1352
## alternative hypothesis: overidentifying restrictions not valid
(B) Autocorrelation test (1) 和 Autocorrelation test (2) 代表了Arellanno-Bond 模型的殘差序列相關檢定。 因為Arellanno-Bond GMM的關鍵條件,是殘差無序列相關。如前所說,因為模型使然,我們只需要看AR(2),就是上述之-0.43(p-value=0.33)的結果。由之看來,GMM的效果還算蠻好的。
如果需要單獨執行檢定,可以用下面指令
##
## Arellano-Bond autocorrelation test of degree 1
##
## data: log(emp) ~ lag(log(emp), 1:2) + log(wage) + log(capital) + log(output) | ...
## normal = -2.8202, p-value = 0.004799
## alternative hypothesis: autocorrelation present
和
##
## Arellano-Bond autocorrelation test of degree 2
##
## data: log(emp) ~ lag(log(emp), 1:2) + log(wage) + log(capital) + log(output) | ...
## normal = -0.25499, p-value = 0.7987
## alternative hypothesis: autocorrelation present
如需要穩健共變數執行檢定,則使用 mtest(DPD_AB, order = 2L,vcov=vcovHC)
(C) Wald test for coefficients,是四個參數皆為0的參數顯著性結合檢定,也就是線性模式下的ANOVA F檢定。
##
## Arellano-Bond autocorrelation test of degree 1, vcov: vv
##
## data: log(emp) ~ lag(log(emp), 1:2) + log(wage) + log(capital) + log(output) | ...
## normal = -2.3362, p-value = 0.01948
## alternative hypothesis: autocorrelation present
以上檢定,均可以由 summary(DPD_AB)$sargan
,summary(DPD_AB)$m1
,summary(DPD_AB)$m2
,和summary(DPD_AB)$wald.coef
取得。