第 8 章 動態追蹤資料模型

時間序列的動態是出現自我落後項(AR, autoregressive terms),在典型的時間序列模型中,一般這不會有問題。但是,在panel data就會有漸進性質不完美的問題,我們也稱為動態追蹤資料(dynamic panel data, 後簡稱DPD)。本章對這個問題,簡單說明如下,許多進階的理論問題,可見參考文獻。

8.1 原理

一個簡單的DPD迴歸方程式如下

\[ \tag{8.1} {{y}_{it}}=\beta {{y}_{i,t-1}}+{{\mu }_{i}}+{{\varepsilon }_{it}} \]

在純時間序列動態模型時,\(y_{t-1}\) 可視為stochastic regressor,雖然建立在T的估計式非不偏(not unbiased),但當 \(T \to {\infty}\) 時仍是一致(consistent)的。(此點和Exogenous stochastic regressors xt-1的情形略有出入)

DPD的問題是這樣:當依變數 \(y_{it}\) 是個別效果 \(\mu_{i}\)的函數,被解釋變數的落後期 \(y_{it-1}\)也是 \(\mu_{i}\) 的函數;甚至殘差在無序列相關之時,此相關性依然存在。在標準panel data 時,因 \(T\) 往往不大,又panel data估計式的漸進性質是建立在\(N \to {\infty}\) ,不是\(T \to {\infty}\) 。故LSDV和GLS皆是biased 及inconsistent.固定效果下的\([\beta, \sigma]\)估計,可視為 \(N\) 個個別估計式的平均。因此,\(N\) 個 inconsistent 的估計式之平均,依然是 inconsistent。

隨機效果模型下的估計問題,更是明顯。因為落後期 \(y_{it-1}\)和複合殘差\((\mu_{i} + \varepsilon_{it})\) 產生更複雜的相關性,且每個隨機效果項 \(\mu_i\) 均進入群 \(i\) 的每個觀察值。
前述的問題意味動態追蹤資料的估計必須用其他方法,文獻上利用 Arellano and Bond (1991)Arellano and Bover (1995) 的做法,在 Hansen (1982) 的GMM 架構之下,處理動態工具變數。方法來克服動態模型估計所面臨的問題。理論細節不談太多,我們簡述最常使用的2-step Arellano-Bond GMM估計式,這個方法利用同步落後Eq.(8.1),再差分移除橫斷面效果。

\[ \tag{8.2} {{y}_{it-1}}=\beta{{y}_{i,t-2}}+{{\mu }_{i}}+{{\varepsilon }_{it-1}} \] Eqs.(8.1)和(8.2)相減,如下:

\[ {{y}_{it}}-{{y}_{i,t-1}}=\beta ({{y}_{i,t-1}}-{{y}_{i,t-2}})+({{\varepsilon }_{it}}-{{\varepsilon }_{i,t-1}}) \]

\(E(\Delta {{\varepsilon }_{i}}\Delta {{{\varepsilon }'}_{i}})=\sigma _{\varepsilon }^{2}({{\mathbf{I}}_{\mathbf{N}}}\otimes \mathbf{G})\)\(\Delta {{{\varepsilon }'}_{i}}=({{\varepsilon }_{i3}}-{{\varepsilon }_{i2}},\ldots ,{{\varepsilon }_{iT}}-{{\varepsilon }_{i,T-1}})\)

上式

\[ \tag{8.3} G=\left[ \begin{matrix} 2 & -1 & 0 & \cdots & 0 & 0 & 0 \\ -1 & 2 & -1 & \cdots & 0 & 0 & 0 \\ \vdots & \vdots & \vdots & \ddots & \vdots & \vdots & \vdots \\ 0 & 0 & 0 & \cdots & -1 & 2 & -1 \\ 0 & 0 & 0 & \cdots & 0 & -1 & 2 \\ \end{matrix} \right] \]

G 其實就是\(E(\Delta {{\varepsilon }_{i}}\Delta {{{\varepsilon }'}_{i}})\)展開式的係數矩陣,以 \(i=1\) 為例,主對角線第1格

\[ \begin{align} & ({{\varepsilon }_{3}}-{{\varepsilon }_{2}})({{\varepsilon }_{3}}-{{\varepsilon }_{2}}) \\ & ={{\varepsilon }_{3}}{{\varepsilon }_{3}}-{{\varepsilon }_{3}}{{\varepsilon }_{2}}-{{\varepsilon }_{2}}{{\varepsilon }_{3}}+{{\varepsilon }_{2}}{{\varepsilon }_{2}} \\ & ={{\varepsilon }_{3}}{{\varepsilon }_{3}}-2{{\varepsilon }_{3}}{{\varepsilon }_{2}}+{{\varepsilon }_{2}}{{\varepsilon }_{2}} \\ \end{align} \]

對上式取期望值後,因為 \(i.i.d.\) 同質變異假設,所以,故主對角線第一格係數是2,其餘類推。每一個 \(i\) 都做這樣的處理,就成了一個依Kronecker product \(\otimes\) 展開的矩陣。

因此,利用Eq.(8.4)估計出參數,成了GMM方法的重心。

\[ \tag{8.4} (y_{it}-y_{i,t-1})=\beta (y_{i,t-1}-y_{i,t-2})+(\varepsilon_{it}- \varepsilon_{i,t-1}) \]

Arellano-Bond 對工具變數的想法如下:

\(t=3\) 是第1期觀察值:\((y_{i,3}-y_{i,2})=\beta (y_{i,2}-y_{i,1})+(\varepsilon _{i,3}-\varepsilon_{i,2})\)

\(t=3\) 此期觀察值而言,\(y_{i,1}\)是一個有效的工具變數,因為它和\(y_{i,2}-y_{i,1}\)很相關,卻和 \((\varepsilon_{i,3}-\varepsilon_{i,2})\) 無關。

同理在 \(t=4\) 這期觀察值:\((y_{i,4}-y_{i,3})=\beta (y_{i,3}-y_{i,2})+(\varepsilon _{i,4}-\varepsilon_{i,3})\)

\(t=4\) 此期觀察值而言,\(y_{i,2}\)是一個有效的工具變數,因為它和\(y_{i,3}-y_{i,2}\)很相關,卻和 \((\varepsilon_{i,4}-\varepsilon_{i,3})\) 無關。

因此,對每一個橫斷面 \(i\),都有一個有效工具變數矩陣

\[ \tag{8.5} {{Z}_{i}}=\left[ \begin{matrix} [{{y}_{i1}}] & \cdots & \cdots & 0 \\ \vdots & [{{y}_{i1,}}{{y}_{i2}}] & 0 & 0 \\ \vdots & \vdots & \ddots & 0 \\ 0 & \cdots & \cdots & [{{y}_{i1,}}{{y}_{i2}},\cdots ,{{y}_{i,T-2}}] \\ \end{matrix} \right] \]

所有的有效工具變數矩陣則為\(Z=[{{{Z}'}_{1}},{{{Z}'}_{2}},\cdots \cdots ,{{{Z}'}_{N}}{]}'\) ,GMM之動差條件為滿足下式的解:

\[ \tag{8.6} E({{{Z}'}_{i}}\Delta {{\varepsilon }_{i}})=0 \] 則1-step Arellano-Bond GMM估計式為:

\[ \tag{8.7} \begin{align} & {{{\hat{\beta }}}_{1}}={{[(\Delta {{y}_{-1}}{)}'Z{{({Z}'({{\mathbf{I}}_{\mathbf{N}}}\otimes \mathbf{G})Z)}^{-1}}{Z}'(\Delta {{y}_{-1}})]}^{-1}} \\ & \text{ }\times [(\Delta {{y}_{-1}}{)}'Z{{({Z}'({{\mathbf{I}}_{\mathbf{N}}}\otimes \mathbf{G})Z)}^{-1}}{Z}'(\Delta y)] \\ \end{align} \]

若把 \({Z}'({{\mathbf{I}}_{\mathbf{N}}}\otimes \mathbf{G})Z\)\({{\mathbf{V}}_{\mathbf{N}}}=\sum\limits_{i=1}^{N}{{{{{Z}'}}_{i}}}(\Delta {{\varepsilon }_{i}})(\Delta {{\varepsilon }_{i}}{)}'{{Z}_{i}}\)替代,所得到的估計式就是 2-step Arellano-Bond GMM估計式:

\[ \tag{8.8} {{\hat{\beta }}_{2}}={{[(\Delta {{y}_{-1}}{)}'Z\mathbf{\hat{V}}_{\mathbf{N}}^{-\mathbf{1}}{Z}'(\Delta {{y}_{-1}})]}^{-1}}[(\Delta {{y}_{-1}}{)}'Z\mathbf{\hat{V}}_{\mathbf{N}}^{-\mathbf{1}}{Z}'(\Delta y)] \]

Eq.(8.8)中

\[ \tag{8.9} Var({{\hat{\beta }}_{2}})={{[(\Delta {{y}_{-1}}{)}'Z\mathbf{\hat{V}}_{\mathbf{N}}^{-\mathbf{1}}{Z}'(\Delta {{y}_{-1}})]}^{-1}} \]

最後,當然還有工具變數有效性檢定,也就是 Sargan (1958) 的Sargan test。

Arellano and Bond (1991) 建議的Sargan檢定如下:

\[ \tag{8.10} m=\Delta {\hat{\eta }}'{{[\sum\limits_{i=1}^{N}{{{{{W}'}}_{i}}(\Delta \hat{\eta })(\Delta {\hat{\eta }}'){{W}_{i}}}]}^{-1}}{{{W}'}_{i}}(\Delta \hat{\eta })\sim\chi _{p-K-1}^{2} \]

\(\eta\)Arellano and Bond (1991) 兩步驟估計式的殘差,也就執行Eq.(8.8)所得到的殘差。

另外, Blundell and Bond (1998) 提出的system GMM估計式,有著比前述Arellano-Bond兩階段估計法有著更好的表現。Blundell-Bond system GMM原理並不複雜。他的system(系統)指的是工具變數有兩組:第一組就是Arellano-Bond兩階段用的原始資料水準值;第二組就是原始資料的落後項的差分值。Blundell-Bond 的想法是使用system GMM去處理這兩組動態工具變數,這樣的話,同時也考慮了差分後的定態性質。Blundell-Bond system GMM優於Arellano-Bond兩階段的地方在於,system GMM在時間序列不長時,表現比Arellano-Bond兩階段估計法好的多。因為當時間序列不長,Arellano-Bond兩階段使用的工具變數的性質就會變弱。

8.2 R Lab

動態時使用GMM關鍵是工具變數和處理方式。工具變數分兩類:GMM型和標準型。GMM型是如同前述之Z矩陣,經由一期一期不斷增加,所以是動態擴張;標準型則類同2SLS內的工具變數。

最後宣告工具變數。動態Panel Data的GMM估計式,不同的估計法,給予不同的工具變數生成方式,如果選2SLS,則沒有動態生成法。動態生成法如果沒有限制特定落後期時,會生成極多。Dynamic GMM的工具變數,必須瞭解理論對工具變數的說明,方能完整瞭解。

plm 的估計如下:

library(plm)
temp3=read.csv("data/employUK.csv")
myDat=pdata.frame(temp3,index=c("firm", "year"))
DPD_AB=pgmm(log(emp)~lag(log(emp),1:2)+log(wage)+log(capital)+log(output)
            |lag(log(emp),c(2, 99)),
            model = "twosteps", 
            transformation="ld",
            data = myDat, 
            effect = "twoways")

 pgmm()是DPD估計的函數,除了data=myDat和effect之前已經提過,內分三塊:
  (1) 方程式:垂線分成主式和GMM工具變數框
  (2) model=“twosteps” for Arellano-Bond two-step 估計式
  (3) transformation=“ld” for system GMM; “d” for difference GMM

估計結果如下,我們選擇顯示robust covariance(robust = TRUE):

summary(DPD_AB,robust = TRUE)
## Twoways effects Two-steps model System GMM 
## 
## Call:
## pgmm(formula = log(emp) ~ lag(log(emp), 1:2) + log(wage) + log(capital) + 
##     log(output) | lag(log(emp), c(2, 99)), data = myDat, effect = "twoways", 
##     model = "twosteps", transformation = "ld")
## 
## Unbalanced Panel: n = 140, T = 7-9, N = 1031
## 
## Number of Observations Used: 1362
## Residuals:
##       Min.    1st Qu.     Median       Mean    3rd Qu.       Max. 
## -1.4630517 -0.0325153  0.0000000  0.0003079  0.0433629  0.9534157 
## 
## Coefficients:
##                      Estimate Std. Error z-value  Pr(>|z|)    
## lag(log(emp), 1:2)1  0.879305   0.151954  5.7866 7.181e-09 ***
## lag(log(emp), 1:2)2 -0.078433   0.091340 -0.8587  0.390508    
## log(wage)           -0.150954   0.070482 -2.1417  0.032215 *  
## log(capital)         0.168390   0.059714  2.8200  0.004803 ** 
## log(output)          0.041213   0.099510  0.4142  0.678760    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Sargan test: chisq(35) = 44.28214 (p-value = 0.13515)
## Autocorrelation test (1): normal = -2.33624 (p-value = 0.019479)
## Autocorrelation test (2): normal = -0.1976611 (p-value = 0.84331)
## Wald test for coefficients: chisq(5) = 10798.38 (p-value = < 2.22e-16)
## Wald test for time dummies: chisq(6) = 31.21864 (p-value = 2.3025e-05)

最下方的幾個重要檢定:
 (A) Sargan test檢定了「工具變數是有效的」之虛無假設,由p-value來看,應該接受此虛無假設。如過需獨立執行這個檢定,則使用下面指令

sargan(DPD_AB)
## 
##  Sargan test
## 
## data:  log(emp) ~ lag(log(emp), 1:2) + log(wage) + log(capital) + log(output) |  ...
## chisq = 44.282, df = 35, p-value = 0.1352
## alternative hypothesis: overidentifying restrictions not valid

 (B) Autocorrelation test (1) 和 Autocorrelation test (2) 代表了Arellanno-Bond 模型的殘差序列相關檢定。 因為Arellanno-Bond GMM的關鍵條件,是殘差無序列相關。如前所說,因為模型使然,我們只需要看AR(2),就是上述之-0.43(p-value=0.33)的結果。由之看來,GMM的效果還算蠻好的。 如果需要單獨執行檢定,可以用下面指令

mtest(DPD_AB,1L)
## 
##  Arellano-Bond autocorrelation test of degree 1
## 
## data:  log(emp) ~ lag(log(emp), 1:2) + log(wage) + log(capital) + log(output) |  ...
## normal = -2.8202, p-value = 0.004799
## alternative hypothesis: autocorrelation present

mtest(DPD_AB, order = 2L)
## 
##  Arellano-Bond autocorrelation test of degree 2
## 
## data:  log(emp) ~ lag(log(emp), 1:2) + log(wage) + log(capital) + log(output) |  ...
## normal = -0.25499, p-value = 0.7987
## alternative hypothesis: autocorrelation present

如需要穩健共變數執行檢定,則使用 mtest(DPD_AB, order = 2L,vcov=vcovHC)

 (C) Wald test for coefficients,是四個參數皆為0的參數顯著性結合檢定,也就是線性模式下的ANOVA F檢定。

summary(DPD_AB)$m1
## 
##  Arellano-Bond autocorrelation test of degree 1, vcov: vv
## 
## data:  log(emp) ~ lag(log(emp), 1:2) + log(wage) + log(capital) + log(output) |  ...
## normal = -2.3362, p-value = 0.01948
## alternative hypothesis: autocorrelation present

以上檢定,均可以由 summary(DPD_AB)$sargansummary(DPD_AB)$m1summary(DPD_AB)$m2,和summary(DPD_AB)$wald.coef取得。

References

Arellano, Manuel, and Stephen Bond. 1991. “Some Tests of Specification for Panel Data: Monte Carlo Evidence and an Application to Employment Equations.” Review of Economic Studies 58 (2): 277–97. https://doi.org/10.2307/2297968.
Arellano, Manuel, and Olympia Bover. 1995. “Another Look at the Instrumental Variable Estimation of Error-Components Models.” Journal of Econometrics 68 (1): 29–51. https://doi.org/10.1016/0304-4076(94)01642-D.
Blundell, Richard, and Stephen Bond. 1998. “Initial Conditions and Moment Restrictions in Dynamic Panel Data Models.” Journal of Econometrics 87 (1): 115–43. https://doi.org/10.1016/S0304-4076(98)00009-8.
Hansen, Lars Peter. 1982. “Large Sample Properties of Generalized Method of Moments Estimators.” Econometrica 50 (4): 1029–54. https://doi.org/10.2307/1912775.
Sargan, J. D. 1958. “The Estimation of Economic Relationships Using Instrumental Variables.” Econometrica 26 (3): 393–415. https://doi.org/10.2307/1907619.