第 8 章動態追蹤資料模型

時間序列的動態是出現自我落後項(AR, autoregressive terms)，在典型的時間序列模型中，一般這不會有問題。但是，在panel data就會有漸進性質不完美的問題，我們也稱為動態追蹤資料(dynamic panel data, 後簡稱DPD)。本章對這個問題，簡單說明如下，許多進階的理論問題，可見參考文獻。

8.1 原理

一個簡單的DPD迴歸方程式如下

\[ \tag{8.1} {{y}_{it}}=\beta {{y}_{i,t-1}}+{{\mu }_{i}}+{{\varepsilon }_{it}} \]

在純時間序列動態模型時，$y_{t-1}$ 可視為stochastic regressor，雖然建立在T的估計式非不偏(not unbiased)，但當 $T \to {\infty}$ 時仍是一致(consistent)的。(此點和Exogenous stochastic regressors xt-1的情形略有出入)

DPD的問題是這樣：當依變數 $y_{it}$ 是個別效果 $\mu_{i}$的函數，被解釋變數的落後期 $y_{it-1}$也是 $\mu_{i}$ 的函數；甚至殘差在無序列相關之時，此相關性依然存在。在標準panel data 時，因 $T$ 往往不大，又panel data估計式的漸進性質是建立在$N \to {\infty}$ ，不是$T \to {\infty}$ 。故LSDV和GLS皆是biased 及inconsistent.固定效果下的$[\beta, \sigma]$估計，可視為 $N$ 個個別估計式的平均。因此，$N$ 個 inconsistent 的估計式之平均，依然是 inconsistent。

隨機效果模型下的估計問題，更是明顯。因為落後期 $y_{it-1}$和複合殘差$(\mu_{i} + \varepsilon_{it})$ 產生更複雜的相關性，且每個隨機效果項 $\mu_i$ 均進入群 $i$ 的每個觀察值。
前述的問題意味動態追蹤資料的估計必須用其他方法，文獻上利用 Arellano and Bond (1991) 和 Arellano and Bover (1995) 的做法，在 Hansen (1982) 的GMM 架構之下，處理動態工具變數。方法來克服動態模型估計所面臨的問題。理論細節不談太多，我們簡述最常使用的2-step Arellano-Bond GMM估計式，這個方法利用同步落後Eq.(8.1)，再差分移除橫斷面效果。

\[ \tag{8.2} {{y}_{it-1}}=\beta{{y}_{i,t-2}}+{{\mu }_{i}}+{{\varepsilon }_{it-1}} \] Eqs.(8.1)和(8.2)相減，如下：

\[ {{y}_{it}}-{{y}_{i,t-1}}=\beta ({{y}_{i,t-1}}-{{y}_{i,t-2}})+({{\varepsilon }_{it}}-{{\varepsilon }_{i,t-1}}) \]

$E(\Delta {{\varepsilon }_{i}}\Delta {{{\varepsilon }'}_{i}})=\sigma _{\varepsilon }^{2}({{\mathbf{I}}_{\mathbf{N}}}\otimes \mathbf{G})$ 且$\Delta {{{\varepsilon }'}_{i}}=({{\varepsilon }_{i3}}-{{\varepsilon }_{i2}},\ldots ,{{\varepsilon }_{iT}}-{{\varepsilon }_{i,T-1}})$

上式

\[ \tag{8.3} G=\left[ \begin{matrix} 2 & -1 & 0 & \cdots & 0 & 0 & 0 \\ -1 & 2 & -1 & \cdots & 0 & 0 & 0 \\ \vdots & \vdots & \vdots & \ddots & \vdots & \vdots & \vdots \\ 0 & 0 & 0 & \cdots & -1 & 2 & -1 \\ 0 & 0 & 0 & \cdots & 0 & -1 & 2 \\ \end{matrix} \right] \]

G 其實就是$E(\Delta {{\varepsilon }_{i}}\Delta {{{\varepsilon }'}_{i}})$展開式的係數矩陣，以 $i=1$ 為例，主對角線第1格

\[ \begin{align} & ({{\varepsilon }_{3}}-{{\varepsilon }_{2}})({{\varepsilon }_{3}}-{{\varepsilon }_{2}}) \\ & ={{\varepsilon }_{3}}{{\varepsilon }_{3}}-{{\varepsilon }_{3}}{{\varepsilon }_{2}}-{{\varepsilon }_{2}}{{\varepsilon }_{3}}+{{\varepsilon }_{2}}{{\varepsilon }_{2}} \\ & ={{\varepsilon }_{3}}{{\varepsilon }_{3}}-2{{\varepsilon }_{3}}{{\varepsilon }_{2}}+{{\varepsilon }_{2}}{{\varepsilon }_{2}} \\ \end{align} \]

對上式取期望值後，因為 $i.i.d.$ 同質變異假設，所以，故主對角線第一格係數是2，其餘類推。每一個 $i$ 都做這樣的處理，就成了一個依Kronecker product $\otimes$ 展開的矩陣。

因此，利用Eq.(8.4)估計出參數，成了GMM方法的重心。

\[ \tag{8.4} (y_{it}-y_{i,t-1})=\beta (y_{i,t-1}-y_{i,t-2})+(\varepsilon_{it}- \varepsilon_{i,t-1}) \]

Arellano-Bond 對工具變數的想法如下:

$t=3$ 是第1期觀察值：$(y_{i,3}-y_{i,2})=\beta (y_{i,2}-y_{i,1})+(\varepsilon _{i,3}-\varepsilon_{i,2})$

對 $t=3$ 此期觀察值而言，$y_{i,1}$是一個有效的工具變數，因為它和$y_{i,2}-y_{i,1}$很相關，卻和 $(\varepsilon_{i,3}-\varepsilon_{i,2})$ 無關。

同理在 $t=4$ 這期觀察值：$(y_{i,4}-y_{i,3})=\beta (y_{i,3}-y_{i,2})+(\varepsilon _{i,4}-\varepsilon_{i,3})$

對 $t=4$ 此期觀察值而言，$y_{i,2}$是一個有效的工具變數，因為它和$y_{i,3}-y_{i,2}$很相關，卻和 $(\varepsilon_{i,4}-\varepsilon_{i,3})$ 無關。

因此，對每一個橫斷面 $i$，都有一個有效工具變數矩陣

\[ \tag{8.5} {{Z}_{i}}=\left[ \begin{matrix} [{{y}_{i1}}] & \cdots & \cdots & 0 \\ \vdots & [{{y}_{i1,}}{{y}_{i2}}] & 0 & 0 \\ \vdots & \vdots & \ddots & 0 \\ 0 & \cdots & \cdots & [{{y}_{i1,}}{{y}_{i2}},\cdots ,{{y}_{i,T-2}}] \\ \end{matrix} \right] \]

所有的有效工具變數矩陣則為$Z=[{{{Z}'}_{1}},{{{Z}'}_{2}},\cdots \cdots ,{{{Z}'}_{N}}{]}'$ ，GMM之動差條件為滿足下式的解：

\[ \tag{8.6} E({{{Z}'}_{i}}\Delta {{\varepsilon }_{i}})=0 \] 則1-step Arellano-Bond GMM估計式為：

\[ \tag{8.7} \begin{align} & {{{\hat{\beta }}}_{1}}={{[(\Delta {{y}_{-1}}{)}'Z{{({Z}'({{\mathbf{I}}_{\mathbf{N}}}\otimes \mathbf{G})Z)}^{-1}}{Z}'(\Delta {{y}_{-1}})]}^{-1}} \\ & \text{ }\times [(\Delta {{y}_{-1}}{)}'Z{{({Z}'({{\mathbf{I}}_{\mathbf{N}}}\otimes \mathbf{G})Z)}^{-1}}{Z}'(\Delta y)] \\ \end{align} \]

若把 ${Z}'({{\mathbf{I}}_{\mathbf{N}}}\otimes \mathbf{G})Z$ 以 ${{\mathbf{V}}_{\mathbf{N}}}=\sum\limits_{i=1}^{N}{{{{{Z}'}}_{i}}}(\Delta {{\varepsilon }_{i}})(\Delta {{\varepsilon }_{i}}{)}'{{Z}_{i}}$替代，所得到的估計式就是 2-step Arellano-Bond GMM估計式：

\[ \tag{8.8} {{\hat{\beta }}_{2}}={{[(\Delta {{y}_{-1}}{)}'Z\mathbf{\hat{V}}_{\mathbf{N}}^{-\mathbf{1}}{Z}'(\Delta {{y}_{-1}})]}^{-1}}[(\Delta {{y}_{-1}}{)}'Z\mathbf{\hat{V}}_{\mathbf{N}}^{-\mathbf{1}}{Z}'(\Delta y)] \]

Eq.(8.8)中

\[ \tag{8.9} Var({{\hat{\beta }}_{2}})={{[(\Delta {{y}_{-1}}{)}'Z\mathbf{\hat{V}}_{\mathbf{N}}^{-\mathbf{1}}{Z}'(\Delta {{y}_{-1}})]}^{-1}} \]

最後，當然還有工具變數有效性檢定，也就是 Sargan (1958) 的Sargan test。

Arellano and Bond (1991) 建議的Sargan檢定如下：

\[ \tag{8.10} m=\Delta {\hat{\eta }}'{{[\sum\limits_{i=1}^{N}{{{{{W}'}}_{i}}(\Delta \hat{\eta })(\Delta {\hat{\eta }}'){{W}_{i}}}]}^{-1}}{{{W}'}_{i}}(\Delta \hat{\eta })\sim\chi _{p-K-1}^{2} \]

$\eta$ 是 Arellano and Bond (1991) 兩步驟估計式的殘差，也就執行Eq.(8.8)所得到的殘差。

另外， Blundell and Bond (1998) 提出的system GMM估計式，有著比前述Arellano-Bond兩階段估計法有著更好的表現。Blundell-Bond system GMM原理並不複雜。他的system(系統)指的是工具變數有兩組：第一組就是Arellano-Bond兩階段用的原始資料水準值；第二組就是原始資料的落後項的差分值。Blundell-Bond 的想法是使用system GMM去處理這兩組動態工具變數，這樣的話，同時也考慮了差分後的定態性質。Blundell-Bond system GMM優於Arellano-Bond兩階段的地方在於，system GMM在時間序列不長時，表現比Arellano-Bond兩階段估計法好的多。因為當時間序列不長，Arellano-Bond兩階段使用的工具變數的性質就會變弱。

8.2 R Lab

動態時使用GMM關鍵是工具變數和處理方式。工具變數分兩類：GMM型和標準型。GMM型是如同前述之Z矩陣，經由一期一期不斷增加，所以是動態擴張；標準型則類同2SLS內的工具變數。

最後宣告工具變數。動態Panel Data的GMM估計式，不同的估計法，給予不同的工具變數生成方式，如果選2SLS，則沒有動態生成法。動態生成法如果沒有限制特定落後期時，會生成極多。Dynamic GMM的工具變數，必須瞭解理論對工具變數的說明，方能完整瞭解。

plm 的估計如下：

library(plm)
temp3=read.csv("data/employUK.csv")
myDat=pdata.frame(temp3,index=c("firm", "year"))
DPD_AB=pgmm(log(emp)~lag(log(emp),1:2)+log(wage)+log(capital)+log(output)
            |lag(log(emp),c(2, 99)),
            model = "twosteps", 
            transformation="ld",
            data = myDat, 
            effect = "twoways")

pgmm()是DPD估計的函數，除了data=myDat和effect之前已經提過，內分三塊：
(1) 方程式：垂線分成主式和GMM工具變數框
(2) model=“twosteps” for Arellano-Bond two-step 估計式
(3) transformation=“ld” for system GMM; “d” for difference GMM

估計結果如下，我們選擇顯示robust covariance(robust = TRUE)：

summary(DPD_AB,robust = TRUE)

## Twoways effects Two-steps model System GMM 
## 
## Call:
## pgmm(formula = log(emp) ~ lag(log(emp), 1:2) + log(wage) + log(capital) + 
##     log(output) | lag(log(emp), c(2, 99)), data = myDat, effect = "twoways", 
##     model = "twosteps", transformation = "ld")
## 
## Unbalanced Panel: n = 140, T = 7-9, N = 1031
## 
## Number of Observations Used: 1362
## Residuals:
##       Min.    1st Qu.     Median       Mean    3rd Qu.       Max. 
## -1.4630517 -0.0325153  0.0000000  0.0003079  0.0433629  0.9534157 
## 
## Coefficients:
##                      Estimate Std. Error z-value  Pr(>|z|)    
## lag(log(emp), 1:2)1  0.879305   0.151954  5.7866 7.181e-09 ***
## lag(log(emp), 1:2)2 -0.078433   0.091340 -0.8587  0.390508    
## log(wage)           -0.150954   0.070482 -2.1417  0.032215 *  
## log(capital)         0.168390   0.059714  2.8200  0.004803 ** 
## log(output)          0.041213   0.099510  0.4142  0.678760    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Sargan test: chisq(35) = 44.28214 (p-value = 0.13515)
## Autocorrelation test (1): normal = -2.33624 (p-value = 0.019479)
## Autocorrelation test (2): normal = -0.1976611 (p-value = 0.84331)
## Wald test for coefficients: chisq(5) = 10798.38 (p-value = < 2.22e-16)
## Wald test for time dummies: chisq(6) = 31.21864 (p-value = 2.3025e-05)

最下方的幾個重要檢定：
(A) Sargan test檢定了「工具變數是有效的」之虛無假設，由p-value來看，應該接受此虛無假設。如過需獨立執行這個檢定，則使用下面指令

sargan(DPD_AB)

## 
##  Sargan test
## 
## data:  log(emp) ~ lag(log(emp), 1:2) + log(wage) + log(capital) + log(output) |  ...
## chisq = 44.282, df = 35, p-value = 0.1352
## alternative hypothesis: overidentifying restrictions not valid

(B) Autocorrelation test (1) 和 Autocorrelation test (2) 代表了Arellanno-Bond 模型的殘差序列相關檢定。因為Arellanno-Bond GMM的關鍵條件，是殘差無序列相關。如前所說，因為模型使然，我們只需要看AR(2)，就是上述之-0.43(p-value=0.33)的結果。由之看來，GMM的效果還算蠻好的。如果需要單獨執行檢定，可以用下面指令

mtest(DPD_AB,1L)

## 
##  Arellano-Bond autocorrelation test of degree 1
## 
## data:  log(emp) ~ lag(log(emp), 1:2) + log(wage) + log(capital) + log(output) |  ...
## normal = -2.8202, p-value = 0.004799
## alternative hypothesis: autocorrelation present

和

mtest(DPD_AB, order = 2L)

## 
##  Arellano-Bond autocorrelation test of degree 2
## 
## data:  log(emp) ~ lag(log(emp), 1:2) + log(wage) + log(capital) + log(output) |  ...
## normal = -0.25499, p-value = 0.7987
## alternative hypothesis: autocorrelation present

如需要穩健共變數執行檢定，則使用 mtest(DPD_AB, order = 2L,vcov=vcovHC)

summary(DPD_AB)$m1

## 
##  Arellano-Bond autocorrelation test of degree 1, vcov: vv
## 
## data:  log(emp) ~ lag(log(emp), 1:2) + log(wage) + log(capital) + log(output) |  ...
## normal = -2.3362, p-value = 0.01948
## alternative hypothesis: autocorrelation present

以上檢定，均可以由 summary(DPD_AB)$sargan，summary(DPD_AB)$m1 ，summary(DPD_AB)$m2，和summary(DPD_AB)$wald.coef取得。

References

Arellano, Manuel, and Stephen Bond. 1991. “Some Tests of Specification for Panel Data: Monte Carlo Evidence and an Application to Employment Equations.” Review of Economic Studies 58 (2): 277–97. https://doi.org/10.2307/2297968.

Arellano, Manuel, and Olympia Bover. 1995. “Another Look at the Instrumental Variable Estimation of Error-Components Models.” Journal of Econometrics 68 (1): 29–51. https://doi.org/10.1016/0304-4076(94)01642-D.

Blundell, Richard, and Stephen Bond. 1998. “Initial Conditions and Moment Restrictions in Dynamic Panel Data Models.” Journal of Econometrics 87 (1): 115–43. https://doi.org/10.1016/S0304-4076(98)00009-8.

Hansen, Lars Peter. 1982. “Large Sample Properties of Generalized Method of Moments Estimators.” Econometrica 50 (4): 1029–54. https://doi.org/10.2307/1912775.

Sargan, J. D. 1958. “The Estimation of Economic Relationships Using Instrumental Variables.” Econometrica 26 (3): 393–415. https://doi.org/10.2307/1907619.

第 8 章 動態追蹤資料模型

8.1 原理

8.2 R Lab

References

第 8 章動態追蹤資料模型