固定効果モデルの一部の変数を一階差分にするのはダメかもしれない。

パネルデータを使ってる分析で、 固体ダミーを入れたうえに(実際にはdemeaning)、yと主要な説明変数についてのみ階差を取るって論文を見かける。

例えば企業の現金比率を被説明変数にするときに、被説明変数を現金比率や負債比率の1年間の差分とし、企業固定効果モデルで推定するといったもの。

ここではそのようなモデルは推計しない方がいいかもしれないというお話をする。 

tl;dr パネル分析のおさらい

複数の個体から複数期間にわたるサンプルを用いた分析のこと。 

Pooled OLSだと固体ごとに存在する観察できない何かを見落とすので、他のパラメタもバイアスが発生する。対処法は大きく2つ。

1.固体固定効果を取り除く

以下の式を推定する。

 y_{it} = a+a_i +  b x_{it} + e_{it}

添え字iは固体、tは期間。 a_iを取り除きたい。細かくは2つの方法がある。

1.1 Demeaning

固体ごとに、すべての変数の平均値を差し引く。つまり

 y_{it}-\hat{y_i} = a+(a_i -\hat{a_i})+ b_1 (x_{it}-\hat{x_{i}}) + e_{it}

 帽子をかぶっているのは平均値。固体内での平均なので添え字iが消える。

(a_i -\hat{a_i})は消えるので、これすなわち

 y_{it}-\hat{y_i} = a+ b_1 (x_{it}-\hat{x_{i}}) + e_{it}

 

 となるのでOLS推定をすることで一致推定量を得ることができる。

1.2 固体ダミーを突っ込む

名前のとおり。ダミーの数だけ自由度が低下する。多くの場合は、1.1 Demeaningと推定値は同じになる。両者のR^2は異なる。

 

2.一階差分を取る

 y_{it}-y_{it-t} = a +  b (x_{it}-x_{it-1}) + (e_{it}-e_{it-1})

 固体ダミー(a_i)は固体内で同じ値なので消える。この場合もdemeaningと同じ推定値が得られる。

 

本題

部分的FDについて

問題にしたいのは、固定効果モデルの推定において固体ダミーを入れたうえで、一部の変数についてのみ一階差分を取るケースです。つまり以下のように、(1)被説明変数と説明変数の一つのみ(すべてではない)を一階差分にしたうえで、(2)demeaningをする(あるいは固体ダミーを入れる)ケースを指している。

 y_{it} - y_{it-1}= a+a_i +  b_1 (x_{it}-x_{it-1})+b_2 z_{it} + e_{it} 

 ここでzは新しく入ったコントロール変数で、これについては一階差分を取っていません。ここでは「部分的FD」と呼びます。

固定効果モデルの2つの方法を中途半端にミックスしているので、そこから得られる推定値が真の値なのか、疑問になりますよね?ならないですか、そうですか。

 

シミュレーション

説明変数が3つある個体数は100で期間は10のバランスドパネルを3776回作成した。推定式は以下のとおり、時間の固定効果も入れた。

 y_{it} = a+a_i +a_t + b_1 x_{it}+b_2u_{it}+b_3v_{it} + e_{it}.

それぞれについて、以下の4つのモデルを回した。すべてにおいて期間ダミーを入れている。カッコ内はあとで用いる略称

  1. Pooled OLSモデル (reg)
  2. 部分FDのPooled OLS (reg_fd)
  3. demeaningによる固定効果モデル (areg)
  4. 部分FD+demeaningによる固定効果モデル (areg_fd)

結果

以下では、真の値と推定値の差の絶対値の基本統計量を掲載している。推定値が真の値に近いと0になるので、大きな値であれば、その推定方法には問題があるということ。

 

モデル 平均 標準偏差 最小値 最大値
reg 2.364 1.767 0.0002 10.523
reg_fd 0.235 0.177 0.0001 1.006
areg 0.028 0.021 0.0000 0.114
areg_fd 0.226 0.170 0.0001 0.970

差が最も小さいのは階差を取らずに固定効果モデルを回したとき(areg)。部分FDモデルはaregと比較して誤差が大きくなる。なお2つの部分FDモデル(reg_fdとareg_fd)の誤差は同じ程度。今回は固体ごとの固定効果をモデルに組み込んだため、それを無視するPooled OLSは大きな誤差をもたらしている。

最後に2つの固定効果モデル(aregとareg_fd)における、誤差の分布をプロットしたのが以下のとおり。場合によっては真の値からかなり大きく外れた推定値を得ることが分かる。

f:id:yamadee:20210416152217p:plain



 

拡張するとしたら
  1. 2方向の固定効果: シミュレーションでは2方向(固体と期間)の固定効果の存在はモデルに組み込んでいない。そのため、2方向固定効果と、固体固定効果+期間ダミーの結果はおおむね一致することを確認している。
  2. アンバランスド・パネル: 
  3. ダイナミックパネル: 冒頭の例の現金保有は被説明変数に系列相関が確認される。GMMまで手を広げたくないので許してください。
  4. DID: 期間中の制度面での変化が、 x_1yに影響するもでるについては考慮していない。ただし"TWFE is not DID"