[stan] [R] ベクトル ARIMA (VARIMA) で人口予測 (?)

概要

前回 VARMA の話をしたのに関連して, 単なるテクニカルな話題から, もう少し実用性のある話にしてみた.
都道府県別の人口の時系列データを VARIMA を当てはめてみた.
今月は時間がなかったのであまり大した内容ではない. 5ページ程度. 中途半端.

VARMA を使う意味

ただの ARMA ではなく VARMA を用いる一番の理由は, 「異なる時系列どうしの相互作用をみる」ことだと思っている. 例えば代表例としてマクロ経済モデルや株式市場の価格変動などで VARMA (VAR) がよく使われる. これはモデルの簡潔さだけでなく, Granger の因果性を見ることができるというのも大きい. 株価なら, ある産業 A 大手の株が下がれば, 産業A の 2番手の企業の株価が反対に上昇するかもしれない*1. マクロ経済なら金利に対応して設備投資がどうこう, それに応じて翌年の生産高が増減し……, のように, ベクトル化した時系列モデルは時系列どうしで互いに影響し合うような現象を表現することに長けている. ここでは詳しく書かないが*2, ここで推定した相互作用の大きさをもとしたインパルス-応答分析にも派生することでシミュレーションのような分析につなげることも大きい.

VARIMA で人口予測

マクロ経済モデルや株式市場の予測などではありきたりなので, 前回
ill-identified.hatenablog.com
で作成した MCMC を使って VARMA モデルを推定する stan プログラムをもとに, 都道府県別人口予測をできないかやってみた.

都道府県別の人口は, 仮に全国合計では増減がなくても, 転入出者がいるために増減が発生するので, このような人口の行き来を説明するのに VARMA が使えそうだ*3.

都道府県別の人口は総務省統計局の統計局ホームページ/日本の長期統計系列/第2章人口・世帯から, 2-5表の男女合計を1950年から2009年まで利用した*4.

以下は xls ファイルを読み込んで実行するまでのプログラム. xls ファイルの読み込みには gdata パッケージを使った. また, 一部欠損値があるため, zoo パッケージの補間を行う関数を使った. stan コードは前回のものと基本的に同じだが, 対数尤度も出力するようにしたのでモデル評価のために各種の情報量規準を計算できるようになった. これにともない generated quantities ブロックのみコードを追加した。

gist326d31a40dadc1a9d87ff6eb86e0d78d

この stan コードを今回も rstan を使って R で実行する.

gist93ba87d1ede8ff49fdfbde17ce9867d6

和分過程については見た目や保守性は悪くなりそうだが, 階差を取る操作は R の diff() 関数の方が圧倒的に簡単なので, 時系列データの階差を diff() で取ってから stan に投げるという形になっている*5.

また, 次数選択のために情報量基準を使うのだが, WAICを計算させてみた：Taglibro de H：SSブログで紹介されていた WAIC の計算が簡単だったので, ここで取り上げられている waic() を使うことにした. なお, Vehtari and Gelman (2014) の waic() 関数は Vehtari, Gelman, and Gabry (2015) によると loo パッケージに含まれているので, そちらを使う.

で, VARMA (1,0,1) として実行した結果...

1 chains, each with iter=2000; warmup=1000; thin=1; 
post-warmup draws per chain=1000, total post-warmup draws=1000.

              mean se_mean sd  2.5%   25%   50%   75% 97.5% n_eff Rhat
Psi[1,1,1]    0.92       0  0  0.92  0.92  0.92  0.92  0.92     1    1
Psi[1,1,2]   -1.66       0  0 -1.66 -1.66 -1.66 -1.66 -1.66     1    1
Psi[1,1,3]   -0.31       0  0 -0.31 -0.31 -0.31 -0.31 -0.31     1    1
Psi[1,1,4]    0.97       0  0  0.97  0.97  0.97  0.97  0.97     1    1
Psi[1,1,5]   -0.30       0  0 -0.30 -0.30 -0.30 -0.30 -0.30     1    1
Psi[1,1,6]    1.98       0  0  1.98  1.98  1.98  1.98  1.98     1  NaN
Psi[1,1,7]    0.62       0  0  0.62  0.62  0.62  0.62  0.62     1    1
Psi[1,1,8]    1.49       0  0  1.49  1.49  1.49  1.49  1.49     1    1
Psi[1,1,9]    1.65       0  0  1.65  1.65  1.65  1.65  1.65     1    1
Psi[1,1,10]   1.55       0  0  1.55  1.55  1.55  1.55  1.55     1    1
Psi[1,1,11]   0.86       0  0  0.86  0.86  0.86  0.86  0.86     1    1
Psi[1,1,12]   0.80       0  0  0.80  0.80  0.80  0.80  0.80     1    1
Psi[1,1,13]   1.81       0  0  1.81  1.81  1.81  1.81  1.81     1    1
Psi[1,1,14]  -1.72       0  0 -1.72 -1.72 -1.72 -1.72 -1.72     1    1
Psi[1,1,15]  -0.08       0  0 -0.08 -0.08 -0.08 -0.08 -0.08     1    1
Psi[1,1,16]   0.99       0  0  0.99  0.99  0.99  0.99  0.99     1    1

なんだか係数が胡散臭い値になっている……?

グラフにしてみる. 47系列あるので, ここでは北海道, 東京, 大阪だけを出力した.

f:id:ill-identified:20160402222933p:plain

ということで, 明らかに発散してしまっている. そもそも原系列をプロットしてみても,

f:id:ill-identified:20160402223213p:plain

こんな感じである. 人口が一定水準まわりで変動し続けるというのも直感的でないので, 定常ではなくトレンド定常を疑ったほうが良いだろう. また, 都道府県も関東のみにした.

適切な次数を探索する方法もいくつか存在するが, 今回は時間がなかったので, p, q の次数選択を, 0 から 2 の範囲で WAIC で選ぶようにした. d は手動で調整した*6.

結果, VARIMA(1,1,0) が選ばれ, その予測区間が以下のグラフである (2010年以降の実線が期待値, 破線が中央値, 青色が90%, 灰色が95%区間. ).

f:id:ill-identified:20160402225613p:plain

それっぽくなったが, よく政府の人口推計で指摘されているような人口減少の感じはしない. 理由は2つ考えられ, 1つは年齢別人口ではないことを挙げる. 実際には少子高齢化は年齢分布が歪になって起こるが, このデータではその情報は得られない*7. もう1つは, パラメータ自体も変化しているということが考えられる. 毎年の出生率は変化しているが, ARIMA は固定されたラグ説明変数の係数と線形トレンドで表現されるので, この事情は反映されない. 後者については, 可変パラメータモデルを利用すれば変わるかもしれない? また, 人口を扱うことから, ポアソン分布を使うという方法もあるが, めんどくさかった*8ので今回はやらなかった. もう少し込み入ったモデリングの話と実践はまた今度.

参考文献

Vehtari, Aki, and Andrew Gelman (2014) “WAIC and Cross-Validation in Stan,” May: 1–15. http://www.stat.columbia.edu/~gelman/research/unpublished/waic_stan.pdf.

Vehtari, Aki, Andrew Gelman, and Jonah Gabry (2015) “Practical Bayesian Model Evaluation Using Leave-One-Out Cross-Validation and WAIC,” no. July (July). http://arxiv.org/abs/1507.04544.

沖本 (2010) 経済・ファイナンスデータの計量時系列分析. 朝倉書店.