匿名希望のおでんFortranツヴァイさん太郎

生き物、Fortran、川について書く

統計モデルと推測方法と計算手法の区別

統計学では真の分布(一般的に未知)からサンプルが生成されると考えます.分析者は統計モデルを構築し,その統計モデルとサンプルから真の分布を推測します.これが統計学における問題設定です*1

同じ統計モデルでも推測方法が違えば予測分布(推測された分布)は異なります.代表的な推測方法は最尤推測やベイズ推測です.

その推測方法を実行するための計算手法も様々です.例えば,ベイズ推測に必要な事後分布は多くの場合MCMCで求めますが,MCMCにはメトロポリス法,ギブスサンプラーハミルトニアンモンテカルロ法をはじめ,様々なアルゴリズムがあります.

それぞれの推測方法の特徴や適用条件については別稿に譲ります.本稿で強調したいのは,統計モデルと推測方法と計算手法は区別すべきだということです.

これは支配方程式,離散化手法,計算手法の区別と似ています.例えば,移流方程式は支配方程式,有限差分法は空間方向の離散化手法,ルンゲ-クッタ法は時間方向の離散化手法,ガウス-ザイデル法は離散化により構築した連立一次方程式の数値解法です.

上述の例に無理やり対応させると,一般化線型モデルなどの統計モデルは支配方程式に,ベイズ推測などの推測方法は時空間の離散化手法に,メトロポリス法のような計算手法は連立一次方程式の数値解法に対応すると思います*2

サンプルサイズや統計モデルに応じて適用できる推測方法は違います.例えば,最尤推測とベイズ推測の推測精度*3はある条件下では同じくらいですが,より一般的な条件下では最尤推測よりもベイズ推測の方がよい推測を与えることが数学的に示されています*4

近年統計モデリングが盛んですが,ユーザーだからといってソフトやパッケージ任せにせず,利用している統計モデル,推測方法,計算方法の特性を理解する必要があると思います.

*1:分散分析などでも統計モデルが設定されています.

*2:支配方程式と数値手法の問題は,その数値手法で支配方程式の真の解をどの程度近似できるかです.一方,統計モデルと推測方法の問題は,統計モデルと推測方法で真の分布をどの程度近似できるかです.問題の性質が違うので,厳密な対応関係ではありません.

*3:汎化損失(簡単に言うと,真の分布と予測分布の差)が小さいほど精度がよい

*4:Watanabe, S. (2018) Mathematical Theory of Bayesian Statistics. Chapman and Hall/CRC. pp.234--237.

Mathematical Theory of Bayesian Statistics (Chapman & Hall/Crc Monographs on Statistics & Applied Probability)

Mathematical Theory of Bayesian Statistics (Chapman & Hall/Crc Monographs on Statistics & Applied Probability)