真の分布,統計モデル,事前分布はベイズ統計の基本要素
本稿ではベイズ統計の基本要素である真の分布,統計モデル,事前分布を説明し,真の分布のベイズ推測とは何かを説明します.参考書にしているのは渡辺(2012)*1,Watanabe(2018)*2および,渡辺澄夫先生の解説記事や講義資料です.
野外観測や実験等で我々はデータをとります.とします.これらのデータは真の分布(true distribution)に従う確率変数の実現値であると考えます.真の分布は一般的に知ることはできません.統計的推測においては,真の分布の予測分布(predictive distribution)を求めることが目的です.
そこで,我々は散布図やヒストグラムを書いてデータの傾向を見ながら,どんな確率分布ならデータを再現しそうかを考えます.その結果,ならうまくいきそうだなと判断します.確率密度関数を統計モデルあるいは確率モデルといいます.統計モデルにはパラメータが含まれています.統計モデルの例としては,
などがあります.この例ではです.パラメータが与えられた下でのの分布なので,統計モデルは条件付き確率として定義されることに注意しましょう.
パラメータと統計モデルについて,次の仮説を設定します.
パラメータがある確率分布から発生し,データがモデルから独立に発生した
確率密度関数を事前分布(prior distribution)といいます.
パラメータとすべてのデータについて,の同時密度関数を考えると,
となります.データが与えられた時のの条件付き密度関数は,
となります.を事後分布(posterior distribution)といいます.また,の周辺密度関数を分配関数あるいは周辺尤度(marginal likelihood)といいます.
ベイズ推定(Bayesian estimation)とは,統計モデルを事後分布で平均したものを予測分布とすることです.すなわち,
と定義します.
*1:渡辺澄夫(2012)ベイズ統計の理論と方法.コロナ社.
*2:Watanabe, S. (2018) Mathematical Theory of Bayesian Statistics. Chapman and Hall/CRC.