\chapter{統計的決定理論}
%%%%%%%%% 2.1 決定理論  %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\section{決定理論}\footnote{疑問点。1。母数空間とは何か?~2。「行動空
間」は必要ないのでは。~3。母集団分布を推定することはあるのだろうか。~4。
「検定」ではほとんどの場合、母集団分布を正規分布と仮定するのだろうか。}
前章まで、確率の理論から、推測統計の問題を処理するのに必要な各種の
道具立てについて述べてきた。この章では、これらの道具を推測統計の
諸問題にどう応用するかを考える。従来、推測統計の理論は ＜{\bf 母数の
推定}＞ と ＜{\bf 仮説の検定}＞ の二つの問題に重点がおかれていた。
ここでも同じように説明を進めるが、その前に1940年頃から提示された
{\bf 統計的決定}の理論について簡単に説明する。
 
\subsection{決定理論の一般的手順}
母集団の母数(統計学で、母集団の特性を表す定数。$\theta$ で表すことにする)
は一般的に不明である。そこで我々は、母数$\theta$ に代わる観察可能なデー
タ、即ち標本を使用し、できるだけ適切な決定(母数の推定・仮説の検定)を
行おうとする。このとき統計的決定理論では、次のように判断を進める。
\begin{enumerate}
 \item 母数$\theta$ がとりうるあらゆる可能な値の集合を定める。この集合を
       {\bf 母数空間}といい、記号$\Phi$ で示す。
 \item 母数$\theta$ の各値に対してそれぞれ適当な一つの行動$a$ が対応する。
       $a$ の集合を{\bf 行動空間}といい、記号$A$ で示す。
 \item {\bf 決定関数の定義} 母集団$f(x;\theta)$ から任意の確率標本
       $\{X_1,X_2,\cdots,X_n\}$ を選び、$a$ が上記の行動空間の要素として
       含まれるように次のような関数を定める。
       \[  a=d(X_1,X_2,\cdots,X_n)        \]
       そして標本$\{X_1,X_2,\cdots,X_n\}$ が観察されたとき、この関数に
       よって定まる行動$a$ を決定するものとする。このとき関数$d$ を
       {\bf 決定関数}という(即ち決定関数は標本として得られた情報
       $\{X_1,X_2,\cdots,X_n\}$ を行動空間の要素に誘導する関係式である)。
       決定関数はいろいろ考えられるが、この際できるだけ
       よい推定値を与えるものでなくてはならない\footnote{この決定関数、
       後で登場する損失関数といった概念により、いろいろな問題を一般的に
       扱うことができる。なるべく損失の少ない決定関数を選べば、推定値は
       好ましいものとなるはずである。ただ実際には損失関数を考えるという
       より、よい推定値の条件として、不偏性・一致性・不変性などを考え、
       決定関数が選ばれるようである。}。
\end{enumerate}
統計的推理は以上のような順序をふんで行われる。従来推測統計で取り扱われて
きた二つの問題をこの決定理論の推理方式に当てはめてみると、{\bf 母数推定}
の問題は、行動空間の要素が無限(あるいは連続)の場合の決定問題であり、
{\bf 仮説検定}の問題は、結論が仮説を容認するかしないかのどちらかであるか
ら、行動空間が要素二個より成る特別の場合である。いまこれを平均値に関する
推定および検定を例にとって説明すると次の通りである。

\subsubsection{(1) 推定の問題}
母集団分布$f(x;\theta)$ を平均値$\mu$ の正規分布とする。
平均値$\mu$ を推定する場合、母数$\theta=\mu$ である。
統計的決定理論に従うと、母数推定の手順は次のようになる。
\begin{enumerate}
 \item  まず、母数空間を決める。実数範囲と定めれば、
       \[  \Phi=\{\mu; -\infty<\mu<\infty \}    \]
     となる。
 \item このとき行動は、$\mu$ の推定量$\hat{\mu}$ を決定することである。
       推定量$\hat{\mu}$ もまた実数範囲で考えられるから、行動空間は
     \[  A=\{\hat{\mu}(を決定する); -\infty<\hat{\mu}<\infty \}       \]
      となる。
 \item 決定関数を定義する。$\hat{\mu}$ を決定するために、大きさ$n$ の
       確率標本$\{X_1,X_2,\cdots,X_n\}$ を観察して、例えばその平均値
     \[  \bar{X}=\frac{1}{n}\sum_{i=1}^n X_i         \]
      を推定値として選んだとする。これは決定関数を次の形で決めたことを
      意味する。
      \[  a=d(X_1,X_2,\cdots,X_n)=\frac{1}{n}\sum_{i=1}^n X_i.       \]
   ここで、決定関数としてはこの他に例えば
    \[ a'=d'(X_1,X_2,\cdots,X_n)
        =\left(\prod_{i=1}^n X_i\right)^{\frac{1}{n}}~~~~(幾何平均)   \]
   あるいは
   \[ a''=d''(X_1,X_2,\cdots,X_n)
        =X_{\left(\frac{n+1}{2}\right)}~~~~(メジアン)      \]
を選ぶことも考えられる。この際できるだけよい推定値を与えるような決定関数
を選ぶべきことはいうまでもない。
\end{enumerate}

\subsubsection{(2) 検定の問題}
前と同様に母集団$f(x;\theta)$ を平均値$\mu$ の正規分布とする。
検定とは例えば次のような二つの行動のうちどちらをとるかという選択を
行うことである。二つの行動とは即ち、$\mu<k$ ($k$ は所与の定数)と判断
するか、$\mu \ge k$ と判断するか(あるいは仮説$\mu<k$ をとるか、
反対の仮説$\mu \ge k$ をとるか)である。推定の問題と同様、統計的
決定理論では、以下の手順で判断を行う。
\begin{enumerate}
 \item 母数空間を$\Phi=\{\mu; -\infty<\mu<\infty\}$ と定める。 
 \item 行動空間を定義する。その前に「行動」は、$\mu<k$ と判断する
       こと($a_1$ で示す)、$\mu \ge k$ と判断すること($a_2$ で示す)とする。
       このとき行動空間は、推定の場合と異なり、ただ二点$a_1,a_2$ の集合
            \[ A=\{a; a=a_1,a_2\}     \]
       である。
 \item 決定関数を決める。大きさ$n$ 個の確率標本を観察し、その平均値
       から次のように決定するものとする。即ち
    \begin{eqnarray}
      \bar{X}&<&k~~~~~~ならばa_1 をとり、  \nonumber \\
      \bar{X}&\ge&k~~~~~~ならばa_2 をとる。\nonumber
    \end{eqnarray}
    このとき決定関数は次式で示される。
    \begin{eqnarray}
        a=d(X_1,X_2,\cdots,X_n)&=&a_1~~~~~~~\bar{X}<k, \nonumber  \\
                         &=&a_2~~~~~~~\bar{X}\ge k. \nonumber
     \end{eqnarray}
\end{enumerate}
もちろんこれ以外の決定関数の決め方も考えられる。検定に関していえば、
標本から計算される「検定統計量」によることが多い。
どのように決定関数を決めるのがよいかを考えるのが検定理論の問題である。

\vspace{5mm}
推測統計の問題では以上の二つの類型に当てはめ得ないような
問題も少なくない\footnote{即ち行動空間が有限個の多数の要素を含むとき。
例えば実験で三つ以上の処理方法を試みてその効果の順位を決定する問題
であるとか、観察の結果に基づいて三つ以上の可能な行動のうちの一つを
選択するような問題。}。しかし、統計的決定の理論は、いろいろな問題を
幅広く統一的に扱えるのである。

\subsection{損失関数、危険関数}
決定理論についての以上の説明で明らかなように、決定関数の決め方はいくつか
考えられる。この複数の決定方式の中から最も適切と思われるものを選び出す
ためには、各行動の結果についての評価が必要となる。そこで決定理論では、
損失関数という概念が導入される。

\vspace{5mm}
{\bf 損失関数の定義}~~ 母数が$\theta$ のとき、$a$ という行動をとる
ことによって生ずる損失を$l(a;\theta)$ で示し、これを{\bf 損失関数}という。
損失関数は非負の実関数で、$a$ が$\theta$ にとって最適である場合、
$l(a;\theta)=0$ であると定める。

\vspace{5mm}
われわれは与えられた不完全な情報、即ち観察の結果
$\{x_1,x_2,\cdots,x_n\}$ に基づいて行動を次のように決定する。
\[   a_0=d(x_1,x_2,\cdots,x_n).        \]
$X_i$ は確率変数であるから、それに基づいて決定された行動$a$ もまた
確率変数である。従って行動$a_0$ に伴う損失
\[   l(a_0;\theta)=l\{d(x_1,x_2,\cdots,x_n);\theta\}   \]
もまた確率変数である。従って損失を小さくするということは、この損失関数
の期待値を小さくするということ以外に考えようがない。

\vspace{5mm}
{\bf 危険(関数)の定義}~~  損失の期待値を行動の{\bf 危険(危険関数)}といい、
$R(d;\theta)$ で示す。即ち
\begin{eqnarray}
  R(d;\theta)&=&E[l(a;\theta)]  \nonumber  \\
             &=&\int_{-\infty}^{\infty} \cdots \int_{-\infty}^\infty
 l\{d(x_1,x_2,\cdots,x_n);\theta\} f(x_1;\theta)f(x_2;\theta) \nonumber \\
 &~&~~~~~~~~~~~~~~~~~~~~~~~~~~~~\cdots f(x_n;\theta)dx_1dx_2\cdots dx_n. \nonumber
\end{eqnarray}
この$R(d;\theta)$ は決定関数$d$、損失関数$l$、および母数$\theta$ に依存
しているが、実際にどのような情報(標本)が観察されたかには無関係である。
良好な決定関数は母数空間内のすべての$\theta$ に対してこの危険関数$R$ が
最小であることが望ましい。しかし危険関数は行動$a$ の関数であると同時に
母数$\theta$ の関数でもある。従ってすべての$\theta$ に対して$R$ が一様に
最小になるような決定$d$ が存在するとは限らない。
決定理論の問題はこのようなとき、どのような原理に基づいて決定方式を選択
するかということである。

\vspace{5mm}
この点に関しては二つの原理が知られている。一つは Bayes の原理として
知られているもので、もう一つは Wald によって提唱されたミニマクス原理で
ある\footnote{決定関数(損失関数)を考える(複数個ある) → 決定原理 → 
ある決定関数(なるべく小さい損失関数)に決まる、ということか。}。

\vspace{5mm}
{\bf ベイズの原理}は母数$\theta$ に関する事前確率、即ち事の真相について
どのような状態がどの程度可能であるかということがあらかじめ知られているか、
あるいは推定可能であることを前提として、危険関数、即ち損失の期待値を最小
にするような決定関数を求める。しかしこの原理は事前確率についてまったく
情報が得られない場合には使えない。この困難を避けるためにワルドは、事の真
相のいかんに関わらず、予想される危険$R$ の中の最大のものが最小であるよう
な決定方式を選ぶこと({\bf ミニマクス原理})を提唱した。言い換えると、事の
真相が決定者にとって最も不利な場合を予想して、そのときの危険を最小に
とどめようという考え方であって、消極的ではあるが安全第一の考え方である。

\vspace{5mm}
決定関数の選択原理はこの他にも幾通りも考えることができる。問題によって
適当な原理を選ぶことが大切である。
                                                        



























































