片側許容限界と非心分布

片側許容限界とは

下限値を設定する

■まさかこんなことしていませんよね
 データを集めて下限値を設定するときどうしていますか? まさか \[\bar x-\kappa\hat\sigma\,(\kappa は定数) \tag{mis-1}\] を下限値にしていないですよね。 これは論外です。
 統計学をかじったことのある人は,「そんな愚かなことはしてないよ,ちゃんと \[\bar x-\kappa\left(1+\frac{1}{\sqrt{n}}\right)\hat\sigma \tag{mis-2}\] としてるよ」と言うかもしれません。 しかし,これも五十歩百歩です。 これらを下限値として設計したあなたの製品は,思わぬところで故障や事故を起こし,最悪の場合は業務上過失で訴えられるかもしれません。

■では,どうするのが正しいのか?
 片側許容限界を使います。 実際に,大手のメーカーではちゃんと統計学の専門家を置いて,そんな愚かな設計はしないようにしていますので,安心して製品をお使いください。 (私は決して大手のメーカーの回し者ではないので,誤解のないように。。。)

片側許容限界の考え方

 集めたデータから求めた不偏平均 \(\bar x\) や不偏標準偏差 \(\hat\sigma\) は,あくまで母数の推定値です。 したがって,不偏平均 \(\bar x\) と母平均 \(\mu\) との間にはずれが生じています。 また,不偏標準偏差 \(\hat\sigma\) と母標準偏差 \(\sigma\) もずれています。 母数が真の値だと考えると,それらのずれを考慮せずに設定した下限値は過小評価(真の下限値より高い値)になってしまいます。
 式(mis-1)は平均のずれも標準偏差のずれも考慮できていません。 すなわち,不偏平均も不偏標準偏差も真の値だと考えています。 式(mis-2)は,平均のずれは考慮しているものの,不偏標準偏差を真の標準偏差だとしてしまっています。
 片側許容限界は,平均と標準偏差,両方のずれを考慮した上で下限値を設定します。 なお,上限値を設定するときも同様です。

片側許容限界の求め方


 片側許容限界では,上側限界値は \(\bar x+k\,\hat\sigma\),下側限界値は \(\bar x-k\,\hat\sigma\) で与えられます。 データのばらつきは正規分布に従うとしていますので,\(k\) は上側限界値も下側限界値も同じ値です。 母集団の平均を \(\mu\),分散を \(\sigma^2\) とし,母集団の \(100p\,\%\) のデータを含む下側限界値を \(\mu-u_p\,\sigma\) と表します。 一方,標本の平均を \(\bar x\),不偏分散を \(\hat\sigma^2\) とすると,母集団と標本の確率密度分布の関係は図のようになります。 推定による誤差が存在しますので,\(\bar x\ne\mu,\,\hat\sigma\ne\sigma\) です。
 ここで,\(\bar x-k\,\hat\sigma\) が母集団の下側限界値を下回る確率を \(\gamma\) とすると, \[ P_r[\,\bar x-k\hat\sigma\le\mu-u_p\,\sigma\,]=\gamma \tag{1} \] と書くことができます。 ただし,\(P_r[X]\) は事象\(X\) の発生確率を表す記号です。 \(1-\gamma\) は \(\bar x-k\,\hat\sigma\) が母集団の下側限界値を下回ってしまう危険を犯す確率,すなわち危険率ですので,\(\gamma\) は \(\bar x-k=\mu+u_p\,\sigma\) と置くことに対する信頼水準となります。 この考え方は統計学の基礎ですので,もし分からなければご自身で調べてください。(大学教養レベルです)


 式(1)を変形して, \begin{eqnarray} P_r\left[\,\bar x-k\hat\sigma\le\mu-u_p\,\sigma\,\right] &=&P_r\left[\,\bar x-\mu+u_p\,\sigma\le k\hat\sigma\,\right]\\ &=&P_r\left[\,\frac{\bar x-\mu+u_p\,\sigma}{\hat\sigma}\le k\,\right]\\ &=&P_r\left[\,\frac{\displaystyle{\frac{\bar x-\mu}{\sigma /\sqrt{n}}+u_p\sqrt{n}}}{\sqrt{\displaystyle{\frac{\hat\sigma^2}{\sigma^2}}}}\le k\sqrt{n}\,\right]=\gamma \tag{2} \end{eqnarray} となります。 ここで, \(z=\displaystyle{\frac{\bar x-\mu}{\sigma/\sqrt{n}}}\) は標準正規分布, \(\chi^2=(n-\delta)\displaystyle{\frac{\hat\sigma^2}{\sigma^2}}\) は自由度 \(n-\delta\) のカイ二乗分布に従う変数です。 ただし,\(\delta\) は不偏分散 \(\hat\sigma^2\) を計算したときに失った自由度です。(これも大学教養レベルの統計学の基礎)
 これらの分布が既知の変数を使って,式(2)は \[ P_r\left[\,\frac{z+u_p\sqrt{n}}{\sqrt{\chi^2/(n-\delta)}}\le k\sqrt{n}\,\right]=\gamma \tag{3} \] と表すことができます。


 ここで, \(t'=\displaystyle{\frac{z+\lambda}{\sqrt{\chi^2/\nu}}}\) という新しい変数を導入します。 この変数は,自由度 \(\nu\) ,非心度 \(\lambda\) の非心t分布という分布関数に従います。(これは大学専門レベル)  この変数を使うと,式(3)は \[ P_r\left[\,t'\le k\sqrt{n}\,\right]=\gamma \tag{4} \] と書くことができます。 ただし,\(\nu=n-\delta\,,\,\lambda=u_p\sqrt{n}\) です。
 式(4)は,自由度 \(n-\delta\),非心度 \(u_p\sqrt{n}\) の非心t分布の累積確率が \(\gamma\) となる点が \(k\sqrt{n}\) であることを表しています。 したがって,非心t分布の逆関数から \(k\) を得ることができます。


非心t分布の計算

 残念ながらExcelには非心t分布を計算できる関数が用意されていません。 仕方がないので,Excelマクロでユーザ定義関数を作りました。 以下からダウンロードできます。

 中身はExcelアドインとマニュアル(PDF)です。 アドインのファイル名は "非心t分布.xlam" です。 ダウンロードしたマクロを使用するのに抵抗がある人は,以下にVBAのソースを公開しておきますので,ご自分でExcelに組み込んでください。 また,マニュアルは こちら から閲覧できます。

 非心カイ二乗分布と非心F分布のExcelアドインも作成しています。 欲しい人は "Sainokawa" のページからご連絡ください。