「仮説検定」について学ぶ(統計学 / 推計統計学)

2023年5月13日

この記事では、統計学を初めて学ぶ筆者が、「推計統計学」における「仮説検定」について学んだ内容について記載しています。

学習には、Wikipediaの「仮説検定」の記事を参考にし、Pythonのプログラミングにも触れ、理解を深めました。

プログラミングには、機械学習ライブラリのscikit-learnを使用しました。

この記事は、他の人が参考にできるよう、わかりやすく書くことを心がけました。

仮説検定

仮説検定は、ある仮説(母集団分布の母数に関する仮説)が真であるかどうかを検証するための統計的手法です。その際、2つの仮説、つまり帰無仮説と対立仮説を設定します。

帰無仮説(null hypothesis)は、標本から得られたデータが偶然の産物であり、母集団分布の母数について特に何も言えないという仮説です。一方、対立仮説(alternative hypothesis)は、帰無仮説が成立しないという仮説で、つまり母集団分布の母数について何らかの影響があるという仮説です。

例えば、ある病気の治療法について、治療を受けた患者と治療を受けなかった患者との生存率に差があるかどうかを検証する場合を考えます。この場合、帰無仮説は「治療を受けた患者と治療を受けなかった患者との生存率に差がない」という仮説であり、対立仮説は「治療を受けた患者と治療を受けなかった患者との生存率に差がある」という仮説となります。

帰無仮説と対立仮説の設定は、統計的な検定を行う上で非常に重要です。帰無仮説は、一般的に否定されることが目的であり、対立仮説は帰無仮説が否定された場合に支持されます。帰無仮説を設定することで、データが偶然の産物である可能性を排除し、真の効果を見つけ出すことができるようになります。

仮説検定(かせつけんてい、英: hypothesis testing)あるいは統計的仮説検定 (statistical hypothesis testing)とは、母集団分布の母数に関する仮説を標本から検証する統計学的方法の一つ。日本産業規格では、仮説 (statistical hypothesis) を「母数又は確率分布についての宣言。帰無仮説と対立仮説がある。」と定義している。

仮説検定

検定とは、仮説検定で設定された帰無仮説を検証するための統計的手続きです。検定では、観測されたデータから帰無仮説が成立しているかどうかを判断します。

検定では、まず有意水準という値を決めます。有意水準は、帰無仮説が成立しているにもかかわらず誤って帰無仮説を棄却する確率(誤差の種類I(第一種の誤り)の確率)を決めるものです。有意水準をαと表記し、一般的には0.05や0.01が用いられます。有意水準を決めることで、偶然による誤判定を制御することができます。

次に、検定統計量と呼ばれる値を計算します。この統計量は、観測されたデータと帰無仮説との間の差異を表すものです。この統計量は、何らかの分布に従うと仮定して、その分布からp値を計算します。p値は、帰無仮説が成立している場合に、検定統計量が観測された値以上となる確率です。p値が有意水準α以下であれば、帰無仮説を棄却し、対立仮説を支持することになります。

例えば、ある医薬品の効果を検証する場合を考えます。帰無仮説は「医薬品の効果はない」という仮説であり、対立仮説は「医薬品の効果がある」という仮説です。この場合、有意水準を0.05と設定し、検定統計量を計算します。そして、その統計量からp値を計算し、0.05以下であれば帰無仮説を棄却し、医薬品に効果があると判断することができます。

検定は、統計学において非常に重要な手法の1つであり、科学的な研究やビジネス上の意思決定にも広く応用されています。

検定 (statistical test) を「帰無仮説を棄却し対立仮説を支持するか、又は帰無仮説を棄却しないかを観測値に基づいて決めるための統計的手続き。その手続きは、帰無仮説が成立しているにもかかわらず棄却する確率が α 以下になるように決められる。この α を有意水準という。」と定義している。

仮説検定

統計的仮説検定の手順

統計的仮説検定では、まず仮説を設定します。その仮説が正しい場合にどの程度の確率で標本を得られるかを計算し、その確率があらかじめ設定した値よりも小さい場合、仮説を棄却するという手順を取ります。

たとえば、ある学校の男女比について、男女同数であるという仮説を設定し、その仮説を検証するために、学校全体の生徒数から無作為に標本を抽出します。そして、その標本の中に含まれる男女の人数を数えます。この標本から男女比を計算し、その値が仮説の男女同数と異なる場合、その差が偶然に起因するものであるかどうかを判断するため、統計的仮説検定を行います。

具体的には、あらかじめ決めておいた有意水準という値を用いて、男女同数という仮説が成り立つ確率がどの程度かを計算します。この計算結果が有意水準よりも小さい場合、仮説が成り立たないと判断し、男女比について異なる結論を得ることになります。

統計的仮説検定においては、仮説が正しいと仮定した上で、それに従う母集団から、実際に観察された標本が抽出される確率を求め、その値により判断を行う。その確率が十分に(予め決めておいた値より)小さければ、その仮説を棄却する(すなわち仮説は成り立ちそうもないと判断する)。

仮説検定

統計的仮説検定は次のような手順で実施します。

仮説の設定

統計的仮説検定では、まず検定したいこと(例えば薬の効果があるかどうか)を仮説として設定します。その際、帰無仮説と対立仮説の2つの仮説を設定します。帰無仮説は、薬の効果がない場合を表し、対立仮説は、薬の効果がある場合を表します。例えば、プラセボに対する薬の試験では、帰無仮説は「薬の効果を主張できない」(つまり、薬の効果がない)とし、対立仮説は「薬の効果を主張できる」(つまり、薬の効果がある)とします。次に、この2つの仮説に基づいて、標本から得られたデータを分析し、帰無仮説が棄却できるかどうかを判断します。帰無仮説が棄却できた場合は、対立仮説を採択し、薬の効果があると結論付けることができます。

仮説が正しいと仮定した場合にその標本が観察される確率を算出できるように、仮説を統計学的に表現する。検定は下記の二者択一となり、帰無仮説を棄却できるかどうかを調べる。


帰無仮説
価値がない、何の関係もない、差異はみられない、仮説などそもそもなかった、などを意味するもの。普通 H0 と書く。
対立仮説
帰無仮説に対立するので、対立仮説と呼ばれる。帰無仮説が棄却された際に採択される。普通仮説を意味する [hypothesis] の頭文字を用いて H1 と書く。帰無仮説の正しさを求めるように検定を進めるが、成り立つか知りたいのはこちらの方である。

仮説検定

統計量の算出

統計量とは、標本から計算される数値であり、仮説検定においては、その統計量がどの程度観測されやすいかを評価するために用いられます。

十分統計量とは、その統計量が観測された場合に、すべての他の情報が無視できるような特性を持っている統計量のことを指します。これは、母集団の分布に依存するので、母集団が特定の確率分布(指数型分布族)に従う場合にのみ存在します。

例えば、プラセボと薬のグループにおける平均値の差を比較する場合、その差が十分統計量になります。この差を計算することで、薬がプラセボよりも効果的であるかどうかを判断することができます。

また、単純二仮説の場合には、尤度比が十分統計量になります。尤度比とは、帰無仮説と対立仮説の尤度の比をとったものであり、仮説検定においてよく用いられます。

単純二仮説

単純二仮説とは、統計的仮説検定において、帰無仮説と対立仮説の2つの仮説がある場合に、対立仮説が帰無仮説の否定で表現される場合を指します。

例えば、ある新しい薬剤が効果的であるかどうかを検証する場合、帰無仮説は「この薬剤は効果がない」と仮定されます。そして、対立仮説は「この薬剤は効果がある」という仮説として表現されます。この場合、単純二仮説とは、この2つの仮説のことを指します。

尤度比

尤度(ゆうど)とは、あるパラメータの値を与えたときに、そのパラメータによって生成されたデータが得られる確率密度関数または確率関数の値のことを指します。つまり、与えられたデータがある仮定のもとで、その仮定がどれほど「尤もらしい」かを表す指標として使われます。

例えば、サイコロを振ったときの出目を考えると、1から6までの目が等しい確率で出るという仮定を立てた場合、その仮定に基づいて、実際に出た目が得られる確率を計算することができます。この確率を尤度と呼びます。

尤度は統計学において、仮定された確率分布に基づくデータの尤もらしさを数値化するためによく用いられます。また、最尤推定法においても尤度が重要な役割を果たします。

尤度比(likelihood ratio)は、2つの異なる確率分布の尤度の比を計算することで、2つの確率分布がどれだけ類似しているかを評価する統計量です。尤度比は、帰無仮説(より制約の強い仮説)と対立仮説(より制約の緩い仮説)の2つの仮説の尤度を比較することで、どちらがより確率的にデータを説明できるかを検証します。尤度比が大きいほど、対立仮説がより妥当であるとされます。

例えば、2つの標本データの平均値が等しいかどうかを検証する場合、帰無仮説は「2つの標本データの平均値は等しい」とします。対立仮説は「2つの標本データの平均値は等しくない」とします。この場合、尤度比は帰無仮説の尤度と対立仮説の尤度の比を計算します。尤度比が大きい場合は、対立仮説がより妥当であるとされます。

標本データから、仮説に関係した情報を要約する検定統計量を計算する。下記のように十分性を持つ統計量(十分統計量)が存在すればそれを計算する。単純二仮説の場合は、尤度比が仮説検定の十分統計量となる。
母数に対応する十分統計量は、母集団の確率分布が指数型分布族である場合にのみ存在する。例で言えば、指数型分布族で、2つの標本平均の差 m1 − m2 は十分統計量である。

仮説検定

統計量の確率分布

統計量の確率分布とは、検定統計量がどのような確率分布に従うかを示すものです。帰無仮説が正しい場合、検定統計量はある確率分布に従うことが知られています。この確率分布を求めることで、検定統計量がどの程度異常な値であるかを評価することができます。

例えば、標本平均の差を検定統計量とした場合、帰無仮説が正しい場合、その検定統計量は正規分布に従います。また、その標準偏差は、各標本のサイズによって異なる計算式によって求められます。具体的には、標本1のサイズをn1、標本2のサイズをn2とした場合、標本平均の差の標準偏差は、{\sqrt  {{\frac  {1}{n_{1}}}+{\frac  {1}{n_{2}}}}}に母標準偏差をかけたものとなります。

帰無仮説に基づき、検定統計量の確率分布を明らかにする。

例では、標本平均の差は正規分布に従い、その標準偏差は母標準偏差に {\sqrt  {{\frac  {1}{n_{1}}}+{\frac  {1}{n_{2}}}}} をかけたもの(ここで n1 と n2 は各標本のサイズ)である。

仮説検定

危険域の設定

統計学において、仮説検定とは、データを使って仮説が正しいかどうかを検証する手法です。その際に危険域という概念があります。危険域とは、仮説が正しいと仮定した場合に、観測されたデータよりも極端な値が起こる確率が非常に低い範囲のことです。例えば、コインを投げる場合、表が出る確率が1/2であることを仮説とした場合、100回投げたうちに表が95回以上出る場合には、仮説が正しくない可能性があるとされます。この場合、表が95回以上出る確率が非常に低い範囲を危険域として設定します。このように危険域を設定することで、観測されたデータが偶然によるものか、仮説が正しくないことによるものかを判断することができます。危険率は、危険域内に入る確率のことであり、通常はα=0.05(5%)またはα=0.01(1%)を使用します。

可能な全ての値の集合の中で、帰無仮説に反する極端な範囲(分布関数をグラフ表示した場合には、裾に当たる部分)を選ぶ。これは検定統計量の危険域(英語版)と呼ばれる。帰無仮説が正しい場合に検定統計量が危険域内に入る確率を検定の危険率(有意水準あるいは検定のサイズともいい、ふつうαと表す)と呼ぶ。危険率としては、対象分野によって異なるが、α = 0.05 (5%) か α = 0.01 (1%) を用いることがある。検定の種類によっては両側検定または片側検定のみということもある。

仮説検定

棄却域

棄却域とは、帰無仮説が正しい場合に検定統計量が取りうる範囲のうち、その範囲の中でも特に極端な値を棄却するための領域のことです。つまり、帰無仮説に反すると考えられる値の範囲を設定して、その範囲外に検定統計量がある場合に帰無仮説を棄却するという判断をすることができます。

例えば、ある商品のパッケージには、平均的な重量が100gであることが書かれています。この商品の重量が変更されていないかどうかを確かめるために、標本から検定統計量を計算します。棄却域を設定すると、例えば重量が平均よりも大幅に重い場合や軽い場合を棄却域に設定します。もし、検定統計量がこの範囲外にある場合は、帰無仮説が正しくないと考えられるので、棄却されることになります。

また、棄却域の限界値を「棄却限界値」と呼びます。これは、検定の種類や危険率によって異なる値になります。危険率が低い(例えば、1%)場合には、棄却域は狭くなり、棄却限界値は大きくなります。逆に、危険率が高い(例えば、5%)場合には、棄却域は広くなり、棄却限界値は小さくなります。

棄却域
日本産業規格では、critical region を棄却域と訳し、「帰無仮説が棄却される検定統計量の値の集合」と定義している。また、備考には「棄却域の限界値を棄却限界値 (critical value) という」と説明している。

仮説検定

両側検定

両側検定は、帰無仮説が「平均が等しい」というように、平均や比率が特定の値であるかどうかを調べる際に用いられる検定方法です。この場合、分布関数の裾として左右両側を用いるため、「両側検定」と呼ばれます。

例えば、ある薬剤が効果的であるかどうかを調べる場合を考えてみましょう。薬剤を投与するグループと投与しないグループを比較し、薬剤投与群の平均値が投与しない群の平均値と差があるかどうかを検証するとします。

この場合、帰無仮説は「薬剤の効果はない(両方のグループの平均は等しい)」となります。この帰無仮説に対して、両側検定を用いて検証することができます。両側検定では、分布関数の左右両側を棄却域として定義し、棄却域に検定統計量が入る確率が事前に決められた有意水準(通常は0.05や0.01)以下であれば、帰無仮説を棄却し、薬剤の効果があると判断することができます。

日本産業規格では、このような有限区間の両側を棄却域とする検定を「1次元の検定」と定義しています。

両側検定
帰無仮説が例のように「平均が等しい」と主張するタイプであれば、分布関数の裾として左右両側を用いる(両側検定)。日本産業規格では、「検定統計量が1次元であり、棄却域がある有限区間の両側となる検定」と定義している。

仮説検定

片側検定

片側検定は、帰無仮説に対する代替仮説が「より大きい(またはより小さい)」である場合に用いられます。例えば、ある薬の効果があると仮定して、それを裏付けるために片側検定を行うことができます。この場合、検定統計量の値が帰無仮説に反するほど大きい(または小さい)場合に棄却されます。

片側検定では、帰無仮説の代替仮説に対応する片側の裾を棄却域として設定します。例えば、代替仮説が「平均が大きい」という場合、正規分布の右側の裾を棄却域として設定します。同様に、「平均が小さい」という代替仮説の場合は、正規分布の左側の裾を棄却域として設定します。そして、検定統計量の値が棄却域に入る確率があらかじめ設定された有意水準よりも小さい場合、帰無仮説を棄却します。

例えば、ある病気の治療法について、治療前の平均寿命が50歳であるとする帰無仮説があります。代替仮説は「治療後の平均寿命が50歳よりも大きい」とします。ここで、有意水準を0.05とし、検定統計量をt値とします。この場合、t値が右側の裾に入る確率が0.05よりも小さい場合、帰無仮説を棄却します。

片側検定
「……の方が平均が大きい(小さい)ということはない」と主張するタイプであれば、片側の裾だけを用いる(片側検定)。日本産業規格では、「検定統計量が1次元であり、棄却域がある棄却限界値より小さい領域(又は大きい領域)となる検定」と定義している。

仮説検定

判定

統計学における「判定」とは、データから算出した検定統計量が危険域(棄却域)内にあるかどうかを判断することを指します。検定統計量は、仮説に基づいて計算された値で、その値が仮説に反する極端な値であるほど、帰無仮説が正しくない可能性が高くなります。

判定においては、p値とα(有意水準)を比較して判断します。p値とは、検定統計量が仮説に基づいた分布の中で、その値以上の極端な値が出る確率を表します。通常、αは0.05や0.01など、あらかじめ設定された値です。p値がαよりも小さい場合、その検定統計量は危険域内にあると判断され、帰無仮説は棄却されます。一方、p値がαよりも大きい場合、その検定統計量は危険域外にあると判断され、帰無仮説を棄却するには十分な証拠がないと判断されます。

例えば、「ある薬に対して観察された反応はα水準で統計学的に有意である」という場合、帰無仮説(この薬による反応は偶然である)を棄却するためには、その観察結果が起こる確率がαよりも小さい必要があります。帰無仮説を棄却することで、この薬に対する反応は偶然ではなく、ある要因によって引き起こされている可能性が高くなります。判定の目的は、科学的な真理を明らかにすることではなく、誤謬を減らすことにあります。

データから算出した検定統計量が危険域内にあるかどうかを判定する。
通常は統計量が仮定した分布の中で、算出した検定統計量と同じかそれよりも極端な(仮説に反する)値となる確率(これをp値という)を数表などにより求め、これと α とを比較し、p < α ならば危険域の内部にあると判断する。 検定統計量が危険域内にあれば、結論は帰無仮説は正しくない。したがって棄却する(これから危険域のことを棄却域 (Rejection region) ともいい、それ以外の範囲は採択域 (Acceptance region) という。)か、さもなくばα 以下の確率しかない事象が起こったのいずれかになる。 この場合を α水準で統計学的に有意であるという。例では「薬に対して観察された反応は α水準で統計学的に有意である」といえる。分かりやすくいえば、「帰無仮説の下でこのようなことは偶然に起こりそうもないが、ごく小さい確率 α で起こり得る」ということである。
一方、検定統計量が危険域の外側にあれば、帰無仮説を棄却するに足る証拠はないというのがただ一つの結論となる。
統計学の目的は(当然であるが)科学的な真理を明らかにすることではなく、数学的な誤謬をできるだけ減らすことにある。

仮説検定

検出力

検出力とは、帰無仮説が誤っているときにそれを見抜く力のことを指します。つまり、本当に差がある場合にそれを見逃さない確率のことです。一般的に、検出力は0から1の範囲で表され、1に近いほど強い検出力を持ちます。

例えば、ある薬が効果があると仮定した場合、その薬を実際に投与したグループと偽薬を投与したグループを比較するために、それぞれのサンプルサイズと検出力を考えます。もし、サンプルサイズが小さく検出力が低い場合、実際に効果があるにもかかわらず偶然差が出なかった場合、薬が効果がないと判断されてしまう可能性があります。そのため、より高い検出力を持つように、より多くのサンプル数を確保することが望ましいとされています。

日本産業規格では、検出力 (英: statistical power) を「帰無仮説が正しくないとき,帰無仮説を棄却する確率。すなわち,第2種の誤りをおかさない確率であり,通常 1 − β で表される。」と定義している。
より高い検出力を、より小さいサンプルサイズで実現することが好ましい。

仮説検定

第1種の誤り

第1種の誤りとは、帰無仮説が本当であるにもかかわらず、誤ってその帰無仮説を棄却してしまうことを指します。例えば、ある薬の効果を調べるために、偽のデータを用いて統計分析を行い、本当は薬に効果がないにもかかわらず、薬に効果があるという帰無仮説を棄却してしまうことが第1種の誤りです。

日本産業規格によると、第1種の誤りを犯す確率は、有意水準と呼ばれる α という値で表されます。例えば、有意水準が 5% の場合、5% 以下の確率しかない事象が起きた場合に、帰無仮説が間違っていたと考えられます。つまり、帰無仮説が本当であるにもかかわらず、その帰無仮説を誤って棄却する確率が 5% 存在することになります。

帰無仮説が正しいときに、これを棄却してしまう誤りを第1種の誤り (Type I error) という。第1種の誤りを犯す確率を α で表す。α を危険率とも呼び、有意水準に等しい。有意水準を 5% とした時、5% 以下の発生確率しかない事象が起きると、帰無仮説が間違っていたと考えられる。これは、仮説が正しいのに誤って否定してしまう確率が 5% 存在することになる。日本産業規格では、「帰無仮説が正しいとき,帰無仮説を棄却する誤り。あわてものの誤りともいう。」と定義している。なお、ISO では error of the first kind と表記している。

仮説検定

第2種の誤り

第2種の誤りは、誤った帰無仮説を棄却できないことであり、帰無仮説が誤っているのに、誤った結論を出してしまうことを意味します。つまり、本当は帰無仮説を棄却すべきだったが、検定が間違っていたために帰無仮説を採択してしまったということです。これは、サンプルサイズが小さい場合や、母集団の分布が帰無仮説と似ている場合に起こりやすいとされています。

例えば、ある薬の効果を調べるために臨床試験を行う場合を考えてみましょう。帰無仮説は、「薬の効果はない」という仮説であり、対立仮説は「薬の効果がある」という仮説です。もし、本当に薬に効果があるのに、誤った帰無仮説を採択してしまい、薬の効果を見逃してしまうと、患者さんにとって大きな問題が生じることになります。このように、第2種の誤りは、大きな問題を引き起こす可能性があるため、注意が必要です。

誤った帰無仮説を棄却しない誤りのことを第2種の誤り (Type II error) という。第2種の誤りを犯す確率を β で表す。1 − β を検定力または検出力 (power) と呼び、誤った帰無仮説を正しく棄却できる確率を表す。βは真の母数に依存し、自分で決めることが出来ない。日本産業規格では、「帰無仮説が正しくないとき,帰無仮説を棄却しない誤り。ぼんやりものの誤りともいう。」と定義している。なお、ISO では error of the second kind と表記している。

仮説検定

第1種の誤りと第2種の誤りの関係

第1種の誤りと第2種の誤りはトレードオフの関係にあると言えます。つまり、第1種の誤りを減らそうとすると、第2種の誤りが増える傾向があります。逆に、第2種の誤りを減らそうとすると、第1種の誤りが増える可能性があります。このため、統計的仮説検定においては、あらかじめ指定した有意水準 (α) に対し、検出力 (1-β) をできるだけ高くするように棄却域を選ぶことが重要です。この方針はネイマン・ピアソンの基準と呼ばれています。

たとえば、ある新しい薬がある病気を治療する効果があると仮定して、その仮説を検証するために臨床試験を行うとします。この場合、第1種の誤りを犯して「有効な薬」と結論づける場合、その薬は実際には効果がなくても良い評価を受けてしまうことになります。一方で、第2種の誤りを犯して「無効な薬」と結論づける場合、その薬は実際には有効であるにもかかわらず、効果がないと判断されてしまいます。どちらの誤りも重大であり、有意水準と検出力をバランスよく設定することが求められます。

第1種の誤りを減らそうとすれば第2種の誤りが増える(またはその逆)という傾向がある。なお第1種の誤り (α) 対 検出力 (1 − β) のグラフを、受信者操作特性(ROCカーブ)と呼ぶ。
仮説検定では一般に、あらかじめ指定した十分小さい α に対し、β をなるべく小さく(検出力をなるべく大きく)するように棄却域を選ぶ方針をとる(ネイマン・ピアソンの基準)

仮説検定

検出力関数

検出力関数とは、仮説検定において、ある母集団パラメータの値に対して、その値を正しく棄却する確率を表す関数です。つまり、母集団パラメータの値によって検出力が変化することを表しています。

例えば、ある薬の効果を調べる場合を考えてみましょう。この薬が効果があるかどうかを調べるために、治療群と対照群を用意して、それぞれの平均値を比較するとします。この場合、母集団パラメータとして、薬の効果を表す平均値があります。検出力関数は、この平均値の値によって、薬の効果を正しく検出する確率を表します。薬の効果が大きいほど、検出力が高くなるというわけです。

日本産業規格では、検出力関数を「仮説があるパラメータで表現されているとき,パラメータの値によって検出力を与える関数。」と定義している。

仮説検定

種類

仮説検定には、パラメトリック検定とノンパラメトリック検定の2つの種類があります。パラメトリック検定は、母集団の分布を正規分布などの特定の分布と仮定し、その仮定に基づいて検定を行います。例えば、2つの群間の平均値の差を検定する場合、母集団が正規分布に従う場合にはt検定が使われます。一方、ノンパラメトリック検定は、母集団の分布についての仮定をしないで検定を行います。例えば、中央値の差を検定する場合にはWilcoxonの順位和検定が使われます。ノンパラメトリック検定は、分布についての仮定が必要ないため、より柔軟性がありますが、データの数が少ない場合には効果が制限されることがあります。

例のように、母集団の分布として正規分布を、あるいは比較する2群間の等分散(標準偏差が等しい)を仮定する(母数=パラメータを仮定する)検定法をパラメトリック(Parametric)、それらを仮定せず一般の分布に適用できる検定法をノンパラメトリック(Non-parametric)な検定と呼ぶ。具体的な方法の例を挙げる。

仮説検定

パラメトリックな検定手法

パラメトリックな検定手法は、ある母集団の分布を仮定して、その母集団のパラメータを推定したり、2つ以上の群の母平均や母分散の差異を検定するための手法です。

具体的な手法としては、t検定、F検定、回帰分析、分散分析があります。

t検定は、2つの群の平均値の差を比較するために使用され、正規分布を仮定します。たとえば、ある薬の効果を検証する場合、薬を投与した群と投与していない群の平均値の差を比較することができます。

F検定は、2つ以上の群の分散の比較に使用されます。たとえば、ある製品の品質を検証する場合、異なる生産ラインの品質を比較することができます。

回帰分析は、複数の変数のうち1つの変数について、他の変数がその値にどのように影響するかを分析するために使用されます。たとえば、ある商品の売上高について、広告費や季節性などの要因がどのように影響するかを分析することができます。

分散分析は、複数の群の平均値の差を比較するために使用されます。たとえば、ある商品の販売地域ごとの平均売上高の差を比較することができます。

これらの手法は、母集団の分布が正規分布であると仮定しているため、正規分布に従うデータに対して使用されます。

パラメトリックな検定手法

  • t検定
  • F検定
  • 回帰分析
  • 分散分析
仮説検定

ノンパラメトリックな検定手法

ノンパラメトリックな検定手法は、データの分布について仮定をしないで行う統計的検定方法です。具体的には、以下のような手法があります。

  • サイン検定:2つの標本の差について、差が0より大きいものと小さいものの数を比較することで、差があるかどうかを検定する方法です。例えば、ある薬の効果を測定するために、同じ人に対して薬を投与する前後での体重の変化を比較する場合に使用されます。
  • Wilcoxon検定:2つの標本の中央値の差について、ランク和の差を比較することで、差があるかどうかを検定する方法です。例えば、ある新しい薬と既存の薬の治療効果の比較をする場合に使用されます。
  • Mann-WhitneyのU検定:2つの標本の中央値が同じかどうかを検定する方法です。Wilcoxon検定と同様に、順位付けを行ってから、順位和を比較することで、検定統計量を計算します。
  • カイ二乗検定:カテゴリカルデータについて、2つ以上のカテゴリーの間に差があるかどうかを検定する方法です。例えば、男女別に好きなスポーツの種類を聞いた結果から、男女で好きなスポーツの種類に違いがあるかどうかを検定する場合に使用されます。
  • フィッシャーの直接確率検定:2つの標本の間に、関連性があるかどうかを検定する方法です。例えば、ある新しい薬を投与したグループと、投与しなかったグループの死亡率に違いがあるかどうかを検定する場合に使用されます。

ノンパラメトリックな検定手法は、データの分布が正規分布でない場合にも有効であり、データの種類や目的に合わせて適切な手法を選択する必要があります。

ノンパラメトリックな検定手法

  • サイン検定(符号検定)
  • Wilcoxon検定(順位付符号和検定)
  • Mann-WhitneyのU検定
  • カイ二乗検定
  • フィッシャーの直接確率検定

検定の目的からは、母数の有意性の検定、適合度検定(特定の母集団から抽出されたものか)、均一性検定(2標本が同一母集団によるものか:上の例)、独立性検定(2標本が独立か)などに分けられる。

仮説検定

逐次的仮説検定

逐次的仮説検定とは、仮説検定を逐次的に行い、サンプルの追加を続けることによって、より高い検出力を実現する方法です。通常の仮説検定では、あらかじめ決められたサンプル数を集めてから仮説検定を行いますが、逐次的仮説検定では、サンプルを一定数集めるたびに仮説検定を行わず、サンプルを追加することで検定を進めます。そのため、サンプルサイズが大きくなりすぎてしまうことを防ぐことができます。

例えば、ある商品の売り上げが増えたかどうかを調べるとき、一度に全てのデータを集めて検定を行うのではなく、ある程度の数のデータを集めて検定を行い、その結果に基づいて必要に応じてさらにデータを集める、というように進めます。逐次的仮説検定では、最適な停止則や決定則を使うことで、小さなサンプルサイズで高い検出力を実現することができます。また、オンライン上で行うことができるため、リアルタイムでの検定にも応用されます。

逐次的仮説検定(英: sequential hypothesis testing)とは、逐次的に行う仮説検定を指す。すなわちサンプルサイズが固定数とは限らず、停止則を導入し、それが満たされるまでは実際には仮説検定の実施を遅らせ、サンプルの追加を行う。停止則が満たされた段階では、決定則(すなわち仮説検定)を実施する。逐次的確率比検定(英語版)(逐次的尤度比検定)も参照。
より小さいサンプルサイズで、より高い検出力を実現することが好ましく、統計学的に最適な停止則および決定則を最適停止則および最適決定則と呼ぶ。
オンライン的な仮説検定として利用可能である。その場合、サンプルサイズはレイテンシとして位置づけられる。

仮説検定