Session 5.仮説検定と信頼区間の密接な関係を理解する

執筆・監修

獨協医科大学越谷病院 麻酔科 教授 浅井 隆 先生

セッション3、セッション4で、グループ間差を調べるには、仮説検定によるP値で判定でき、どのぐらいの差があるのかは信頼区間で判定できることを確認しました。

これらの仮説検定と信頼区間は、検定と推定という2種類の統計の概念を用いていますが、これらはまったく違うものではなく、じつはお互いが関連しています。今回は、その関連の一部を見ていきましょう。

仮説検定と信頼区間の関連

仮説検定と信頼区間には関連がありますが、その中で知っておくと有用な関連は、つぎの通りになります。

95%信頼区間が0を含まない場合は、P<0.05。95%信頼区間が0を含む場合は、P≧0.05

すなわち、グループ間比較に対する仮説検定でP<0.05、と「有意差あり」であった場合、グループ間差に対しての95%信頼区間を求めると、0を含みません。一方、仮説検定でP>0.05、と「有意差なし」であった場合、95%信頼区間は0を含む、すなわち95%信頼区間の下限値はマイナスに、上限値はプラスになるということです。

例えば高血圧を有する60人の患者さんを2グループに分け、1グループで新しい降圧薬Aを、もう一方のグループで従来からの降圧薬Bを投与し、血圧の低下に差があるかどうかを検討したとしましょう。そしてその結果をまとめたのがつぎの表であったとしましょう。

新薬Aと従来薬Bの投与前後の収縮期血圧(平均値)(mmHg)
新薬A(30人)の投与前は182、投与後は120、投与前後差は62。従来薬B(30人)の投与前は184、投与後は142、投与前後差は42。

この結果から、収縮期血圧の低下度(投与前後の差)に関して、グループ間に有意差があるかどうかを調べるため、仮説検定をあてはめると、

P<0.05

となりました。このことより、新薬Aは従来薬Bに比べ、有意に大きく血圧を低下させた、と解釈することができます。

つぎにグループ間差の95%信頼区間を計算するとつぎの通りになりました。

95%信頼区間:10-28mmHg

となりました。このことより、新薬Aは従来薬Bに比べ、有意に大きく血圧を低下させた、と解釈することができます。

これらのことより、解釈としては…

新薬Aは従来薬Bに比べ、有意に血圧を低下させ、グループ間の血圧低下の差は10-28mmHgである。

となります。このように、仮説検定でP<0.05のときには信頼区間は0を含んでいません。

では他の例として、2種類の新薬AとCの比較をするとつぎのようになったとしましょう。

新薬Aは従来薬Bに比べ、有意に血圧を低下させ、グループ間の血圧低下の差は10-28mmHgである。
新薬Aと新薬Cの投与前後の収縮期血圧(平均値)(mmHg)
新薬A(30人)の投与前は178、投与後は122、投与前後差は56。新薬C(30人)の投与前は182、投与後は132、投与前後差は50。

このデータに対して、グループ間に対して仮説検定を当てはめた結果、

P≧0.05

となりました。この結果から、新薬AとCとでは、血圧の低下作用に有意差がない、と解釈できます。

つぎに、収縮期血圧の低下度のグループ間差に対する95%信頼区間を求めると

95%信頼区間:-6-18mmHg

となりました。このことから…

新薬Aは新薬Cに比べ、血圧を平均18mmHg大きく低下させる可能性があると同時に、血圧を平均-6mmHg 大きく低下させる可能性がある。

と解釈できます。“-6mmHg大きく低下させる”というのは日本語してわかりにくいので、わかりやすいように書き換えるとつぎのようになります。

新薬Aは新薬Cに比べ、血圧を平均18mmHg大きく低下させる可能性があると同時に、新薬Cは新薬Aに比べ、血圧を平均 6mmHg大きく低下させる可能性がある。

すなわち、薬Aが薬Cに比べより大きく血圧を低下させる可能性があると同時に、逆に薬Cが薬Aに比べより大きく血圧を低下させる可能性もあるため、薬Aと薬Cのどちらが血圧をより大きく低下さえるかの判断ができない、ということになります。

この例の場合、仮説検定の結果、有意差なし(P≧0.05)で、95%信頼区間は0を含んでいるので、仮説検定と信頼区間の関係がやはりこの例でも正しくなっています。

信頼区間は仮説検定に比べより有用

さて、この仮説検定と信頼区間の密接な関係から、つぎの重要ポイントを知っておくと便利です。

グループ間に有意差があるかは、95%信頼区間を求めれば、仮説検定で調べなくても判定が可能である。

すなわち、95%信頼区間を求めることによって、グループ間の差がどのくらいあるのか、ということのみならず、グループ間の差は有意かどうかも知ることが可能となります。このことから、信頼区間の情報は、仮説検定から得られる情報に比べてより有用であると言えます。

これまでの医学研究の報告では、P値という仮説検定の結果のみが重要視されて、信頼区間が示されていなかったことが多かったと言えます。しかし、P値の正しい解釈は意外と容易でなく、研究者、読者ともにしばしば誤った解釈をしてしまっているというのも確かです。とくに、有意差さえあれば信頼のできる研究で、一方有意差が出ていない研究は読む必要もない、と考えられる傾向にあります。この有意差が「ある・なし」の判定はあまりに単純な発想で、今のように進化した臨床の現場ではそのような二元論的な情報はあまり役に立たないと考えるべきでしょう。差が「ある・なし」のみではなく、「どれほどの差があるのか?」を示す信頼区間を正確に解釈して、臨床の現場に役立たせるべきでしょう。

参考資料
  • この内容は、「いまさら誰にも聞けない. 医学統計の基礎のキソ1-まずは統計アレルギーを克服しよう!」(浅井隆著)からアトムス出版の許可の上、引用、改変しています。