T検定とZ検定:それぞれの使用時期

データ科学プロフェッショナルは、意味深い結論を引き出すために、dataset内の変数間の関係を分析し、テストし、結論づけることが多いです。仮説テスティングという概念と、t-testやz-testなどのいくつかのテストが、分析で使われる一般的なツールで、データ点間の関係を結論づけることができます。

このチュートリアルは、t-testとZ-testの違いを実例を用いて教えています。また、さらなる学習のための追加リソースも提供します。

t-testとZ-testの比較についての簡単なサマリー:

t-testとZ-testを選ぶ際の指針は以下の通りです。

  • t检验を使用してください。サンプルサイズが小さい(n < 30)であることから、またはpopulation varianceが不明である場合。
  • Z检验を使用してください。サンプルサイズが大きい(n ≥ 30)であり、population varianceが知られている場合。

どちらの場合も、データが正規分布であることを期待する。詳細について学ぶために、各テストとその違いについての詳細な説明を読むのをお勧めします。まず、仮説検証についての簡単な紹介から始めます。

仮説検証についての紹介

仮説检定は、サンプルデータに基づいて人口パラメータを推論する基本的な統計方法です。それは、経験的な証拠を使用して、人口に関する主張や仮説を評価する構造化された方法を提供します。

仮説検定の核となるのは、2つの补完的な声明です。

  • 零仮説(H₀)は、効果、違い、や関連のない声明です。それは、现状や現在の理解を表します。
  • 代替仮説(H₁)は、零仮説に矛盾する声明です。研究者が証明したい主張や新しい理解を表します。

例えば、新しい教学法が生徒の試験成績を改善するかを調査したいとします。以下の仮説を立てるかもしれません。

  • 零仮説(H₀): 新しい教学法は生徒の試験成績に影響を与えない。
  • 代替仮説(H₁):新しい教育方法は学生の試験成績を向上させる。

仮説検定は、サンプルデータを集め、試験統計量を計算し、null仮説が正しいとしてそのような結果を観察する可能性を決定することで構成されています。この可能性に基づいて、null仮説を代替仮説として拒否するか、拒否しないかを決めることができます。

データの種類と調査問題によって、いくつかの統計テストが仮説検定に使用できます。このチュートリアルでは、t-テストとZ-テストに焦点を当てます。

t-テストとは何でしょう?

t检验は、2つのグループの平均数の間や、サンプル平均数と知られた値の間に重要な差が存在するか否かを決定する統計的検定です。小さなサンプルサイズや、人口の標準偏差が未知である場合に特に有用です。

一様のt检验のためのt检验指标は、以下の公式で計算されます。

t检验の方程式。画像:作者

ここでは、

  • Xˉ:サンプル平均
  • μ:人口平均(または比较グループの平均)
  • 標本標準偏差
  • nは標本大小です。

t检验の種類

t检验には3つの主要な種類があります。それぞれ、異なる条件の平均を比較します。

  • 一様標本t检验: この检验は、单一の標本の平均を既知の値または总体の平均と比較します。標本平均が特定の基準から著しく偏るかどうかを決定します。たとえば、小さなクラスの平均試験得点が全国の平均から変わっているかどうかを評価するために、一様標本t检验を使用することができます。
  • 独立二样本t检验:このテストは、統計的に重要な差が存在するか否かを決定するために、二つの独立したグループの平均を比較します。これは、二つのグループが異なる処置や条件を受けた実験でよく使われます。たとえば、独立二样本t检验を使用して、二つの異なる教育方法を使用して教えた学生の試験結果を比較し、どちらの方法がより効果的かを調査することができます。
  • 対照t检验:このテストは、同じグループの異なる時間や異なる条件での平均を比較します。これは、介入の後や時間の経過の中で同じグループの中で重要な変化があるか否かを評価します。例えば、新しい教育戦略を実施した後で学生の成績を測定し、その影響を評価するために使用します。

t检验の仮説

t检验は有効な結果を提供するために特定の前提を依存します。

  • データの正态性: t检验では、各群れのデータが近似して正态分布であると仮定します。これは、小さなサンプルサイズを扱う場合に特に重要です。データが正态分布でない場合、t检验の結果は信頼性を欠く可能性があります。
  • 变异の同质性: 独立した二样本t检验において、比較される2つの群れの変異を等しいと仮定します。この前提は、各群れの内部的な変异性を正しく考慮することを保証します。变异が等しくない場合、テストの精度に影響を与える可能性があります。
  • 観察の独立性: 各グループ内の観察は独立性を持つべきです。これ意味着、一つの観察の値が他の観察の値に影響を与えたり、関連していないことを意味します。この前提の違反は、間違った結論につながることがあります。

推定を確認することは、結果の有効性を確保するために、いかなる分析でt检验を適用する前に重要です。私たちのRでのT检验のチュートリアルを読むか、私たちのPythonでのT检验の紹介を参照して、RまたはPythonでt检验を行う方法を学ぶことができます。

Z检验とは何でしょう?

Z检验は、人口平均とサンプル平均、または2つのグループの平均の間に重要な差が存在するか否かを決定する統計的检验で、人口の分散が知られている場合、サンプルサイズが大きい場合に使用されます。

サンプルサイズが30を超える場合に主要に使用され、正規分布を使用してテスト統計の分布を近似することができます。

一个様本のZ检验のZ检验統計は、以下の公式で計算されます。

Z检验の方程式。画像:投稿者。

ここでは、

  • Xˉはサンプル平均で、
  • μは总体平均です。
  • 人口の標準偏差はσで、
  • サンプル大小はnです。

Zテストの種類

Zテストには3つの主要な種類があります:

  • 一様分布Zテスト: このテストは、1つのサンプルの平均を既知の人口の平均と比較する。人口の方差が知られている場合に、サンプル平均が人口平均から著しく偏离しているかどうかを評価したいときに使用されます。たとえば、30人以上の人々の平均身長が既知の国の平均身長から異なるかどうかを決定するために、一様分布Zテストが使用されるかもしれません。
  • 二样本Zテスト:このテストは、二つの独立したサンプルの平均を比較し、それらの間に著しい差が存在するか否かを決定する。これは、二つのサンプルが大きく、population variancesが知られている場合に使用されます。例えば、二つの学校の学生の平均試験結果を比較し、それらの学校間のパフォーマンスの差に著しい差が存在するか否かを確認するのが一例です。
  • 割合Zテスト:このテストは、サンプル内の特定の特性の割合を、知られる人口の割合または二つのサンプルの割合間で比較します。これは、サンプル内で観察された割合が、人口割合に基づいて予想される割合と著しく異なるか否かを評価するために使用されます。たとえば、特定の候補を支持している选民の割合が過去の選挙で観察された割合と著しく異なるか否かを比較するために、割合Zテストを使用することがあります。

テストには、配对Z-テスト、回帰係数のZ-テスト、以及び平均の差のZ-テストなど、さまざまな変形があります。

Z-テストの仮定

Z-テストは、有効な結果を提供するために特定の仮定に依存します。

  • 人口の分散が知られている: Z-テストでは、人口の分散が知られていると仮定します。これは、人口の分散が通常未知であるt-テストとの重要な違いです。知られた分散を使用することで、z-分布を使用してテスト統計の重要性を評価することができます。
  • 大样本量: Z-テストは大きなサンプル量を前提としています。一般的には30を超えるサンプル量です。より大きなサンプル量では、サンプル平均のサンプリング分布は、原始データが正态分布でなくても、中央極限定理により正态分布に近づくのです。
  • 人口の正态分布: データは正态分布の人口から引かれると仮定されます。この仮定は大サンプル量の場合には重要ではなくなりますが、サンプル量が中程度の場合は依然として重要です。

t-テストとZ-テストの主要な違い

t-检验とZ-检验は、サンプル統計を人口パラメータと比較するために使用されますが、それぞれの背后の仮定、適用、および最適な条件で異なります。2つの検定の間の違いを分析し、理解しましょう:

サンプルサイズに関する考慮

  • t-检验:t-检验は、通常サンプルサイズが小さい場合に使用されます。一般的には、30以下です。これは、サンプルサイズが中央極限定理を適用するための閾値を満たさない場合に強力な性質を持っています。
  • Z-テストは、サンプルサイズが大きい場合、一般的に30を超えるときに使用されます。大きいサンプルサイズでは、平均のサンプリング分布が近似して正規分布になり、Z-テストを使用することを正当化します。

人口分散の知識

  • t-テストは、人口分散を未知とする場合に使用されます。人口分散に代わりに、サンプル分散を使ってテスト統計を計算します。t-分布は、正規分布より尾の厚みが大きく、人口分散を推定することによる追加の不確実性に対応しています。
  • Z检验は、总体の分散が知られていることを前提としています。これは、標準正規分布を使用して検定統計量を計算することができるため、重要な仮定です。总体の分散が知られている場合、Z检验はより正確な推計を提供します。

分布の仮定

  • t检验は、各グループ内のデータが近似して正規分布であることを前提としています。これは、小さなサンプルサイズを处理する場合に特に重要です。t检验の検定統計量は、正規分布より尾が广いt分布に従っています。これにより、小さなサンプルから总体の標準偏差を推定する際の追加の変動や不確実性に対応します。
  • Z检验:Z检验は、データが正态分布にあることを前提しているか、サンプル大小が十分に大きく、中心極限定理を適用できると仮定しています。中心極限定理は、大きなサンプルの場合、潜在的なデータが完璧に正态分布でなくても、平均のサンプリング分布が近似正态分布になることを保証します。

実用的な適用と用途

  • t检验:t检验は、例如、推論的な研究の小さなサンプルの場合、 population varianceが未知であることに特化して使用されます。例えば、小さなグループの2つの治療法の効果を比べたり、同じグループ内での時間とともに変化を評価したりすることができます。
  • Z-テスト: Z-テストは、大規模なサンプル研究や、変数の平均が知られているようなよく成立した人口に適用される。品質管理、調査分析、そして大規模実験研究に多く用いられています。

以下は、主要な違いを表したテーブルです。

t-テストとZ-テストの主要な違い。

結論

このチュートリアルでは、仮説テスティングと2つの一般的に使用されるテスト——t-テストとZ-テストについて紹介しました。また、各テストの定義、異なるタイプ、仮設について学び、それらの主要な違いを理解しました。また、どのテストが特定のシーンで最適な使用方法を決めることができることに結論づけました。これにより、仮説テスティングを通じて変数同士の関係を確信して構築することができます。

統計の仮説检定の背后的な概念を私たちの統計入門コースで固定する後、以下のリソースを通じて人気のある技術を用いてこれらの概念を実装することをお勧めします。

学びの楽しさをお楽しみください!

Source:
https://www.datacamp.com/tutorial/t-test-vs-z-test