作为数据科学专业人士,您必须经常分析、测试和建立数据集中变量之间的关系,以得出有意义的结论。一种称为假设检验的概念,以及包括t检验和z检验在内的多种测试,是分析中常用的一些工具,用于建立数据点之间的关系。
本教程将通过真实示例教您t检验和Z检验之间的区别。我还将提供额外的资源供进一步学习。
快速总结:t检验与Z检验
可以用以下指南来总结选择t检验和Z检验的区别:
- 使用t检验:当样本量较小(n < 30)且/或总体方差未知时。
- 使用Z检验:当样本量较大(n ≥ 30)且总体方差已知时。
在这两种情况下,我们都期望数据呈正态分布。继续阅读以详细了解每种检验及其差异。首先,我们将从假设检验的快速介绍开始。
假设检验简介
假设检验是一种基于样本数据推断总体参数的基本统计方法。它提供了一种结构化的方法,用于使用经验证据评估关于总体的主张或假设。
假设检验的核心有两个互补的陈述:
- 零假设(H₀)表示没有效果、差异或关系的陈述。它代表了现状或当前的理解。
- 备择假设(H₁)是一个与零假设相矛盾的陈述。它代表了研究者想要证明的主张或新的理解。
例如,假设你想确定一种新的教学方法是否能提高学生的考试成绩。你可能会形成以下假设:
- 零假设(H₀):新的教学方法对学生考试成绩没有影响。
- 备择假设(H₁):新的教学方法提高了学生的考试成绩。
假设检验涉及收集样本数据,计算检验统计量,并确定在零假设成立的情况下观察到此类结果的概率。根据这个概率,我们可以决定是拒绝零假设以支持备择假设,还是未能拒绝它。
根据测试的数据类型和研究问题,假设检验中有几种统计测试可供选择。在本教程中,我们将重点介绍t检验和Z检验。
什么是t检验?
t检验是一种统计检验,用于确定两个组的均值或样本均值与已知值之间是否存在显著差异。它在处理小样本量或未知总体标准差时尤为有用。
单样本t检验的t检验统计量的计算公式为:
t检验方程。图片由作者提供。
其中:
- Xˉ 是样本均值
- μ 是总体均值(或比较组的均值)
- s 是样本标准差,
- n 是样本容量。
t 检验的类型
主要有三种 t 检验。每一种都用于比较不同条件下的均值:
- 单样本 t 检验:这种检验将单个样本的均值与已知的值或总体均值进行比较。它用来判断样本均值是否显著偏离某个特定的基准。例如,我们可以使用单样本 t 检验来评估一个小型班级的平均测试分数是否与全国平均分有所不同。
- 独立两样本t检验:此检验比较两个独立组的均值,以确定它们之间是否存在统计显著性差异。它通常用于两个组接受不同处理或条件的实验中。例如,我们可以使用独立两样本t检验来比较使用两种不同教学方法教授的学生的考试成绩,看看哪种方法更有效。
- 配对t检验:此检验比较同一组在不同时间或不同条件下的均值。它评估在干预之后或随时间推移,同一组内是否存在显著变化。例如,测量实施新教学策略前后学生的表现,以评估其影响。
t检验的假设
t检验依赖于某些假设才能提供有效结果:
- 数据的正态性:t检验假设每个组的数据近似正态分布。这在处理小样本量时尤为重要。如果数据不是正态分布,t检验结果可能不可靠。
- 方差同质性:对于独立的两样本t检验,假设比较的两个组的方差相等。这个假设确保t检验正确地考虑了每个组内的变异性。如果方差不等,可能会影响检验的准确性。
- 观察的独立性:每个组内的观察值应当是独立的。这意味着一个观察值不应该影响或与另一个观察值相关。违反这个假设可能导致错误的结论。
在应用t检验进行任何分析之前,检查这些假设是非常重要的,以确保结果的有效性。阅读我们的R中的t检验教程或我们的Python t检验简介,了解如何在R或Python中执行t检验。
Z检验是什么?
Z检验是一种统计检验,用于确定样本平均值与总体平均值之间是否存在显著差异,或者在已知总体方差且样本量较大时,两个组之间平均值是否存在显著差异。
这主要适用于样本量超过30的情况,允许使用正态分布来近似检验统计量的分布。
单样本Z检验的Z检验统计量计算公式为:
Z检验方程。图片由作者提供。
其中:
- Xˉ 是样本均值,
- μ 是总体均值,
- σ 是总体标准差,而
- n 是样本容量。
Z检验的类型
主要有三种Z检验:
- 单样本Z检验:这种检验将单个样本的平均值与已知的总体平均值进行比较。当您想评估样本平均值是否显著偏离总体平均值时使用,假设总体方差是已知的。例如,可以利用单样本Z检验来确定一组超过30个人的平均身高是否与已知的全国平均身高不同。
- 双样本Z检验:这种检验用于比较两个独立样本的平均值,以确定它们之间是否存在显著差异。当两个样本都很大,且总体方差已知时使用。例如,比较来自两个不同学校的学生的平均测试分数,以查看两个学校的绩效是否存在显著差异。
- 比例Z检验:这种检验用于比较样本中某一特征的比例与已知的人口比例,或两个样本比例之间。它用于评估样本中观察到的比例是否显著不同于基于人口比例预期的比例。例如,比例Z检验可能会用于比较样本中对某一候选人表示支持的比例与之前选举中观察到的比例。
存在额外的测试变体,例如配对Z检验、回归系数Z检验以及均值差异Z检验。
Z检验的假设
Z检验依赖于某些假设以提供有效结果:
- 已知总体方差:Z检验假设总体方差是已知的。这与t检验不同,在t检验中,总体方差通常是未知的。已知的方差允许使用Z分布来评估检验统计量的显著性。
- 大样本量:Z检验假设大样本量,通常大于30。在大样本的情况下,样本均值的抽样分布趋近于正态分布,即使原始数据不是正态分布,这也符合中心极限定理。
- 总体正态分布:假设数据是从正态分布的总体中抽取的。对于大样本,这个假设不是很重要,但在样本量适中时仍然重要。
t检验和Z检验之间的关键差异
t检验和Z检验都用于将样本统计与总体参数进行比较,但它们在基本假设、应用场景以及在何种条件下最为适宜方面存在差异。让我们分析和理解这两种检验之间的差异:
样本大小考虑
- t检验:当样本量较小,通常小于30时,通常使用t检验。当样本量没有达到应用中心极限定理所需的阈值时,它被设计为健壮的。
- Z检验:当样本量较大时,通常大于30,使用Z检验。在大样本中,均值的抽样分布近似为正态分布,这就证明了使用Z检验的合理性。
总体方差知识
- t检验:当总体方差未知时使用t检验。代替总体方差,样本方差用于计算检验统计量。t分布相比正态分布有更重的尾部,考虑了由于估计总体方差带来的额外不确定性。
- Z检验:Z检验要求已知总体方差。这是一个关键假设,因为它允许使用标准正态分布来计算检验统计量。当总体方差已知时,Z检验能够提供更精确的估计。
分布假设
- t检验:t检验假设每组数据大致呈正态分布。当处理小样本时,这一点尤为重要。t检验中的检验统计量服从t分布,该分布比正态分布有更宽的尾部。这考虑了从小样本中估计总体标准差时的额外变异性和不确定性。
- Z检验:Z检验假设数据是正态分布的,或者样本量足够大,可以应用中心极限定理。中心极限定理确保,对于大样本,即使基础数据不是完全正态分布,均值的抽样分布也是近似正态分布的。
实际应用和使用案例
- t检验:t检验通常用于小样本研究,例如试点研究,当总体方差未知时。例子包括比较在小组中两种治疗的效果或评估同一组随时间的变化。
- Z检验:Z检验用于大样本研究或处理方差已知的成熟群体。它常用于质量控制、调查分析和大规模实验研究。
下面是关键区别的表格:
t检验和Z检验的关键区别。图片由作者提供。
结论
本教程向您介绍了假设检验以及两种常用的检验方法——t检验和z检验。我们还了解了每种检验的定义、不同类型和假设,并进一步理解了它们的关键区别。我们总结了在何种情境下最好使用哪种检验,从而使您能够通过假设检验自信地建立变量之间的关系。
在《统计学入门》课程中巩固了假设检验的统计概念后,我鼓励您通过以下资源之一使用流行技术实现这些概念:
祝学习愉快!