T-檢驗對Z-檢驗:何時使用何者

作為一個數據科學專業人士,您經常需要分析、測試和建立數據集中的變量之間的關係,以漆取出有意義的結論。一個稱為假設檢驗的概念,以及包括t-test和z-test在內的幾個測試,是分析中常用來建立數據點之間的關係的工具。

本教程將教您t-test和Z-test之間的差異,並提供實際示例。我還將提供進一步學習的附加資源。

快速總結:t-test與Z-test

選擇t-test還是Z-test可以用电這些指導原則來總結:

  • 使用t考验: 當樣本數量是(n < 30)和/或总体方差是未知時。
  • 使用Z考验: 當樣本數量是(n ≥ 30)且总体方差是已知時。

在兩種情況下,我們期望數據是正態分布的。繼續閱讀以详细了解每個考验及其差異。首先,我們將從假設考验的快速介紹開始。

假設考验簡介

假設檢驗是一项基本的統計方法,用於根據樣本數據推斷总体参数。它提供了一种結構化的方法,用以根據經驗證據評估關於總体的主張或假設。

假設檢驗的核心有两个互补的声明:

  • 零假設(H₀)表示無效果、差異或關係的声明。它代表现状或目前的理解。
  • 對立假設(H₁) 是一種與零假設相反的陈述。它代表研究人员想要證明的主張或新理解。

例如,假設你想要確定一種新的教學方法是否能夠提高學生的新冠考试成绩。你可能会形成以下假設:

  • 零假設(H₀):新的教學方法對學生的新冠考试成绩沒有影響。
  • 替代假說(H₁):新的教學方法能提升学生的考试成绩。

假說檢驗包括了收集樣本數據、計算檢驗統計量,以及判定者在虚无假說為真的情況下觀察到這樣結果的機率。基於這機率,我們可以決定是否為了替代假說而拒絕虚无假說或失敗於拒絕它。

根據測試的數據類型和研究問題,有几个统计测试可用于假说检验。在這個教程中,我們將重点關注t-test和Z-test。

什么是t-test?

t-test 是一種統計測試,用來確定是否存在兩個群體的平均值之間的顯著差異,或是一個樣本平均值和已知值之間的差異。當處理小樣本量或者當总体標準差未知時,它特別有用。

一個單樣本t-test的統計量是使用以下公式計算的:

t-test 等式。圖片由原作者提供。

其中:

  • Xˉ 是樣本平均值
  • μ 是总体平均值(或對比群的平均值)
  • s 是樣本標準差,而
  • n 是樣本大小。

t-test 的類型

主要有三種類型的 t-test。每個比較在不同條件下的平均值:

  • 單樣本 t-test:此測試將單個樣本的平均值與已知值或总体平均值進行比較。它 determinest 是否樣本平均值顯著地与企业标準有所偏差。例如,我們可以使用單樣本 t-test 來評估一個小班級的平均测驗得分是否與全國平均分有所不同。
  • 独立二样本t檢驗: 這個檢驗比較兩個獨立群組的平均值,以決定它們之間是否存在統計上顯著的不同。它常用於實驗中,當兩組受到不同治療或條件時。例如,我們可以使用獨立二样本t檢驗來比較接受兩種不同教學方法的學生们的考试成绩,以查看一種方法是否更有效。
  • 配對t檢驗: 這個檢驗比較同一群組在不同時間或不同條件下的平均值。它評估在同一个群組中,在接受干预或隨時間變化的過程中是否存在顯著的變化。一個例子是測量在新教學策略實施前後的學生表現,以評估其影響。

t檢驗的假設

t-test 倚賴某些假設以提供有效結果:

  • 數據的正態分布:t-test 假設每個組別中的數據近似正態分布。對於小樣本而言,這尤其重要。如果數據不是正態分布,t-test 的結果可能不可靠。
  • 變異數的一致性:對於獨立之二樣本 t-test,比較的兩個組别的變異數被假設為相等。這個假設確保 t-test 正確地考慮每個組内部的變異性。如果變異數不等,可能會影響測試的準確性。
  • 觀察的獨立性:每個組內的觀察值應該是獨立的。這意味著一個觀察值的功效不应该影響或與另一個觀察值相關。違反這個假設可能會導致錯誤的結論。

在應用t-檢驗於任何分析之前,重要的是要檢查這些假設,以確保結果的有效性。閱讀我們的R中的T-檢驗教程或我們的Python T-檢驗简介,以學習如何在R或Python中進行t-檢驗。

什麼是Z-檢驗?

Z-檢驗是一種統計測試,用來確定是否存在顯著差異於樣本平均值與總體平均值之間,或於兩個組的平均值之間,當總體方差是已知的,且樣本大小很大時。

當樣本大小超過30時,主要使用,允許使用正態分布來近似檢驗統計量的分布。

單樣本Z-檢驗的Z-檢驗統計量是用以下公式計算的:

Z-檢驗方程式。圖片由作者提供。

其中:

  • Xˉ 是樣本平均值,
  • μ 是总体平均值,
  • σ 是人口標準差,而 
  • n 是樣本大小。

Z-检驗的类型

主要有三種Z-检驗:

  • 单一样本的Z-检驗:这种检驗將單一样本的平均值與已知的总人口平均值進行比較。當你想評估樣本平均值是否顯著地與人口平均值相差時,使用此检驗,前提是人口方差是已知的。例如,一個单一样本的Z-检驗可能用於確定一個超過30人的群體的平均身高是否與已知的全國平均身高不同。
  • 兩样本Z檢驗: 此檢驗是比较兩個獨立樣本均值,以判定它們之間是否有顯著差異。當兩個樣本都很大且總體變異已知時使用。例如,比較兩個不同學校學生的平均考试成绩,以判定兩個學校的表現是否有顯著差異。
  • 比例Z檢驗: 此檢驗比較樣本中某特徵的比例與已知總體比例或兩個樣本比例之間的差異。用來評估樣本中觀察到的比例是否顯著地和基于總體比例所预期的比例不同。例如,比例Z檢驗可能會用於比較樣本中支持某特定候選人的比例與以前選舉中觀察到的比例。

存在額外的測試變體,例如配對Z-測試、回归係數的Z-測試以及均值差異的Z-測試。

Z-測試的假設

Z-測試倚賴於某些假設才能提供有效的結果:

  • 已知的总体方差:Z-測試假設總體方差是已知的。這與t-測試不同,在t-測試中總體方差通常是未知的。已知的方差使得能夠使用Z-分佈來評估測試統計的顯著性。
  • 大樣本量:Z-test 假設樣本量大於30,通常在30以上。由於大樣本,樣本的平均數的抽樣分佈會近似正態分布,這是由中心極限定理所确定的,即使原始數據不是正態分布。
  • 人口的正態分布:假設數據是從正態分布的人口中抽樣而得。這個假設對大樣本不太重要,但當樣本量大於中等大小時仍然非常重要。

t-tests 和 Z-tests 之間的關鍵差異

T-检驗和Z-檢驗都用來比较高爾夫球賽的統計數據與总体参数,但它們在基礎假設、應用場合以及最恰當的條件上有所不同。讓我們分析與理解這兩種檢驗之間的差異:

樣本大小考慮

  • T-檢驗:T-檢驗通常用於樣本大小較小的情况,一般是少于30。當樣本大小不達到應用中心極限定理的標準時,它設計為具有堅強的穩定性。
  • Z-檢驗: Z-檢驗是用來當樣本大小很大時使用的,通常是大於30。在大樣本中,機均值的抽樣分配約當為正態分配,這為使用Z-檢驗提供了根據。

已知总人口方差

  • t-檢驗: 当总人口方差未知时使用t-檢驗。 computation instead of the population variance, using the sample variance to 計算检验统计量。由于估计总人口方差而引入的额外不确定度,由具有比正態分配更厚尾的t-分配来解释。
  • Z-test:Z-test 需要人口的方差是已知的。這是重要的假設,因為它允許使用標準正態分配來計算檢驗統計量。當人口方差已知時,Z-test 提供更精確的估計。

分佈假設

  • t-test:t-test 假設每個組內的数据近似正態分佈。這在處理小樣本時特別重要。t-test 中的檢驗統計量遵從 t-分配,比正態分配有更寬的尾巴。這解釋了當從小樣本估計人口標準差時額外的變異性和不確定性。
  • Z-檢驗

practical applications and use cases

  • t-test:t-檢驗常用於小樣本研究,例如 Pilot Studies,其中未知人口變異數。例如在小型團體中比較兩種治療效果,或評估同一團體隨時間的變化。
  • Z检验

以下是Z检验和t检验的主要区别表格:

Z检验和t检验的主要区别。图片由原作者提供。

结论

本教程向您介绍了假设检验以及两种常用的检验——t检验和Z检验。我们还学习了每种检验的定义、不同类型和假设,并进一步了解了它们的关键区别。我们得出了在特定情况下使用哪种检验最为合适的结论,因此让您能够通过假设检验自信地建立变量之间的关系。

在我們的統計學導論課程中 solidify 了假設測試的統計概念後,我會鼓勵您透過以下資源使用任何受欢迎的技術来实现這些概念:

祝您學習愉快!

Source:
https://www.datacamp.com/tutorial/t-test-vs-z-test