Т-тест против Z-теста: когда использовать каждый

Как профессионал в области данных науки, вы, скорее всего, часто анализируете, тестируете и определяете взаимосвязи между переменными в датасете, чтобы найти значимые заключения. Концепция, называемая тестированием гипотез, вместе с несколькими тестами, включая тесты t и z, являются одними из наиболее часто используемых инструментов в аналитике для определения взаимосвязей между данными точками.

Этот учебник покажет различие между тестами t и z с реальными примерами. Я также предоставлю дополнительные ресурсы для дальнейшего изучения.

快速摘要: тесты t против тестов z

Выбор между тестами t и z может быть обобщен следующими советами:

  • Использование t-test: При небольшом размере выборки (n < 30) и/или неизвестной varianсе населения.
  • Использование Z-test: При большом размере выборки (n ≥ 30) и известной varianсе населения.

В обоих случаях мы ожидаем, что данные будут нормально распределены. Читайте далее, чтобы узнать о каждом из тестов и их различиях в деталях. Сначала мы начнем с быстрого введения в тестирование гипотез.

Введение в тестирование гипотез

Тесты гипотез – это базисный статистический метод для деrivation параметров населения на основе выборки данных. Он обеспечивает структурированный подход для оценки утверждений или предположений о населении с использованием эмпирической информации.

В центре тестов гипотез находятся два взаимодополняющих утверждения:

  • Нулевая гипотеза (H₀) представляет собой утверждение о не наличии эффекта, различия или связи. Она соответствует текущему положению дел или текущему пониманию.
  • альтернативную гипотезу (H₁) – это утверждение, которое противоречит null гипотезе. Она представляет собой заявление или новый понимающий, который исследователь хочет доказать.

например, предположим, вы хотите определить, улучшает ли новый метод обучения оценки студентов. Вы можете сформировать следующие гипотезы:

  • null гипотезу (H₀): новый метод обучения не оказывает влияния на оценки студентов.
  • альтернативную гипотезу (H₁): Новый метод обучения улучшает результаты тестов студентов.

Проверка гипотезы включает сбор данных выборки, вычисление статистики теста и определение вероятности наблюдения таких результатов, если истинна null-гипотеза. На основании этой вероятности мы можем решить, whether to reject the null hypothesis in favor of the alternative or fail to reject it.

В зависимости от типов данных и исследуемых research questions, существует несколько статистических тестов для проверки гипотез. В this tutorial, мы будем focus on the t-test and Z-test.

Что такое t-test?

Т-test (тест t) – это статистический тест, используемый для определения существования значительного различия между средними значениями двух групп или между средним значением выборки и известным значением. Он особенно полезен, когда применяются малые выборки или когда неизвестна标准差 населения.

Статистический выражение теста t для одной выборки t-test вычисляется с использованием формулы:

Формула теста t. Иллюстрация автором.

где:

  • Xˉ – среднее значение выборки
  • μ – среднее значение населения (или среднее значение сравниваемой группы)
  • S – это образец стандартнойdeviation, а
  • n – это размер образца.

Типы тестов t

Имеется три основных типа тестов t. Каждый из них сравнивает средние значения под различными условиями:

  • Однородные t-тест: Это тест сравнивает среднее значение единственного образца с известным значением или средним значением популяции. Он определяет, whethersample mean значительно отличается от определенной отправной точки. Например, мы можем использовать однородный t-тест для оценки, whetherсредний балл теста в небольшой группе отличается от среднего балла по стране.
  • Независимая двух выборочная t-версия: Это тест сравнивает средние значения двух независимых выборок, чтобы определить, существует ли статистически значимая разница между ними. Он обычно используется в экспериментах, где две группы подвергаются различным лечебным методам или условиям. Например, мы могли бы использовать независимую двух выборочную t-версию, чтобы сравнить баллы экзаменов между студентами, обученными с помощью двух различных методов обучения, чтобы увидеть, является ли один метод более эффективным.
  • Подстроенный t-тест: Это тест сравнивает средние значения в той же группе во временах или под различными условиями. Он оценивает, существует ли значительное изменение внутри同一 группы после интервенции или с течением времени. Пример – измерение показателей успеваемости студентов до и после внедрения новой стратегии обучения, чтобы оценить ее влияние.

Предположения t-теста

Т-критерий основывается на определённых предположениях для обеспечения действительных результатов:

  • нормальное распределение данных: Т-критерий предполагает, что данные в каждой группе приблизительно нормально распределены. Это особенно важно, когда работают с малыми размерами выборки. Если данные не нормально распределены, результаты t-критерия могут быть ненадёжными.
  • однородность вариаций: Для независимого двойного t-критерия предполагается, что вариации между двумя сравниваемыми группами равны. Это предположение обеспечивает, чтобы t-критерий правильно учитывал варьиабельность внутри каждой группы. Если вариации не равны, это может сказаться на точности теста.
  • Независимость наблюдений: Наблюдения внутри каждой группы должны быть независимыми. Это значит, что значение одного наблюдения не должно influencir или быть связано с значением другого наблюдения. bones of this assumption can lead to incorrect conclusions.

важно проверить эти предположения до применения t-test в любом анализе, чтобы убедиться в корректности результатов. Прочтите наш Tutorial по t-test в R или наш Вводное учебное по Python t-tests, чтобы научиться проводить t-test в R или Python.

Что такое Z-test?

Z-test является статистическим тестом, используемым для определения существования значительного различия между выборки среднего и средним значением популяции или между средними значениями двух групп, когда varianza популяции известна и размер выборки большой.

Он используется в основном, когда размер выборки превышает 30, позволяя использовать нормальное распределение для приближения распределения статистики теста.

Статистика теста Z для Z-теста одной выборки вычисляется с использованием формулы:

Формула теста Z. Иллюстрация автором.

где:

  • Xˉ — среднее значение выборки,
  • μ — среднее значение популяции,
  • σ – это размах популяции, а
  • n – это размер выборки.

Типы тестов Z

Имеется три основных типа тестов Z:

  • Один Sample Z-тест: Это тест сравнивает среднее значение单个 выборки с известным средним значением популяции. Он используется, когда вы хотите оценить, связано ли среднее значение выборки с значительным отклонением от среднего значения популяции, предполагая, что varianza популяции известна. Например, один-sample z-тест может быть использован, чтобы определить, различается ли средняя высота группы более чем 30 человек от известной национальной средней высоты.
  • Двухгрупповой Z-тест : Это тест сравнивает средние значения двух независимых выборки, чтобы определить, есть ли значительное различие между ними. Он используется, когда обе выборки крупными и выравнивается variances. Пример такого теста может быть сравнение средних баллов тестов студентов из двух разных школ, чтобы узнать, есть ли значительное различие в показателях выполнения работы между двумя школами.
  • <Пропорционный Z-тест : Это тест сравнивает долю определенного характеристики в выборке с известной доле населения или между двумя долями выборки. Он используется, чтобы оценить, является ли наблюдаемая доля в выборке значительно отличается от ожидаемой на основе доли населения. Например, пропорционный Z-тест может быть использован для сравнения доли избирателей, поддерживающих определенного кандидата, в выборке с долей, наблюдаемой в предыдущих выборах.

Есть дополнительные вариации теста, такие как парный Z-тест, Z-тест для коэффициентов регрессии и Z-тест для различий в средствах.

Параметры Z-теста

Z-тест основывается на определённых предположениях, чтобы обеспечить правильные результаты:

  • известный размер ошибки: Z-тест предполагает, что размер ошибки популяции известен. Это ключевая разница с t-тестом, где размер ошибки популяции обычно неизвестен. Знание размера ошибки позволяет использовать распределение Z для оценки значимости статистического теста.
  • большой размер выборки: Тест Z-типа предполагает большой размер выборки, обычно более 30. При более крупных выборках распределение выборки среднего значения становится ближе к нормальному, даже если исходные данные не нормально распределены, согласно теореме центрального ограничения.
  • нормальное распределение популяции: предполагается, что данные берутся из нормально распределенной популяции. Это предположение менее важно для больших выборок, но все еще важно, когда размер выборки средний.

ключевые различия между t-тестами и Z-тестами

Т-тест и Z-тест используются для сравнения выборки с популяционными параметрами, но они различаются по подходящим предпосылкам, области применения и условиям, в которых они наиболее адекватны. Давайте анализируем и понимаем различия между двумя тестами:

Рассмотрение размера выборки

  • Т-тест: Т-тест обычно используется, когда размер выборки маленький, обычно менее 30. Он спроектирован для того, чтобы быть устойчивым, когда размер выборки не соответствует порогу, необходимому для применения теоремы центральной выборки.
  • Z-тест: Z-тест используется, когда размер выборки крупенький, обычно более 30. В крупных выборках распределение среднего значения приближается к нормальному, что оправдывает использование Z-теста.

Знание размера популяционной среднеквадратической

  • t-тест: t-тест применяется, когда популяционная среднеквадратическая неизвестна. Вместо популяционной среднеквадратической используется выборочная среднеквадратическая для вычисления статистики теста. t-распределение, которое имеет более тяжелые хвосты, чем нормальное распределение, учитывает дополнительную неопределенность, связанную с оценкой популяционной среднеквадратической.
  • Z-тест: Z-тест требует, чтобы популяционный разброс был известен. Это ключевая предпосылка, поскольку она позволяет использовать стандартное нормальное распределение для вычисления статистического показателя. когда популяционный разброс известен, Z-тест обеспечивает более точные оценки.

Предпосылки распределения

  • t-тест: t-тест предполагает, что данные внутри каждой группы приблизительно нормально распределены. Это особенно важно при работе с малыми размерами выборки. Статистический показатель в t-тесте соответствует распределению t, которое имеет ширее хвостовое отношение, чем нормальное распределение. Это компенсирует дополнительную неопределенность и неустойчивость, возникающие при оценке популяционной标准差 с малой выборки.
  • Z-тест: Z-тест предполагает, что данные нормально распределены или что размер выборки достаточно большой, чтобы применить теорему центральной оси. Теорема центральной оси гарантирует, что для больших выборок распределение среднего значения примерно нормально, даже если базовые данные исходно не совершенно нормальны.

Практическое применение и сценарии использования

  • t-тест: t-тест широко используется в исследованиях с малыми выборками, таких как пилотные исследования, для которых неизвестна variance населения. Примеры включают сравнение эффективности двух лечений в небольшой группе или оценку изменений в течение времени внутри同一组.
  • Z-тест: Z-тест используется в исследованиях с большими выборками или когда работают с хорошо установленными популяциями, где variancia известна. Он часто применяется в качественном контроле, анализе опросов и крупномасштабных экспериментальных исследованиях.

Вот таблица с ключевыми различиями:

Ключевые различия между t-тестом и Z-тестом. Ilustración por la autora.

Заключение

В этом учебнике мы вас ввели в испытание гипотез и два наиболее распространенных теста — t-тесты и z-тесты. Мы также leaned определения каждого теста, различных типах и предпосылках и более глубоко понимаем их ключевые различия. Мы заключили, какой тест лучше использовать в каждой сценарий, тем самым позволяя вам уверенно устанавливать связи между переменными с помощью испытания гипотез.

После укрепления статистических понятий, лежащих в основе тестирования гипотез, в нашем курсе Introduction to Statistics, я советую вам применить这些 понятия с помощью любой из популярных технологий с помощью следующих ресурсов:

Happy learning!

Source:
https://www.datacamp.com/tutorial/t-test-vs-z-test