T-test vs. Z-test : Quand utiliser chacun

En tant que professionnel des sciences des données, vous devez souvent analyser, tester et établir des relations entre les variables dans un jeu de données pour tirer des conclusions significatives. Un concept appelé hypothèse de test, ainsi que plusieurs tests, y compris les tests t et les tests z, sont parmi les outils les plus couramment utilisés en analytics pour établir des relations entre les points de données.

Ce tutoriel vous apprendra la différence entre un test t et un test z avec des exemples réels. Je vais également fournir des ressources supplémentaires pour l’apprentissage ultérieur.

Un aperçu rapide : tests t vs tests z

Le choix entre un test t et un test z peut être résumé avec les directives suivantes :

  • Utilisez un test t : Lorsque la taille de l’échantillon est petite (n < 30) et/ou la variance de la population est inconnue.
  • Utilisez un test Z : Lorsque la taille de l’échantillon est grande (n ≥ 30) et la variance de la population est connue.

Dans les deux cas, nous nous attendons à ce que les données soient distribuées normalement. Lisez la suite pour en savoir plus sur chacun des tests et leurs différences en détail. Tout d’abord, nous commencerons par une rapide introduction aux tests d’hypothèse.

Une introduction aux tests d’hypothèse

Le test de hypothèse est une méthode statistique fondamentale permettant d’inférer les paramètres d’une population à partir de données de représentation. Elle fournit une approche structurée pour évaluer des allégations ou des hypothèses sur une population à l’aide de preuves empiriques.

Le cœur du test de hypothèse se compose de deux énoncés complémentaires :

  • L’hypothèse nulle (H₀)est une déclaration de l’absence d’effet, de différence ou de relation. Elle représente le statu quo ou la compréhension actuelle.
  • Hypothèse alternative (H₁) est une déclaration qui contredit l’hypothèse nulle. Elle représente la revendication ou la nouvelle compréhension que le chercheur souhaite prouver.

Par exemple, supposons que vous souhaitez déterminer si une nouvelle méthode d’enseignement améliore les notes des élèves aux examens. Vous pourriez former les hypothèses suivantes :

  • Hypothèse nulle (H₀) : La nouvelle méthode d’enseignement n’a aucun effet sur les notes des élèves aux examens.
  • Hypothèse alternative (H₁): La nouvelle méthode d’enseignement améliore les notes des élèves aux examens.

La validation de l’hypothèse consiste à collecter des données de base, à calculer des statistiques de test et à déterminer la probabilité de constater de telles réalisations si l’hypothèse nulle est vraie. En fonction de cette probabilité, nous pouvons décider de rejeter l’hypothèse nulle au profit de l’hypothèse alternative ou de ne pas la rejeter.

Selon les types de données et les questions de recherche testées, plusieurs tests statistiques sont disponibles pour la validation des hypothèses. Dans ce didacticiel, nous nous concentrerons sur le test t et le test Z.

Qu’est-ce qu’un test t ?

Un test t est une méthode statistique utilisée pour déterminer s’il y a une différence significative entre les moyennes de deux groupes ou entre la moyenne d’un échantillon et une valeur connue. Il est particulièrement utile lorsqu’il s’agit de petites tailles d’échantillon ou lorsque la variance de la population est inconnue.

La statistique t pour un test t unilatéral est calculée à l’aide de la formule suivante :

Équation du test t. Image de l’auteur.

où :

  • Xˉ est la moyenne de l’échantillon
  • μ est la moyenne de la population (ou la moyenne du groupe de comparaison)
  • s est la déviation standard de l’échantillon, et 
  • n est la taille de l’échantillon.

Types d’épreuves t

Il existe trois types principaux d’épreuves t. Chacune comparaison des moyennes sous différentes conditions :

  • Épreuve t un échantillon: Cette épreuve compare la moyenne d’un seul échantillon à une valeur connue ou à la moyenne de la population. Elle détermine si la moyenne de l’échantillon diffère significativement d’un certain repère. Par exemple, nous pouvons utiliser une épreuve t un échantillon pour évaluer si la moyenne des notes de test d’une petite classe est différente de la moyenne nationale.
  • Test t à deux groupes indépendants: Ce test permet de comparer les moyennes de deux groupes indépendants pour déterminer s’il existe une différence statistiquement significative entre eux. Il est couramment utilisé dans des expériences où deux groupes subissent différents traitements ou conditions. Par exemple, nous pourrions utiliser un test t à deux groupes indépendants pour comparer les scores d’examen entre élèves enseignés selon deux méthodes différentes d’enseignement pour voir si l’une des méthodes est plus efficace.
  • Test t de paires: Ce test permet de comparer les moyennes d’un même groupe à différents moments ou dans différentes conditions. Il évalue s’il y a une changement significatif au sein du même groupe après une intervention ou au fil du temps. Un exemple est la mesure du rendement des élèves avant et après l’implémentation d’une nouvelle stratégie d’enseignement pour évaluer son impact.

Hypothèses du test t

Le test t suppose certaines hypothèses pour fournir des résultats valables :

  • Normalité des Données : Le test t supposera que les données dans chaque groupe sont distribuées de manière approximativement normale. Cela est particulièrement important quand on traite de petites échantillons. Si les données ne sont pas normalement distribuées, les résultats du test t peuvent être non fiables.
  • Homogénéité des Variances : Pour un test t de deux échantillons indépendants, il est supposé que les variances des deux groupes comparés sont égales. Cette hypothèse s’assure que le test t comptabilise correctement la variabilité à l’intérieur de chaque groupe. Si les variances ne sont pas égales, cela peut affecter l’exactitude du test.
  • Indépendance des Observations : Les observations au sein de chaque groupe devraient être indépendantes. Cela signifie que la valeur d’une observation ne devrait pas influencer ou être liée à la valeur d’une autre observation. La violation de cette hypothèse peut conduire à des conclusions incorrectes.

Il est important de vérifier ces hypothèses avant d’appliquer le test t en cours d’analyse pour s’assurer de la validité des résultats.Lisez notreTutoriel sur les tests t en R ou notre Introduction aux tests t en Python pour apprendre comment effectuer des tests t en R ou en Python.

Qu’est-ce qu’un test Z ?

Un test Z est un test statistique utilisé pour déterminer s’il existe une différence significative entre la moyenne de l’échantillon et la moyenne de la population ou entre les moyennes de deux groupes lorsque la variance de la population est connue et que la taille de l’échantillon est grande.

Il est principalement utilisé lorsque la taille de l’échantillon dépasse 30, permettant l’utilisation de la distribution normale pour approcher la distribution du statistique de test.

Le statistique de test Z pour un Z-test d’une seule population est calculé en utilisant la formule suivante :

Équation du Z-test. Image de l’auteur.

où :

  • Xˉ est la moyenne de l’échantillon,
  • μ est la moyenne de la population,
  • La variance population est la variance standard, et
  • n est la taille de l’échantillon.

Types d’épreuves Z

Il existe trois types principaux d’épreuves Z :

  • L’épreuve Z d’un échantillon: Cette épreuve compare la moyenne d’un seul échantillon à une moyenne population connue. Elle est utilisée lorsqu’on veut évaluer si la moyenne de l’échantillon显著地diffère de la moyenne de la population, en supposant que la variance de la population est connue. Par exemple, une épreuve Z d’un échantillon pourrait être utilisée pour déterminer si la taille moyenne d’un groupe de plus de 30 personnes diffère de la taille moyenne nationalement connue.
  • Test zéro-deux: Ce test permet de comparer les moyennes de deux échantillons indépendants pour déterminer si il existe une différence significative entre eux. Il est utilisé lorsque les deux échantillons sont importants et que les variances des populations sont connues. Un exemple serait de comparer les notes moyennes des élèves de deux écoles différentes pour voir si il y a une différence significative dans le rendement entre les deux écoles.
  • Test zéro-cinq: Ce test permet de comparer la proportion d’une caractéristique donnée dans un échantillon à une proportion populaire connue ou entre deux proportions d’échantillons. Il est utilisé pour évaluer si la proportion observée dans l’échantillon diffère significativement de ce qui est prévu sur la base de la proportion populaire. Par exemple, un test zéro-cinq pourrait être utilisé pour comparer la proportion de suffrages en faveur d’un candidat particulier dans un échantillon à la proportion observée dans les élections précédentes.

Il existe des variantes supplémentaires du test, telles que le test de Z en double, le test de Z pour les coefficients de régression et le test de Z pour les différences de moyennes.

Hypothèses du test de Z

Le test de Z repose sur certaines hypothèses pour fournir des résultats valables :

  • Variance Populaireconnue : Le test de Z suppose que la variance de la population est connue. C’est une distinction essentielle par rapport au test t, où la variance de la population est généralement inconnue. La variance connue permet l’utilisation de la distribution de Z pour évaluer l’importance du test statistique.
  • Grand Volume d’Échantillon : Le test Z suppose un grand volume d’échantillon, généralement supérieur à 30. Avec des échantillons plus importants, la distribution de l’échantillon de la moyenne approche une distribution normale, même si les données originales ne sont pas normalement distribuées, selon le Théorème du Centre Limite.
  • Distribution Normale de la Population : On suppose que les données sont tirées d’une population avec une distribution normale. Cette hypothèse est moins critique pour de grands échantillons mais demeure importante lorsque la taille de l’échantillon est moyenne.

Points Clés de Différences Entre les Tests t et Z

Le test t et le test Z sont utilisés pour comparer les statistiques de sample aux paramètres de population, mais ils diffèrent dans leurs hypothèses sous-jacentes, leurs applications et les conditions dans lesquelles ils sont les plus appropriés. Examinons et comprenons les différences entre les deux tests :

Considérations sur la taille du sample

  • Test t : Le test t est généralement utilisé lorsque la taille du sample est petite, généralement inférieure à 30. Il est conçu pour être robuste lorsque la taille du sample ne répond pas au seuil nécessaire pour appliquer le Théorème central de la limite.
  • Test Z: Le test Z est utilisé lorsque la taille de l’échantillon est grande, généralement supérieure à 30. Dans de grands échantillons, la distribution des moyennes est approximativement normale, ce qui justifie l’utilisation du test Z.

Connaissance de la variance de la population

  • Test t: Le test t est utilisé lorsque la variance de la population est inconnue. Au lieu de la variance de la population, la variance de l’échantillon est utilisée pour calculer le statut de test. La distribution t, qui a des queues plus fortes que la distribution normale, tient compte de l’incertitude additionnelle due à l’estimation de la variance de la population.
  • Test Z: Le test Z nécessite que la variance de la population soit connue. C’est une hypothèse clé car elle permet d’utiliser la distribution normale standard pour calculer le test statistique. Lorsque la variance de la population est connue, le test Z fournit des estimations plus précises.

Hypothèses de distribution

  • Test t: Le test t suppose que les données à l’intérieur de chaque groupe sont distribuées de manière approximativement normale. Cela est particulièrement important lorsqu’il s’agit de petites échantillons. Le test statistique dans un test t suit une distribution t, qui a des queues plus large que la distribution normale. Cela tient compte de l’additionnelle variabilité et de l’incertitude lors de l’estimation de la variance de la population à partir d’un petit échantillon.
  • Z-test : Le test Z suppose que les données suivent une distribution normale ou que la taille de l’échantillon est suffisamment grande pour appliquer le Théorème duCentre-Limite. Le Théorème du Centre-Limite garantit que, pour de grands échantillons, la distribution de la moyenne est approximativement normale, même si les données sous-jacentes ne sont pas parfaitement normales.

Applications pratiques et cas d’utilisation

  • t-test : Le test t est couramment utilisé dans des études sur petits échantillons, comme les études pilotes, où la variance de la population est inconnue. Des exemples incluent la comparaison de l’efficacité de deux traitements dans un petit groupe ou l’évaluation des changements au sein du même groupe au fil du temps.
  • Test Z: Le test Z est utilisé dans des études à grand échantillon ou lorsqu’il s’agit de populations bien établies où la variance est connue. Il est souvent appliqué dans la qualité de contrôle, l’analyse des sondages et les grandes études expérimentales.

Voici une table avec les principales différences :

Principales différences entre le test t et le test Z. Image de l’auteur.

Conclusion

Ce didacticiel vous a présenté aux tests de hypothèses et deux tests couramment utilisés : les tests t et les tests Z. Nous avons également appris les définitions de chaque test, les différents types et les hypothèses correspondantes, et compris ainsi leurs principales différences. Nous avons conclu quels tests sont les meilleurs à utiliser dans lesquelles situations, ce qui vous permet de établir avec confiance les relations entre les variables par le biais des tests de hypothèses.

Après avoir consolidé les concepts statistiques à l’arrière de l’hypothèse de test avec notre cours Introduction à la Statistique, je vous encourageerais à mettre en œuvre ces concepts à travers plusieurs technologies populaires à travers les ressources suivantes :

Bonne apprentissage !

Source:
https://www.datacamp.com/tutorial/t-test-vs-z-test