T-test vs. Z-test: Quando Usare Ognuno

Come professionista delle scienze dati, spesso deve analizzare, testare e stabilire relazioni tra variabili in un insieme di dati per trarre conclusioni significative. Un concetto chiamato test delle ipotesi, insieme a vari test, inclusi i test t e i test z, sono tra gli strumenti più comunemente utilizzati in analytics per stabilire relazioni tra i punti dati.

Questo tutorial ti insegnerà la differenza tra un test t e un test Z con esempi reali. Fornirò anche risorse aggiuntive per l’apprendimento ulteriore.

Riepilogo veloce: test t contro test Z

Scegliere tra un test t e un test Z può essere riassunto con queste linee guida:

  • Usa un test t:Quando la dimensione del campione è piccola (n < 30) e/o la varianza della popolazione è sconosciuta.
  • Usa un test Z:Quando la dimensione del campione è grande (n ≥ 30) e la varianza della popolazione è conosciuta.

In entrambi i casi, ci si aspetta che i dati siano distribuiti normalmente. Continuare per imparare dettagliatamente riguardo ciascuno degli esami e le loro differenze. Prima di tutto, cominceremo con un’introduzione veloce agli esami delle ipotesi.

Un’introduzione agli esami delle ipotesi

Testing delle ipotesi è un metodo statistico fondamentale per inferire i parametri di una popolazione sulla base di dati di campione. Fornisce un approcio strutturato per valutare affermazioni o assunzioni riguardo una popolazione utilizzando evidenze empiriche.

Al centro del testing delle ipotesi ci sono due affermazioni complementari:

  • L’ipotesi nulla (H₀)è una dichiarazione di nessun effetto, differenza o relazione. Rappresenta lo stato attuale o la comprensione corrente.
  • L’ipotesi alternativa (H₁) è una dichiarazione che contraddice l’ipotesi nulla. rappresenta la richiesta o il nuovo ragionamento che il ricercatore vuole dimostrare.

Ad esempio, supponendo di voler determinare se un nuovo metodo di insegnamento migliora i punteggi degli studenti nelle prove. Potresti formulare le seguenti ipotesi:

  • Ipotesi nulla (H₀): Il nuovo metodo di insegnamento non ha alcun effetto sui punteggi degli studenti nelle prove.
  • Hipotesi alternativa (H₁): Il nuovo metodo di insegnamento migliora i punteggi degli studenti nei test.

Il test dell’ipotesi comporta la raccolta di dati campione, il calcolo delle statistiche di test e la determinazione della probabilità di osservare quei risultati se l’ipotesi nulla è vera. Sulla base di questa probabilità, possiamo decidere se respingere l’ipotesi nulla a favore dell’ipotesi alternativa o non la respingere.

A seconda dei tipi di dati e delle domande di ricerca testate, sono disponibili diverse test statistici per il test dell’ipotesi. In questo tutorial, ci concentreremo sul test t e sul test Z.

Cos’è un test t?

Un test t è un test statistico utilizzato per determinare se esiste una differenza significativa tra le medie di due gruppi o tra una media di campione e un valore noto. È particolarmente utile quando si lavora con dimensioni di campione piccole o quando la deviazione standard della popolazione è sconosciuta.

Il valore statistico del test t per un test t a campione singolo è calcolato utilizzando la formula:

Espressione del test t. Immagine dell’autore.

dove:

  • Xˉ è la media di campione
  • μ è la media della popolazione (o la media del gruppo di confronto)
  • s è la deviazione standard campionaria, e 
  • n è la dimensione del campione.

Tipi di test t

Esistono tre tipi principali di test t. Ognuno confronta la media sotto condizioni differenti:

  • Test t di un campione: questo test confronta la media di un singolo campione ad un valore noto o alla media della popolazione. Determina se la media del campione si devia significativamente da un specifico riferimento. Per esempio, possiamo usare un test t di un campione per valutare se la media dei punteggi di un piccolo corso differisce dalla media nazionale.
  • Test t a due risorse indipendenti: Questo test confronta le medie di due gruppi indipendenti per determinare se esiste una differenza statisticamente significativa tra loro. È comunemente utilizzato negli esperimenti in cui due gruppi subiscono trattamenti o condizioni differenti. Ad esempio, potremmo utilizzare un test t a due risorse indipendenti per confrontare i punteggi di esame tra studenti insegnati usando due metodi di insegnamento differenti per vedere se uno è più efficace.
  • Test t a due risorse affiancate: Questo test confronta le medie dalla stessa gruppo in tempi diversi o sotto condizioni diverse. Valuta se c’è un cambiamento significativo all’interno dello stesso gruppo dopo un intervento o nel tempo. Un esempio è la misura del rendimento studentesco prima e dopo l’adozione di una nuova strategia di insegnamento per valutarne l’impatto.

Assunzioni del test t

Il test t dipende da certe ipotesi per fornire risultati validi:

  • Normalità dei Dati: Il test t assume che i dati in ogni gruppo siano distribuiti approssimativamente normalmente. Questo è particolarmente importante quando si lavora con dimensioni di campione piccole. Se i dati non sono distribuiti normalmente, i risultati del test t potrebbero essere insicuri.
  • Ugualità delle Varianze: Per il test t a due campioni indipendenti, si assume che le varianze dei due gruppi in confronto siano uguali. Questa ipotesi garantisce che il test t tenga correttamente conto della variabilità all’interno di ogni gruppo. Se le varianze non sono uguali, questo può influenzare l’accuratezza del test.
  • Indipendenza delle Osservazioni: Le osservazioni all’interno di ciascun gruppo dovrebbero essere indipendenti. Questo significa che il valore di una osservazione non dovrebbe influenzare o essere correlato al valore di un’altra osservazione. La violazione di questo assunto può condurre a conclusioni errate.

È importante verificare queste ipotesi prima di applicare il test t in qualsiasi analisi per assicurarsi della validità dei risultati.Leggi il nostroTutorial sui test T in R o il nostro Introduzione ai test T in Python per imparare come condurre test t in R o Python.

Cos’è un test Z?

Un test Z è un test statistico utilizzato per determinare se c’è una differenza significativa tra la media campionaria e la media popolare o tra le medie di due gruppi quando la varianza popolare è nota e la dimensione del campione è grande.

È utilizzato principalmente quando la dimensione del campione supera i 30, permettendo l’uso della distribuzione normale per approssimare la distribuzione dello statistico di test.

L’ statistico Z di un test Z di un campione singolo è calcolato utilizzando la formula:

Equazione dello statistico Z. Immagine dell’autore.

dove:

  • Xˉ è la media campionaria,
  • μ è la media della popolazione.
  • σ è la deviazione standard della popolazione e
  • n è la dimensione del campione.

Tipi di test Z

Esistono tre tipi principali di test Z:

  • Test Z Uno-Campione: Questo test confronta la media di un singolo campione con una media nota della popolazione. Viene utilizzato quando si vuole valutare se la media campionaria differisce significativamente dalla media della popolazione, presupponendo che la varianza della popolazione sia nota. Per esempio, un test Z uno-campione potrebbe essere usato per determinare se l’altezza media di un gruppo di più di 30 persone differisce dalla nota altezza nazionale media.
  • Test Z a due campioni: Questo test confronta le medie di due campioni indipendenti per determinare se c’è una differenza significativa tra loro. Viene utilizzato quando entrambi i campioni sono grandi e le varianze della popolazione sono note. Un esempio sarebbe confrontare le medie punteggi di studenti di due scuole differenti per vedere se c’è una differenza significativa nel rendimento tra le due scuole.
  • Test Z della proporzione: Questo test confronta la proporzione di una certa caratteristica in un campione rispetto ad una proporzione popolazione nota o tra due proporzioni di campione. Viene utilizzato per valutare se la proporzione osservata nel campione differisce significativamente da ciò che si aspetterebbe in base alla proporzione popolazione. Ad esempio, un test Z della proporzione potrebbe essere utilizzato per confrontare la proporzione di elettori a favore di un determinato candidato in un campione rispetto alla proporzione osservata nelle elezioni precedenti.

Esistono variazioni aggiuntive del test, come il test di Z paired, il test di Z per i coefficienti di regressione e il test di Z per le differenze nelle media.

Assunzioni del test di Z

Il test di Z dipende da certe assunzioni per fornire risultati validi:

  • Varianza Popolare Conosciuta: Il test di Z assume che la varianza della popolazione sia conosciuta. Questa è una distinzione chiave dalla t-test, nella quale la varianza della popolazione di solito è sconosciuta. La varianza conosciuta permette di utilizzare la distribuzione di Z per valutare la significatività dello statistico del test.
  • Grande Campione: Il test Z assume una grande popolazione, di solito maggiore di 30. Con campioni più grandi, la distribuzione del campione della media tende ad avere una distribuzione normale, anche se i dati originali non sono distribuiti normalmente, secondo il Teorema del Limite Centrale.
  • Distribuzione Normale della Popolazione: I dati sono presi come estratti da una popolazione distribuita normalmente. Questo presupposto è meno importante per campioni grandi ma ancora significativo quando la dimensione del campione è media.

Differenze Chiave Tra Test t e Test Z

Il test t e il test Z sono utilizzati per confrontare le statistiche di campione con i parametri della popolazione, ma differiscono nei loro assunzioni sottostanti, nelle loro applicazioni e nelle condizioni nelle quali sono più appropriate. Analizziamo e capiamo le differenze tra i due test:

Considerazioni sulla dimensione del campione

  • Test t: Il test t è generalmente utilizzato quando la dimensione del campione è piccola, di solito inferiore a 30. È progettato per essere robusto quando la dimensione del campione non raggiunge il limite richiesto per l’applicazione del Teorema Centrale del Limite.
  • Z-test: Il test Z è utilizzato quando il campione è grande, di solito maggiore di 30. In campioni grandi, la distribuzione campionaria della media è approssimativamente normale, il che giustifica l’uso del test Z.

Conoscenza della varianza della popolazione

  • test t: Il test t è utilizzato quando la varianza della popolazione è sconosciuta. Invece della varianza della popolazione, viene utilizzata la varianza del campione per calcolare lo statistico di test. La distribuzione t, che ha le code più spesse della distribuzione normale, tiene conto dell’incertezza aggiuntiva dovuta all’estimazione della varianza della popolazione.
  • Test Z: Il test Z richiede che la varianza della popolazione sia nota. Questo è un assunzione chiave perché consente l’uso della distribuzione standard normale per calcolare il valore statistico del test. Quando la varianza della popolazione è nota, il test Z fornisce stime più precise.

Assunzioni sulla distribuzione

  • Test t: Il test t assume che i dati all’interno di ciascun gruppo siano distribuiti approssimativamente normalmente. Questo è particolarmente importante quando si lavora con dimensioni di campione piccole. Il valore statistico in un test t segue una distribuzione t, che ha coda più spessa della distribuzione normale. Questo tiene conto dell’addizionale variazione e dell’incertezza quando si stima la deviazione standard della popolazione da un campione piccolo.
  • Z-test: Il test Z presuppone che i dati siano distribuiti normalmente o che la dimensione del campione sia sufficientemente grande da applicare il Teorema Centrale del Limite. Il Teorema Centrale del Limite garantisce che, per campioni grandi, la distribuzione della media di campione è approssimativamente normale, anche se i dati sottostanti non sono perfettamente normali.

Applicazioni e casi d’uso pratici

  • t-test: Il test t è comunemente utilizzato in studi a campione piccolo, come ad esempio negli studi pilota, dove la varianza della popolazione è sconosciuta. Ad esempio, viene utilizzato per confrontare l’efficacia di due trattamenti in un gruppo piccolo o per valutare i cambiamenti all’interno dello stesso gruppo nel tempo.
  • Test Z: Il test Z è utilizzato in studi con grandi campioni o quando si trattano di popolazioni ben stabilite in cui la varianza è nota. Viene spesso applicato nella qualità del controllo, nell’analisi delle indagini e in studi sperimentali a grande scala.

Ecco una tabella con le principali differenze:

Principali differenze tra test t e test Z. Immagine dell’Autore.

Conclusione

Questo tutorial viene introdotta alla ricerca delle ipotesi e a due test comunemente usati — i test t e i test Z. Impariamo anche le definizioni di ciascun test, i diversi tipi e le ipotesi e comprendiamo ulteriormente le loro principali differenze. Concludiamo quale test è il migliore da usare in ciascuna situazione, consentendovi di stabilire con certezza relazioni tra le variabili attraverso la ricerca delle ipotesi.

Dopo aver consolidato i concetti statistici alla base dei test delle ipotesi con il nostro corso Introduzione alla Statistica, vi incoraggerei a implementare questi concetti attraverso una delle tecnologie popolari utilizzando le seguenti risorse:

Buon apprendimento!

Source:
https://www.datacamp.com/tutorial/t-test-vs-z-test