Als een gegevenswetenschapelijk professional moet je vaak analyseren, testen en relaties tussen variabelen in een gegevensset vaststellen om betekenisvolle conclusies te trekken. Een concept dat hypothese testen heet, samen met verschillende testen, inclusief t-tests en z-tests, zijn enkele van de algemeen gebruikte gereedschappen in analytics om relaties tussen data-punten vast te stellen.
Deze handleiding zal u leren hoe verschillend een t-test is van een Z-test met echte voorbeelden. Ik zal ook aanvullende bronnen voor verdere leerlingen voorleggen.
Een snel overzicht: t-tests vs. Z-tests
Het kiezen tussen een t-test en een Z-test kan worden samengevat met deze richtlijnen:
- Gebruik een t-toets:Als de steekproefomvang klein is (n < 30) en/of de populatieveffektwaring onbekend is.
- Gebruik een Z-toets:Als de steekproefomvang groot is (n ≥ 30) en de populatieveffektwaring bekend is.
In beide gevallen verwachten we dat de gegevens normaal verdeeld zijn. Lees verder om meer te leren over elke toets en hun verschillen in detail. Eerst gaan we een korte inleiding bespreken over hypothese testen.
Een inleiding tot hypothese testen.
Hypothesistesting is een fundamentele statistische methode voor het afleiden van populatiet parameters op basis van steekproeven. Het biedt een gestructureerde aanpak voor het evalueren van claim of aannames over een populatie met behulp van empirische bewijs.
Het hart van hypothesistesting zijn twee complemetaire uitdrukkingen:
- De nullhypothese (H₀)is een uitdrukking van geen effect, verschil of relatie. Het stelt de status quo of de huidige inzichten voor.
- De alternatieve hypothese (H₁) is een statement dat de null hypothese controleert. Het vertegenwoordigt de claim of de nieuwe verstandelse die de onderzoeker wil bewijzen.
Bijvoorbeeld, als u wilt bepalen of een nieuwe lesmethode de studententestcijfers verbeterd. U zou de volgende hypothese kunnen formuleren:
- Null hypothese (H₀): De nieuwe lesmethode heeft geen effect op de studententestcijfers.
- Alternatieve hypothese (H₁): Het nieuwe onderwijsmethode verbeterd de toetsresultaten van studenten.
Hypothese testen omvat het verzamelen van steekproefdata, het berekenen van teststatistieken en het bepalen van de kans op het observeren van dergelijke resultaten als de null-hypothese waar is. Op basis van deze kans kunnen we beslissen of we de null-hypothese verwerpen ten gunsten van de alternatieve of niet verwerpen.
Afhankelijk van de gegevenssoorten en de geteste wetenschappelijke vragen zijn verschillende statistische testen beschikbaar voor hypothese testen. In deze handleiding zullen we ons focus leggen op de t-test en de Z-test.
Wat is een t-test?
Een t-test is een statistische test die gebruikt wordt om te bepalen of er een significante verschillende bestaat tussen de gemiddelden van twee groepen of tussen een steekproefgemiddelde en een bekende waarde. Het is bijzonder handig bij het behandelen van kleine steekproeven of wanneer de populatieve standaardafwijking onbekend is.
Het getal voor de t-test voor een eenvoudige t-test wordt berekend met behulp van de volgende formule:
t-test Vergelijking. Afbeelding door de Autor.
waar:
- Xˉ is het steekproefgemiddelde
- μ is het populatieve gemiddelde (of het gemiddelde van de vergelijkingsgroep)
- s is de steekproefstandaarddeviatie en
- n is de steekproefgrootte.
Soorten t-toetsen
Er zijn drie hoofdsoorten t-toetsen. Elke toets vergelijkt gemiddelden onder verschillende omstandigheden:
- Eénsteekproef t-toets: Deze toets vergelijkt het gemiddelde van een enkele steekproef met een bekende waarde of populatiegemiddelde. Hij bepaalt of het gemiddelde van de steekproef significant afwijkt van een specifiek referentiepunt. Bijvoorbeeld, we kunnen een enkele steekproef t-toets gebruiken om te evalueren of het gemiddelde cijfer op een toets van een kleine klas verschillend is van de nationale gemiddelde.
- Onafhankelijk twee-onderzoekgroepentest: Deze test vergelijkt de gemiddelden van twee onafhankelijke groepen om te bepalen of er een statistisch significante verschillende bestaat tussen hen. Het wordt veel gebruikt in experimenten waarin twee groepen verschillende behandelingen of omstandigheden ondergaan. Bijvoorbeeld, we konden een onafhankelijk twee-onderzoekgroepentest gebruiken om testcijfers te vergelijken tussen studenten die zijn onderwezen met twee verschillende onderwijsmethodes om te zien of een van de methodes effectiever is.
- Gekoppelde t-test: Deze test vergelijkt gemiddelden uit dezelfde groep op verschillende momenten of onder verschillende omstandigheden. Het evalueert of er een significante verandering is binnen dezelfde groep na een interventie of over tijd. Een voorbeeld is het meten van studentenprestaties voor en na de invoering van een nieuwe lesstrategie om haar impact te beoordelen.
Aannames van de t-test
De t-test berust op bepaalde aannames om geldige resultaten te leveren:
- Normaalverdeling van de Data: De t-test gaat ervan uit dat de data in elke groep ongeveer een normale verdeling hebben. Dit is bijzonder belangrijk bij het behandelen van kleine steekproeven. Als de data niet normaal verdeeld zijn, kan het resultaat van de t-test onbetrouwbaar zijn.
- Variancehomogeniteit: Voor een onafhankelijke twee-steekproef t-test wordt aangenomen dat de varianties van de twee vergeleide groepen gelijk zijn. Deze aanname zorgt ervoor dat de t-test de variantie binnen elke groep correct rekent. Als de varianties niet gelijk zijn, kan dit de nauwkeurigheid van de test beïnvloeden.
- Onafhankelijkheid vanObservaties: De observaties binnen elke groep moeten onafhankelijk zijn. Dit betekent dat de waarde van een observatie geen invloed of relatie moet hebben op de waarde van een andere observatie. Het overtreden van deze aanname kan leiden tot onjuiste conclusies.
Het is belangrijk deze aannames te controleren voordat u de t-test toeleeft bij elke analyse om de geldigheid van de resultaten te verzekeren. Lees ons T-tests in R Handleiding of onze Inleiding tot Python T-Tests om te leren hoe u t-tests uitvoert in R of Python.
Wat is een Z-test?
Een Z-test is een statistische test die wordt gebruikt om te bepalen of er een significante verschillende bestaat tussen de steekproef gemiddelde en het populatie gemiddelde of tussen de gemiddelden van twee groepen wanneer de populatie variantie bekend is en de steekproefgrootte groot is.
Het wordt voornamelijk gebruikt wanneer de steekproefgrootte overschrijdt 30, waardoor de normale verdeling gebruikt kan worden om de verdeling van de teststatistiek te benaderen.
De Z-teststatistiek voor een eenvoudige Z-test wordt berekend met behulp van de volgende formule:
Z-test Vergelijking. Afbeelding door de Auteur.
waarin:
- Xˉ de steekproefgemiddelde is,
- μ de populatiegemiddelde is,
- σ is de populatie standaardafwijking, en
- n is de steekproefgrootte.
Soorten Z-tests
Er zijn drie hoofdsoorten Z-tests:
- Eén-steekproef Z-test: Deze test vergelijkt de gemiddelde van een enkele steekproef met een bekende populatiegemiddelde. Het wordt gebruikt wanneer u wilt bepalen of het steekproefgemiddelde significant afwijkt van het populatiegemiddelde, aanvaardende dat de populatie variantie bekend is. Bijvoorbeeld, een enkele steekproef z-test kan worden gebruikt om te bepalen of de gemiddelde hoogte van een groep van meer dan 30 mensen verschillend is van de bekende nationale gemiddelde hoogte.
- Twee- monstersamenstelling Z-test: Deze test vergelijkt de gemiddelden van twee onafhankelijke monsters om te bepalen of er een significante verschillende bestaat tussen hen. Het wordt gebruikt wanneer beide monsters groot zijn en de populatie varianties bekend zijn. Een voorbeeld van dit zou zijn het vergelijken van het gemiddelde cijfer van studenten uit twee verschillende scholen om te zien of er een significante verschillende in prestatie bestaat tussen de twee scholen.
- Proportie Z-test: Deze test vergelijkt de proportie van een bepaalde kenmerk in een monster met een bekende populatie proportie of tussen twee monsters proporties. Het wordt gebruikt om te evalueren of de gemelde proportie in het monster significant verschillend is van wat verwacht wordt op basis van de populatie proportie. Bijvoorbeeld, een proportie Z-test kan worden gebruikt om de proportie van kiezers die een bepaalde kandidaat steunen in een monster te vergelijken met de proportie die in eerdere verkiezingen is aangetroffen.
Er bestaan aanvullende varianten van het testen, zoals de gematchte Z-test, de Z-test voor regressiecoëfficients en de Z-test voor verschillen in gemiddelden.
Aannames van de Z-test
De Z-test berust op bepaalde aannames om geldige resultaten te verschaffen:
- Bekende Populatie Variantie: De Z-test gaat uit van het gegeven dat de populatie variantie bekend is. Dit is een belangrijk onderscheid met de t-test, waarbij de populatie variantie meestal onbekend is. De bekende variantie staat toe om de z-verdeling te gebruiken om de significantie van de teststatistiek te beoordelen.
- Grote Steekproefgrootte: De Z-test gaat uit van een grote steekproefgrootte, meestal groter dan 30. Bij grotere steekproeven wordt de steekproefgemiddelde steeds meer een normale verdeling, ongeacht of de originele gegevens normaal verdeeld zijn, volgens het Centrale Limieten Theorem.
- Normale Verdeling van de Populatie: wordt aangenomen dat de gegevens vanuit een normaal verdeelde populatie zijn genomen. Deze veronderstelling is minder kritiek voor grote steekproeven, maar belangrijk als de steekproefgrootte gemiddeld is.
Belangrijkste Verschillen Tussen t-tests en Z-tests
De t-toets en de Z-toets worden gebruikt om monstersstatistieken aan populatiesparameters te vergelijken, maar ze verschillen in hun onderliggende aannames, toepassingen en de omstandigheden waarin ze het meest geschikt zijn.Laten we de verschillen tussen de twee toetsen analyseren en begrijpen:
Bij beschouwing van de monstersgrootte
- t-toets: De t-toets wordt typisch gebruikt als de monstersgrootte klein is, meestal minder dan 30. Hij is ontworpen om robuust te zijn wanneer de monstersgrootte het geachte minimum niet meet om de Centrale Limiet Theorema toe te passen.
- Z-test: De Z-test wordt gebruikt wanneer de steekproefgrootte groot is, meestal groter dan 30. Bij grote steekproeven is de steekproefverdeling van de gemiddelde ruimtelijk normaal, wat het gebruik van de Z-test rechtvaardigt.
Kennis van de populatievariance
- t-test: De t-test wordt gebruikt wanneer de populatievariance onbekend is. In plaats van de populatievariance wordt de steekproefvariance gebruikt om het testgetal te berekenen. De t-verdeling, die sterker uitgerekend is dan de normale verdeling, rekent de aanvullende onzekerheid af die ontstaat door de schatting van de populatievariance.
- Z-test: De Z-test vereist dat de populatievariaante bekend is. Dit is een cruciale aanname, want het maakt het mogelijk de standaard normale verdeling te gebruiken om de teststatistiek te berekenen. Wanneer de populatievariaante bekend is, biedt de Z-test meer nauwkeurige schattingen.
Verdelingsaannames
- t-test: De t-test gaat uit van het feit dat de gegevens binnen elke groep ongeveer normaal verdeeld zijn. Dit is bijzonder belangrijk bij het werken met kleine steekproeven. De teststatistiek in een t-test volgt een t-verdeling, die bredere kruinstreken heeft dan de normale verdeling. Dit rekent de extra variantie en onzekerheid in bij het schatten van de populatieve standaardafwijking uit een kleine steekproef.
- Z-toets: De Z-toets gaat uit van een normale verdeling van de data of dat de steekproefgrootte voldoende groot is om de Centrale Limiet Theorie toepassen. De Centrale Limiet Theorie zorgt ervoor dat, voor grote steekproeven, de steekproefverdeling van de gemiddelde ongeveer normaal is, zelfs als de onderliggende data niet perfect normaal zijn.
Praktische toepassingen en scenario’s
- t-toets: De t-toets wordt veelal gebruikt in kleine steekproefstudies, zoals pilotstudies, waarin de populatievariatie onbekend is. Voorbeelden hiervan zijn het vergelijken van de effectiviteit van twee behandelingen in een kleine groep of het evalueren van veranderingen binnen dezelfde groep over tijd.
- Z-test: de Z-test wordt gebruikt in studies met een grote steekproef of bij gegevens uit populaties die goed bekend zijn en waar de variantie bekend is. Hij wordt vaak toegepast in kwaliteitscontrole, onderzoek analyse en grote schaal experimentele studies.
Hier is een tabel met de belangrijkste verschillen:
Belangrijkste verschillen tussen t-test en Z-test. Afbeelding door de auteur.
Conclusie
Dit handleiding introduceerde u aan hypothese testen en twee veelgebruikte testen – t-tests en z-tests. We hebben ook de definities van elke test, de verschillende typen en aannames geleerd en zijn verder inzichtelijk in hun belangrijkste verschillen. We hebben bepaald welke test het beste moet worden gebruikt in welk scenario, zodat u door middel van hypothese testen met confidensiële relaties tussen variabelen kunt vaststellen.
Na het vastleggen van de statistische concepten achter hypotheseproeven met ons Inleiding tot Statistiek cursus, zou ik u aanmoedigen deze concepten door te voeren met behulp van een van de populaire technologieën met behulp van de volgende bronnen:
- Hypotheseproeven in Python cursus
- Hypotheseproeven in R cursus
- Hypotheseproeven (chi-kwadraattoets) in Excel handleiding
Fijne leerprocessen!