Como profissional de ciências de dados, você frequentemente análise, testa e establece relações entre variáveis em um conjunto de dados para desenvolver conclusões significativas. Um conceito chamado teste de hipóteses, juntamente com vários testes, incluindo testes t e z, são ferramentas comumente usadas em análise para establecer relações entre pontos de dados.
Este tutorial vai ensinar você a diferença entre um teste t e um teste Z com exemplos reais. Eu também fornecerá recursos adicionais para aprender mais.
Resumo rápido: testes t vs. testes Z
Escolhendo entre um teste t e um teste Z pode ser resumido com essas orientações:
- Usar uma t-teste:Quando o tamanho da amostra é pequeno (n < 30) e/ou a variância populacional é desconhecida.
- Usar um teste Z:Quando o tamanho da amostra é grande (n ≥ 30) e a variância populacional é conhecida.
Em ambos os casos, esperamos que os dados sejam normalmente distribuídos. Continue lendo para aprender sobre cada um dos testes e suas diferenças em detalhe. Primeiro, começaremos com uma breve introdução ao teste de hipóteses.
Uma Introdução ao Teste de Hipóteses
Teste de hipóteses é um método estatístico fundamental para inferir parâmetros populacionais com base em dados de amostra. Ele fornece uma abordagem estruturada para avaliar afirmações ou pressupostos sobre uma população usando evidências empíricas.
No cerne do teste de hipóteses estão duas afirmações complementares:
- A hipótese nula (H₀)é uma afirmação de que não há efeito, diferença ou relação. Ela representa o status quo ou o entendimento atual.
- A hipótese alternativa (H₁) é uma afirmação que contradiz a hipótese nula. Ela representa a reivindicação ou o novo entendimento que o pesquisador deseja provar.
Por exemplo, suponha que você quer determinar se um novo método de ensino melhora as notas de exame dos alunos. Você pode formular as seguintes hipóteses:
- Hipótese nula (H₀): O novo método de ensino não tem efeito nas notas de exame dos alunos.
- Hipótese alternativa (H₁): O novo método de ensino melhora as notas dos alunos em exames.
A análise de hipóteses envolve coletar dados de amostra, calcular estatísticas de teste e determinando a probabilidade de observar tais resultados se a hipótese nula for verdadeira. Baseado nesta probabilidade, podemos decidir se rejeitar a hipótese nula a favor da hipótese alternativa ou não rejeitá-la.
De acordo com os tipos de dados e questões de pesquisa testadas, vários testes estatísticos estão disponíveis para análise de hipóteses. Neste tutorial, iremos concentrar-nos no teste t e no teste Z.
O que é um teste t?
Uma t-test é um teste estatístico usado para determinar se existe uma diferença significativa entre as médias de dois grupos ou entre a média de uma amostra e um valor conhecido. É particularmente útil quando se trata de tamanhos de amostra pequenos ou quando a desvio padrão populacional é desconhecida.
O estatístico de t-test para uma t-test de uma amostra é calculado usando a fórmula:
Esquema de t-test. Imagem do Autor.
onde:
- Xˉ é a média da amostra
- μ é a média da população (ou a média do grupo de comparação)
- A sigma padrão de amostra é a variância amostral, e
- n é o tamanho da amostra.
Tipos de testes t
Existem três tipos principais de testes t. Cada um compara médias sob condições diferentes:
- Teste t de uma amostra: Este teste compara a média de uma amostra única a um valor conhecido ou média populacional. Ele determina se a média amostral significativamente se desvia de um marcador específico. Por exemplo, podemos usar um teste t de uma amostra para avaliar se a média das notas de um pequeno sala de aula difere da média nacional.
- Teste t de dois grupos independentes: Este teste compara as médias de dois grupos independentes para determinar se existe uma diferença estatisticamente significativa entre eles. É comumente usado em experiências onde dois grupos sofrem tratamentos ou condições diferentes. Por exemplo, podemos usar um teste t de dois grupos independentes para comparar as notas de exame entre alunos que foram ensinados usando dois métodos de ensino diferentes para ver se um método é mais eficaz.
- Teste t de pares: Este teste compara as médias de um mesmo grupo em diferentes momentos ou sob condições diferentes. Ele avalia se há uma mudança significativa dentro do mesmo grupo após uma intervenção ou ao longo do tempo. Um exemplo é medir o desempenho dos alunos antes e depois da implementação de uma nova estratégia de ensino para avaliar seu impacto.
Assumências do teste t
O teste t-student depende de certas suposições para fornecer resultados válidos:
- Normalidade dos Dados: O teste t-student assume que os dados em cada grupo estão distribuídos de forma aproximadamente normal. Isto é particularmente importante quando se trata de amostras pequenas. Se os dados não forem normalmente distribuídos, os resultados do teste t-student podem ser imprevisíveis.
- Homogeneidade das Variâncias: Para o teste t-student de duas amostras independentes, é assumida a igualdade das variâncias dos dois grupos sendo comparados. Esta suposição garante que o teste t-student corretamente contabilize a variabilidade dentro de cada grupo. Se as variâncias forem diferentes, isso pode afetar a precisão do teste.
- Independência das Observações: As observações dentro de cada grupo devem ser independentes. Isto significa que o valor de uma observação não deve influenciar ou estar relacionado ao valor de outra observação. A violação deste pressuposto pode levar a conclusões incorretas.
É importante verificar essas suposições antes de aplicar o teste t em qualquer análise para garantir a validade dos resultados.Leia nossoTutorial de Testes T em R ou nossaIntrodução aos Testes T em Python para aprender a realizar testes t em R ou Python.
O que é um Teste Z?
Um Teste Z é um teste estatístico usado para determinar se existe uma diferença significativa entre a média amostral e a média populacional ou entre as médias de dois grupos quando a variância populacional é conhecida e o tamanho da amostra é grande.
É primariamente usado quando o tamanho da amostra excede 30, permitindo o uso da distribuição normal para aproximar a distribuição do estatístico de teste.
O estatístico de teste Z para um teste Z de uma amostra é calculado usando a fórmula:
Equação de Teste Z. Imagem por Autor.
onde:
- Xˉ é a média amostral,
- μ é a média populacional,
- A sigma (σ) é a desvio padrão populacional e
- n é o tamanho do conjunto de amostra.
Tipos de testes Z
Existem três tipos principais de testes Z:
- Teste Z de um Amostra: Este teste compara a média de uma amostra única a uma média populacional conhecida. Ele é usado quando você quer avaliar se a média amostral significativamente se desvia da média populacional, assumindo que a variância populacional é conhecida. Por exemplo, um teste z de uma amostra pode ser usado para determinar se a altura média de um grupo de pessoas com mais de 30 pessoas difere da altura média Nacional conhecida.
- Teste Z de Dupla Amostra: Este teste compara as médias de duas amostras independentes para determinar se existe uma diferença significativa entre elas. Ele é usado quando ambas amostras são grandes e as variâncias populacionais são conhecidas. Um exemplo deste teste seria comparar as médias das notas de exame de alunos de duas escolas diferentes para ver se existe uma diferença significativa no desempenho entre as duas escolas.
- Teste Z de Proporção: Este teste compara a proporção de uma determinada característica em uma amostra a uma proporção populacional conhecida ou entre duas proporções de amostra. Ele é usado para avaliar se a proporção observada na amostra difere significativamente daquela esperada com base na proporção populacional. Por exemplo, um teste Z de proporção poderia ser usado para comparar a proporção de votantes favoráveis a um candidato particular em uma amostra à proporção observada em eleições anteriores.
Existem variações adicionais do teste, como o teste de Z pareado, o teste de Z para coeficientes de regressão e o teste de Z para diferenças em médias.
Assumções do teste de Z
O teste de Z depende de certas suposições para fornecer resultados válidos:
- Variância Populacional Conhecida: O teste de Z assume que a variância populacional é conhecida. Esta é uma distinção chave das comparações com o teste t, onde a variância populacional é normalmente desconhecida. A variância conhecida permite o uso da distribuição de z para avaliar a importância estatística do estatístico de teste.
- Grande Tamanho de Amostra: O teste Z assume um grande tamanho de amostra, normalmente maior que 30. Com amostras maiores, a distribuição de amostra da média aproxima-se de uma distribuição normal, mesmo que os dados originais não sejam normalmente distribuídos, de acordo com o Teorema Central da Limite.
- Distribuição Normal da População: Os dados são assumidos como sendo extraídos de uma população com distribuição normal. Esta suposição é menos crítica para grandes amostras mas ainda importante quando o tamanho da amostra é moderado.
Diferenças Chave Entre Testes t e Testes Z
O teste t e o teste Z são usados para comparar estatísticas de amostra a parâmetros populacionais, mas eles diferem em suas suposições subjacentes, aplicações e as condições sob as quais são mais apropriados. Vamos analisar e entender as diferenças entre os dois testes:
Considerações sobre o tamanho da amostra
- Teste t: O teste t é normalmente usado quando o tamanho da amostra é pequeno, geralmente menor que 30. Ele é projetado para ser resistente quando o tamanho da amostra não atinge o limite necessário para aplicar o Teorema da Limite Central.
- Teste Z: O teste Z é usado quando o tamanho da amostra é grande, normalmente maior que 30. Em amostras grandes, a distribuição amostral da média é aproximadamente normal, o que justifica o uso do teste Z.
Conhecimento da variância populacional
- Teste t: O teste t é usado quando a variância populacional é desconhecida. Em vez da variância populacional, a variância amostral é usada para calcular o estatístico de teste. A distribuição t, que tem caudas mais pesadas que a distribuição normal, representa a incerteza adicional devido ao cálculo da variância populacional.
- Teste Z: O teste Z exige que a variância populacional seja conhecida. Esta é uma suposição chave porque permite o uso da distribuição normal padrão para calcular o estatístico de teste. Quando a variância populacional é conhecida, o teste Z fornece estimativas mais precisas.
Supposições de distribuição
- Teste t: O teste t assume que os dados dentro de cada grupo estão aproximadamente normalmente distribuídos. Este é particularmente importante quando se trata de tamanhos de amostra pequenos. O estatístico de teste em um teste t segue uma distribuição t, que tem caudas maiores do que a distribuição normal. Isto explica a variabilidade e incerteza adicionais ao estimar a desvio padrão populacional a partir de uma amostra pequena.
- Teste Z: O teste Z assume que os dados são normalmente distribuídos ou que o tamanho da amostra é suficiente para aplicar o Teorema Central da Limite. O Teorema Central da Limite garante que, para amostras grandes, a distribuição amostral da média é aproximadamente normal, mesmo que os dados subjacentes não sejam perfeitamente normais.
Aplicações e casos de uso práticos
- Teste t: O teste t é comumente usado em estudos de pequenas amostras, como estudos de avaliação de pilotos, onde a variância populacional é desconhecida. Exemplos incluem comparar a eficácia de dois tratamentos em um pequeno grupo ou avaliar mudanças no mesmo grupo ao longo do tempo.
- Teste Z: O Teste Z é usado em estudos de amostra grande ou quando se trata de populações bem estabelecidas onde a variância é conhecida. Frequentemente, ele é aplicado em controle de qualidade, análise de pesquisas e em estudos experimentais em larga escala.
Aqui está uma tabela com as principais diferenças:
Principais diferenças entre o teste t e o teste Z. Imagem do Autor.
Conclusão
Este tutorial apresentou-lhe ao teste de hipóteses e a dois testes comumente usados — testes t e testes Z. Também aprendemos as definições de cada teste, os tipos diferentes e as suposições e melhor understand as suas principais diferenças. Concluímos qual teste é o melhor para usar em cada situação, permitindo que você estabeleça relações entre variáveis com confiança através de testes de hipóteses.
Após consolidar os conceitos estatísticos por trás dos testes de hipóteses com o nosso curso Introdução à Estatística, eu encorajaria você a implementar esses conceitos através de qualquer das tecnologias populares usando as seguintes fontes:
- Testes de Hipóteses em Python curso
- Testes de Hipóteses em R curso
- Testes de Hipóteses (teste de chi-quadrado) em Excel tutorial
Aproveite o aprendizado!