Como profissional de ciências de dados, você frequentemente análise, testa e estabelece relações entre variáveis em um conjunto de dados para desenvolver conclusões significativas. Um conceito chamado teste de hipóteses, juntamente com vários testes, incluindo testes t e testes z, são algumas das ferramentas comumente usadas em análise para estabelecer relações entre pontos de dados.
Este tutorial irá ensiná-lo a diferença entre um teste t e um teste Z com exemplos reais. Eu também fornecerá recursos adicionais para o aprendizado posterior.
Um Resumo Rápido: Testes t vs. Testes Z
Escolhendo entre um teste t e um teste Z pode ser resumido com estas diretrizes:
- Usar uma t-teste:Quando o tamanho da amostra é pequeno (n < 30) e/ou a variância da população é desconhecida.
- Usar um teste Z:Quando o tamanho da amostra é grande (n ≥ 30) e a variância da população é conhecida.
Em ambos os casos, esperamos que os dados sejam normalmente distribuídos. Continue lendo para aprender sobre cada um dos testes e as suas diferenças em detalhe. Primeiro, começaremos com uma breve introdução ao teste de hipóteses.
Uma Introdução ao Teste de Hipóteses
Teste de hipóteses é um método estatístico fundamental para inferir parâmetros populacionais com base em dados de amostra. Ele fornece uma abordagem estruturada para avaliar afirmações ou pressupostos sobre uma população usando evidências empíricas.
No cerne do teste de hipóteses estão duas afirmações complementares:
- A hipótese nula (H₀)é uma afirmação de não efeito, diferença ou relação. Ela representa o status quo ou o entendimento atual.
- A hipótese alternativa (H₁) é uma declaração que contradisse a hipótese nula. Ela representa a reivindicação ou o novo entendimento que o pesquisador deseja provar.
Por exemplo, suponha que você deseja determinar se um novo método de ensino melhora as notas de exame dos alunos. Você pode formular as seguintes hipóteses:
- Hipótese nula (H₀): O novo método de ensino não tem efeito nas notas de exame dos alunos.
- Hipótese alternativa (H₁): O novo método de ensino melhora as notas de exame dos estudantes.
A análise de hipóteses envolve a coleta de dados de amostra, o cálculo de estatísticas de teste e a determinção da probabilidade de observar tais resultados se a hipótese nula for verdadeira. Baseado nesta probabilidade, podemos decidir se rejeitar a hipótese nula a favor da hipótese alternativa ou não rejeitá-la.
A dependência dos tipos de dados e das questões de pesquisa testadas, vários testes estatísticos estão disponíveis para análise de hipóteses. Neste tutorial, iremos concentrar-nos no teste t e no teste Z.
O que é um teste t?
Um teste t é um teste estatístico usado para determinar se existe uma diferença significativa entre as médias de dois grupos ou entre a média de uma amostra e um valor conhecido. Ele é particularmente útil quando se trata de pequenas amostras ou quando a variância populacional é desconhecida.
O estatístico de teste t para um teste t de uma amostra é calculado usando a fórmula:
Equação do teste t. Imagem do Autor.
onde:
- Xˉ é a média da amostra
- μ é a média da população (ou a média do grupo de comparação)
- s é a variância padrão amostral, e
- n é o tamanho da amostra.
Tipos de testes t
Existem três tipos principais de testes t. Cada um compara médias sob condições diferentes:
- Teste t de uma amostra: Este teste compara a média de uma única amostra a um valor conhecido ou média populacional. Ele determine se a média amostral显著地 difere de um marcador específico. Por exemplo, podemos usar um teste t de uma amostra para avaliar se a média das notas de teste de uma pequena turma difere da média nacional.
- Teste t de dois grupos independentes: Este teste compara as médias de dois grupos independentes para determinar se existe uma diferença estatisticamente significativa entre eles. É comumente usado em experimentos onde dois grupos sofrem tratamentos ou condições diferentes. Por exemplo, podemos usar um teste t de dois grupos independentes para comparar as notas de exame entre estudantes que foram ensinados usando duas diferentes metodologias de ensino para ver se uma metodologia é mais eficaz.
- Teste t de pares: Este teste compara as médias de um mesmo grupo em diferentes momentos ou sob condições diferentes. Ele avalia se há uma mudança significativa dentro do mesmo grupo após uma intervenção ou ao longo do tempo. Um exemplo é medição do desempenho de estudantes antes e depois da implementação de uma nova estratégia de ensino para avaliar seu impacto.
Assumções do teste t
O teste t-student depende de certas hipóteses para fornecer resultados válidos:
- Normalidade dos Dados: O teste t-student assume que os dados em cada grupo estão distribuídos de forma aproximadamente normal. Esta é uma hipótese particularmente importante quando se trata de pequenas amostras. Se os dados não forem normalmente distribuídos, os resultados do teste t-student podem ser imprevisíveis.
- Homogeneidade das Variâncias: Para o teste t-student de duas amostras independentes, é assumida a igualdade das variâncias dos dois grupos sendo comparados. Esta hipótese garante que o teste t-student contabiliza corretamente a variabilidade dentro de cada grupo. Se as variâncias não forem iguais, isso pode afectar a precisão do teste.
- Independência das Observações: As observações dentro de cada grupo devem ser independentes. Isto significa que o valor de uma observação não deve influenciar ou estar relacionado ao valor de outra observação. A violação desta hipótese pode levar a conclusões incorretas.
É importante verificar estas hipóteses antes de aplicar o teste t em qualquer análise para garantir a validade dos resultados.Leia nossoTutorial de Testes T em R ou nossa Introdução aos Testes T em Python para aprender a realizar testes t em R ou Python.
O que é um Teste Z?
Um Teste Z é um teste estatístico usado para determinar se há uma diferença significativa entre a média amostral e a média populacional ou entre as médias de dois grupos quando a variância populacional é conhecida e o tamanho da amostra é grande.
É principalmente usado quando o tamanho amostral excede 30, permitindo o uso da distribuição normal para aproximar a distribuição do estatístico de teste.
O estatístico de teste Z para um teste Z de um-amostra é calculado usando a fórmula:
Estatístico de Teste Z. Imagem do Autor.
onde:
- Xˉ é a média amostral,
- μ é a média populacional,
- σ é a desvio padrão populacional, e
- n é o tamanho do exemplar.
Tipos de testes Z
Existem três tipos principais de testes Z:
- Teste Z de uma amostra: Este teste compara a média de uma única amostra a uma média populacional conhecida. Ele é usado quando você deseja avaliar se a média amostral significativamente se desvia da média populacional, assumindo que a variância populacional é conhecida. Por exemplo, um teste Z de uma amostra poderia ser usado para determinar se a altura média de um grupo de pessoas com mais de 30 pessoas difere da altura média nacional conhecida.
- Teste Z de Dupla Amostra: Este teste compara as médias de duas amostras independentes para determinar se há uma diferença significativa entre elas. Ele é usado quando ambas as amostras são grandes e as variâncias populacionais são conhecidas. Um exemplo disto seria comparar as médias das notas de exame de alunos de duas escolas diferentes para ver se há uma diferença significativa no desempenho entre as duas escolas.
- Teste Z de Proporção: Este teste compara a proporção de uma determinada característica em uma amostra a uma proporção populacional conhecida ou entre duas proporções de amostra. Ele é usado para avaliar se a proporção observada na amostra difere significativamente do esperado com base na proporção populacional. Por exemplo, um teste Z de proporção poderia ser usado para comparar a proporção de votantes favoráveis a um candidato particular em uma amostra à proporção observada em eleições anteriores.
Existem variações adicionais do teste, como o teste de Z pareado, o teste de Z para coeficientes de regressão e o teste de Z para diferenças nas médias.
Assumindo o teste de Z
O teste de Z depende de certas suposições para fornecer resultados válidos:
- Variância Populacional Conhecida: O teste de Z assume que a variância populacional é conhecida. Esta é uma distinção chave da diferença com o teste t, onde a variância populacional é normalmente desconhecida. A variância conhecida permite o uso da distribuição de z para avaliar a significância do estatístico de teste.
- Grande Tamanho de Amostra: O teste Z assume um grande tamanho de amostra, normalmente maior do que 30. Com amostras maiores, a distribuição de amostra do médio amostral aproxima-se de uma distribuição normal, mesmo que os dados originais não sejam normalmente distribuídos, de acordo com o Teorema Central da Limite.
- Distribuição Normal da População: assume que os dados são tirados de uma população com distribuição normal. Esta suposição é menos crítica para amostras grandes mas ainda importante quando o tamanho da amostra é moderado.
Diferenças Chave Entre Testes t e Testes Z
O teste t e o teste Z são usados para comparar estatísticas de amostra a parâmetros populacionais, mas diferem em suas suposições fundamentais, aplicações e as condições sob as quais são mais apropriados.Vamos analisar e entender as diferenças entre os dois testes:
Considerações sobre o tamanho da amostra
- Teste t: O teste t é normalmente usado quando o tamanho da amostra é pequeno, geralmente menor que 30. Ele está projetado para ser resistente quando o tamanho da amostra não atinge o limite necessário para aplicar o Teorema da Limite Central.
- Teste Z: O teste Z é usado quando o tamanho da amostra é grande, normalmente maior que 30. Em amostras grandes, a distribuição amostral da média é aproximadamente normal, o que justifica o uso do teste Z.
Conhecimento da variância populacional
- Teste t: O teste t é usado quando a variância populacional é desconhecida. Em vez da variância populacional, a variância da amostra é usada para calcular o estatístico de teste. A distribuição t, que tem caudas mais pesadas que a distribuição normal, representa a incerteza adicional devido ao cálculo da variância populacional.
- Teste Z: O teste Z assume que a variância populacional é conhecida. Esta é uma suposição chave porque permite o uso da distribuição normal padrão para calcular o estatístico de teste. Quando a variância populacional é conhecida, o teste Z fornece estimativas mais precisas.
Supposições de distribuição
- Teste t: O teste t assume que os dados dentro de cada grupo são distribuídos aproximadamente normalmente. Isto é particularmente importante quando se trata de tamanhos de amostra pequenos. O estatístico de teste em um teste t segue uma distribuição t, que tem caudas maiores do que a distribuição normal. Isso explica a variabilidade adicional e a incerteza quando se estima a desvio padrão populacional a partir de uma amostra pequena.
- Teste Z: O teste Z assume que os dados são normalmente distribuídos ou que o tamanho da amostra é grande o suficiente para aplicar o Teorema Central da Limite. O Teorema Central da Limite garante que, para amostras grandes, a distribuição da amostra da média é aproximadamente normal, mesmo que os dados subjacentes não sejam perfeitamente normais.
Aplicações e casos de uso práticos
- Teste t: O teste t é comumente usado em estudos de pequenas amostras, como estudos de avaliação de tamanho, onde a variância da população é desconhecida. Exemplos incluem a comparação da eficácia de dois tratamentos em um pequeno grupo ou o avaliação das mudanças no mesmo grupo ao longo do tempo.
- Teste Z: O Teste Z é utilizado em estudos de amostras grandes ou quando se trata de populações bem estabelecidas onde a variância é conhecida. Frequentemente, ele é aplicado em controle de qualidade, análise de pesquisas e em estudos experimentais em larga escala.
Abaixo está uma tabela com as principais diferenças:
Principais diferenças entre o teste t e o teste Z. Imagem do Autor.
Conclusão
Este tutorial você foi apresentado aos testes de hipóteses e a dois testes comumente usados – testes t e testes Z. Também aprendemos as definições de cada teste, os tipos diferentes e as suposições e melhor understand as suas principais diferenças. Concluímos qual teste deve ser usado em cada situação, permitindo que você estableça relações confiáveis entre variáveis através de testes de hipóteses.
Após solidificar os conceitos estatísticos por trás dos testes de hipóteses com o nosso curso Introduction to Statistics, eu encorajaria você a implementar esses conceitos através de qualquer uma das tecnologias populares usando as seguintes fontes:
- Hypothesis Testing in Python course
- Hypothesis Testing in R course
- Hypothesis Testing (teste de chi-quadrado) em Excel tutorial
Feliz aprendizado!