Como profesional de ciencias de datos, a menudo deberás analizar, probar y establecer relaciones entre variables en un conjunto de datos para extraer conclusiones significativas. Un concepto llamado prueba de hipótesis, junto con varias pruebas, incluyendo pruebas t y pruebas z, son herramientas comúnmente utilizadas en análisis para establecer relaciones entre puntos de datos.
Este tutorial le enseñará la diferencia entre una prueba t y una prueba Z con ejemplos reales. También le proporcionaré recursos adicionales para el aprendizaje posterior.
Resumen rápido: pruebas t vs. pruebas Z
La elección entre una prueba t y una prueba Z se puede resumir con estas directrices:
- Usar un test t: Cuando la población es pequeña (n < 30) y/o la varianza de la población es desconocida.
- Usar un test Z: Cuando la población es grande (n ≥ 30) y la varianza de la población es conocida.
En ambos casos, esperamos que los datos se distribuyan normalmente. Continúe leyendo para aprender detalladamente sobre cada uno de los tests y sus diferencias. Primero, comenzaremos con una breve introducción al análisis de hipótesis.
Un Introducción al Análisis de Hipótesis
Prueba de hipótesis es un método estadístico fundamental para inferir parámetros de población a partir de datos de muestra. Proporciona un enfoque estructurado para evaluar afirmaciones o asumimientos sobre una población utilizando evidencia empírica.
El corazón de la prueba de hipótesis están dos afirmaciones complementarias:
- La hipótesis nula (H₀) es una afirmación de no efecto, diferencia o relación. Representa el status quo o el entendimiento actual.
- La hipótesis alternativa (H₁) es una afirmación que contradice a la hipótesis nula. Representa la afirmación o el nuevo entendimiento que el investigador quiere probar.
Por ejemplo, supongamos que quieres determinar si un nuevo método de enseñanza aumenta las puntuaciones de los exámenes de los estudiantes. Puedes formular las siguientes hipótesis:
- Hipótesis nula (H₀): El nuevo método de enseñanza no tiene efecto sobre las puntuaciones de los exámenes de los estudiantes.
- Hipótesis alternativa (H₁): El nuevo método de enseñanza mejora las notas de exámen de los estudiantes.
El análisis de hipótesis implica recolectar datos de muestra, calcular estadísticos de prueba y determinar la probabilidad de observar tales resultados si la hipótesis nula es verdadera. Basándonos en esta probabilidad, podemos decidir si rechazamos la hipótesis nula a favor de la hipótesis alternativa o no rechazamos la misma.
El tipo de datos y las preguntas de investigación probadas determinan las distintas pruebas estadísticas disponibles para el análisis de hipótesis. En este tutorial, nos centraremos en el test t y el test Z.
¿Qué es un test t?
Un test t es una prueba estadística utilizada para determinar si existe una diferencia significativa entre las medias de dos grupos o entre una media de muestra y un valor conocido. Es particularmente útil cuando se manejan pequeñas muestras o cuando se desconoce la desviación típica de la población.
La estadística t para un test t de una muestra se calcula usando la fórmula:
Ecuación del test t. Imagen del autor.
donde:
- Xˉ es la media de la muestra
- μ es la media de la población (o la media del grupo de comparación).
- s es la desviación típica de muestra, y
- n es el tamaño de muestra.
Tipos de pruebas t
Hay tres tipos principales de pruebas t. Cada una compara medias bajo diferentes condiciones:
- Prueba t de una muestra: Esta prueba compara la media de una sola muestra con un valor conocido o una media poblacional. Determina si la media de la muestra se desvía significativamente de un punto de referencia específico. Por ejemplo, podemos utilizar una prueba t de una muestra para evaluar si la nota promedio de un pequeño curso de pruebas difiere del promedio nacional.
- Prueba t de dos muestras independientes: Esta prueba compara las medias de dos grupos independientes para determinar si existe una diferencia estadísticamente significativa entre ellos. Es comúnmente utilizada en experimentos donde dos grupos se someten a diferentes tratamientos o condiciones. Por ejemplo, podríamos utilizar una prueba t de dos muestras independientes para comparar las puntuaciones de exámen entre estudiantes que han sido enseñados utilizando dos métodos de enseñanza diferentes para ver si uno de los métodos es más efectivo.
- Prueba t de pares: Esta prueba compara las medias del mismo grupo en diferentes momentos o bajo diferentes condiciones. Evalúa si hay un cambio significativo dentro del mismo grupo después de una intervención o con el tiempo. Un ejemplo es medir la performance estudiantil antes y después de implementar una nueva estrategia de enseñanza para evaluar su impacto.
Asumptos de la prueba t
El test t-student se basa en ciertas hipótesis para proporcionar resultados válidos:
- Normalidad de los Datos: El test t-student asume que los datos en cada grupo están distribuidos de forma aproximadamente normal. Esto es especialmente importante cuando se manejan tamaños de muestra pequeños. Si los datos no están distribuidos normalmente, los resultados del test t-student pueden ser imprevisibles.
- Homogeneidad de las Varianzas: Para un test t-student de dos muestras independientes, se asume que las varianzas de los dos grupos que se están comparando son iguales. Esta hipótesis garantiza que el test t-student tenga en cuenta correctamente la variabilidad dentro de cada grupo. Si las varianzas no son iguales, puede afectar la precisión del test.
- Independencia de las Observaciones: Las observaciones dentro de cada grupo deben ser independientes. Esto significa que el valor de una observación no debe influir o estar relacionado con el valor de otra observación. La violación de este supuesto puede llevar a conclusiones incorrectas.
Es importante revisar estas suposiciones antes de aplicar el test t en cualquier análisis para asegurar la validez de los resultados.Lea nuestro Tutorial de test t en R o nuestra Introducción a los test t en Python para aprender cómo realizar test t en R o Python.
¿Qué es un test Z?
Un test Z es un test estadístico utilizado para determinar si existe una diferencia significativa entre la media muestral y la media poblacional o entre las medias de dos grupos cuando se conoce la varianza poblacional y la muestra es grande.
Se utiliza principalmente cuando el tamaño de muestra supera los 30, permitiendo el uso de la distribución normal para aproximar la distribución del estadístico de prueba.
El estadístico de prueba Z para un Z-test de una muestra es calculado usando la fórmula:
Ecuación de prueba Z. Imagen por Autor.
donde:
- Xˉ es la media de muestra,
- μ es la media poblacional,
- σ es la desviación estándar poblacional, y
- n es el tamaño de muestra.
Tipos de pruebas Z
Existen tres tipos principales de pruebas Z:
- Prueba Z de una muestra: Esta prueba compara la media de una sola muestra con una media poblacional conocida. Se utiliza cuando se desea evaluar si la media de la muestra se desvía significativamente de la media poblacional, asumiendo que la varianza poblacional es conocida. Por ejemplo, una prueba z de una muestra podría utilizarse para determinar si la altura promedio de un grupo de más de 30 personas difiere del promedio nacional conocido de altura.
- Prueba Z de dos muestras: Esta prueba compara las medias de dos muestras independientes para determinar si existe una diferencia significativa entre ellas. Se utiliza cuando ambas muestras son grandes y se conocen las varianzas de la población. Un ejemplo de esto sería comparar las puntuaciones promedio de exámenes de estudiantes de dos escuelas diferentes para ver si existe una diferencia significativa en el desempeño entre ambas escuelas.
- Prueba Z de proporción: Esta prueba compara la proporción de una determinada característica en una muestra con una proporción poblacional conocida o entre dos proporciones de muestra. Se utiliza para evaluar si la proporción observada en la muestra显著mente difiere de lo esperado en base a la proporción poblacional. Por ejemplo, una prueba Z de proporción podría utilizarse para comparar la proporción de votantes que favorecen a un candidato particular en una muestra con la proporción observada en elecciones anteriores.
Hay variaciones adicionales del test, como el test de Z emparejado, el test de Z para coeficientes de regresión y el test de Z para diferencias en las medias.
Supuestos del test de Z
El test de Z se basa en ciertos supuestos para proporcionar resultados válidos:
- Varianza de la población conocida: El test de Z asume que la varianza de la población es conocida. Esta es una distinción clave respecto al test t, donde la varianza de la población normalmente es desconocida. La varianza conocida permite utilizar la distribución de Z para evaluar la importancia del estadístico de prueba.
- Gran Tamaño de Muestra: El test Z asume un gran tamaño de muestra, normalmente mayor de 30. Con muestras mayores, la distribución de muestra de la media de la muestra se aproxima a una distribución normal, incluso si los datos originales no son normalmente distribuidos, según el Teorema Central del Límite.
- Distribución Normal de la población: Se asume que los datos se extraen de una población con distribución normal. Esta suposición es menos crucial para muestras grandes pero aún importante cuando el tamaño de la muestra es moderado.
Diferencias Clave Entre Pruebas t y Pruebas Z
El test t y el test Z se utilizan para comparar estadísticas de muestra con parámetros poblacionales, pero difieren en sus supuestos subyacentes, aplicaciones y las condiciones bajo las cuales son más apropiados.Analicemos y entendamos las diferencias entre ambos test:
Consideraciones sobre el tamaño de muestra
- Test t: El test t se utiliza generalmente cuando el tamaño de muestra es pequeño, normalmente menos de 30. Está diseñado para ser resistente cuando el tamaño de muestra no alcanza el umbral necesario para aplicar el Teorema Central de la Distribución.
- Z-test: El test Z se utiliza cuando el tamaño de muestra es grande, generalmente mayor de 30. En muestras grandes, la distribución de la media es aproximadamente normal, lo que justifica el uso del test Z.
Conocimiento de la varianza poblacional
- test t: El test t se utiliza cuando la varianza poblacional es desconocida. En lugar de la varianza poblacional, se utiliza la varianza de muestra para calcular el estadístico de prueba. La distribución t, que tiene colas más anchas que la distribución normal, toma en cuenta la incertidumbre adicional debida a la estimación de la varianza poblacional.
- Prueba Z: La prueba Z requiere que se conozca la varianza de la población. Esta es una suposición clave porque permite el uso de la distribución normal estándar para calcular el estadístico de prueba. Cuando se conoce la varianza de la población, la prueba Z proporciona estimaciones más precisas.
Suposiciones de distribución
- Prueba t: La prueba t supone que los datos dentro de cada grupo se distribuyen aproximadamente normalmente. Esto es particularmente importante cuando se manejan tamaños de muestra pequeños. El estadístico de prueba en una prueba t sigue una distribución t, que tiene colas más anchas que la distribución normal. Esto atrapa la mayor variabilidad y incertidumbre al estimar la desviación estándar de la población a partir de una muestra pequeña.
- Z-test: El test Z asume que los datos se distribuyen normalmente o que el tamaño de la muestra es lo suficientemente grande para aplicar el Teorema del Centro de Limite. El Teorema del Centro de Limite garantiza que, para muestras grandes, la distribución de la media de muestreo es aproximadamente normal, incluso si los datos subyacentes no son perfectamente normales.
Aplicaciones y casos de uso prácticos
- t-test: El test t es comúnmente utilizado en estudios con pequeñas muestras, como estudios piloto, donde se desconoce la varianza de la población. Ejemplos incluyen comparar la eficacia de dos tratamientos en un pequeño grupo o evaluar cambios en el mismo grupo a lo largo del tiempo.
- Prueba Z: La prueba Z se utiliza en estudios de muestras grandes o en situaciones en las que se maneja poblaciones bien establecidas donde se conoce la varianza. Frecuentemente se aplica en control de calidad, análisis de encuestas y estudios experimentales a gran escala.
Aquí se presenta una tabla con las diferencias clave:
Diferencias clave entre prueba t y prueba Z. Imagen del Autor.
Conclusión
Este tutorial les presentó a la prueba hipotética y a dos pruebas comúnmente utilizadas: pruebas t y pruebas Z. También aprendimos las definiciones de cada prueba, los diferentes tipos y las suposiciones y comprendimos mejor sus diferencias clave. Finalmente, concluimos qué prueba es la mejor para cada situación, lo que les permite establecer relaciones confiables entre variables a través de pruebas hipotéticas.
Después de solidificar los conceptos estadísticos detrás de las pruebas hipotéticas con nuestro curso Introducción a la Estadística, les animaría a implementar estos conceptos a través de cualquiera de las tecnologías populares utilizando las siguientes recursos:
- Pruebas Hipotéticas en Python curso
- Pruebas Hipotéticas en R curso
- Pruebas Hipotéticas (prueba chi-cuadrado) en Excel tutorial
¡Buen aprendizaje!