Buscar este blog

sábado, 12 de marzo de 2011

Prueba de Smirnov - Kolmogorov (S-K)

En esta prueba también se está interesado en el grado de concordancia entre la distribución de frecuencia muestral y la distribución de frecuencia teórica, bajo la hipótesis nula de que la distribución de la muestra es f0(x,q) e interesa probar que no existe diferencia significativa. La prueba trabaja con la función de distribución ( distribución de frecuencia acumulativa). Esta prueba pertenece al campo de la Estadística No Paramétrica.
Sea F0(x) la función de distribución teórica para la variable aleatoria X, y representa la probabilidad de que la variable aleatoria X tome un valor menor o igual a x (también se interpreta como la proporción esperada de observaciones que tengan un valor menor o igual a x). Es decir:
Sea Sn (x) la función de distribución empírica, calculada con base en los valores observados de la muestra n observaciones. Sn (x) representa la proporción de valores observados que son menores o iguales a x, y está definida como:
Sn (x) = P ( X £ x/ dados los resultados muestrales) = m/n
donde m es el número de valores observados que son menores o iguales a x.
En la prueba de Smirnov-Kolmogorov se está interesado en la mayor desviación entre la función de distribución teórica y la empírica, es decir entre F0 (x) y Sn(x), para todo el rango de valores de x. Bajo la hipótesis nula se espera que estas desviaciones sean pequeñas y estén dentro de los límites de errores aleatorios. Por lo tanto, en la prueba S-K se calcula la mayor desviación existente entre F0 (x) y Sn(x), denotada por Dmax(x) y está dada por:
Dmax(x) = Max | FX (x) - Sn (x) |
La distribución de Dmax(x) es conocida y depende del número de observaciones n. Se acepta la hipótesis nula de que no existe diferencia significativa entre las distribuciones teóricas y empíricas si el valor de Dmax(x) es menor o igual que el valor crítico Dmaxp(a,n). 
Esta prueba se puede realizar para valores agrupados en intervalos de clase y también para valores sin agrupar.

El procedimiento general para realizar esta prueba para valores agrupados en intervalos de clase es el siguiente:

1) Especificar la distribución nula es f0(x,q), y estimar sus parámetros si es necesario.
2) Organizar la muestra en una distribución de frecuencia, en intervalos de clase.
3) Con base en la distribución observada de frecuencia, se calcula la distribución acumulativa Sn(Xi) = mi/n, siendo Xi el límite superior del intervalo de clase, y mi el número de valores de la muestra menores o iguales que Xi. Sn(Xi) corresponde simplemente a la frecuencia relativa acumulada hasta el intervalo i.
4) Se calcula la función de distribución teórica F 0 Xi).
5) Para cada intervalo de clase se calcula la diferencia entre F0 (Xi ) y Sn (Xi), y se busca la máxima Dmax = Max | FX (Xi) - Sn (Xi), i = 1, 2, …, k.
6) Se busca en la tabla el valor crítico Dmaxp(a,n) con el nivel de significancia a. Si el valor observado Dmax es menor o igual que el valor crítico, entonces se acepta la hipótesis nula de que no existen diferencias significativas entre la distribución teórica y la distribución dada por los resultados muestrales, es decir, que los valores generados siguen la distribución que se había supuesto.
Cuando la muestra es pequeña y/o los valores no se van a organizar en intervalos de clase el procedimiento es similar, sólo que el paso 2 se cambia por “ordenar los valores de la muestra” en forma ascendente, de menor a mayor”, y en los pasos 3 y 4 se calculan las funciones de distribución teórica y empírica para cada valor de la muestra.

Ejemplo1. Considere de nuevo el ejemplo de la prueba de habilidad aplicada a un grupo de 80empleados. Mediante la prueba de Smirnov Kolomogorov. Con un nivel de significancia del 5%, pruebe la hipótesis de que los puntajes obtenidos siguen una distribución normal.

Solución. De la tabla construida para realizar la prueba chi cuadrado tomaremos la información pertinente y la complementaremos con la información faltante, relativa al cálculo de Sn(Xi). Los cálculos se muestran a continuación.
El valor crítico para n = 80 valores y un nivel de significancia del 5% es Dmaxp(0.05,80) = 1.36/ = 0.152. Como la diferencia máxima observada fue de 0.0236 no hay razón para dudar que los puntajes se puedan aproximar mediante una distribución normal.

Ejemplo2: Prueba de Smirnov - Kolmogorov - Valores agrupados. En la tabla siguiente se presentan los cálculos para realizar la prueba S-K para la muestra de 100 números aleatorios generados mediante un generador congruencial multiplicativo con a = 899, C = 0 y M = 32768, usados para la prueba chi cuadrado.
La diferencia máxima observada es Dmax(x) = 0.09 y el valor crítico para un nivel de significancia del 1% es de 1.63/ = .163. Como Dmax(x) < D(0.01,100) no podemos rechazar la hipótesis nula y debemos concluir que la muestra tomada del generador de números aleatorios proviene de una distribución uniforme (0,1).

Ejemplo3. Prueba de Smirnov - Kolmogorov - Valores individuales. Para realizar la prueba de S-K no se requiere que las observaciones estén distribuidas en intervalos de clase, sino que puede realizarse sin agrupar los valores en intervalos de clase, principalmente cuando el tamaño de la muestra es pequeño. En este caso es necesario ordenar los valores en forma ascendente, de menor a mayor, y calcular, para cada valor observado las distribuciones teóricas F0(Xi) y empíricas Sn(Xi) en la forma como se explicó anteriormente. En la tabla siguiente se presenta la prueba para los primeros 20 números aleatorios generados mediante el generador congruencial multiplicativo mencionado anteriormente. La diferencia máxima observada es 0.123 y la máxima permitida es 0.294 para 20 valores y un nivel de significancia del 5%, lo cual lleva a la conclusión de que no existe evidencia de que las observaciones no se distribuyan uniformemente en el intervalo (0,1).. Recordemos que F0(Xi) = Xi para la distribución uniforme (0,1)
(Prueba de Smirnov - Kolmogorov - Valores individuales)

Propiedades de la prueba de Smirnov Kolmogorov
• La prueba de Smirnov - Kolmogorov puede aplicarse para tamaños de muestra pequeños, lo que no sucede con la chi cuadrado.
• Además, la prueba S-K es más poderosa que la Ji cuadrado, es decir, cuando se rechaza la hipótesis nula, se tiene una mayor confiabilidad en dicho resultado.
• La prueba S-K debe usarse cuando la variable de análisis es continua. Sin embargo, si la prueba se usa cuando la distribución de la población no es continua, el error que ocurre en la probabilidad resultante está en la dirección segura. Es decir, cuando se rechaza la hipótesis nula, tenemos verdadera confianza en la decisión.

VÍDEO DE APLICACON A CHI CUADRADO

http://www.youtube.com/watch?v=UMaPrqEE3Xg