Buscar este blog

lunes, 25 de abril de 2011


GENERACIÓN DE VARIABLES ALEATORIAS

La generación de cualquier variable aleatoria se va a basar en la generación previa de una distribución uniforme (0,1), visto en el tema anterior. En este capítulo vamos a estudiar ciertas transformaciones o algoritmos que nos van a transformar dichos números generados en valores de otras distribuciones.

La mayoría de las técnicas utilizadas para la generación se pueden agrupar en:
Ø  Método de la transformada inversa
Ø  Método de aceptación-rechazo
Ø  Método de composición
Ø  Método de convolución

MÉTODO DE LA TRANSFORMADA INVERSA
Es el método más directo para generar una variable aleatoria. Sea una función de distribución cuya función de distribución inversa es:





Sea U una variable aleatoria
se verifica que 
tiene la función de distribución F.

La prueba se sigue de la observación de que 




Esto sugiere inmediatamente el siguiente esquema de generación:

Algoritmo del método de la transformada inversa

Propósito: Generar Z aleatoriamente de 


Entrada: Capacidad para evaluar 



Salida: Z








Método: Generar aleatoriamente U de 




Devolver Z.
Ejemplo. La distribución exponencial
Supongamos que  tiene una distribución exponencial de media beta. La función densidad de probabilidad es:







La función de distribución (acumulativa) es:






MÉTODO DE ACEPTACIÓN RECHAZO
Este método es más probabilístico que el anterior. Los métodos de inversión, composición y convolución son métodos de generación directos, en el sentido en que tratan directamente con la función de distribución. El método de aceptación-rechazo es menos directo en su aproximación.
Se va aplicar este método en el caso de que la variable aleatoria sea continua, el caso discreto es análogo y está tratado en Prob. 8.9
En este caso tenemos la función de densidad f(x) de la variable y necesitamos una función t(x) que la acote, es decir t(x)³f(x) "x. Hay que notar que t(x) no es, en general, una función de densidad


pero la función r(x)=t(x)/c, si es claramente una función de densidad. (Suponemos que t es tal que c<¥). Debemos de poder generar (esperamos que de forma fácil y rápida) un valor de la variable aleatoria que sigue la función r(x). El algoritmo general queda como sigue:
Generar x que siga la distribución r(x)
Generar u~U(0,1), independiente de x

, entonces devolver x si no volver a repetir el algoritmo
El algoritmo continúa repitiéndose hasta que se genera un valor que es aceptado.
Para hacer que se rechacen el menor número de puntos posibles la función t(x) debe ser la mínima función que acote a f(x).

MÉTODO DE COMPOSICIÓN
Este método va a poder ser aplicado cuando la función de densidad es fácil de 
siendo n el número de trozos en los que se ha dividido la función.
Cada uno de los fragmentos se puede expresara como producto de un función de distribución y un peso

Cada uno de los fragmentos se puede expresara como producto de un función de distribución y un peso 



y la función de distribución global la podemos obtener como


El método consiste en generar dos números aleatorios, uno sirve para seleccionar un trozo y el otro se utiliza para generar un valor de una variable que sigue la distribución de dicho trozo. El valor de la variable obtenida es el valor buscado.
El algoritmo general queda como sigue:
Generar u1,u2~U(0,1)
Si u1=w1 entonces generar x~f1(x)
Si no
Si u1=w1+w2 entonces generar x~f2(x)

MÉTODO DE CONVOLUCIÓN

Muchas variables aleatorias incluyendo la normal, binomial, poisson, gamma, erlang, etc, se pueden expresar de forma exacta o aproximada mediante la suma lineal de otras variables aleatorias.
El método de convolución se puede usar siempre y cuando la variable aleatoria x se pueda expresar como una combinación lineal de k variables aleatorias:


En este método se necesita generar k números aleatorios (u1,u2,...,uk) para generar (x1,x2,...xk) variables aleatorias usando alguno de los métodos anteriores y así poder obtener un valor de la variable que se desea obtener por convolución.
Ejemplos de aplicación de este método los veremos cuando veamos métodos particulares de cada una de las distribuciones más utilizadas.










lunes, 14 de marzo de 2011

Números Aleatorios

Definicion.
Los números aleatorios son aquellos que pueden ser generados a partir de fuentes de aleatoriedad, las cuales, generalmente, son de naturaleza física (dados, ruletas, mecanismos electrónicos o mecánicos), y son gobernados por las leyes del azar; éstos exhiben verdadera aleatoriedad en la realización de experimentos. Por su parte, los números pseudo-aleatorios son aquellas que tienen un comportamiento similar a la naturaleza aleatoria, pero están ceñidos a un patrón, generalmente de naturaleza matemática, que hace que su comportamiento sea determinantico.

Historia De Los Números Aleatorios
Aproximadamente por le año 3500 a.C., juegos de azar con objetos de hueso, que podrian ser considerados como los precursores de los dados, fueron ampliamente desarrollados en Egipto y otros lugares. En el siglo XVII, un noble francés, Antoine Gombauld (1607-1684), puso en tela de juicio el fundamento matemático del éxito y fracaso en las mesas de juego. Formuló esta pregunta al matemático francés Balies Pascal (1623-1662): ¿Cuáles son las posibilidades de que me salgan dos seises por lo menos una vez en veinticuatro lanzamientos de un para de dados?, Pascal resolvió el problema, pues la teoría de la probabilidad empezaban a interesarle tanto como a Gombauld. Ambos compartieron sus ideas con el famoso matemático Pierre de Fernat (1601-1665), y las cartas escritas por los tres constituyen la primera revista académica dedicada a la probabilidad. Algunos de los problemas que ellos resolvieron habían permanecido si solución durante unos 300 años. Sin embargo, ciertas probabilidades numéricas para ciertas combinaciones de dados ya habían sido calculadas por Giordamo Cardano (1501-1576) y por Galileo Galileo (1564-1642)
Mas tarde, Jacob Benoulli (1654-1705), Abraham de Moivre (1667-1754), el reverendo Thomas Bayes (1702-1761) y Joseph Lagrange (1736-1813) inventaron formulas y técnicas de probabilidad. En el siglo XIX, Pierre Simón, marqués de Laplace (1749-1827), unifico esas primeras ideas y formuló la primera teoría general de la probabilidad, la cual fue aplicada inicialmente con buenos resultados a los juegos de azar; con el tiempo también se aplicó en la búsqueda de soluciones analíticas a problemas de naturaleza no deterministica. La teoría de la probabilidad ha sido constantemente desarrollada desde el siglo XVII y ampliamente aplicada en diversos campos de estudio. Hoy es una herramienta importante en la mayoría de las áreas de ingeniería,  ciencias y administración, y se constituye en la base para el estudio de las leyes de azar.
En cuanto a los números aleatorios, podemos afirmar que la historia formal de éstos  comenzó en la década de los cuarenta con el nacimiento del método llamado simulación de Montearlo, y Von Neumann, Metrópolis, Ulam y Lehmer pueden ser nombrados entre los pioneros en este campo. John Von Neumann aparentemente conjeturó el potencial de los computadores para tratar problemas estocásticos en 1945. Durante los cuarenta, la simulación de procesos estocásticos permaneció restringida al proyecto secreto del Departamento de Defensa de Estados Unidos. La publicación de The Monte Carlo Method por Metrópolis y Stanislaw M. Ulam en 1949 denota el inicio de la historia oficial del método. Dos años más tarde, D.H.Lehmer propuso el generador lineal de congruencia, el cual, con pequeñas modificaciones propuestas por Thomson y Rotenberg, ha llegado a convertirse en el método para la generación de números aleatorios mas ampliamente usado en la actualidad. Aunque originalmente el método de montecarlo fue implementado por John Von Neumann y Stanislaw Ulam, utilizando ruletas y dados en los problemas de difusión de los neutrones, en realidad su auge y creciente uso se debe a que hoy se emplean números aleatorios generados por computador.
Antes del advenimiento de las computadoras, los números aleatorios eran generados por dispositivos físicos. En 1939, Kendall y Babington-Smith publicaron 100000 dígitos aleatorios obtenidos con un disco giratorio iluminado con una lámpara relámpago. En 1955, la Rand Corporation publicó un millón de dígitos producidos controlando una fuente de pulsos de frecuencia aleatoria; estos se encuentran disponibles en cintas magnéticas de la Rand.



Generacion De NUmeros Aleatorios
Una vez construido un modelo, debemos experimentar sobre él y para poder ejecutarlo necesitamos dar valores a las variables de tipo exógeno. De esta forma podremos obtener valores de salida y pasaremos a realizar un análisis de los mismos. Algunas de las variables de entrada son de tipo aleatorio por lo que se tendrán que generar valores que simulen dichas entradas. Para generar variables aleatorias que sigan determinadas funciones de probabilidad necesitamos partir de series de números que cumplan ciertas características de aleatoriedad. La generación de dichos números es lo que se va a abordar en este tema.

Método de congruencias aditivas.
Es un método rápido, puesto que no necesita realizar multiplicación. Se precisa una secuencia de números x1, x2. . . , xn. El generador produce una extensión de la secuencia xn+1, xn+2, . . . de la forma siguiente:

xi = (xi−1 + xi−n) mod m

Por definición a = b mod m si a−b es divisible por m (resto 0). Por ejemplo, en módulo 4, los números 2, 6, 10, 14 son equivalentes porque (10 − 2), (10 − 6) . . . son todos divisibles por 4. Hay que tener en cuenta que, cuando utilizamos módulo m, los valores que resultarán estarán comprendidos entre 0 y m-1.

Generadores de congruencias lineales
Una gran mayoría de los generadores utilizados actualmente utilizan esta técnica introducida por Lehmer en 1951. Una secuencia de números enteros Z1,Z2, . . . está definida por la fórmula recursiva:

Zi = (aZi−1 + c) mod m

donde el módulo m, el multiplicador a, el incremento c y la semilla o valor de comienzo
Z0 son enteros no negativos


Método de cuadrados medios: Fue  propuesto en la década de los 40 del siglo XX por Von Neumann y Metrópolis. Requiere un número entero detonador (llamado semilla) con D dígitos, el cual es elevado al cuadrado. Los pasos para generar números mediante cuadrados medios son:

1.    Seleccionar una semilla (X0).
2.    Se eleva al cuadrado la semilla.
3.    Se extrae  la cantidad de dígitos del centro que se deseen, y este será X1.
4.    Dividir X1 entre 10000 y el resultado es el número aleatorio buscado.
5.    Repetir desde el paso 2 siendo la semilla X1 hasta obtener la cantidad de número aleatorios deseados.
 
 

Referencia
Mancilla herrera Alfonso Manuel; numero aleatorios, Historia, teorías y aplicaciones, edición uninorte.
Sánchez Algarra, Pedro: Metodos estadísticos aplicados

Prueba De Anderson Darling

La prueba de Anderson-Darling es usada para probar si una muestra viene de una distribución especifica. Esta prueba es una modificación de la prueba de Kolmogorov- Smirnov donde se le da más peso a las colas de la distribución que la prueba de Kolmogorov-Smirnov .
En estadística, la prueba de Anderson-Darling es una prueba no paramétrica sobre si los datos de una muestra provienen de una distribución específica. La fórmula para el estadístico determina si los datos (observar que los datos se deben ordenar) vienen de una distribución con función acumulativa  F .

Donde:
n es el número de datos
f(x): es la función de distribución de probabilidad teórica
FS(X): es la función de distribución empírica.
Para definir la regla de rechazo para esta prueba es necesario, también, obtener el estadístico ajustado para luego compararlo con los valores críticos de la tabla de Anderson- Darling

Una vez obtenido el estadístico ajustado, la regla de rechazo se realiza análogamente a la utilizada en la prueba de K-S.

El estadístico de la prueba se puede entonces comparar contra las distribuciones del estadístico de prueba (dependiendo que F se utiliza) para determinar el P- valor.




Referencia
Marqués dos Santos, María José; Estadística Básica: un enfoque no parametrico, Universidad Nacional Autonoma de México, Facultad de Estudios Superiores Zaragoza.







 

Mapa De Distribuciones: Continua y Discretas

Distribucion Discreta



Distribucion  Continua







sábado, 12 de marzo de 2011

PRUEBA DE BONDAD Y AJUSTE: Mediante CHI Cuadrado


Hace referencia  a las  variables que se han medido a nivel nominal. Es decir, que sus valores representan categorías o grupos en una variable. Puede ser el caso de cuántas personas están a favor o en contra de una decisión. En este caso tenemos dos categorías o grupos: los que van por el sí y los que van por el no. Puede tratarse de otra variable como nivel
de satisfacción respecto al sabor de la comida. En este caso las personas contestan según tres categorías 

1. Si satisfecho 
2.No satisfecho 
3. Indeciso. 

Otras variable semejantes son el género o sexo de la persona, el partido político de preferencia, etc. Una pregunta que puede surgir ante estas variables es, si las frecuencias o número de casos observados en cada categoría de la variable, a partir de una muestra, difieren de manera significativa respecto a una población esperada de respuestas o frecuencias.

Ejemplo:

Digamos que 900 estudiantes expresan su voluntad por celebrar el aniversario de la institución organizando uno de dos
Eventos: una acto solemne en el templo universitario o una actividad deportiva en el estadio de fútbol. Una vez hecha la
Encuesta se tiene que 495 alumnos prefieren la actividad deportiva y 405 se inclinan por el acto solemne. ¿Existe una diferencia significativa entre los estudiantes en su preferencia por la actividad deportiva? La prueba estadística para determinar la significativita de la diferencia en las frecuencias observadas es la prueba llamada Chi Cuadrada. Para el caso que nos ocupa, se supone que si no hay diferencia en la preferencia de los alumnos de una manera perfecta, tendríamos 450 alumnos eligiendo el acto solemne y otros 450 eligiendo las actividades deportivas. Esa es la frecuencia de respuestas esperadas en el caso de una igualdad absoluta. Pero tenemos frecuencias observadas un poco diferentes en un caso son 495 y en el otro 405, lo que deseamos saber es si esa diferencia observada es significativa.
Lo que se hace al aplicar la fórmula de chi cuadrada es restar al número de frecuencias observadas, el número de frecuencias esperadas; elevar esta diferencia al cuadrado, lo que hace que todos los valores asuman un valor positivo, y luego se divide el cuadrado obtenido entre el las frecuencias esperadas. Esto se hace de manera independiente para cada una de las categorías. Una vez terminado este paso, se suman los resultados obtenidos en cada categoría y ese valor resultante de la suma es el valor Chi cuadrada observado, el cual deberá ser comparado con el valor Chi cuadrada crítico según el nivel alpha de significatividad escogido y los grados de libertad correspondientes. En el caso de nuestro ejemplo se trata de dos categorías, lo que conduce a un grado de libertad. A continuación el proceso ara calcular el valor Chi cuadrada.

1. A favor del acto solemne:

Frecuencias observadas = 405
Frecuencias esperadas = 450

(frecuencias observadas – frecuencias esperadas )2
( 405 – 450)/ 450 = (-45)2  /450 = 2025/450= 4.5


2. A favor del acto deportivo:

Frecuencias observadas = 495
Frecuencias esperadas = 450

(frecuencias observadas – frecuencias esperadas )2
( 495 – 450)/ 450 = (45)2  /450 = 2025/450= 4.5


3. Se suman los valores obtenidos en cada grupo para obtener el valor de chi cuadrada.

4.5 + 4.5 = 9.00

4. Se compara este valor con el valor correspondiente a un grado de libertan en la tabla de Chi cuadrado y se encuentra que el valor crítico de χ2 para un grado de libertad a un nivel  alpha = .05 a dos colas es = 3.8941 Siendo que el valor Chi cuadrada (χ 2) obtenido es mayor que el valor crítico, se desacredita la hipótesis nula que afirma que no existe diferencia significativa entre las frecuencias observadas y se concluye que la diferencia es significativa. Esto
quiere decir que en menos de 5 casos de cada cien, una diferencia como la del valor igual o mayor al observado de Chi cuadrado en este caso (χ 2  =9), puede ser atribuida a la selección de la muestra (azar).


VÍDEO APLICADO A CHI CUADRADO
http://www.youtube.com/watch?v=sk2KqSINdr8


Tabla de CHI cuadrado.


La ji cuadrada se utiliza cuando:
            
1.    Cuando los datos puntualizan a las escalas nominal u ordinal.
2. Se utiliza solo la frecuencia.
3.  Poblaciones pequeñas.
4.  Cuando se desconocen los parámetros media, moda, etc.
5. Cuando se quiere contrastar o comparar hipótesis
6.  Investigaciones de tipo social - muestras pequeñas no representativas >5.
7. Cuando se requiere de establecer el nivel de confianza o significatividad en las diferencias   
8. Cuando la muestra es seleccionada no probabilísticamente.
9.  X2 permite establecer diferencias entre f y se utiliza solo en escala nominal.
                   Población > a 5 y < a 20.

Pasos.
1.  Arreglar las categorías y las frecuencias observadas.
2.  Calcular los valores teóricos esperados para el modelo experimental o tipo de distribución muestral: normal, binomial y de Poisson.
3.  Calcular las diferencias de las frecuencias observadas en el experimento con respecto a las frecuencias esperadas.
4.  Elevar al cuadrado las diferencias y dividirlas entre los valores esperados de cada categoría.
5.  Efectuar la sumatoria de los valores calculados.
6.  Calcular los grados de libertad (gl) en función de número de categorías [K]: gl = K - 1.
7.  Comparar el estadístico X2 con los valores de la distribución de ji cuadrada en la tabla.
8.  Decidir si se acepta o rechaza la hipótesis X2c ³ X2t se rechaza Ho.
 
Ejemplo:

Un investigador quiere comparar si hay diferencias en la cantidad de cigarros fumados por causa del estrés en personas que trabajan.
Elección de la prueba. 


·   Hipótesis alterna (Ha). Habrá diferencia significativa entre la cantidad de cigarros fumados por causa del estrés en personas que trabajan.

 · Hipótesis nula (Ho). No Habrá diferencia significativa entre la cantidad de cigarros fumados por causa del estrés en personas que trabajan.


Nivel de significación.

Para todo valor de probabilidad igual o menor que 0.05, se acepta Ha y se rechaza Ho.
Zona de rechazo.
Para todo valor de probabilidad mayor que 0.05, se acepta Ho y se rechaza Ha.
.

Aplicación de la prueba estadística.

El cálculo de la frecuencia esperada se efectúa en virtud de que para una hipótesis nula, a todas las casillas corresponde un valor igual, por lo tanto





fo = 18
fe = 6










gl = 3 + 1 = 2
a = 0.05


El valor calculado de X2 se compara con los valores críticos de la tabla de valores críticos de X2. Se puede observar que para una probabilidad de 0.05 corresponde la cifra de 5.99; por lo tanto, el estadístico ji cuadrada de 4.3 tiene una probabilidad mayor que 0.05.


Decisión.
En virtud de que la probabilidad obtenida al calcular el valor de X2 está dentro de la región de rechazo, se acepta Ho y se rechaza Ha. X2c ³ X2t se rechaza Ho

Entonces tenemos que:
4.3 < 5.99 se acepta Ho \ No hay diferencias significativas entre el consumo de cigarros por causa del estrés.


Interpretación.
El consumo de cigarros por causa del estrés se puede considerar como efecto del azar.