viernes, 8 de junio de 2012

C. Calcula la probabilidad en la distribucion normal


•AREA BAJO LA CURVA
DEFINICIONES:
Para emplear la curva normal en la resolucion de los ploblemas, tenemos que familiarizarnos con el area que esta bajo la curva y la linea base y que contiene el 100%, o todos los casos, en una distribucion normal dada.

La curva normal tiene forma de campana, la media, la moda y la mediana de la distribucion son iguales.

Una aplicacionmatematica de mucha utilidad que consiste en calcular el area delimitada entre dos puntos del eje y la de un grafico

CONCEPTO:
La curva hace mas facil el calculo en proporciones ya que por medio de la curva miramos que dato esta cerca de la media, que dato llega a la punta de la curva o ver de que lado estan concentrados los datos ya que como parte principal es la media porque primero tenemos que ubicar la media que nos sirve como guia y despues se colocan los demas datos en la curva, en lo cual la curva tiene forma de campana.

VALORES ESTANDARIZADOS:
Es cuando el numero de datos va a sustituir el valor de "X" y tenemos que tener la media y desviacionestandar para poder obtener los datos ya estandarizados y despues colocarlos en la curva y ver si los datos estan concentrados arriba de la media es positivoo abajo de la media que es negativo en lo cual los datos estandarizados son el porcentaje que obtenemos por medio de la formula "Z"
_
Z=x-x
----
S

·  El área total bajo la curva es igual a 1 y, es equivalente al área bajo el histograma.
·  La frecuencia relativa (probabilidad para n ! ") de ocurrencia para los valores entre dos puntos específicos del eje de las x, es igual área total delimitada por la curva, el eje de las abcisas y las rectas perpendiculares levantadas sobre ambos puntos.
·  La probabilidad de cualquier valor específico de la variable es cero, por lo quesólo podremos hablar de probabilidad dentro de intervalos.
·  El cálculo de probabilidad se basa en el cálculo integral del área bajo la curva entre dos puntos cualesquiera del eje de abcisas, generándose la función de densidad de probabilidad.

·         INTERVALOS DE CONFIANZA
Es un rango de valores (calculado en una muestra) en el cual se encuentra el verdadero valor del parámetro, con una probabilidad determinada.
La probabilidad de que el verdadero valor del parámetro se encuentre en el intervalo construido se denomina nivel de confianza y se denota 1-Descripción: http://escuela.med.puc.cl/recursos/recepidem/IMAGENES/griega2.gif. La probabilidad de equivocarnos se llama nivel de significancia y se simboliza Descripción: http://escuela.med.puc.cl/recursos/recepidem/IMAGENES/griega2.gif. Generalmente se construyen intervalos con confianza 1-Descripción: http://escuela.med.puc.cl/recursos/recepidem/IMAGENES/griega2.gif=95% (o significancia Descripción: http://escuela.med.puc.cl/recursos/recepidem/IMAGENES/griega2.gif=5%). Menos frecuentes son los intervalos con Descripción: http://escuela.med.puc.cl/recursos/recepidem/IMAGENES/griega2.gif=10% o Descripción: http://escuela.med.puc.cl/recursos/recepidem/IMAGENES/griega2.gif=1%.
Para construir un intervalo de confianza, se puede comprobar que la distribución Normal Estándar cumple 1:
P(-1.96 < z < 1.96) = 0.95
(lo anterior se puede comprobar con una tabla de probabilidades o un programa computacional que calcule probabilidades normales).
Luego, si una variable X tiene distribución N(Descripción: http://escuela.med.puc.cl/recursos/recepidem/IMAGENES/griega%204.gif,Descripción: http://escuela.med.puc.cl/recursos/recepidem/IMAGENES/griega%205.gifDescripción: http://escuela.med.puc.cl/recursos/recepidem/IMAGENES/alcuadrado.gif), entonces el 95% de las veces se cumple:

Despejando Descripción: http://escuela.med.puc.cl/recursos/recepidem/IMAGENES/griega%204.gifen la ecuación se tiene:

El resultado es un intervalo que incluye al Descripción: http://escuela.med.puc.cl/recursos/recepidem/IMAGENES/griega%204.gifel 95% de las veces. Es decir, es un intervalo de confianza al 95% para la mediaDescripción: http://escuela.med.puc.cl/recursos/recepidem/IMAGENES/griega%204.gifcuando la variable X es normal y Descripción: http://escuela.med.puc.cl/recursos/recepidem/IMAGENES/alcuadrado.gifDescripción: http://escuela.med.puc.cl/recursos/recepidem/IMAGENES/griega%205.gifes conocido.


Un intervalo de confianza aporta más información que un estimador puntual cuando se quiere hacer inferencias sobre parámetros poblacionales.
Existen intervalos de confianzas bilaterales y unilaterales.
La amplitud de un intervalo de confianza está determinado por: el nivel de confianza establecido;la variabilidad de los datos; el tamaño de la muestra.
Un intervalo de confianza permite verificar hipótesis planteadas acerca de parámetros poblacionales.
·         INTERVALOS DE SIGNIFICANCIA
A pesar de las limitaciones de la estadística, el término "estadísticamente significativo" invade la literatura médica y se percibe como una etiqueta que indicase "garantía de calidad". El considerar el término significativo implica utilizar términos comparativos de dos hipótesis.  Los test de hipótesis son test de significación estadística que cuantifican hasta que punto la variabilidad de la muestra puede ser responsable de los resultados de un estudio en particular.  La Ho (hipótesis nula) representa la afirmación de que no hay asociación entre las dos variables estudiadas y la Ha (hipótesis alternativa) afirma que hay algún grado de relación o asociación entre las dos variables.  Nuevamente la estadística nos muestra su utilidad ya que nos ayuda a tomar la decisión de que hipótesis debemos elegir.  Dicha decisión puede ser afirmada con una seguridad que nosotros previamente decidimos.  El nivel de significación se estableció siguiendo los comentarios del estadístico Fisher que señaló "...es conveniente trazar una línea de demarcación a partir de la cual podamos decir: o bien hay algo en el tratamiento..." (3).  El mecanismo de los diferentes test se realiza aunque con matices siempre de la siguiente forma: En primer lugar se mira la magnitud de la diferencia que hay entre los grupos a comparar (A y B). Si esta magnitud o valor absoluto es mayor que un error estándar definido multiplicado por una seguridad definida, concluimos que la diferencia es significativa entre A y B. Por tanto aceptamos la hipótesis alternativa y rechazamos la hipótesis nula.
·         Ejemplo:
·         Disponemos de 2 tratamientos ( A y B).  El tratamiento A lo reciben 25 pacientes y el tratamiento B otros 25 pacientes. 15 pacientes responden favorablemente al tratamiento A y 20 al tratamiento B. ¿Existe diferencia significativa entre ambos tratamientos?
·         Ho (hipótesis nula) = No hay diferencia entre ambos tratamientos.
·         Ha (hipótesis alternativa) = Sí existe diferencia.
Tratamiento
N
Porcentaje de respuesta
A
25
15/25 = 0.60
B
25
20/25 = 0.80
·         Si
   
·         es mayor que el producto de 1.96 * el error estándar, 
·         concluímos que la diferencia es significativa.
·        

·         Error estándar =
·         = 0.1296
·         Error estándar * 1.96 = 0.1296 * 1.96 = 0.25
·         Como quiera que la diferencia = 
no supera el valor 0.25 concluimos que la diferencia entre 0.60 y 0.80 no es estadísticamente significativa. A la vista de los resultados no podemos aceptar la Ha (hipótesis alternativa).

jueves, 7 de junio de 2012

A. Analisis de las medidas de una distribucion



Las medidas de distribución nos permiten identificar la forma en que se separan o aglomeran los valores de acuerdo a su representación gráfica. Estas medidas describen la manera como los datos tienden a reunirse de acuerdo con la frecuencia con que se hallen dentro de la información. Su utilidad radica en la posibilidad de identificar las características de la distribución sin necesidad de generar el gráfico. Sus principales medidas son la Asimetría
Variable aleatoria
Es una variable cuyos valores se obtienen de mediciones en algún tipo de experimento aleatorio. Una variable aleatoria es una función, que asigna eventos (p.e., los posibles resultados de tirar un dado dos veces: (1, 1), (1, 2), etc.) a números reales (p.e., su suma). Una variable aleatoria (v.a.) es una función real definida en el espacio muestral asociado a un experimento aleatorio, Ω.
·         Variables aleatorias discretas
Es discreta si su recorrido es un conjunto discreto. La variable del ejemplo anterior es discreta. Sus probabilidades se recogen en la función de cuantía
·         Variables aleatorias continuas
Es continua si su recorrido no es un conjunto numerable. Intuitivamente esto significa que el conjunto de posibles valores de la variable abarca todo un intervalo de números reales. Por ejemplo, la variable que asigna la estatura a una persona extraída de una determinada población es una variable continua ya que, teóricamente, todo valor entre, pongamos por caso, 0 y 2,50 m, es posible.
Distribución de probabilidad de una variable aleatoria.
La distribución de probabilidad de una variable aleatoria es una función que asigna a cada suceso definido sobre la variable aleatoria la probabilidad de que dicho suceso ocurra. La distribución de probabilidad está definida sobre el conjunto de todos los eventos rango de valores de la variable aleatoria. Cuando la variable aleatoria toma valores en el conjunto de los números reales, la distribución de probabilidad está completamente especificada por la función de distribución, cuyo valor en cada real x es la probabilidad de que la variable aleatoria sea menor o igual que x.



Esperanza matemática

Es el número que formaliza la idea de valor medio de un fenómeno aleatorio. Cuando la variable aleatoria es discreta, la esperanza es igual a la suma de la probabilidad de cada posible suceso aleatorio multiplicado por el valor de dicho suceso.
·         Supuestos sobre las preferencias
Los economistas suelen partir de algunos supuestos sobre la "compatibilidad" de las preferencias de los consumidores. Por ejemplo, parece poco razonable – por no decir contradictoria – una situación en la que (x1, x2) > (y1, y2) y, al mismo tiempo, (y1, y2) > (x1, x2), pies significaría que el consumidor prefiere estrictamente la cesta X a la Y… y viceversa. Por esa razón, normalmente los economistas parten de una serie de supuestos sobre las relaciones de preferencia. Algunos son tan importantes que podemos llamarlos "axiomas" de la teoría del consumidor. He aquí tres de ellos. Decimos que las preferencias son:
Completas. Suponemos que es posible comparar dos cestas cualesquiera. Es decir, dada cualquier cesta X y cualquier cesta Y, suponemos que (x1, x2) ≥ (y1, y2) o (y1, y2) ≥ (x1, x2) o las dos cosa, en cuyo caso, el consumidor es diferente entre las dos cestas.
Reflexivas. Suponemos que cualquier cesta es al menos tan buena como ella misma; (x1, x2) ≥ (y1, y2). Transitivas. Si (x1, x2) ≥ (y1, y2) y (y1, y2) ≥ (z1, z2), suponemos que (x1, x2) ≥ (y1, z2). En otras palabras, si el consumidor piensa que la cesta X al menos tan buena como la Y y la que la Y al menos tan buena como la Z, piensa que la X es la menos tan buena como la Z


VARIANZA
En teoría de probabilidad, la varianza (que suele representarse como Descripción: \sigma^2) de una variable aleatoria es una medida de dispersión definida como la esperanza del cuadrado de la desviación de dicha variable respecto a su media.
Está medida en unidades distintas de las de la variable. Por ejemplo, si la variable mide una distancia en metros, la varianza se expresa en metros al cuadrado. La desviación estándar, es la raíz cuadrada de la varianza, es una medida de dispersión alternativa expresada en las mismas unidades de los datos de la variable objeto de estudio. La varianza tiene como valor mínimo 0.
Hay que tener en cuenta que la varianza puede verse muy influida por los valores atípicos y no se aconseja su uso cuando las distribuciones de las variables aleatorias tienen colas pesadas. En tales casos se recomienda el uso de otras medidas de dispersión más robustas.
El término varianza fue acuñado por Ronald Fisher en un artículo de 1918 titulado TheCorrelationBetweenRelativesontheSupposition of MendelianInheritance.

Definición

Dada una variable aleatoria X con media μ = E(X), se define su varianza, Var(X) (también representada como Descripción: \scriptstyle\sigma_X^2o, simplemente σ2), como.
  
Desarrollando la definición anterior, se obtiene la siguiente definición alternativa (y equivalente):

Si una distribución no tiene esperanza, como ocurre con la de Cauchy, tampoco tiene varianza. Existen otras distribuciones que, aun teniendo esperanza, carecen de varianza. Un ejemplo de ellas es la de Pareto cuando su índice k satisface 1 <k ≤ 2.

Caso Continuo

Si la variable aleatoria X es continua con función de densidadf(x), entonces

Donde

Y las integrales están definidas sobre el rango de X.

Caso Discreto

Si la variable aleatoria X es discreta con pesos x1p1,..., xnpn, entonces 
EJEMPLOS

Distribución  Exponencial

La distribución exponencial de parámetro λ es una distribución continua con soporte en el intervalo [0, ∞) y función de densidad


Tiene media μ = λ−1. Por lo tanto, su varianza es:



Es decir, σ2 = μ2.

Dado Perfecto

Un dado de seis caras puede representarse como una variable aleatoria discreta que toma, valores del 1 al 6 con probabilidad igual a 1/6. El valor esperado es (1+2+3+4+5+6)/6 = 3,5. Por lo tanto, su varianza es:


Propiedades de la Varianza

Algunas propiedades de la varianza son:


 Siendo a y b números reales cualesquiera. De esta propiedad se deduce que la varianza de una constante es cero, es decir, 

, donde Cov(X,Y) es la covarianza de X e Y.
, donde Cov(X, Y) es la covarianza de X e Y.

Varianza Muestral

En muchas situaciones es preciso estimar la varianza de una población a partir de una muestra. Si se toma una muestra con reemplazamiento Descripción: (y_1,\dots,y_n)de n valores de ella, de entre todos los estimadores posibles de la varianza de la población de partida, existen dos de uso corriente:



y


Cuando los datos están agrupados:



A los dos (cuando está dividido por n y cuando lo está por n-1) se los denomina varianza muestral. Difieren ligeramente y, para valores grandes de n, la diferencia es irrelevante. El primero traslada directamente la varianza de la muestra al de la población y el segundo es un estimador insesgado de la varianza de la población. De hecho,

Mientras que


Propiedades de la Varianza Muestral

Como consecuencia de la igualdad  Descripción:  \operatorname{E}(s^2)=\sigma^2s2 es un estadístico insesgado de  Descripción: \sigma^2. Además, si se cumplen las condiciones necesarias para la ley de los grandes números, s2 es un estimador consistentede Descripción: \sigma^2.
Más aún, cuando las muestras siguen una distribución normal, por el teorema de Cochran, Descripción: s^2tiene la distribución chi-cuadrado:


DESVIACIÓN ESTÁNDAR

La desviación estándar o desviación típica (denotada con el símbolo σ) es una medida de centralización o dispersión para variables de razón (ratio o cociente) y de intervalo, de gran utilidad en la estadística descriptiva.
Se define como la raíz cuadrada de la varianza. Junto con este valor, la desviación típica es una medida (cuadrática) que informa de la media de distancias que tienen los datos respecto de su media aritmética, expresada en las mismas unidades que la variable.
Para conocer con detalle un conjunto de datos, no basta con conocer las medidas de tendencia central, sino que necesitamos conocer también la desviación que presentan los datos en su distribución respecto de la media aritmética de dicha distribución, con objeto de tener una visión de los mismos más acorde con la realidad al momento de describirlos e interpretarlos para la toma de decisiones.

Formulación  Muestral


La varianza representa la media aritmética de las desviaciones con respecto a la media que son elevadas al cuadrado.
Si atendemos a la colección completa de datos (la población en su totalidad) obtenemos la varianza poblacional; y si por el contrario prestamos atención sólo a una muestra de la población, obtenemos en su lugar la varianza muestral. Las expresiones de estas medidas son las que aparecen a continuación donde nos explican mejor el texto.

Expresión de la varianza muestral:


Segunda forma de calcular la varianza muestral:






podemos observar que como

   (Sumamos n veces 1 y luego dividimos por n)
Y como

obtenemos


Expresión de la cuasivarianzamuestral (estimadorinsesgado de la varianza poblacional):



Expresión de la varianza poblacional:

Donde Descripción: {\mu\,} es el valor medio de Descripción: {X_i\,}
Expresión de la desviación estándar poblacional:


El término desviación estándar fue incorporado a la estadística por Karl Pearson en 1894.
Por la formulación de la varianza podemos pasar a obtener la desviación estándar, tomando la raíz cuadrada positiva de la varianza. Así, si efectuamos la raíz de la varianza muestral, obtenemos la desviación típica muestral; y si por el contrario, efectuamos la raíz sobre la varianza poblacional, obtendremos la desviación típica poblacional.

Desviaciones estándar en una distribución normal.
Expresión de la desviación estándar muestral:

También puede ser tomada como

Conacomo  Descripción: \sum_{i=1}^n x_i^2  y s como   Descripción: \sum_{i=1}^n x_i
Además se puede tener una mejor tendencia de medida al desarrollar las formulas indicadas pero se tiene que tener en cuenta la media, mediana y moda.

Interpretación  y  Aplicación

La desviación estándar es una medida del grado de dispersión de los datos con respecto al valor promedio. Dicho de otra manera, la desviación estándar es simplemente el "promedio" o variación esperada con respecto a la media aritmética.
Por ejemplo, las tres muestras (0, 0, 14, 14), (0, 6, 8, 14) y (6, 6, 8, 8) cada una tiene una media de 7. Sus desviaciones estándar muestrales son 8,08; 5,77 y 1,15 respectivamente. La tercera muestra tiene una desviación mucho menor que las otras dos porque sus valores están más cerca de 7.
La desviación estándar puede ser interpretada como una medida de incertidumbre. La desviación estándar de un grupo repetido de medidas nos da la precisión de éstas. Cuando se va a determinar si un grupo de medidas está de acuerdo con el modelo teórico, la desviación estándar de esas medidas es de vital importancia: si la media de las medidas está demasiado alejada de la predicción (con la distancia medida en desviaciones estándar), entonces consideramos que las medidas contradicen la teoría. Esto es coherente, ya que las mediciones caen fuera del rango de valores en el cual sería razonable esperar que ocurrieran si el modelo teórico fuera correcto. La desviación estándar es uno de tres parámetros de ubicación central; muestra la agrupación de los datos alrededor de un valor central (la media o promedio).

Desglose

La desviación estándar (DS/DE), también llamada desviación típica, es una medida de dispersión usada en estadística que nos dice cuánto tienden a alejarse los valores concretos del promedio en una distribución. De hecho, específicamente, la desviación estándar es "el promedio del cuadrado de la distancia de cada punto respecto del promedio". Se suele representar por una S o con la letra sigma, Descripción: \sigma^{}_{}.
La desviación estándar de un conjunto de datos es una medida de cuánto se desvían los datos de su media. Esta medida es más estable que el recorrido y toma en consideración el valor de cada dato.

Distribución de Probabilidad Continua

Es posible calcular la desviación estándar de una variable aleatoria continua como la raíz cuadrada de la integral

donde

Distribución de Probabilidad Discreta

La DS es la raíz cuadrada de la varianza de la distribución de probabilidad discreta



Así la varianza es la media de los cuadrados de las diferencias entre cada valor de la variable y la media aritmética de la distribución.
Aunque esta fórmula es correcta, en la práctica interesa realizar inferencias poblacionales, por lo que en el denominador en vez de n, se usa n-1 (Corrección de Bessel).

También hay otra función más sencilla de realizar y con menos riesgo de tener equivocaciones: