jueves, 7 de junio de 2012

E. Calcula de la distribucion Tstudent

Formula
La distribución t de Student es la distribución de probabilidad del cociente
Donde

Si μ es una constante no nula, el cociente Descripción:  \frac{Z+\mu}{\sqrt{V/\nu\ }} es una variable aleatoria que sigue la distribución t de Student no central con parámetro de no-centralidadDescripción: \mu.
Supongamos que X1,..., Xn son variables aleatorias independientes distribuidas normalmente, con media μ y varianza σ2. Sea

La media muestral. Entonces
Sigue una distribución normal de media 0 y varianza 1.
Sin embargo, dado que la desviación estándar no siempre es conocida de antemano, Gosset estudió un cociente relacionado,


Donde


Es la varianza muestral y demostró que la función de densidad de T es


Donde Descripción:  \nu\ es igual a n − 1.
La distribución de T se llama ahora la distribución-t de Student.
El parámetro Descripción:  \nu\ representa el número de grados de libertad. La distribución depende de Descripción:  \nu\ , pero no de Descripción: \muo Descripción: \sigma, lo cual es muy importante en la práctica.
Características:
·         La distribución t-Student es menor en la media y más alta en los extremos que una distribución normal.

·         Tiene mayor parte de su área en los extremos que la distribución normal.


·         La distribución se denomina distribución de Student o distribución “t”.

·         Es simétrica, con media de 0, y variancia mayor que 1.


·         Es más achatada que la normal y adopta diferentes formas, según el número de grados de libertad.

·         La variable t se extiende desde -a +.


·         A medida que aumenta los (n -1) grados de libertad la distribución “t” se aproxima en su forma a una distribución normal.

·         El parámetro de la distribución es (n-1) grados de libertad, originando una distribución diferente para cada tamaño de muestra.




Tabla
Graficas

GRAFICA.
Gráfico o gráfica son las denominaciones de la representación de datos, generalmente numéricos, mediante recursos gráficos (líneas, vectores, superficies o símbolos), para que se manifieste visualmente la relación matemática o correlación estadística que guardan entre sí. También puede ser un conjunto de puntos, que se plasman en coordenadas cartesianas, y sirven para analizar el comportamiento de un proceso, o un conjunto de elementos o signos que permiten la interpretación de un fenómeno. La representación gráfica permite establecer valores que no han sido obtenidos experimentalmente, sino mediante la interpolación (lectura entre puntos) y la extrapolación (valores fuera del intervalo experimental).
  • La estadística gráfica es una parte importante y diferenciada de una aplicación de técnicas gráficas, a la descripción e interpretación de datos e inferencias sobre éstos. Forma parte de los programas estadísticos usados con los ordenadores. Autores como Edward R. Tufte han desarrollado nuevas soluciones de análisis gráficos. Existen diferentes tipos de gráficas, que se pueden clasificar en:
·         Gráfico lineal: se representan los valores en dos ejes cartesianos ortogonales entre sí. Las gráficas lineales se recomiendan para representar series en el tiempo, y es donde se muestran valores máximos y mínimos; también se utilizan para varias muestras en un diagrama.
·         Gráfico de barras: se usa cuando se pretende resaltar la representación de porcentajes de datos que componen un total. Una gráfica de barras contiene barras verticales que representan valores numéricos, generalmente usando una hoja de cálculo. Las gráficas de barras son una manera de representar frecuencias; las frecuencias están asociadas con categorías. Una gráfica de barras se presenta de dos maneras: horizontal o vertical. El objetivo es poner una barra de largo (alto si es horizontal) igual a la frecuencia. La gráfica de barras sirve para comparar y tener una representación gráfica de la diferencia de frecuencias o de intensidad de la característica numérica de interés.
·         Histograma: se emplea para ilustrar muestras agrupadas en intervalos. Está formado por rectángulos unidos a otros, cuyos vértices de la base coinciden con los límites de los intervalos y el centro de cada intervalo es la marca de clase que representamos en el eje de las abscisas. La altura de cada rectángulo es proporcional a la frecuencia del intervalo respectivo.
·         Gráfico circular: permite ver la distribución interna de los datos que representan un hecho, en forma de porcentajes sobre un total. Se suele separar el sector correspondiente al mayor o menor valor, según lo que se desee destacar.
·         Pictograma: con imágenes que sirven para representar el comportamiento o la distribución de los datos cuantitativos de una población, utilizando símbolos de tamaño proporcional al dato representado. Una posibilidad es que el gráfico sea analógico por ejemplo, la representación de los resultados de las elecciones con colores sobre un hemiciclo.

AREA BAJO LA CURVA.
Es una distribución cuyas variables aleatorias pueden tomar un número infinito de posibles valores, o cuyas diferencias entre si pueden ser infinitesimales; por lo tanto es una distribución continua, ya que sus variables pueden medirse con el grado de precisión que se desee. Algunos ejemplos de variables continuas son las medidas de. Tiempo (años, meses, días, horas, minutos, segundos, etc.). Distancia (Km, metros, centímetros, milímetros, etc.). Estatura. Peso. Coeficiente intelectual CI (IQ)
Importancia de la Distribución Normal:

Existen numerosas variables que parecen seguir una forma similar a la distribución normal (pesos, alturas, coeficientes intelectuales, calificaciones en exámenes, etc.)

La distribución muestra de muchos estadígrafos muéstrales como la media tienen una distribución aproximadamente normal e independiente de la configuración de la población, si los datos son suficientemente numerosos.

Es una excelente aproximación a otras distribuciones muéstrales como la dePoisson y Binomial, por ejemplo.

Es cuando el numero de datos va a sustituir el valor de "X" y tenemos que tener la media y desviacion estandar para poder obtener los datos ya estandarizados y despues colocarlos en la curva y ver si los datos estan concentrados arriba de la media es positivoo abajo de la media que es negativo en lo cual los datos estandarizados son el porcentaje que obtenemos por medio de la formula "Z"
_
Z=x-x
----
S
INTERMEDIOS DE CONFIANZA.
Intermedios de confianza en la estadística se basa en las conclusiones a la que se llega por la ciencia experimental basándose en información incompleta. Por ejemplo, Mendel al estudiar la manera como diferían entre sí las plantas de guisantes en altura, color de las semillas, color de las vainas y color de las flores, tuvo que hacer sus conclusiones necesariamente basándose en un grupo de plantas relativamente poco numeroso comparado con toda la población de plantas de guisantes de un tipo particular.

Al hacer un enunciado, como por ejemplo, sobre el color de las flores, las conclusiones de Mendel dependían de la muestra particular de plantas disponibles para este estudio.

En la terminología estadística, el procedimiento inductivo implica el hacer inferencias acerca de una población adecuada ó universo a la luz de lo averiguado en un subconjunto aparte o muestra.
La inferencia estadística se refiere a los procedimientos mediante los cuales se pueden hacer tales generalizaciones ó inducciones.
Los dos problemas fundamentales que estudia la inferencia estadística son el "Problema de la estimación" y el "Problema del contraste de hipótesis"
Cuando se conoce la forma funcional de la función de distribución que sigue la variable aleatoria objeto de estudio y sólo tenemos que estimar los parametros que la determinan, estamos en un problema de inferencia estadística paramétrica ; por el contrario cuando no se conoce la forma funcional de la distribución que sigue la variable aleatoria objeto de estudio, estamos ante un problema de inferencia estadística no paramétrica.
En lo que sigue nos vamos a limitar a problemas de inferencia estadística paramétrica, donde la variable aleatoria objeto de estudio sigue una distribución normal, y sólo tendremos que tratar de estimar los parámetros que la determinan, la media y la desviación típica.
Esta situación se presenta con frecuencia debido a que es posible a menudo conocer la forma funcional de la distribución de probabilidad, por consideraciones teóricas, quedando únicamente indeterminados los parámetros que determinan la función de distribución.
Como las poblaciones en las que se pretende estudiar una determinada variable aleatoria, son grandes, es muy caro o imposible, estudiar a todos sus individuos; lo que se hace, es estudiar una muestra ( una parte) de la población
En todos estos problemas que estudia la inferencia estadística juega un papel fundamental la "Teoría de la Probabilidad" (distintas formas funcionales de las distribuciones de probabilidad) y la "Teoría de Muestras" (procedimientos para tomar muestras de manera apropiada).
INTERMEDIOS DE SIGNIFICANCIAS.
Al contrastar una cierta hipótesis, la máxima probabilidad con la que estamos dispuestos a correr el riesgo de cometer un error de tipo I se llama nivel de significancia. Esta probabilidad se denota por, se suele especificar antes de la muestra, de manera que los resultados no influyan en nuestra elección.
En la práctica es frecuente un nivel de significancia de 0.05 ó 0.01, si bien se usan otros valores. Si, por ejemplo, se escoge un nivel de significancia del 5% ó 0.05 al diseñar una regla de decisión entonces hay unas cinco oportunidades entre cien de rechazar la hipótesis cuando debiera haberse aceptado; es decir, tenemos un 95% de confianza de que hemos adoptado la decisión correcta. En tal caso decimos que la hipótesis a sido rechazada al nivel de significancia 0.05 lo cual quiere decir que la hipótesis tiene una probabilidad del 5% de ser falsa.
Nivel de Significancia o Nivel Alfa es el nivel de probabilidad de equivocarse y se fija antes de probar hipótesis inferenciales.
El investigador obtienen una estadística en una muestra (Ej, la media) y analiza que porcentaje tiene de confianza en que dicha estadística se acerque al valor de la distribución muestral (que es el valor de la población o el parámetro). Busca un alto porcentaje de confianza, una probabilidad elevada para estar tranquilo, por que sabe que tal vez haya error de muestreo y, aunque la evidencia parece mostrar una aparente “cercanía” entre el valor calculado en la muestra y el parámetro, tal “cercanía” puede no ser real o deberse a errores en la selección de la muestra.
¿Con qué porcentaje de confianza el investigador generaliza, para suponer que tal cercanía es real y no por un error de muestreo? Existen dos niveles convenidos en ciencias sociales:
El nivel de Significancia de 0,05 , el cual implica que el investigador tiene un 95% de seguridad para generalizar sin equivocarse y solo el 5% en contra. En términos de probabilidad, 0,95 y 0,05, respectivamente; ambos suman la unidad.
El nivel de significancia de 0,01 , el cual implica que el investigador tiene 99% en su favor y 1% en contra (0,99 y 0,01= 1) para generalizar sin temor.


No hay comentarios:

Publicar un comentario