Formula
La distribución t de Student
es la distribución de probabilidad del cociente
Donde
- Z tiene una distribución normal de media nula y varianza 1
- V tiene una distribución ji-cuadrado con grados de libertad
- Z y V son independientes
Si μ es una constante
no nula, el cociente es una variable aleatoria que sigue la distribución t de Student no central con parámetro de no-centralidad.
Supongamos que X1,..., Xn son variables aleatorias independientes
distribuidas normalmente, con media μ y varianza σ2. Sea
Sigue una distribución normal de media 0 y varianza 1.
Sin embargo, dado que la
desviación estándar no siempre es conocida de antemano, Gosset estudió un cociente
relacionado,
Donde
Es la varianza muestral y demostró que la función de densidad de T
es
Donde es igual a n − 1.
La distribución de T se llama ahora la distribución-t
de Student.
El parámetro representa el número de grados de libertad. La distribución
depende de , pero no de o , lo cual es muy importante en la práctica.
Características:
·
La
distribución t-Student es menor en la media y más alta en los extremos que una
distribución normal.
·
Tiene
mayor parte de su área en los extremos que la distribución normal.
·
La distribución se denomina
distribución de Student o distribución “t”.
·
Es simétrica, con media de 0,
y variancia mayor que 1.
·
Es más achatada que la normal
y adopta diferentes formas, según el número de grados de libertad.
·
La variable t se extiende
desde -a +.
·
A medida que aumenta los (n
-1) grados de libertad la distribución “t” se aproxima en su forma a una
distribución normal.
·
El parámetro de la
distribución es (n-1) grados de libertad, originando una distribución diferente
para cada tamaño de muestra.
Tabla
Graficas
GRAFICA.
Gráfico o gráfica son las
denominaciones de la representación
de datos, generalmente numéricos, mediante recursos
gráficos (líneas, vectores, superficies o símbolos), para que se manifieste visualmente la relación matemática o correlación
estadística que guardan entre
sí. También puede ser un conjunto de puntos, que se plasman en coordenadas cartesianas, y sirven para analizar el comportamiento de un proceso,
o un conjunto de elementos o signos que permiten la interpretación de un fenómeno.
La representación gráfica permite establecer valores que no han sido obtenidos
experimentalmente, sino mediante la interpolación (lectura entre puntos) y la extrapolación (valores fuera del intervalo experimental).
- La estadística
gráfica es una parte importante y
diferenciada de una aplicación de técnicas gráficas, a la descripción e
interpretación de datos e inferencias sobre éstos. Forma parte de los programas
estadísticos usados
con los ordenadores. Autores como Edward R. Tufte han desarrollado nuevas soluciones de análisis gráficos.
Existen diferentes tipos de gráficas, que se pueden clasificar en:
·
Gráfico lineal: se representan los valores en dos ejes
cartesianos ortogonales entre sí. Las
gráficas lineales se recomiendan para representar series en el tiempo, y es
donde se muestran valores máximos y mínimos; también se utilizan para varias
muestras en un diagrama.
·
Gráfico de barras: se usa cuando se pretende resaltar la representación de porcentajes de
datos que componen un total. Una gráfica de barras contiene barras verticales
que representan valores numéricos, generalmente usando una hoja de cálculo. Las
gráficas de barras son una manera de representar frecuencias; las frecuencias
están asociadas con categorías. Una gráfica de barras se presenta de dos
maneras: horizontal o vertical. El objetivo es poner una barra de largo (alto
si es horizontal) igual a la frecuencia. La gráfica de barras sirve para
comparar y tener una representación gráfica de la diferencia de frecuencias o
de intensidad de la característica numérica de interés.
·
Histograma: se emplea para ilustrar muestras agrupadas en intervalos. Está formado
por rectángulos unidos a otros, cuyos vértices de la base coinciden con los
límites de los intervalos y el centro de cada intervalo es la marca de clase
que representamos en el eje de las abscisas. La altura de cada rectángulo es
proporcional a la frecuencia del intervalo respectivo.
·
Gráfico circular: permite ver la distribución interna de los datos que representan un
hecho, en forma de porcentajes sobre un total. Se suele separar el sector
correspondiente al mayor o menor valor, según lo que se desee destacar.
·
Pictograma: con imágenes que sirven para representar el comportamiento o la
distribución de los datos cuantitativos de una población, utilizando símbolos de tamaño proporcional al dato representado. Una posibilidad es que el
gráfico sea analógico por ejemplo,
la representación de los resultados de las elecciones con colores sobre un hemiciclo.
AREA BAJO LA CURVA.
Es una distribución cuyas variables aleatorias pueden
tomar un número infinito de posibles valores, o cuyas diferencias entre si
pueden ser infinitesimales; por lo tanto es una distribución continua, ya que
sus variables pueden medirse con el grado de precisión que se desee. Algunos
ejemplos de variables continuas son las medidas de. Tiempo (años, meses, días,
horas, minutos, segundos, etc.). Distancia (Km, metros, centímetros,
milímetros, etc.). Estatura. Peso. Coeficiente intelectual CI (IQ)
Importancia de la Distribución
Normal:
Existen numerosas variables que parecen seguir una forma
similar a la distribución normal (pesos, alturas, coeficientes intelectuales,
calificaciones en exámenes, etc.)
La distribución muestra de muchos estadígrafos
muéstrales como la media tienen una distribución aproximadamente normal e
independiente de la configuración de la población, si los datos son
suficientemente numerosos.
Es una excelente aproximación a otras distribuciones
muéstrales como la dePoisson y Binomial, por ejemplo.
Es cuando el numero de datos va a
sustituir el valor de "X" y tenemos que tener la media y desviacion
estandar para poder obtener los datos ya estandarizados y despues colocarlos en
la curva y ver si los datos estan concentrados arriba de la media es positivoo
abajo de la media que es negativo en lo cual los datos estandarizados son el
porcentaje que obtenemos por medio de la formula "Z"
_
Z=x-x
----
S
INTERMEDIOS DE CONFIANZA.
Intermedios de
confianza en la estadística se basa en las conclusiones a la que se llega por la
ciencia experimental basándose en información incompleta. Por ejemplo, Mendel
al estudiar la manera como diferían entre sí las plantas de guisantes en
altura, color de las semillas, color de las vainas y color de las flores, tuvo
que hacer sus conclusiones necesariamente basándose en un grupo de plantas
relativamente poco numeroso comparado con toda la población de plantas de
guisantes de un tipo particular.
Al hacer un enunciado, como por ejemplo,
sobre el color de las flores, las conclusiones de Mendel dependían de la
muestra particular de plantas disponibles para este estudio.
En la terminología estadística, el
procedimiento inductivo implica el hacer inferencias acerca de una población adecuada
ó universo a la luz de lo averiguado en un subconjunto aparte o muestra.
La inferencia estadística se refiere a
los procedimientos mediante los cuales se pueden hacer tales generalizaciones ó
inducciones.
Los
dos problemas fundamentales que estudia la inferencia estadística son el "Problema de
la estimación" y el "Problema del contraste de hipótesis"
Cuando
se conoce la forma funcional de la función de distribución que sigue la
variable aleatoria objeto de estudio y sólo tenemos que estimar los parametros
que la determinan, estamos en un problema de inferencia estadística paramétrica ;
por el contrario cuando no se conoce la forma funcional de la distribución que
sigue la variable aleatoria objeto de estudio, estamos ante un problema de inferencia estadística
no paramétrica.
En
lo que sigue nos vamos a limitar a problemas de inferencia estadística
paramétrica, donde la variable aleatoria objeto de estudio sigue una
distribución normal, y sólo tendremos que tratar de estimar los parámetros que
la determinan, la
media y la
desviación típica.
Esta
situación se presenta con frecuencia debido a que es posible a menudo conocer
la forma funcional de la distribución de probabilidad, por consideraciones
teóricas, quedando únicamente indeterminados los parámetros que determinan la
función de distribución.
Como
las poblaciones en las que se pretende estudiar una determinada variable
aleatoria, son grandes, es muy caro o imposible, estudiar a todos sus
individuos; lo que se hace, es estudiar una muestra ( una parte) de la población
En
todos estos problemas que estudia la inferencia estadística juega un papel
fundamental la "Teoría
de la Probabilidad" (distintas formas funcionales de las
distribuciones de probabilidad) y la "Teoría de Muestras"
(procedimientos para tomar muestras de manera apropiada).
INTERMEDIOS DE SIGNIFICANCIAS.
Al contrastar una cierta hipótesis, la máxima
probabilidad con la que estamos dispuestos a correr el riesgo de cometer un
error de tipo I se llama nivel de significancia. Esta probabilidad se denota
por, se suele especificar antes de la muestra, de manera que los resultados no
influyan en nuestra elección.
En la práctica es frecuente un nivel de significancia de
0.05 ó 0.01, si bien se usan otros valores. Si, por ejemplo, se escoge un nivel
de significancia del 5% ó 0.05 al diseñar una regla de decisión entonces hay
unas cinco oportunidades entre cien de rechazar la hipótesis cuando debiera
haberse aceptado; es decir, tenemos un 95% de confianza de que hemos adoptado
la decisión correcta. En tal caso decimos que la hipótesis a sido rechazada al
nivel de significancia 0.05 lo cual quiere decir que la hipótesis tiene una
probabilidad del 5% de ser falsa.
Nivel de Significancia o Nivel
Alfa es el nivel de probabilidad de
equivocarse y se fija antes de probar hipótesis inferenciales.
El investigador obtienen una estadística en una muestra
(Ej, la media) y analiza que porcentaje tiene de confianza en que dicha
estadística se acerque al valor de la distribución muestral (que es el valor de
la población o el parámetro). Busca un alto porcentaje de confianza, una
probabilidad elevada para estar tranquilo, por que sabe que tal vez haya error
de muestreo y, aunque la evidencia parece mostrar una aparente “cercanía” entre
el valor calculado en la muestra y el parámetro, tal “cercanía” puede no ser
real o deberse a errores en la selección de la muestra.
¿Con qué porcentaje de confianza el investigador
generaliza, para suponer que tal cercanía es real y no por un error de
muestreo? Existen dos niveles convenidos en ciencias sociales:
El nivel de Significancia de 0,05 , el cual implica que el investigador tiene un 95% de
seguridad para generalizar sin equivocarse y solo el 5% en contra. En términos
de probabilidad, 0,95 y 0,05, respectivamente; ambos suman la unidad.
El nivel de significancia de 0,01 , el cual implica que el investigador tiene 99% en su favor y
1% en contra (0,99 y 0,01= 1) para generalizar sin temor.
No hay comentarios:
Publicar un comentario