viernes, 14 de marzo de 2008

Teorema de Chebyshev

Teorema de Chebyshev: Para un conjunto cualquiera de observaciones (muestra o población), la proporción mínima de los valores que se encuentran dentro de k desviaciones estándares desde la media es al menos 1 - 1/k2, donde k es una constante mayor que 1.
o Regla empírica: Para una distribución de frecuencias simétrica de campana, aproximadamente 68% de las observaciones estará a más y menos una desviación estándar desde la media, aproximadamente 95% de tales observaciones se encontrará a más y menos dos desviaciones estándares de la misma; y prácticamente todas las observaciones (99,7%)se hallarán a más y menos tres desviaciones con respecto a la media.

Curva simétrica de campana que muestra las relaciones entre la desviación estándar y la media
-3s -2s -1s X 1s 2s 3s
70 80 90 100 110 120 130
68%
95%
99,7%

Si una distribución es simétrica con forma de campana, prácticamente todas las observaciones se encuentran entre la media más o menos tres desviaciones estándares.

· Dispersión Relativa:
Karl Pearson (1857-1936) desarrolló una medida relativa denominada coeficiente de variación(CV). Es una medida útil cuando:
· Los datos están en unidades diferentes(como U$S y días de asistencia).
· Los datos están en la mismas unidades, pero las medias muy distantes (ingresos de superiores e ingresos de empleados).
o Coeficiente de variación: es la razón (cociente) de la desviación estándar a la media aritmética, expresada como un porcentaje:
s
CV = (100)
X

Karl Pearson desarrolló tb una medida para evaluar el grado de orientación al sesgo, denominada coeficiente de asimetría (CA):
3 ( media - mediana)
CA =

Desviación Estándar
· Otras medidas de dispersión:
Un método es determinar la ubicación de los valores que dividen un conjunto de observaciones en partes iguales. Estas medidas son:
o Los cuartiles, que dividen un conjunto de observaciones en 4 partes iguales(conjuntos ordenados de menor a mayor). El primer cuartil (Q1) es el valor abajo del cual se encuentra el 25% de las observaciones, y, el tercer cuartil (Q3) es el valor por abajo del cual se encuentra el 75% de las observaciones. Q2 es la mediana.

o Los deciles dividen un conjunto de observaciones en 10 partes iguales.
o Los centiles se utilizan para reportar resultados acerca de ciertas pruebas nacionales estandarizadas, empleado para calificar la admisión a programas.

· Cuartiles, Deciles y Centiles ( o Porcentiles):
Para formalizar el procedimiento, sea Lp la ubicacióndel centil deseado.
Ej: porcentil 33 L33 . El número de observaciones es n. Entonces se aplica: (n +1) /2
Ubicación de un centil Lp = (n +1) P/100
o Diagramas de caja: representación gráfica basada en cuartiles, que ayuda a ilustrar un conjunto de dato. Se necesitan 5 valores estadísticos: el valor mínimo; Q1 ; la mediana; Q3 ; y el valor máximo.

Mediana
Q1 Q3

Valor mínimo Valor Máximo
La distancia entre los extremos de la caja se denomina amplitud cuartílica ( o intercuartílica). Dicho intervalo es la distancia entre el primero y el tercer cuartiles.
Se indican dos asteriscos (**) . Uno indica n dato “impropio”. Un dato incongruente es un valor inconsciente con el resto de los datos. Es como aquel valor que más de 1,5 veces el valor de la amplitud intercuartílica, mayor que Q3 o bien, menor que Q1.

Dato incongruente = Q1 - 1,5 (Q3 - Q1)