viernes, 30 de abril de 2010

Medidas de tendencia central

Media Aritmética

La media aritmética de n observaciones de la variable X se denotará por el símbolo y se define como la suma de ellas dividida por n.

Ejemplo:

De un conjunto de 5 plantas se tomo el número de hojas que tiene cada una de ellas:


9, 7, 5, 8, 6

Ordenando los datos 5, 6, 7, 8,9 por lo que el resultado es el numero 7 ya que esta es el que divide al conjunto de números en partes iguales.

En el ejemplo es claro que la media aritmética corresponde geométricamente al punto de equilibrio de los datos.

Mediana

La mediana (Me) de un conjunto de n números ordenados de menor a mayor, es el número central en el arreglo. Si n es un número impar (non), sólo hay un valor central en el arreglo. Si n es un número par, hay dos valores centrales y la mediana debe tomarse como la media aritmética de estos dos valores.

Ejemplo: considere los siguientes datos sobre la concentración de globulina receptora, para una muestra de mujeres con pruebas de laboratorio de evidente anemia por deficiencia de hierro:

15.2

9.3

7.6

11.9

10.4

9.7

20.4

9.4

11.5

16.2

9.4

8.3

Los datos ordenados son:

7.6, 8.3, 9.3, 9.4, 9.4, 9.7, 10.4, 11.5, 11.9, 15.2, 16.2, 20.4

Por lo que el resultado ss

Por lo que el resultado es 10.05 ya que la mediana es un valor que divide a los datos en mitades.

Moda

La moda (Mo) de un conjunto de datos es el valor (si existe) que ocurre con mayor frecuencia. Si es un valor único decimos que la distribución de frecuencias es unimodal, si tiene dos o más valores con la misma frecuencia máxima, decimos que la distribución es bimodal, trimodal, entre otras.

La moda es una medida de tendencia central que es poco usada por las siguientes razones:

a) Puede ocurrir que no exista.

b) A menudo no es un valor único.

Ejemplo:

Los siguientes son conteos del número de cromosomas en una herbácea (Claytonia virginica, L):


29, 28, 28, 27, 28, 29, 29, 29, 30, 26, 24, 29

La moda es 29 ya que es mayor número de repeticiones que se localizan en el número de cromosomas.

MEDIDAS DE DISPERSIÓN.

Si un conjunto de datos consta de todas las observaciones concebibles (o hipotéticamente posibles) de cierto fenómeno, se denomina población; si un conjunto de datos consta solamente de una parte de estas observaciones se conoce como muestra por lo que una muestra debe ser un subconjunto de la población. Para poblaciones se utilizarán letras griegas y para muestras, latinas.

Por ejemplo para representar la media o el promedio de una muestra se utilizó la fórmula:


Amplitud o recorrido

La medida de dispersión más simple recibe el nombre de Amplitud o recorrido y es muy poco usada puesto que su única ventaja es la sencillez con que se calcula. Es común que se use también el nombre de Rango para esta medida. La amplitud (A) de un conjunto de datos es la diferencia entre las observaciones que tienen el mayor y el menor valor numérico en el mismo.

Por ejemplo: Supóngase que en un hospital el pulso de cada paciente se mide tres veces al día y que cierto día los registros de dos pacientes muestran:

Paciente 1: 73 77 74

Paciente 2: 64 90 73

¿Cuál es la Amplitud en pulsaciones para cada paciente?

Para calcular la amplitud de los datos necesario identificar el valor más grande y el valor más pequeño del conjunto de datos de cada uno de los pacientes.

Para el Paciente 1:

A = 77  73 = 4

Para el Paciente 2:

A = 90  64 = 26

La amplitud es una medida de dispersión cuya ventaja es la facilidad con que se calcula. Tiene en cambio las siguientes desventajas:

  • En su cálculo sólo intervienen dos elementos del conjunto.
  • Al aumentar el número de observaciones, puede esperarse que aumente la variabilidad. Puesto que la amplitud no tiene en cuenta el tamaño del conjunto, no es una medida adecuada para comparar la variabilidad de dos grupos de observaciones, a menos que éstos sean del mismo tamaño.

Desviación media, desviación estándar y varianza

la desviación estándar, que es por mucho la medida generalmente más útil de la dispersión, obsérvese que la dispersión de un conjunto de datos es pequeña si los valores se agrupan en forma cerrada en torno a su media y es grande si los valores se dispersan ampliamente en torno a su media. Por tanto, parecería razonable medir la dispersión de un conjunto de datos en términos de las cantidades en las cuales difieren los valores individuales de su media.

Se denominan las desviaciones de la media y esto sugiere que se podría usar el promedio de estas desviaciones como medida de dispersión en la población. A menos que las X sean todas iguales, algunas de las desviaciones serán positivas y otras negativas, la suma de todas las desviaciones de la media y en consecuencia también su promedio es siempre cero.

En realidad, si se suman las desviaciones de la media como si fueran todas positivas o cero y las dividiéramos entre N, se obtendría la media estadística que se denomina desviación media y se representa por:

Un método alternativo consiste en trabajar con los cuadrados de las desviaciones de la media, ya que también esto eliminará el efecto de los signos. Los cuadrados de números reales no pueden ser negativos y pueden tomar el valor de cero.

Por consiguiente, si se promedia las desviaciones cuadradas de la media y se toma la raíz cuadrada del resultado (para compensar el hecho de que las desviaciones fuesen cuadradas), se obtiene la Desviación estándar de la población.


Quizá parezca lógico utilizar la misma fórmula con n y sustituidas por N y , para la desviación estándar de una muestra; pero, esto no es realmente lo que se hace. En lugar de dividir la suma de las desviaciones entre n, se divide entre (n-1) y se define como desviación estándar de la muestra, que se denota con s como


Su cuadrado s2, se llama la Varianza de la muestra.

Al dividir entre n-1 en vez de hacerlo entre n, tiene una buena razón. Si se dividiera entre n y se utilizara s2 como estimación es decir, se utilizaría la varianza de una muestra para determinar la varianza de la población de la cual provino, el resultado sería demasiado pequeño y esto se corrige al dividir entre n-1 en lugar de hacerlo entre n. Si el valor de n es muy grande no importa hacerlo entre n-1 sino que es práctico para definir s como se hizo.

Coeficiente de variación

Las medidas de dispersión anteriores son todas medidas de variación absolutas. Una medida de dispersión relativa de los datos, que toma en cuenta su magnitud, está dada por el coeficiente de variación.

El Coeficiente de variación (CV) es una medida de la dispersión relativa de un conjunto de datos, que se obtiene dividiendo la desviación estándar del conjunto entre su media aritmética y se expresa como para una muestra y para la población.

Cálculo de la varianza en una tabla de frecuencias


Al retomar el ejemplo de la tabla de distribución de frecuencias de Precipitación pluvial promedio anual en Baja California 1905 a 1994 en pulgadas.

intervalos

Punto medio de clase (mi)

Conteo

fi

fAi

FRi

FRAi

(07.7 , 11.7]

9.7

||||| ||||| ||||| |||

18

18

18/90

18/90

(11.7 , 15.7]

13.7

||||| ||||| |||

13

31

13/90

31/90

(15.7 , 19.7]

17.7

||||| ||||| ||||| ||||| ||||

24

55

24/90

55/90

(19.7 , 23.7]

21.7

||||| ||||| ||||| ||

17

72

17/90

72/90

(23.7 , 27.7]

25.7

||||| ||||| |||

13

85

13/90

85/90

(27.7 , 31.7]

29.7

0

85

0/90

85/90

(31.7 , 35.7]

33.7

||||

4

89

4/90

89/90

(35.7 , 39.7]

37.7

|

1

90

1/90

90/90

TOTAL

90

90

90/90

90/90

Calcular s2 y s.


























25.7

660.49

13

334.1

8586.37

29.7

882.09

0

0

0

33.7

1135.69

4

134.8

4542.76

37.7

1421.29

1

37.7

1421.29

TOTAL

#####

90

1653.0

34208.10

· Histograma es una representación gráfica de una variable en forma de barras, donde la superficie de cada barra es proporcional a la frecuencia de los valores representados. En el eje vertical se representan las frecuencias, y en el eje horizontal los valores de las variables, normalmente señalando las marcas de clase, es decir, la mitad del intervalo en el que están agrupados los datos.

· Un polígono de frecuencias se forma uniendo los extremos de las barras de un diagrama de barras mediante segmentos.


También se puede realizar trazando los puntos que representan las frecuencias y uniéndolos mediante segmento.


· La ojiva es una gráfica asociada a la distribución de frecuencias, es decir, que en ella se permite ver cuántas observaciones se encuentran por encima o debajo de ciertos valores, en lugar de solo exhibir los números asignados a cada intervalo.


· Diagrama de barras, es rectangular también conocido como gráfico de columnas, es un diagrama con barras rectangulares de longitudes proporcional al de los valores que representan. Los gráficos de barras son usados para comparar dos o más valores. Las barras pueden estar orientadas horizontal o verticalmente.

Diagrama de tallo y hoja

Es una técnica estadística para representar un conjunto de datos. Cada valor numérico se divide en dos partes. El o los dígitos principales forman el tallo y los dígitos secundarios las hojas. Los tallos están colocados a lo largo del eje vertical, y las hojas de cada observación a lo largo del eje horizontal.

Ejemplo: Edad de 20 personas

Supongamos la siguiente distribución de frecuencias

36 25 37 24 39 20 36 45 31 31

39 24 29 23 41 40 33 24 34 40

que representan la edad de un colectivo de N = 20 personas y que vamos a representar mediante un diagrama de Tallos y Hojas.
Comenzamos seleccionando los tallos que en nuestro caso son las cifras de decenas, es decir 3, 2, 4, que reordenadas son 2, 3 y 4.
A continuación efectuamos un recuento y vamos «añadiendo» cada hoja a su tallo


Por último reordenamos las hojas y hemos terminado el diagrama


Comparar dos distribuciones

Podemos comparar, mediante estos diagramas, dos distribuciones. Supongamos una segunda distribución

35 38 32 28 30 29 27 19 48 40

39 24 24 34 26 41 29 48 28 22

De ella podemos elaborar sus diagrama de Tallos y Hojas y compararla con la anterior.

Los diagramas de Caja-Bigotes (boxplots o box and whiskers) son una presentación visual que describe varias características importantes, al mismo tiempo, tales como la dispersión y simetría.

Para su realización se representan los tres cuartiles y los valores mínimo y máximo de los datos, sobre un rectángulo, alineado horizontal o verticalmente.

emplo distribución de edades

Utilizamos la ya usada distribución de frecuencias (en tallos y hojas), que representan la edad de un colectivo de 20 personas.

                                              36  25  37  24  39  20  36  45  31  31

                                              39  24  29  23  41  40  33  24  34  40
Ordenar los datos

Para calcular los parámetros estadístico, lo primero es ordenar la distribución

               20  23  24  24  24  25  29  31  31  33  34  36  36  37  39  39  40  40  41  45
Calculo de Cuartiles
Q1, el cuartil Primero es el valor mayor que el 25% de los valores de la distribución. Como N = 20 resulta que N/4 = 5; el primer cuartil es la media aritmética de dicho valor y el siguiente:

Q1=(24 + 25) / 2 = 24,5

Q2, el Segundo Cuartil es, evidentemente, la mediana de la distribución, es el valor de la variable que ocupa el lugar central en un conjunto de datos ordenados. Como N/2 =10 ; la mediana es la media aritmética de dicho valor y el siguiente:

me= Q2 = (33 + 34)/ 2 =33,5

Q3 , el Tercer Cuartil, es el valor que sobrepasa al 75% de los valores de la distribución. En nuestro caso, como 3N / 4 = 15, resulta

Q2=(39 + 39) / 2 = 39

Covarianza

Sean (x1, y1); (x2,y2);...;(xn,yn), n pares de observaciones de dos características X y Y, y sean sus respectivas medias. La covarianza entre las dos características se define como:

Las propiedades de la covarianza son las siguientes:

  1. Si a todos los valores de la variable x, les sumamos una constante k y a todos los valores de la variable y, les sumamos una constante k’, la covarianza no varía.
  2. Si a todos los valores de una variable x los multiplicamos por una constante k y a todos los valores de la variable y, los multiplicamos por una constante k’, su covarianza queda multiplicada por el producto de las constantes.
  3. A partir de las anteriores: si tenemos dos variables x, y con la covarianza Sxy, y transformaciones lineales de las variables de la forma z=ax+b, y t=cy+d, la nueva covarianza se relaciona con la anterior de la forma: Szt = acSxy.
  4. Cov(x,y) = Cov(y,x).

No hay comentarios:

Publicar un comentario