TEMA 6 CÁLCULO E INTERPRETACIÓN DE ESTADÍSTICOS

1-MEDIDAS DE POSICIÓN O DE TENDENCIA CENTRAL

    Una distribución de frecuencias presenta siempre varios valores. Si tratamos de saber cuáles de estos valores por sí solos definen mejor al conjunto, ya sea porque son los más frecuentes (moda) o porque alrededor de ellos se agrupa la mayor parte de la población o muestra (media o mediana), diremos que son valores o medidas de tendencia central.

    De tendencia porque no necesariamente son valores que la distribución presenta, sino valores hacia los cuales tiende.

    Centrales porque, normalmente, en el gráfico de frecuencias serán siempre valores medios centrales.

    Las medidas de tendencia central responden a la necesidad de describir una colectividad en función de una sola medida que la caracterice y distinga.

Entre las medidas de tendencia central estudiaremos:

 

1-1.MEDIA ARITMÉTICA Y PONDERADA

    Definida como el cociente entre la suma de todos los valores de la variable y el número de observaciones.

 

Cálculo

-series cuyos valores tienen frecuencia uno.

Ma. = å xi /n = (x1+x2+x3+....+xn)/n

 

    O lo que es lo mismo suma de todos los valores dividida por el número de ellos. Así tres personas cuyas edades sean 10, 20 y 60 años, su edad media será (10+20+60)/3 = 30 años.

-series en distribuciones pero no agrupadas en intervalos

Ma. = å xi ni / n

Así por ejemplo

xi ni xi ni
5 2 10
4 4 16
3 2 6
2 2 4
  n=10 å xi ni =36

 

Ma. = 36/10 = 3,6

-series en distribuciones agrupadas en intervalos

    En este caso al existir intervalos desconocemos los valores individuales de la variable y, por tanto, no podemos hacer uso de la fórmula anterior.

    Para este caso se supone que los elementos dentro de los intervalos se distribuyen de forma proporcional y se escoge como representante del intervalo a aquel valor que deja a un lado y a otro el mismo número de elementos, esto es el punto medio del intervalo o marca de clase. Con lo que en la fórmula anterior se sustituye cada una de los valores por la marca de clase de cada intervalo (xm).

Ma. = å xm ni / n

Intervalo Xi ni Xm xm ni
30--40 3 35 105
40--50 2 45 90
50--60 5 55 275
  n=10   å xm ni = 480

 

Con lo que la Ma. = 480/10 =48

    Ciertamente al tomar como representante de cada intervalo la marca de clase no tenemos más remedio que asumir un error, ya que de otro modo no podríamos calcular la media aritmética.

    Lo que acabamos de explicar es la media aritmética simple, en la que todos y cada uno de los elementos de la serie tienen la misma importancia y, por tanto, se valoran igual.

    La media aritmética ponderada aparece cuando a cada valor de la variable se le otorga una ponderación o peso, en función de su distinta importancia relativa.

    Así si suponemos que un alumno tiene tres notas distintas:

6 correspondiente a un trabajo, 7 a un examen y 2 correspondiente a una pregunta oral, y además convenimos que el examen vale el triple que la pregunta y el trabajo el doble, a la hora de calcular la media deberíamos tener en cuenta las ponderaciones, que en este caso supondría como si hubiera obtenido tres sietes, dos cincos y un dos, y a la hora de calcular la media aritmética ponderada deberíamos hacer:

(7*3 + 6*2 + 2*1)/(3+2+1) = 5,83333333

    Lo que trasladado a una fórmula sería

Map. = å xi wi /å wi    siendo wi los pesos correspondientes a cada valor de la variable.

    Del mismo modo para el caso de series en cuadro de frecuencias, sin y con intervalos las fórmulas serían

Map. = å xi wi ni / å wi ni

Map. = å xm wi ni / å wi ni

 

    Pueden señalarse como ventajas de la media aritmética:

-es fácil de entender y usar

-hace uso de todos los datos de la distribución , por lo cual es una medida de tendencia central eficiente

-es el más conocido y popular de los promedios, el primero en el que piensan las personas, aunque no sepan estadística

-el hecho de que su definición no sea lógica sino matemática hace que sea la medida de tendencia central usada con preferencia en Inferencia Estadística y en la mayoría de tests estadísticos

Y como desventajas:

-puede ser influenciada por valores extremos, que la hagan perder su valor como medida de tendencia central

-en ciertos casos puede no representar un valor observable, lo cual en el caso de variables discretas resulta artificioso.

-no puede calcularse para series cualitativas

 

1-2.MEDIANA

    Su definición no es matemática sino lógica, entendemos por mediana aquel valor de la variable, supuestos estos ordenados de menor a mayor, que deja a su izquierda y derecha el mismo número de elementos, es decir, el valor que ocupa el lugar central.

    Lo anterior tiene sentido en caso de que la serie tenga un número impar de elementos, si por el contrario tuviera un número par habría dos valores centrales, y en este caso se toma como mediana la media aritmética de los dos valores centrales.

 

Cálculo

-series cuyos valores tienen frecuencia uno.

    Cuando el número de observaciones es impar, se ordenan de menor a mayor y la mediana será el valor que deje igual número de observación a un lado y a otro.

Xi = 1,4,8,11,16

    La mediana es el 8 porque deja dos observaciones a su izquierda y dos a su derecha

    Cuando el número de observaciones es par se supone, por convenio, que la mediana es la media aritmética de los dos valores centrales.

Xi= 1,3,7,13,29,31

7 y 13 son los dos valores centrales y consideramos como mediana el valor 7+13 / 2 = 10

-series en distribuciones pero no agrupadas en intervalos

    Para determinar la mediana deben seguirse una serie de pasos:

-calcular la columna de frecuencias absolutas acumuladas

-hallar el ordinal del valor central -impar (n+1 /2)- o los ordinales de los dos valores centrales -pares (n/2 y n/2 + 1)-

-mirar cual es la primera frecuencia absoluta acumulada que iguale o supere al ordinal u ordinales obtenidos en el paso anterior.

-la mediana será el valor de la variable que corresponde a la frecuencia absoluta acumulada obtenida en el punto previo.

    Si la serie fuera par y cada ordinal determinara una frecuencia absoluta acumulada distinta, consideraríamos como mediana la media aritmética de los valores de la variable obtenidos.

Xi ni Ni
2 3 3
3 5 8
4 11 19
5 1 20
  n=20  

 

    En este caso al ser la serie par habría dos valores centrales cuyos ordinales serían 10 y 11, es decir los valores situados en los lugares décimo y décimo primero serían las centrales.

    ¿Pero qué valores son? Buscando en la columna Ni llegamos a la conclusión de que los dos valores son cuatros, luego la mediana es 4.

Xi ni Ni
2 4 4
3 6 10
4 8 18
5 2 20
  n=20  

 

    Ahora los dos valores centrales de ordinal 10 y 11 no son el mismo valor de la variable, vemos que el que está situado en décimo lugar es un 3, mientras que el que está en undécimo es un 4, luego la mediana será la media aritmética entre 3 y 4, es decir, 3,5.

-series en distribuciones agrupadas en intervalos

    En este caso al intentar operar de la misma manera llegamos a poder determinar el intervalo mediano, intervalo en el que se encuentra el valor central, pero si no hacemos ninguna suposición no podremos dar un valor como mediana.

    Para solventar el problema suponemos, como para el caso de la media aritmética que los valores se sitúan a lo largo de cada intervalo de forma proporcional.

    Hecha esta suposición, que no tiene porque ser cierta, asumimos un error y, puestos a ello, simplificaremos y tanto para el caso de número par o impar de elementos consideraremos como único valor central el situado en el ordinal n/2.

Xi (en miles)

ni

Ni

20--25

100

100

25--30

150

250

30--35

200

450

35--40

180

630

40--45

41

671

 

n=671

 

 

    Aunque en realidad el valor central sea el 671+1 /2, simplificaremos y tanto sea par como impar situaremos el valor central en la posición n/2, en este caso 671/2 =335,5

    ¿Qué valor está situado en esa posición? Observando la columna Ni vemos que los 250 primeros valores son inferiores a 30, mientras que los que van desde el 251 al 450 están en el intervalo comprendido por los extremos 35 y 40.

    ¿No podemos precisar más? Sí, si suponemos que los elementos dentro del intervalo se distribuyen proporcionalmente, en este caso podemos plantear una simple regla de tres que nos permita determinar el valor mediana.

                 250            335,5                450

            30          mediana              35

                   x

 

y por tanto 200 ---------- 5

(335,5-250) ---- x

 

Siendo la mediana 30+X = 32,1375

Suele emplearse una fórmula, que no es más que la plasmación de la explicado antes:

Md. = lim. Inf. + (n/2 - Ni-1 ) * i/ni

Siendo

lim. Inf. El límite inferior del intervalo en que sabemos está la mediana

n/2 la mitad del número de elementos de la serie

Ni-1 la frecuencia absoluta acumulada del intervalo anterior a aquel en que sabemos está la mediana

I amplitud del intervalo en el que está la mediana

ni frecuencia absoluta simple del intervalo en el que está la mediana

   Como ventaja fundamental de la mediana cabe destacar el hecho de los valores extremos no la afectan en la medida que a la media aritmética y que puede ser calculada para series cuantitativas y cualitativas medidas en escala ordinal.

    Entre sus desventajas su poco predicamento, la necesidad de su ordenación previa y el hecho de que debido a ser una medida lógica no admite tratamientos algebraicos.

 

1-3 MODA

    Entendemos por moda el valor de la variable que más veces se repite, y en una distribución de frecuencias el valor con mayor frecuencia absoluta simple

Cálculo

-series en distribuciones pero no agrupadas en intervalos

    En este caso la determinación de la moda es inmediata por simple observación. Aquel valor de la variable con mayor frecuencia absoluta simple es la moda.

    Puede darse el caso de que no haya moda (amodal), sólo una (unimodal), dos modas (bimodal) o varias (multimodal).

-series en distribuciones agrupadas en intervalos

    Una vez determinado el intervalo modal por simple observación, el problema reside en determinar que valor de los de un intervalo es la moda.

    Para ello supondremos, a diferencia de casos anteriores, que los valores en los intervalos se distribuyen de forma que se agrupan hacia el extremo del intervalo contiguo con mayor frecuencia y supuesto esto, consideraremos moda el valor que deja en el intervalo el mismo número de elementos a un lado y a otro.

    Lo anterior supone realizar una distribución proporcional inversa del espacio del intervalo en función de las frecuencias absolutas simples de los intervalos contiguos.

Con un ejemplo

Xi ni i
0--25 20 25
25--50 40 25
50--75 100 25
75--100 60 25
  n=220  

 

    El intervalo modal es el de mayor frecuencia absoluta simple, el 50--75.

    ¿Qué valor dentro del intervalo es la moda?

    Suponemos que los cien elementos están dispuestos, no proporcionalmente, sino agrupados más hacia el extremo superior (frecuencia del posterior 60) que hacia el inferior (frecuencia del anterior 40)

    Para buscar el valor que deja igual elementos a un lado que al otro, proponemos un reparto proporcional inverso, así

 

40          50          Mo   75           60

           ___________________

 

    40* (x-50) = 60* (75-X)                y simplificando y despejando

    40X -2000 = 4500 - 60X

    100 X = 6500

X= Moda= 65, que como vemos está más cerca del 75 que del 50.

    Suele proponerse como fórmula de cálculo la expresión

Mo= Lim. Inf. + (ni+1 / ni+1+ ni-1) * i

En la que

Lim. Inf. Es el límite inferior del intervalo en que está la moda

ni+1 Es la frecuencia absoluta simple del intervalo posterior

ni-1 Es la frecuencia absoluta simple del intervalo anterior

I Es la amplitud del intervalo en que está la moda

  Cuando los intervalos son de distinta amplitud (recordad la representación gráfica de series con distinta amplitud de intervalos) a la hora de determinar cuál es el intervalo más frecuente no lo podemos hacer observando las frecuencias absolutas simples, ya que obtendríamos resultados falseados, sino que como en aquel caso, hemos de emplear las densidades de frecuencias (frecuencias partido por amplitud del intervalo).

    Sustituyendo frecuencias absolutas simples por densidades de frecuencias y realizando el proceso tal como se ha explicado arriba obtendríamos la moda para el caso de que la serie estuviera agrupada en intervalos de distinta amplitud.

    La moda presenta la ventaja de su lógica y la de poder ser aplicada a todo tipo de series, así mismo no se ve tan afectada como la media aritmética a los valores extremos y las desventajas propias del hecho de no ser susceptible de manipulación algebraica.

 

1-4 PERCENTILES

    Sucede también con frecuencia que al investigador o al analista le interesa reducir la distribución de frecuencias de una variable a ciertas estructuras porcentuales que le sirvan como patrón para efectuar comparaciones entre segmentos equivalentes de otras distribuciones similares.

    Lo que propone el análisis percentílico es simplemente determinar los valores de la variable debajo de los cuales caen determinados porcentajes de frecuencia.

    Hemos definido la mediana como aquel valor de la variable que deja por debajo de sí el 50% de las observaciones, definiremos el percentil de orden K como el valor de la variable que deja por debajo de sí el k% de las observaciones.

    Todo percentil sigue siendo índice de posición pero no tiene porque ser índice de tendencia central (sólo el percentil 50 -mediana- lo es).

    Entre los percentiles más frecuentes encontramos los cuartiles que dividen la serie en cuatro partes iguales, en cuatro intervalos incluyendo cada uno el 25% de las observaciones (Q1, Q2 y Q3) que dejan por debajo de sí el 25%, 50% y 75%, respectivamente de los valores de la serie. Los deciles dividen la serie en 10 partes iguales cada una con el 10% de sus elementos.

    El percentil 50 coincide con el decil 5,con el cuartil segundo y es lo que hasta ahora hemos llamado mediana.

    Si para calcular la mediana buscábamos el ordinal correspondiente a n/2, o lo que es lo mismo 50*n/100, para calcular cualquier percentil haremos lo mismo pero partiendo de que el ordinal que queremos buscar será el correspondiente a k*n/100.

    Hecho lo anterior el cálculo de cualquier percentil sigue los mismos pasos que los seguidos en el cálculo del percentil 50 (mediana).

 

JUSTIFICACIÓN DE LAS MEDIDAS DE DISPERSIÓN

    El estudio de una serie estadística no puede quedarse sólo en el cálculo de las medidas de posición (media, mediana, moda), ya que, como hemos visto, series absolutamente distintas pueden tener medias iguales.

    Es necesario profundizar en su estudio.

    Se requiere ver si los valores de la variable están muy o poco separados de la media aritmética.

    A la mayor o menor separación de los valores respecto a la media se le llama dispersión o variabilidad.

    Hay veces que la media, por sí sola, no es muy significativa.

 

    Así sean dos series, con sus valores respectivos:

    -a 7,9,11

    -b 1,10,16

    En ambos casos la media es 9, pero en la primera la media es más representativa ya que existe menos dispersión que en la segunda.

    Tanto más representativa es la media aritmética cuanto más agrupados estén los valores de la serie respecto a ella y al revés.

 

    2-MEDIDAS DE VARIABILIDAD O DISPERSIÓN ABSOLUTAS :

            2-1-1 AMPLITUD TOTAL, RANGO O RECORRIDO

    Se define como la diferencia entre los valores extremos observados de una variable.

X1----------Ma----------Xn

AT = Xn – X1

    Depende totalmente de los valores extremos . No es usado excepto que se quiera tener ex profeso información de los valores extremos, usar un índice rápido, se tengan pocos datos para usar otro método o la variable se distribuya uniformemente.

2-1-2 AMPLITUD SEMI-INTERCUARTÍLICA

    Se prescinde del 50% de las observaciones (las más dispersas) y suele utilizarse cuando la mediana es el índice más representativo.

    Definida como Q = (Q3-Q1) / 2 o también Q =(P75-P25) / 2

 

    Para determinar la representatividad de las medidas de posición hemos de buscar otros métodos, ya que las medidas contempladas no hacen referencia específica a ningún promedio.

    Necesitamos medidas de dispersión que involucren a los promedios

    Partiendo de que la Ma. es en muchos casos el mejor promedio y su definición es matemática y no teórica

    Una solución sería calcular el promedio de la distancia entre cada valor de la variable y la media aritmética.

Así

 Desviación media

S (xi-Ma)

 De donde (S Xi/N) _ (NMa/N)
 

 

 

N

 Como (S Xi/N) = Ma

 

 

Entonces siempre se da que

Ma – Ma = 0

 

     Aunque la idea es buena el resultado es insatisfactorio ya que siempre la media aritmética de las desviaciones de los valores de una variable con respecto a su media aritmética es siempre cero.

 

Así, por ejemplo

Xi

ni

(Xi-Ma)ni

5

1

2

2

2

-2

3

1

0

 

 Ma = (5+4+3)/4 = 3

Entonces

S(Xi-Ma)ni/N = 0

 

Para evitar el problema existen dos soluciones.

La primera consiste en tomar las desviaciones en valores absolutos, con lo que desaparecen los signos y el sumatorio no tiene porque dar siempre cero.

Esa es la base de la

2-1-3 DESVIACIÓN ABSOLUTA MEDIA

  • Definida como la media aritmética de los valores absolutos de las desviaciones entre los valores de la variable y la media aritmética .

  •     Cuanto más alta es la desviación absoluta media mayor es la dispersión y menos representativa la media aritmética.

     

    Para la serie compuesta por los siguientes valores: 2,3,6,8,11

    Siendo su Ma=6 la desviación absoluta media es

    ([2-6]+[3-6]+[8-6]+[11-6])/5 = 2,8

     

    Para la serie:

    Xi

    ni

    Xini

    [Xi-Ma]

    [Xi-Ma]ni

    1

    2

    2

    1,4

    2,8

    2

    3

    6

    0,4

    1,2

    3

    4

    12

    0,6

    2,4

    4

    1

    4

    1,6

    1,6

    Suma

    10

    24

    8

     

     

    Por lo que S(Xi-Ma)ni/N = 0,8

     

        Pero los valores 0,8 2,8 nos dan poca información y no nos contestan directamente a la pregunta de sí la serie es muy o poco dispersa o cuál de las dos series lo es más

    Para eso es necesario definir nuevas medidas de dispersión como

     

                2-1-4 VARIANZA

        Para ello partimos del concepto de desviación pero en vez de tomar los valores absolutos elevamos al cuadrado las desviaciones con lo cual también desaparecen los signos.

        Se entiende por varianza la media aritmética de los cuadrados de las desviaciones de los valores de la variable respecto a la media aritmética.

    S2 = s2 = S (Xi-Ma)2 ni / N

    Que expresado de otro modo, en lo que se llama forma abreviada:

    SXi2ni /N - Ma2

        La varianza nos mide la mayor o menor representatividad de la Ma :

    -si la varianza es grande nos indica gran dispersión, la media aritmética no es representativa.

    -si casi todos los valores están muy cercanos a la Ma entonces la varianza se acercará a cero, con lo que se dice que la serie es concentrada.

    La varianza nunca puede ser negativa.

    De su forma de cálculo se desprenden dos problemas:

    -se expresa en unidades cuadradas (zapatos cuadrados, litros cuadrados ..)

    -si la Ma no es una buena medida de posición , la varianza que se basa en ella tampoco será una buena medida de dispersión.

    Para eliminar el problema de la elevación al cuadrado se realiza una transformación consistente en calcular la raíz cuadrada de la varianza con lo que obtendríamos la

     

                2-1-5 DESVIACIÓN TÍPICA

     

    S = s = S2 = [S (Xi-Ma)2 ni / N]1/2 y expresado de forma abreviada

     

    [ SXi2ni /N - Ma2 ]1/2

     

     Con lo que la desviación típica vendrá dada en las mismas unidades que los valores de la variable.

        La desviación típica siempre es positiva porque la varianza también lo es.

    La desviación típica es la medida de dispersión óptima, más exacta, más estable y más utilizada, sirviendo de base para las medidas de asimetría, estadísticos típicas y correlación.

        Cuanto más se acerca a cero la desviación más concentrada es la serie.

        Suele decirse que cuando la desviación típica es menor que la media aritmética la serie es concentrada y sí la desviación típica es mayor que la media aritm´´etica la serie es dispersa.

     

    Ahora bien esta medida de dispersión sigue sin poder contestar a la segunda de las preguntas que nos hacíamos (cuándo una serie es más o menos concentrada o dispersa que otra).

    Para ello hemos de introducir las medidas de dispersión

    2-2 RELATIVAS

    La necesidad de su existencia, su justificación la explicaremos con un ejemplo:

        Si tenemos dos variables diferentes, por ejemplo peso (X) y altura (Y), está claro que la sx vendrá dada en unidades de peso (p.e. gramos o quilos) y la sy en unidades de altura (p.e. centímetros o metros).

        No podemos comparar los valores de sx y los de sy dado que no están expresadas en las mismas unidades de medida.

        Para hacerlas comparables es necesario que vengan expresadas en unidades abstractas. Una forma de conseguirlo es tomar como medidas de dispersión:

    sx / Max y sy / May

        Estos cocientes son números abstractos, lo único que nos indican es el número de veces que el numerador contiene al denominador, (independiente de lo que ambos signifiquen (gramos, centímetros, etc. )

        Si consideramos una misma variable y dos grupos distintos, cuyas medias son distintas entre sí, por ejemplo, el peso de 100 hormigas y el de 100 elefantes, es evidente que una desviación típica igual a 100 gramos representa una variabilidad insignificante para el grupo de los elefantes e inconcebiblemente alta para el de las hormigas.

    La desviación típica es equívoca

    Es preciso utilizar medidas de dispersión relativas , medidas de dispersión adimensionales, no afectadas por unidades de medida , que se presentan siempre como cocientes

    Así aparecen

            2-2-1 COEFICIENTES DE VARIACIÓN DE PEARSON

        El coeficiente de variación de Pearson no es más que el cociente entre la desviación típica y la media aritmética.

        Es una medida abstracta en cuyo cálculo intervienen todos los valores de la serie. Al independizarse del valor de Ma podemos aplicarlo a series con distinta Ma o series que utilicen unidades diferentes.

        El coeficiente de variación representa el número de veces que la desviación típica contiene a la media aritmética , de forma que cuanto menor sea el coeficiente de variación la media aritmética será más representativa. La máxima representatividad de la media aritmética se da cuando el coeficiente es cero , o lo que es lo mismo la desviación típica es cero , con lo que no hay dispersión.

        El coeficiente de variación no puede utilizarse en caso de que la Ma sea 0 , ya que el coeficiente de variación daría infinito o un valor indeterminado.

     

    Así sea una serie

    A cuya Ma = 10 Kg. S = 4 Kg.

    B cuya Ma = 10 Kg. S = 6 Kg.

    Al ser las medias iguales basta con comparar las desviaciones típicas 4<6 . Osea A es más concentrada que B.

    Pero si

    A Ma = 5 Kg. S = 4 Kg.

    B Ma = 10 kg. S = 6 Kg.

    Aunque la desviación de A sea menor que la de B calculando los coeficientes de variación vemos que el de A es 4/5 = 0,8 y el B es 6/10 = 0,6 con lo que A es menos concentrada que B.

    Resumiendo decimos que

    -cuando Cv = 0 no hay dispersión

    -cuando Cv < 1 la serie es concentrada y más concentrada cuanto más se acerque a = 0

    -cuando Cv > 1 la serie es dispersa y más dispersa cuanto más se aleje de 1

     

    Otras medidas de dispersión relativas mucho menos utilizadas son:

    2-2-2 COEFICIENTE DE APERTURA

    Se define como cociente entre los valores extremos de la variable

    CA Xn/X1

        Su ventaja es la facilidad de cálculo, sus inconvenientes, entre otros, recaen en el hecho de no tener en cuenta ningún promedio y sólo tener en cuenta en su cálculo dos valores (los extremos) con lo que si estos están muy separados a pesar de que el resto de los valores está muy concentrados los valores obtenidos no responderán a la realidad.

     

    2-2-3 RECORRIDO RELATIVO

        Se define como el cociente entre el recorrido total y la media aritmética, indicándonos el número de veces que el recorrido contiene a la media aritmética.

    Las ventajas e inconvenientes de este método son las mismas que las del anterior.

    2-2-4 RECORRIDO SEMI-INTERCUARTÍLICO


    Es el cociente entre la diferencia y la suma de los cuartiles impares

    (P75-P25)/(P75+P25)

    Es un método abstruso, de difícil cálculo y por ende nada utilizado.