Varianza
La varianza de unos datos es la media aritmética del cuadrado de las desviaciones respecto a la media de la misma. Se simboliza como $$\sigma ^2$$ y se calcula aplicando la fórmula $$$\sigma^2=\displaystyle \frac{\displaystyle\sum_{i=1}^N (x_i-\overline{x})^2}{N}=\frac{(x_1-\overline{x})^2+(x_2-\overline{x})^2+\ldots+(x_N-\overline{x})^2}{N}$$$ que se puede simplificar como: $$$\sigma^2=\displaystyle \frac{\displaystyle \sum_{i=1}^N x_i^2}{N}-\overline{x}^2=\frac{x_1^2+x_2^2+\ldots+x_N^2}{N}-\overline{x}^2$$$
Del mismo modo que para la media, no siempre será posible encontrar la varianza, y es un parámetro muy sensible a las puntuaciones extremas. Se puede observar que al estar la desviación elevada al cuadrado, la varianza no puede tener las mismas unidades que los datos.
Comparando con el mismo tipo de datos, un varianza elevada significa que los datos están más dispersos. Mientras que un valor de la varianza bajo indica que los valores están por lo general más próximos a la media.
Un valor de la varianza igual a cero implica que todos los valores son iguales, y por lo tanto también coinciden con la media aritmética.
En un partido de baloncesto, se tiene la siguiente anotación en los jugadores de un equipo: $$0, 2, 4, 5, 8, 10, 10, 15, 38$$. Calcular la varianza de las puntuaciones de los jugadores del equipo.
Aplicando la fórmula $$\overline{x}=\displaystyle \frac{0+2+4+5+8+10+10+15+38}{9}=\frac{92}{9}=10.22$$ se obtiene la media.
Seguidamente se aplica la fórmula de la varianza: $$$\sigma^2=\displaystyle \frac{(0-10.22)^2+(2-10.22)^2+(4-10.22)^2+(5-10.22)^2+(8-10.22)^2+(10-10.22)^2+(10-10.22)^2+(15-10.22)^2+(38-10.22)^2}{9}=\\=\displaystyle \frac{10.22^2+8.22^2+6.22^2+5.22^2+2.22^2+0.22^2+4.78^2+27.78^2}{9}=\\=\displaystyle\frac{104.4484+67.5684+38.6884+27.2484+4.9284+0.0484+22.8484+771.7284}{9}=\\=\displaystyle \frac{1037.5556}{9}=115.28$$$
Cálculo de la varianza para datos agrupados
En el caso de $$N$$ muestras agrupadas en $$n$$ clases se aplica la fórmula: $$$\sigma^2=\displaystyle \frac{\displaystyle \sum_{i=1}^n (x_i-\overline{x})^2 f_i}{N}=\frac{(x_1-\overline{x})^2f_1+(x_2-\overline{x})^2f_2+\ldots+(x_n-\overline{x}^2f_n}{N}$$$ que queda simplificada como: $$$\displaystyle \sigma^2=\frac{\displaystyle \sum_{i=1}^n x_i^2f_i}{N}-\overline{x}^2=\frac{x_1^2f_1+x_2^2f_2+\ldots+x_n^2f_n}{N}-\overline{x}^2$$$ La interpretación que se puede hacer del resultado es la misma que para datos no agrupados.
La altura en cm de los jugadores de un equipo de baloncesto está en la siguiente tabla. Calcular la varianza.
$$x_i$$ | $$f_i$$ | |
$$[160,170)$$ | $$165$$ | $$1$$ |
$$[170,180)$$ | $$175$$ | $$2$$ |
$$[180,190)$$ | $$185$$ | $$4$$ |
$$[190,200)$$ | $$195$$ | $$3$$ |
$$[200,210)$$ | $$205$$ | $$2$$ |
En primer lugar, rellenar la siguiente tabla:
$$x_i$$ | $$f_i$$ | $$x_if_i$$ | $$x_i^2f_i$$ | |
$$[160,170)$$ | $$165$$ | $$1$$ | $$165$$ | $$27225$$ |
$$[170,180)$$ | $$175$$ | $$2$$ | $$350$$ | $$61250$$ |
$$[180,190)$$ | $$185$$ | $$4$$ | $$740$$ | $$136900$$ |
$$[190,200)$$ | $$195$$ | $$3$$ | $$585$$ | $$114075$$ |
$$[200,210)$$ | $$205$$ | $$2$$ | $$410$$ | $$84050$$ |
$$12$$ | $$2250$$ | $$423500$$ |
Se debe calcular la media $$$\displaystyle \overline{x}=\frac{2250}{12}=187.5$$$ para poder aplicar la fórmula.
Se calcula entonces la varianza $$$\displaystyle \omega^2=\frac{423500}{12}-187.5^2=135.42$$$
Propiedades de la varianza
- $$\sigma^2 \geq$$ La varianza es un valor positivo, como ya se ha comentado anteriormente, la igualdad sólo se da en el caso de que todas las muestras sean iguales.
- Si a todos los datos se les suma una constante, la varianza sigue siendo la misma.
- Si todos los datos se multiplican por una constante, la varianza queda multiplicada por el cuadrado de la constante.
- Si se disponen de varias distribuciones con la misma media y se calculan las distintas varianzas, se puede hallar la varianza total aplicando la fórmula $$$\sigma^2=\displaystyle \frac{\sigma_1^2+\sigma_2^2+\ldots+\sigma_n^2}{n}$$$ En el caso de que las distribuciones tengan distinto tamaño, la fórmula se pondera y queda como$$$\sigma^2=\displaystyle \frac{\sigma_1^2k_1+\sigma_2^2k_2+\ldots+\sigma_n^2k_n}{k_1+k_2+\ldots+k_n}$$$
En un examen, todos los alumnos de la clase sacaron un diez. Hallar la varianza de las notas.
Al coincidir todos los valores la media coincide también con ellos $$\overline{x}=10$$, y la varianza es nula $$\sigma^2=0$$.
Desviación típica
La desviación típica es la raíz cuadrada de la varianza y se representa por la letra $$\sigma$$. Para calculara se calcula la varianza y se saca la raíz. Las interpretaciones que se deducen de la desviación típica son, por lo tanto, parecidas a las que se deducían de la varianza.
Comparando con el mismo tipo de datos, una desviación típica elevada significa que los datos están dispersos, mientras que un valor bajo indica que los valores son próximos los unos de los otros, y por lo tanto de la media.
Propiedades de la desviación típica
- $$\sigma \geq 0$$ La desviación típica es un valor positivo, la igualdad sólo se da en el caso de que todas las muestras sean iguales.
- Si a todos los datos se les suma una constante, la desviación típica sigue siendo la misma.
- Si todos los datos se multiplican por una constante, la desviación típica queda multiplicada por dicha constante.
- Si se dispone de varias distribuciones con la misma media y se calculan las distintas desviaciones típicas, se puede hallar la desviación típica total aplicando la fórmula $$$\sigma=\displaystyle \sqrt{\displaystyle \frac{\sigma_1^2+\sigma_2^2+\ldots+\sigma_n^2}{n}}$$$ En el caso de que las distribuciones tengan distinto tamaño, la fórmula se pondera y queda como$$$\sigma=\displaystyle \sqrt{\displaystyle \frac{\sigma_1^2k_1+\sigma_2^2k_2+\ldots+\sigma_n^2k_n}{k_1+k_2+\ldots+k_n}}$$$