Models are wrong, .... but some are useful (G. Box): Varianza del campione e della popolazione: perchè le formule sono diverse?

Varianza del campione e della popolazione: perchè le formule sono diverse?

Una delle domande più frequenti quando si inizia un corso di metodologia sperimentale è: “perchè la varianza del campione si calcola utilizzando come divisore n-1 invece di n”?

La risposta è non banale, soprattutto per gli studenti delle Facoltà biologiche, le cui basi di matematica sono spesso elementari. Occorre ricordare che la varianza di una popolazione è il valore atteso del quadrato degli scarti tra ogni dato e la media \( \mu \). Se abbiamo a che fare con una popolazione piccola, per esempio composta dai tre valori 99, 100 e 101, la media \( \mu \) è uguale a 100 e gli scostamenti sono rispettivamente pari a -1, 0 ed 1. La somma dei loro quadrati è pari a 2 e il valore atteso dello scarto quadratico (appunto lo scarto quadratico medio, cioè la varianza) è pari 2/3 = 0.667. In generale:

\[ {\sigma ^2} = \frac{{\sum\limits_{i = 1}^n {{{({X_i} - \mu )}^2}} }}{n} \]

Tuttavia, quando i tre valori anzidetti non costituiscono l'intera popolazione, ma rappresentano un campione estratto da essa e vogliamo stimare \( \sigma^2 \) (cioè la varianza della popolazione, non quella del campione), dobbiamo considerare che in mano non abbiamo \( \mu \), ma abbiamo la media del campione \( \bar{X} \). Quest'ultima non coincide con \( \mu \), anche se ne rappresenta una stima non distorta.

Se ammettiamo che la media del campione è diversa da \( \mu \) e \( \bar{X} - \mu = \varepsilon \), possiamo scrivere che:

\[ \sum\limits_{i = 1}^n {{{({X_i} - \mu )}^2}} = \sum\limits_{i = 1}^n {{{({X_i} - \bar X + \varepsilon )}^2} = \sum\limits_{i = 1}^n {{{({X_i} - \bar X)}^2} + n{\varepsilon ^2}} } \]

Da qui comprendiamo che la devianza del campione (somma dei quadrati degli scarti) è maggiore dalla devianza della popolazione se \( \varepsilon > 0 \). Possiamo quindi scrivere:

\[ \sum\limits_{i = 1}^n {{{({X_i} - \bar X)}^2} = } \sum\limits_{i = 1}^n {{{({X_i} - \mu )}^2}} - n{\left( {\bar X - \mu } \right)^2} \]

Ricordando la formula della varianza della popolazione, abbiamo:

\[ \sum\limits_{i = 1}^n {{{({X_i} - \bar X)}^2} = } n{\sigma ^2} - n{\left( {\bar X - \mu } \right)^2} \]

A questo punto possiamo vedere che il termine a destra costituisce lo scarto quadratico della media del campione rispetto alla media della popolazione, cioè il quadrato dell'errore standard della media. Quindi:

\[ \sum\limits_{i = 1}^n {{{({X_i} - \bar X)}^2} = } n{\sigma ^2} - n\left( {\frac{{{\sigma ^2}}}{n}} \right) \]

cioè:

\[ \sum\limits_{i = 1}^n {{{({X_i} - \bar X)}^2} = } (n - 1){\sigma ^2} \]

A questo punto il gioco è fatto. Infatti:

\[ \frac{{\sum\limits_{i = 1}^n {{{({X_i} - \bar X)}^2}} }}{{n - 1}} = {\sigma ^2} \]

Insomma, se abbiamo un insieme di dati e vogliamo sapere la sua varianza, dividiamo la somma dei quadrati degli scarti per n. Invece nel caso in cui l'insieme di dati rappresenta un campione estratto da una popolazione più ampia e vogliamo stimare la varianza della popolazione (non quella del campione) allora dobbiamo dividere per n-1. Non dimenticate che questo secondo caso è di gran lunga più frequente nella sperimentazione biologica!

Models are wrong, .... but some are useful (G. Box)

Saturday 28 February 2015

Varianza del campione e della popolazione: perchè le formule sono diverse?

No comments:

Post a Comment