§1

§1. La covarianza e la correlazione

Problema introduttivo. Un ginecologo ed una ostetrica hanno seguito lo sviluppo del femore e dell’omero di un feto tramite immagini ecografiche. Essi hanno trascritto i dati relativi alla lunghezza delle due ossa, rilevati ogni quattro settimane, a partire dalla dodicesima settimana di gestazione sino alla quarantesima. A quanto pare, i dati seguono un “andamento comune”. Come possiamo precisare meglio questo concetto?

Quando osserviamo due caratteri diversi, X ed Y, riferiti ad una medesima popolazione, dei quali conosciamo i valori numerici x₁, x₂, … , x_n ed y₁, y₂, … , y_n , abbiamo a disposizione vari indici statistici che possono descrivere come i due insiemi di dati varino tra loro. Il primo indice che si incontra sui libri di statistica è detto covarianza ed è definito nel seguente modo:

dove ed rappresentano le medie aritmetiche delle due liste di dati. Una covarianza positiva ci indica che è ragionevole attendersi un aumento della seconda grandezza all’aumentare della prima, anche se non necessariamente della medesima quantità, oppure una diminuzione della seconda al decrescere della prima. In altri termini, la covarianza positiva afferma che le due serie di dati manifestano un comportamento “concorde”. Viceversa, una covarianza negativa ci indica che i dati hanno comportamenti mediamente “discordi”. Se invece la covarianza è pressoché uguale a zero, dobbiamo sospettare che i dati non siano in relazione diretta tra loro.

Vediamo come si può procedere utilizzando il foglio elettronico Excel. Innanzitutto, dobbiamo inserire i dati: X ed Y sono rispettivamente le lunghezze in millimetri dell’ omero e del femore del feto.

E’ semplice calcolare le medie aritmetiche: si clicca sul menu Inserisci Funzione e si sceglie la funzione MEDIA nella categoria delle funzioni Statistiche, selezionando successivamente l’intervallo delle celle contenenti i dati.

Le due medie sono quindi state calcolate nelle celle C13 e D13. Questo è il loro cosiddetto riferimento relativo. Per ragioni di comodità, a queste due celle vogliamo attribuire i nomi “mx” ed “my”.

Lo facciamo cliccando sulla cella per attivarla (rendere cioè il suo bordo nero) e poi cliccando in quella casella di sinistra, indicata dalla freccia, al di sopra del foglio di lavoro (la cosiddetta casella dei nomi, appunto). Digitiamo dapprima mx , poi my .
Ora creiamo due nuove colonne, X – mx ed Y - my, che ci indicano gli scarti dei dati X ed Y dalle loro medie. Nelle due celle abbiamo digitato le formule =C4-mx e =D4-my .

Il prodotto, che inseriremo infine nella cella G4, sarà dato dalla formula =E4*F4 . Fatto questo si tratterà di selezionare le tre celle, copiarle ed incollarle (questo si può fare in modo semplice: si clicca sopra la maniglia di riempimento, ossia quel piccolo quadretto in basso a destra che caratterizza la cella attiva, e si trascina verso il basso tenendo cliccato) come si vede nell’immagine successiva di sinistra. Per calcolare la covarianza sopra definita, è sufficiente fare la somma di tutti quei prodotti, e dividerli per 8. Ossia, applicare la formula =SOMMA(G4:G11)/8, come si vede nell’immagine di destra.

Abbiamo scoperto dunque che la covarianza è un numero positivo, circa 415, e quindi possiamo concludere che le due serie di dati si comportano in modo concorde (ed infatti, osservate che nelle colonne E ed F compaiono, in modo concorde, numeri negativi e numeri positivi).

Certo che questa non è una grande scoperta, a dire la verità: non occorre mica un computer per capire che in un feto il femore e l’omero crescono entrambi in lunghezza, in maniera concorde... E, peggio ancora, c’è da tenere presente che di per sé la covarianza non è un indice statistico affascinante, in quanto innanzitutto risente della scala di misura utilizzata; ed inoltre possiede un’unità di misura diversa da quella dei dati originari, avendo noi moltiplicato tra loro gli scarti.

Ci spieghiamo meglio: se infatti al posto di misurare le ossa in millimetri avessimo utilizzato il decimetro, avremmo ottenuto una covarianza “piccolissima”, prossima allo zero (e misurata in decimetri quadri!), e quindi avremmo assurdamente potuto pensare che non intercorre alcuna relazione nello sviluppo intrauterino delle ossa lunghe.

Per questo è conveniente creare un altro indice statistico che possiede il pregio di essere un numero puro, adimensionale: il coefficiente di correlazione (di Bravais – Pearson):

dove s rappresenta la deviazione standard (se non si ha familiarità con questa terminologia, l’Appendice 1 fornisce un riassunto dei più comuni indici di centralità e di dispersione usati in statistica) calcolata su tutta la popolazione di 8 dati, sia per X che per Y. Come vedremo fra poco, in questo esempio il valore di r è pari a 99,9%, indipendentemente dalle unità di misura adottate, il che ci dice che vi è una fortissima interrelazione nello sviluppo delle due ossa. Il vantaggio di avere un coefficiente adimensionale, che è sempre compreso tra -1 ed 1, ci fa capire immediatamente se abbiamo a che fare con grandezze fortemente correlate tra loro, in senso positivo (r circa uguale ad 1) o negativo (r circa uguale a -1), oppure con grandezze scorrelate (r circa uguale a zero).

r = 0,88

r = 0,11

r = -0,80

In questi tre grafici abbiamo rappresentato, rispettivamente: l’altezza di ventotto bambini ed il loro Forced Expiratory Volume (FEV); il numero di sigarette che ventotto individui fumano in un giorno rispetto al loro FEV; e la frequenza del battito cardiaco in relazione all’età dei ventotto bambini. Come vedete, nel grafico centrale le grandezze appaiono scorrelate. Questo magari non significa che non ci sia una relazione di causa-effetto tra le due grandezze, bensì che è il caso di fare ulteriori indagini andando ad esaminare altri fattori che potrebbero raffinare la nostra ricerca.

MS Excel peraltro possiede una ricchissima libreria di funzioni statistiche, e la correlazione ne fa parte: clicchiamo su Inserisci Funzione e scegliamo la funzione CORRELAZIONE nella categoria delle funzioni Statistiche. Appare in seguito una finestra di dialogo che richiede di indicare quali sono le due liste di dati da analizzare (Matrice1 e Matrice2):

e quindi, inserendo nelle due caselle le celle delle liste X ed Y, Excel calcola il coefficiente di correlazione. Esplorando il menu delle funzioni si può reperire anche la funzione COVARIANZA, la quale calcola immediatamente cov(X,Y).

Esercizio 1.

Sulla scorta di quanto appena visto, modificate il Foglio Excel in modo che nelle colonne H ed I compaiano i dati espressi in decimetri (suggerimento: non ridigitate tutti i valori, utilizzate una formula), e determinate di conseguenza covarianza e correlazione dei nuovi dati.