Introduzione al calcolo del coefficiente di correlazione e dell'equazione della retta di regressione tra due variabili

 

1. Il seguente rapporto è assunto come misura della correlazione tra le variabili m ed e:

                

e, come si può dimostrare, varia tra -1 e 1 (intorno al valore 0 non c'è correlazione, 1 indica la massima correlazione positiva, ovvero la dipendenza lineare, -1, analogamente, quella negativa).

E' opportuno minimizzare la somma dei quadrati delle distanze, anziché la somma delle sole distanze, perché così facendo si ottiene un'unica retta e, per di  più, con una semplice formula: infatti, la pendenza della retta di regressione lineare y = a·x + b risulta data da:

                 

Poiché, inoltre, la retta di regressione deve passare per il punto di coordinate E(m), E(e), risulta subito anche il valore del parametro b:

                    b = E(e) - a·E(m) ≈ 77,2727 - 9·6,7273 ≈16

da cui l'equazione della retta in questione   y = 9 x + 16.

E' conveniente utilizzare un modello di questo tipo quando i dati sono numerosi e, sulla base di esso, fare delle previsioni.
Ad esempio, avendo una media finale di 7,2 è ragionevole aspettarsi una valutazione finale intorno al punteggio 81 (9
·7,2 + 16 = 80,8).

 


2. Con una TIV i parametri di cui sopra possono essere calcolati rapidamente:

Per esempio in ambiente DATA, inserire i valori di m e di e, rispettivamente nelle colonne c1 e c2, con le frequenze in c3 (risultano così occupate le prime nove righe):

Premere F5, Calculation Type LINREG, indicare la posizione dei dati x , y (m ed e) in c1 e c2, Use Freq rispondere YES e indicare in Freq la colonna c3.
Con ENTER si ottengono subito i risultati (il coefficiente di correlazione corr  e i parametri della retta di regressione):

 

L'ulteriore parametro R2 fornito dal programma (vedi figura) è il coefficiente di determinazione, che misura lo scostamento dalla dipendenza dei dati dal modello, in questo caso lineare (più la misura si avvicina ad 1, più lo scostamento è ridotto).

 

3. Con un foglio elettronico:


 

4.  Sempre con riferimento ai valori centrali dei dati voti scrutinio - punteggi esame di stato, scrivete direttamente la funzione  f(a,b) che esprime la somma dei quadrati degli scarti dalla retta di equazione  y = a x + b.
Analizzando l'espressione semplificata finale osservate che fissando il parametro a si ottiene una funzione quadratica in b, mentre, fissando b, una funzione quadratica in a; verificate che determinando le ascisse dei vertici delle due parabole e risolvendo il sistema che ne risulta si ritrovano gli stessi risultati dati dal computer o calcolati con la formula precedente.