Introduzione ai concetti di correlazione e regressione
 

1.  Riprendiamo la tabella  delle medie dei voti (arrotondate ai decimi) risultanti allo scrutinio finale e dei punteggi ottenuti all'esame di stato da parte degli allievi dell'ultima classe di un liceo scientifico:

media esame media esame
6 70 6,4 75
6,4 80 8,2 100
8,4 98 6 70
6,5 83 7,6 84
6,2 73 6,1 70
6,7 81 7 83
6,1 66 5,2 65
6,8 80 4,5 61
7,2 79 7,5 82
6,3 68 7,8 95
6,1 65 8,7 100

Un grafico dei dati è il seguente:

 

Da questo si vede che i dati sono abbastanza legati gli uni agli altri o, come anche si dice, esiste una certa correlazione fra le medie allo scrutinio e il punteggio dell'esame.
Poiché aumentando la media aumenta generalmente anche il punteggio dell'esame, si dice che la correlazione è positiva.

Nonostante le fluttuazioni, i dati seguono un andamento di tipo rettilineo, per cui si dice anche che la correlazione è lineare.
Ci si può chiedere, allora, qual è la retta che approssima meglio i dati, vale a dire, permette di fare, come modello matematico, le migliori previsioni sul voto dell'esame data una certa media finale.

Scegliendo opportunamente due punti, si può cercare una prima approssimazione dei dati determinando l'equazione della retta passante per essi.
Con  (8,7; 100) e (6,2; 73) verificate che si ottiene la retta  y = 10,8 x + 6,04, che, a vista, approssima abbastanza bene i dati.

Una migliore e più sicura approssimazione si può ottenere, per esempio, 
minimizzando la somma dei quadrati delle distanze in verticale dalla
retta cercata , tipo PH, QK, RL, ..., per tutti i punti rappresentanti i dati.

La figura dinamica seguente permette di
esplorare la variazione di tale somma al variare
della posizione della retta: agire sulla retta
per modificarne la pendenza o sul punto di
intersezione con l'asse y per farla scorrere
verticalmente.
Cercare la posizione della retta che rende minima la somma in questione
e confrontarne l'equazione calcolata dal software con la precedente (o con un'altra
da voi ottenuta cambiando la scelta dei due punti di riferimento).
 

Ovviamente si può, in alternativa, minimizzare la somma dei quadrati delle distanze in orizzontale, oppure la somma dei quadrati delle vere e
proprie distanze dei punti dalla retta (misurate sulle perpendicolari condotte ad essa dai punti), come mostrano le figure seguenti.
Potete esplorare queste situazioni con il software di geometria.

 

 

 

 

2. Sempre con riferimento alla classe suddetta, in questa tabella sono riportati, per ciascuno degli allievi, la media allo scrutinio finale e l'altezza (in cm).

media altezza media altezza
6 170 6,4 170
6,4 180 8,2 177
8,4 174 6 190
6,5 160 7,6 178
6,2 168 6,1 180
6,7 174 7 188
6,1 175 5,2 175
6,8 80 4,5 180
7,2 166 7,5 167
6,3 185 7,8 179
6,1

 

168 8,7 184

 

Un grafico dei dati è il seguente:

Come si vede e ci si aspettava, non si presenta alcuna correlazione tra i dati.

 

3. Questa volta, la tabella seguente riporta le medie finali e il tempo medio (in minuti) di riconsegna di un test di uno studente, su un massimo di un'ora.

media tempo media tempo
6 50 6,4 50
6,4 52 8,2 54
8,4 42 6 56
6,5 38 7,6 48
6,2 55 6,1 57
6,7 60 7 50
6,1 60 5,2 60
6,8 53 4,5 47
7,2 45 7,5 48
6,3 57 7,8 47
6,1

 

60 8,7 44

 

Come si vede, ora sembra esserci una correlazione fra i dati: poiché aumentando la media, il tempo di consegna generalmente diminuisce, si dice che la
correlazione è negativa.