Introduzione ai concetti di correlazione e regressione
1. Riprendiamo la tabella delle medie dei voti (arrotondate ai decimi) risultanti allo scrutinio finale e dei punteggi ottenuti all'esame di stato da parte degli allievi dell'ultima classe di un liceo scientifico:
media | esame | media | esame |
6 | 70 | 6,4 | 75 |
6,4 | 80 | 8,2 | 100 |
8,4 | 98 | 6 | 70 |
6,5 | 83 | 7,6 | 84 |
6,2 | 73 | 6,1 | 70 |
6,7 | 81 | 7 | 83 |
6,1 | 66 | 5,2 | 65 |
6,8 | 80 | 4,5 | 61 |
7,2 | 79 | 7,5 | 82 |
6,3 | 68 | 7,8 | 95 |
6,1 | 65 | 8,7 | 100 |
Un grafico dei dati è il seguente:
Da questo si vede che i dati sono abbastanza
legati gli uni agli altri o, come anche si dice, esiste una certa
correlazione fra le medie allo scrutinio e il
punteggio
dell'esame.
Poiché aumentando la media aumenta generalmente anche il
punteggio dell'esame, si dice che la correlazione è
positiva.
Nonostante le fluttuazioni, i dati seguono
un andamento di tipo rettilineo, per cui si dice anche che la correlazione
è lineare.
Ci si può chiedere, allora, qual è la retta che
approssima meglio i dati, vale a dire, permette di fare, come modello
matematico, le migliori previsioni
sul voto dell'esame data una certa
media finale.
Scegliendo opportunamente due punti, si può
cercare una prima approssimazione dei dati determinando l'equazione della
retta passante per essi.
Con (8,7; 100) e (6,2; 73)
verificate che
si ottiene la retta y = 10,8 x + 6,04, che, a vista,
approssima abbastanza bene i dati.
Una migliore e più sicura approssimazione si
può ottenere, per esempio,
minimizzando la somma dei quadrati
delle
distanze in verticale dalla
retta cercata , tipo PH, QK, RL, ..., per tutti i punti
rappresentanti i dati.
La figura dinamica seguente permette
di
esplorare la variazione di tale somma al variare
della posizione
della retta: agire sulla retta
per modificarne la pendenza o sul punto
di
intersezione con l'asse y per farla scorrere
verticalmente.
Cercare la posizione della retta che rende minima la somma
in questione
e confrontarne l'equazione calcolata dal software con la precedente (o con un'altra
da voi ottenuta cambiando la
scelta dei due punti di riferimento).
Ovviamente si può, in alternativa,
minimizzare la somma dei quadrati delle distanze in orizzontale, oppure la somma
dei quadrati delle
vere e
proprie distanze dei punti dalla retta (misurate sulle
perpendicolari condotte ad essa dai punti), come mostrano le figure
seguenti.
Potete esplorare queste situazioni con il software di
geometria.
2. Sempre con riferimento alla classe suddetta, in questa tabella sono riportati, per ciascuno degli allievi, la media allo scrutinio finale e l'altezza (in cm).
media | altezza | media | altezza |
6 | 170 | 6,4 | 170 |
6,4 | 180 | 8,2 | 177 |
8,4 | 174 | 6 | 190 |
6,5 | 160 | 7,6 | 178 |
6,2 | 168 | 6,1 | 180 |
6,7 | 174 | 7 | 188 |
6,1 | 175 | 5,2 | 175 |
6,8 | 80 | 4,5 | 180 |
7,2 | 166 | 7,5 | 167 |
6,3 | 185 | 7,8 | 179 |
6,1
|
168 | 8,7 | 184 |
Un grafico dei dati è il seguente:
Come si vede e ci si aspettava, non si presenta alcuna correlazione tra i dati.
3. Questa volta, la tabella seguente riporta le medie finali e il tempo medio (in minuti) di riconsegna di un test di uno studente, su un massimo di un'ora.
media | tempo | media | tempo |
6 | 50 | 6,4 | 50 |
6,4 | 52 | 8,2 | 54 |
8,4 | 42 | 6 | 56 |
6,5 | 38 | 7,6 | 48 |
6,2 | 55 | 6,1 | 57 |
6,7 | 60 | 7 | 50 |
6,1 | 60 | 5,2 | 60 |
6,8 | 53 | 4,5 | 47 |
7,2 | 45 | 7,5 | 48 |
6,3 | 57 | 7,8 | 47 |
6,1
|
60 | 8,7 | 44 |
Come si vede, ora sembra esserci una
correlazione fra i dati: poiché aumentando la media, il tempo di
consegna generalmente diminuisce, si dice che la
correlazione è
negativa.