Test del Chi quadrato 

Sulla base del concetto di valore atteso è stato pensato un test per misurare l'eventuale differenza fra i dati osservati e quelli attesi in un esperimento (differenza dovuta alla presenza di eventuali perturbazioni sulle variabili, non dovute al caso).

Considerare, per esempio, la seguente situazione.

Una classe di una certa scuola superiore ha 28 allievi, provenienti da tre scuole medie diverse, A, B, C.
Viene somministrato un test d'ingresso e i risultati sono i seguenti:

  Superato Non superato TOTALE
A 5 2 7
B 6 4 10
C 7 4 11
TOTALE 18 10 28

 

Per capire quanto i dati osservati (riportati in tabella) differiscono da quelli attesi (derivanti da effetti  attribuibili solo alle variazioni casuali) si possono innanzitutto calcolare questi ultimi.

Per esempio, la probabilità per un allievo di provenire dalla scuola A è 7/28, mentre quella di superare l'esame risulta 18/28; la probabilità, quindi, che si verifichino entrambi gli eventi è (7/28)·(18/28) = 9/56, da cui il valore atteso 9/56·28=4,5, da inserire nella prima casella (incrocio tra la riga A e la colonna Superato).
Lo stesso risultato può ottenersi impostando la proporzione x : 18 = 7 : 28, ovvero x = (7·18)/28=4,5.

I valori attesi, così calcolati, sono riportati nella seguente tabella:

Superato Non superato TOTALE
A 4,5 2,5 7
B 6,42857 3,57143 10
C 7,07143 3,92857 11
TOTALE 18 10 28


Si può pensare di calcolare una misura dello scarto in questione, relativamente ai valori attesi, nel modo seguente:

                        

o, meglio, in quest'altro modo, per ottenere valori positivi:

                       

Così facendo, però, si rileva un inconveniente rilevante.
Supponendo, infatti, che il test sia esteso a tutta la scuola superiore e che le proporzioni di successo-insuccesso siano conservate (ciò si ottiene, per esempio, moltiplicando per 50 tutti i dati osservati), si ottiene la tabella:

  Superato Non superato TOTALE
A 250 100 350
B 300 200 500
C 350 200 550
TOTALE 900 500 1400

 

con i valori attesi:

  Superato Non superato TOTALE
A 225 125 350
B 321,429 178,571 500
C 353,571 196,429 550
TOTALE 900 500 1400

Ricalcolando la somma degli scarti come sopra si ottengono ancora, ovviamente, gli stessi valori;  per esempio:

                

ma si può intuire, adesso, dai dati in possesso (le percentuali 71%, 60%, 64% sul superamento degli esami sono le stesse, ma riferite a valori più grandi e quindi più significative), che gli allievi provenienti dalla scuola A hanno una preparazione più adatta per il superamento del test (pur rimanendo la nostra misura di scostamento dai valori attesi la stessa).

Per evitare questo inconveniente e fare in modo che crescendo i denominatori crescano i valori delle frazioni, in accordo con l'intuizione, si utilizza allora quest'altra misura di scostamento, calcolando, a numeratore, i quadrati degli scarti:

1° caso)

              

2° caso)

             

Come ci si aspetta, nel 2° caso, il valore è maggiore.

La somma in questione è indicata con la lettera greca ξ2 (si legge chi quadro o chi quadrato) e, in generale, assume la forma:

             

Questo tipo di misura è ulteriormente perfezionato tenendo conto delle dimensioni della tabella dei dati.
Nel nostro caso, per esempio, ci sono sei variabili in tre righe e due colonne (sfondo giallo), ma solo due di esse possono essere scelte liberamente, le altre rimanendo vincolate dall'esito sperimentale.

  Superato Non superato TOTALE
A 250 100 350
B 300 200 500
C 350 200 550
TOTALE 900 500 1400

Si dice anche che il nostro problema ha due gradi di libertà.

Sono state predisposte tabelle per l'interpretazione della misura così ottenuta.
Per esempio, la seguente è relativa ad un livello di fiducia del 95% sulla correttezza della conclusione:

GRADI DI LIBERTA' ξ2 GRADI DI LIBERTA' ξ2
1 3,84 20 31,4
2 5,99 21 32,7
3 7,81 22 33,9
4 9,49 23 35,2
5 11,1 24 36,4
6 12,6 25 37,7
7 14,1 26 38,9
8 15,5 27 40,1
9 16,9 28 41,3
10 18,3 29 42,6
11 19,7 30 43,8
12 21 40 55,8
13 22,4 50 67,5
14 23,7 60 79,1
15 25 70 90,5
16 26,3 80 101,9
17 27,6 90 113,1
18 28,9 100 124,3

19

30,1

 

Utilizzando questa tabella, nel nostro caso (con due gradi di libertà) il valore (critico) del ξ2  da non superare per accettare l'ipotesi che le variazioni dai valori attesi siano dovute al caso, è 5,99 (tale fatto, di indipendenza delle variabili, si dice anche ipotesi nulla); nel 1° caso possiamo quindi accettare l'ipotesi nulla, ma non nel 2°, avendo ottenuto più del doppio: possiamo in tal caso rifiutare l'ipotesi nulla con la probabilità del 95% di non sbagliare e, dunque, ritenere migliore delle altre la preparazione offerta dalla scuola A ai suoi studenti (almeno, per il superamento del nostro test d'ingresso).

Il valore del ξ2  e la conclusione sulle osservazioni sperimentali possono ottenersi rapidamente con una TIV.
E' opportuno, però, osservare, nella finestra di output, oltre al ξ2, la comparsa di un'altra indicazione, il P Value.
Questo parametro è molto importante, perché in base ad esso si può più rapidamente inferire la conclusione dai dati sperimentali (senza ricordare, cioè, i valori della tabella del ξ2).
Limitandoci infatti, per esempio, al caso della fiducia sul 95%, il P Value in base ai gradi di libertà e ai valori del ξ2 corrispondenti in tabella è sempre lo stesso, 0,05 : in altri termini,
possiamo ritenere, nel caso di validità dell'ipotesi nulla, che il presentarsi dei dati osservati (con tali scarti o anche maggiori dai valori attesi), accada con probabilità del 5%   (e, per valori più bassi, si può dunque tranquillamente inferire che le fluttuazioni sperimentali  non sono dovute al caso, ma ad effetti di perturbazione).     

 

 

CLASSE Sopravvissuti Perduti Totale
PRIMA
SECONDA
TERZA
Totale