Quarta/densità di probabilità

Introduzione alla funzione di densità di probabilità

1. Il programma dadiG, in Excel, permette di simulare il lancio di due o cinque dadi, visualizzando tramite un istogramma, dopo un certo numero di lanci, il numero delle volte che si è ottenuto ogni possibile punteggio somma.

Sono riportati qui sotto due output, nei casi di 2 e 5 dadi.

Per esempio, in questo secondo caso, i cinque dadi hanno presentato 19 come somma dei punteggi, 199 volte su 2122 lanci.

Disegnando gli istogrammi con distanza nulla tra le barre, si è coperto tutto l'intervallo dell'asse orizzontale sottostante.
Prendendo in tal caso come unità di misura su tale asse la base di ogni rettangolo, le frequenze dei dati (punteggi somma) possono venire rappresentate, oltre che dalle altezze, dalle aree degli stessi rettangoli.

Considerando poi le frequenze relative (in rapporto a 2122, nel secondo caso) otteniamo ovviamente, come somma di tali frequenze, 1
(3/2122 + 11/2122 + 7/2122 + 34/2122 + ...........+ 49/2122 + 37/2122 = 1).
L'istogramma subisce un cambiamento di scala, l'aspetto non cambia, ma la somma totale delle aree dei rettangoli risulta ora uguale a 1.

Aumentando il numero dei dadi (come si può anche vedere modificando opportunamente il programma) i rettangoli si infittiscono, il valore atteso aumenta e i dati risultano maggiormente dispersi intorno a tale valore.
Le sommità dei rettangoli tendono a formare una curva a forma di campana:

2. Consideriamo una situazione di distribuzione binomiale.

Ci sono 3 palline bianche, 2 rosse e si effettuano 20 estrazioni, considerando un successo ogni volta che si estrae una pallina bianca.
Si registra, ogni volta (ogni 20 estrazioni), il numero dei successi e si ripete l'esperimento un certo numero di volte.

L'esperimento in questione può essere simulato su un foglio elettronico o progettando un opportuno programma.

Supponiamo, al termine dell'elaborazione, di raggruppare i dati come sotto riportato:

Come si vede, per esempio, un numero di successi compreso fra 5 e 9 (inclusi) è stato ottenuto 127 volte su 990 prove (una prova consistente in 20 estrazioni).
Rappresentando i successi con i punti medi delle basi dei rettangoli corrispondenti (in modo che il primo rettangolo, per esempio, copra l'intervallo dell'asse reale
da 4,5 a 5,5) tutto il diagramma risulterà coprire l'intervallo da 0,5 a 20,5.
Pensando allora di fissare come unità di misura per l'asse orizzontale la lunghezza 1 di ogni singolo rettangolo dei dati, il rettangolo verde del secondo raggruppamento (tra 5 e 9), per esempio, risulta avere l'intervallo di base di lunghezza 5.
Passando alle frequenze relative e rappresentandole con le aree colorate dei rettangoli di raggruppamento, l'altezza di tale
rettangolo verde risulta quindi ;

così procedendo, per tutti i rettangoli (figura seguente), l'area totale determinata dal diagramma diviene uguale a 1.

Ogni frequenza relativa, riferita in tal modo all'unità di misura, può riguardarsi come una media per l'intervallo di base corrispondente, o, in altri termini, si trasforma in
una densità di frequenza.

Aumentando il numero di ripetizioni dell'esperimento, le frequenze relative approssimano le probabilità e aumentando il numero delle estrazioni (20, 40, 80, 160, ...) le barre si infittiscono sempre più.

3. Si hanno le seguenti informazioni: i responsabili di una squadra sportiva allenano 26 giovani dei quali 7 hanno una statura compresa fra 120 e 130 cm, 15 fra 130
e 140, 4 fra 140 e 150.

Poiché non si conoscono le singole stature, per avere approssimativamente un'idea della media si possono considerare i valori medi in ogni intervallo 125, 135, 145 e ripeterli tante volte quanti sono i giovani, considerando la popolazione:

125, 125, 125, 125, 125, 125, 125, 135, 135, 135, 135, 135, 135, 135, 135, 135, 135, 135, 135, 135, 135, 135, 145, 145, 145, 145

Così facendo, la media risulta m » 133,8 e la deviazione standard s » 6,4.

Circa il 57% della popolazione di cui sopra cade nell'intervallo m - s, m + s , mentre tutta la popolazione è compresa nell'intervallo m - 2s , m + 2s.

Una migliore valutazione si ottiene, però, considerando l'area dell'istogramma che riporta il numero dei ragazzi per ogni intervallo di statura, perché le stature dei ragazzi sono distribuite, molto probabilmente, intorno ai valori medi (punti medi delle basi dei rettangoli).
Precisamente, poiché la probabilità di scegliere casualmente un ragazzo di statura compresa nel primo intervallo è 7/26, consideriamo uguale a tale valore l'area del primo rettangolo; fissando come unità di misura sull'asse orizzontale (delle stature), per esempio, 1 cm, l'altezza di tale rettangolo risulta 7/260; le altezze degli altri due, analogamente, 3/52 e 1/65:

In questo modo, infatti, risulta (nell'istogramma s è indicato con σ ):

m + s » 140,2 ; m - s » 127,4 ; m + 2s » 146,6 ; m - 2s » 121

e la parte del diagramma compresa fra m - s e m + s ha un'area di circa

(130,5-127,4) ·7/260 + (140,2-130,5) ·3/52 » 0,643

vale a dire, circa il 64% della popolazione è compresa entro una deviazione standard (anziché il 57% della precedente valutazione); poiché l'area del diagramma entro due deviazioni standard risulta

(130,5-121)·7/260 + (140,5-130,5)·3/52 + (146,6-140,5)·1/65 » 0,93

si deduce ora che non tutta la popolazione è compresa nell'intervallo in questione, rimanendone fuori circa il 7%.

La funzione rappresentata sull'asse verticale si può riguardare, in questo contesto,come di densità di probabilità, essendo riferita al centimetro di statura.

Le percentuali calcolate nei due intervalli di cui sopra (a meno di un s o di due s) si ripetono approssimativamente nel caso di istogrammi abbastanza simmetrici intorno alla media.

E' da osservare, infine, che la probabilità, per un giovane, di avere esattamente una certa statura, diciamo 133,2 cm, deve considerarsi uguale a zero, perché altrimenti, essendo infiniti i valori delle stature fra 120 e 150 cm, la probabilità di avere una statura compresa nell'intervallo risulterebbe maggiore di 1 (100%) !
Per valutare allora la probabilità in questione occorre considerare un piccolo rettangolo che la comprende, per esempio con base l'intervallo [133,19-133,21] e calcolarne l'area.

Nei casi 1 e 2 la variabile casuale è discreta (può assumere cioè solo un numero finito, o al più numerabile, di valori), mentre nel caso 3 è continua (può assumere ogni valore reale dell'intervallo 120-150).

La funzione di densità di probabilità può assumere, in generale, diverse forme.