Introduzione alla funzione di densità di probabilità
1. Il programma dadiG, in Excel, permette di simulare il lancio di due o cinque dadi, visualizzando tramite un istogramma, dopo un certo numero di lanci, il numero delle volte che si è ottenuto ogni possibile punteggio somma.
Sono riportati qui sotto due output, nei casi di 2 e 5 dadi.
Per esempio, in questo secondo caso, i cinque dadi hanno presentato 19 come somma dei punteggi, 199 volte su 2122 lanci.
Disegnando gli istogrammi con
distanza nulla tra le barre, si è coperto tutto l'intervallo dell'asse orizzontale sottostante.
Prendendo in tal caso come unità di misura su tale asse la base di ogni
rettangolo, le frequenze dei dati (punteggi somma) possono
venire
rappresentate, oltre che dalle altezze, dalle aree degli stessi rettangoli.
Considerando poi le frequenze relative (in rapporto a 2122, nel secondo caso)
otteniamo ovviamente, come somma di tali frequenze, 1
(3/2122 + 11/2122 + 7/2122 + 34/2122 + ...........+ 49/2122 + 37/2122 = 1).
L'istogramma subisce un cambiamento di scala, l'aspetto non cambia, ma la somma
totale delle aree dei rettangoli risulta ora
uguale a 1.
Aumentando il numero dei dadi (come si può
anche vedere modificando opportunamente il programma) i rettangoli si
infittiscono,
il valore atteso aumenta e i dati risultano maggiormente dispersi
intorno a tale valore.
Le sommità dei rettangoli tendono a formare una curva a forma di campana:
2. Consideriamo una situazione di distribuzione binomiale.
Ci sono 3 palline bianche, 2 rosse e si
effettuano 20 estrazioni, considerando un successo ogni volta
che si estrae una
pallina bianca.
Si registra, ogni volta (ogni 20 estrazioni), il numero dei successi e si ripete
l'esperimento un certo
numero di volte.
L'esperimento in questione può essere simulato su un foglio elettronico o progettando un opportuno programma.
Supponiamo, al termine dell'elaborazione, di raggruppare i dati come sotto riportato:
Come si vede, per esempio, un numero di successi compreso fra 5 e 9 (inclusi) è
stato ottenuto 127 volte su 990 prove
(una prova consistente in 20 estrazioni).
Rappresentando i successi con i punti medi delle basi dei
rettangoli corrispondenti (in modo che il primo rettangolo, per esempio,
copra
l'intervallo dell'asse reale
da 4,5 a 5,5) tutto il diagramma risulterà coprire l'intervallo
da 0,5 a 20,5.
Pensando allora di fissare come unità di misura per l'asse orizzontale la
lunghezza 1 di ogni singolo rettangolo dei dati, il rettangolo
verde del secondo
raggruppamento (tra 5 e 9), per esempio, risulta avere l'intervallo di base di lunghezza 5.
Passando alle frequenze relative e rappresentandole con le aree colorate
dei rettangoli di raggruppamento, l'altezza di tale
rettangolo verde risulta
quindi
;
così procedendo, per tutti i rettangoli (figura seguente), l'area totale determinata dal diagramma diviene uguale a 1.
Ogni frequenza relativa, riferita in tal modo
all'unità di misura, può riguardarsi come
una media per l'intervallo di base corrispondente,
o, in altri termini, si trasforma in
una densità di frequenza.
Aumentando il numero di ripetizioni dell'esperimento, le frequenze relative approssimano le probabilità e aumentando il numero delle estrazioni (20, 40, 80, 160, ...) le barre si infittiscono sempre più.
3. Si hanno le seguenti informazioni: i
responsabili di una squadra sportiva allenano 26 giovani dei quali 7 hanno una
statura
compresa fra 120 e 130 cm, 15 fra 130
e 140, 4 fra 140 e 150.
Poiché non si conoscono le singole stature, per avere approssimativamente
un'idea della media si possono considerare i valori medi
in ogni intervallo 125,
135, 145 e ripeterli tante volte quanti sono i giovani, considerando la
popolazione:
125, 125, 125, 125, 125, 125, 125, 135, 135, 135, 135, 135, 135, 135, 135, 135, 135, 135, 135, 135, 135, 135, 145, 145, 145, 145
Così facendo, la media risulta m » 133,8 e la deviazione standard s » 6,4.
Circa il 57% della popolazione di cui sopra cade nell'intervallo m - s, m + s , mentre tutta la popolazione è compresa nell'intervallo m - 2s , m + 2s.
Una migliore valutazione si
ottiene, però, considerando l'area dell'istogramma che riporta il numero dei
ragazzi per ogni intervallo di statura,
perché le stature dei ragazzi sono
distribuite, molto probabilmente, intorno ai valori medi (punti medi delle basi
dei rettangoli).
Precisamente, poiché la probabilità di scegliere casualmente un ragazzo di
statura compresa nel primo intervallo è 7/26, consideriamo uguale
a tale valore
l'area del primo rettangolo; fissando come unità di misura sull'asse orizzontale
(delle stature), per esempio, 1 cm, l'altezza di tale
rettangolo risulta 7/260;
le altezze degli altri due, analogamente, 3/52 e 1/65:
In questo modo, infatti, risulta (nell'istogramma s è indicato con σ ):
m + s » 140,2 ; m - s » 127,4 ; m + 2s » 146,6 ; m - 2s » 121
e la parte del diagramma compresa fra m - s e m + s ha un'area di circa
(130,5-127,4) ·7/260 + (140,2-130,5) ·3/52 » 0,643
vale a dire, circa il 64% della popolazione è compresa entro una deviazione standard (anziché il 57% della precedente valutazione); poiché l'area del diagramma entro due deviazioni standard risulta
(130,5-121)·7/260 + (140,5-130,5)·3/52 + (146,6-140,5)·1/65 » 0,93
si deduce ora che non tutta la popolazione è compresa nell'intervallo in questione, rimanendone fuori circa il 7%.
La funzione rappresentata sull'asse verticale si può riguardare, in questo contesto,come di densità di probabilità, essendo riferita al centimetro di statura.
Le percentuali calcolate nei due intervalli di cui sopra (a meno di un s o di due s) si ripetono approssimativamente nel caso di istogrammi abbastanza simmetrici intorno alla media.
E' da osservare,
infine, che la probabilità, per un giovane, di avere esattamente una certa
statura, diciamo 133,2 cm, deve considerarsi
uguale a zero, perché
altrimenti, essendo infiniti i valori delle stature fra 120 e 150 cm, la
probabilità di avere una
statura compresa
nell'intervallo risulterebbe maggiore di 1 (100%) !
Per valutare allora la probabilità in questione occorre considerare un piccolo
rettangolo che la comprende, per esempio con base l'intervallo
[133,19-133,21]
e calcolarne l'area.
Nei casi 1 e 2 la variabile casuale è discreta (può assumere cioè solo un numero finito, o al più numerabile, di valori), mentre nel caso 3 è continua (può assumere ogni valore reale dell'intervallo 120-150).
La funzione di densità di probabilità può assumere, in generale, diverse forme.