analistica/lectures/sections/modulo-2-3.md

 Distribuzioni di probabilità

## Distribuzione binomiale

![Distribuzione binomiale: p = 0.3, n = 10,
N = 1000.](images/binomiale.png)

Si considerino $N$ tentativi di un esperimento che può avere come esiti
soltanto successo o fallimento e che la probabilità di ogni successo sia $p$.
Definiamo $n$ il numero dei successi. Dunque la probabilità di ottenere $n$
successi su $N$ tentativi totali è data da:

$$
  P(N, n, p) = \binom{N}{n} p^n (1 - p)^{N -n}
$$

perché:

- la probabilità che un successo si verifichi è $p$;
- la probabilità che $k$ successi si verifichino è data dal prodotto di tutte
  le probabilità: $p^n$;
- lo stesso discorso vale per gli insuccessi: ognuno ha probabilità $(1_p)$ e
  se ne verificano $N -n$;
- il termine binomiale rappresenta tutte le possibili permutazioni: il
  concetto è semplice se si immagina di posizionare successi e fallimenti
  all'interno di una griglia con $N$ possibili posizioni: un successo è un
  pallino bianco e un fallimento è un pallino nero. In quanti posti posso
  mettere il primo successo? $N$. E il secondo? $N -1$. E il terzo? E così
  via, finché ho messo tutti i successi, che occupano $n$ posizioni, l'ultima
  delle quali è stata scelta tra $N - (n -1)$ posizioni, per cui:

  $$
    N \cdot (N -1) \dots (N -n + 1) =
    \frac{N \cdot (N -1) \dots (N -n + 1) \cdot 2 \cdot 1}
    {(N -n) \cdot (N - n -1) \dots 2 \cdot 1} = \frac{N!}{(N -n)!}
  $$

  ma non bisogna considerare che poi tutte le posizioni delle palline nere
  sono uguali, quindi va ulteriormente diviso per $n!$ per le stesse ragioni.
  Da cui:

  $$
  \binom{N}{n} = \frac{N!}{n! (N -n)!}
  $$

Per la normalizzazione, vale che:

$$
  \sum_{n = 0}^N P(N, n, p) = 1
$$

Possiamo definire un valore di aspettazione e una varianza:

\begin{align*}
  &E[n] = \sum_{n = 0}^N n P(N, n, p) = Np \\
  &V[n] = E[n^2] - E[n]^2 = Np(1 -p)
\end{align*}

## Distribuzione multinomiale

È la generalizzazione della pdf precedente nel caso in cui ci siano $m$
possibili risultati, ciascuno con una probabilità $P_m$ di verificarsi. Per
esempio, è il caso di un istogramma riguardo al quale ci si domanda quale sia la
probabilità di trovarlo esattamente con quelle specifiche entrate.
La probabilità è conseguentemente data da:

$$
  P(N, \vec{n}, \vec{p}) = \frac{N!}{n_1! n_2! \dots n_m!}
  p_1^{n_1} p_2^{n_2} \dots p_m^{n_m}
$$

E come valore di aspettazione e deviazione standard si ottiene che:

\begin{align*}
  &E[n_i] = Np_i \\
  &V[n_i] = Np_i (1 -p_i)
\end{align*}

### Legge dei grandi numeri

La legge dei grandi numeri afferma che la media sperimentale di una variabile
$x$, per un numero di tentativi $N$ che tende all'infinito, si avvicina molto
alla media vera. Questa legge può essere utilizzata per stimare le probabilità
$P_i$ di una distribuzione muiltinomiale tramite le frequenze con cui i diversi
eventi si verificano.
Si consideri la frequenza $f_j$ con cui l'evento j-esimo si verifica, dato un
set di $N$ tentativi:

$$
  f_j = \frac{1}{N} \sum_{i = 1}^N x_i = \frac{x_j}{N}
$$

dove $x_i$ è una variabile che vale 1 se l'evento j-esimo si è verificato e
vale 0 quando se ne è verificato un altro e $x_j$ è quindi il numero di volte
che l'evento j-esimo si è verificato.
A differenza di $P_j$, $f_j$ è una variabile casuale perché dipende da $x_j$
che è la somma di variabili casuali. Definiamo valore medio:

$$
  E(f_j) = \frac{E(x_j)}{N} = P_j
$$

e calcoliamo la varianza:

$$
  V \left[ f_j \right] = V \left[ \frac{x_j}{N} \right] =
  E \left[ \frac{x_j^2}{N^2} \right] - \left( E \left[ \frac{x_j}{N}
  \right] \right)^2 = \frac{1}{N^2} V \left[ x_j \right]
$$

ora, $x_j$ è esattamente $n_j$ della multinomiale, perciò:

$$
  V[x_j] = NP_j (1 - P_j)
  \hspace{30pt} \Longrightarrow \hspace{30pt}
  V[f_j] = \frac{1}{N} P_j (1 - P_j) \leqslant \frac{1}{N}
$$

## Distribuzione di Poisson

![Distribuzione Poissoniana: $\nu$ = 1,
N = 1000.](images/poisson.png)

Se si considera la distribuzione binomiale e ci si pone nel limite in cui il
numero di tentativi ripetuti tenda all'infinito e che la probabilità di
successo tenda a zero (con il vincolo che $N \cdot p = cost = \nu$), si ottiene
la distribuzione di Poisson:

$$
  P(N, n, \nu) = \frac{\nu^n}{n!} e^{-\nu}
$$

con:

\begin{align*}
  &E[n] = \nu \\
  &V[n] = \nu
\end{align*}

dove $\nu = NP = \frac{}{}$ numero medio di successi.
Quando $N$ è talmente grande da non essere definito (come nel caso in cui si
osservino i decadimenti di un atomo e dunque i tentativi sono le osservazioni,
che sono dunque continue), non è più possibile definire una probabilità di
successo per ogni evento (perché sarebbe nulla, da cui il motivo per cui
la Poissoniana è definita con questi due limiti), e quindi $\nu$ va definita in
un altro modo. Infatti la distribuzione di Poisson, trattandosi di un limite in
$N$ e $p$, non dipende più esplicitamente da queste due grandezze.
Nel caso in cui si osservi il decadimento di un atomo, si è soliti procedere in
questo modo: si suddivide il tempo di osservazione in intervalli (il che
significa aver suddiviso gli infiniti tentativi in sottoinsiemi di infiniti
tentativi) e si misura quante volte in ognuno di questi intervalli si verifica
un successo. L'esperimento è ora praticamente suddiviso in più esperimenti
minori da cui è possibile dedurre un numero medio frequentistico di successi.
Per esempio:

----------------------------------------------------------
# successi     0      1     2     3    4    5   6     7
------------- ------ ----- ----- ---- ---- --- ----- -----
# intervalli   1042   860   307   78   15   3   0     0

Poisson        1064   823   318   82   16   2   0.3   0.3
----------------------------------------------------------

Table: Decadimento di un atomo. Il tempo di osservazione è stato suddiviso in
intervalli e per ogni intervallo è stato contato il numero di successi
osservati.

\newpage

Il numero medio di eventi è:

$$
  \frac{1042 \cdot 0 + 860 \cdot 1 + 307 \cdot 2 + 78 \cdot 3 + 15 \cdot 4
        + 3 \cdot 5 + 0 \cdot 6 + 0 \cdot 7}{1064 + 860 + 307 + 78 + 15 + 3
        + 0 + 0} = 0.77
$$

Da cui è possibile calcolare i valori sempre riportati nella tabella precedente.

## Distribuzione uniforme

![Distribuzione uniforme: $a = 0$, $b = 100$.](images/uniform.png)

Una pdf di numeri che hanno tutti uguale probabilità di verificarsi è detta
uniforme:

$$
  P (n, a, b) = \begin{cases}
  \frac{1}{b - a} \hspace{30pt} a \leqslant x \leqslant b \\
  0 \hspace{42pt} \text{altrove}
  \end{cases}
$$

con:

\begin{align*}
  E[n] = \frac{1}{2} (a + b) \\
  V[n] = \frac{1}{12} (a + b)^2
\end{align*}

Se una variabile è distribuita secondo una pdf $f(x)$, la sua cumulante è
uniformemente distribuita. Intuitivamente è semplice perché basta vederla in
questo modo: si immagini il grafico della pdf; ogni volta che si estrae un
numero, questo cadrà in un punto casuale nell'area al di sotto della pdf,
lasciando uno spazio casuale alla sua sinistra (che è il valore della
cumulante)

## Distribuzione Gaussiana e CLT

![Distribuzione Gaussiana: $\mu = 30$,
$\sigma = 5$.](images/gaussian.png)

La distribuzione Gaussiana (o normale) è definita come:

$$
  P (x, \mu, \sigma) = \frac{1}{\sqrt{2 \pi} \sigma}
  e^{\frac{(x - \mu)^2}{2 \sigma^2}}
$$

con:

\begin{align*}
  E[x] = \mu \\
  V[x] = \sigma^2
\end{align*}

La error function, che è la cumulativa di questa pdf, è molto utile in
laboratorio e i suoi valori sono tabulati.
Il teorema centrale del limite afferma che date $n$ variabili casuali
indipendenti distribuite con una pdf comune e varianze $\sigma_i^2$, nel
limite in qui $n \rightarrow + \infty$, la somma di queste variabili segue un
andamento gaussiano con valore medio la somma dei valori medi e varianza la
somma delle varianze.
Ciò può essere sfruttato per generare numeri casuali distribuiti secondo una
distribuzione normale.


Per grandi valori di $\mu$ (vale a dire qualche unità), la distribuzione di
Poisson tende a quella Gaussiana con $\mu = \nu$ e $\sigma = \sqrt{\nu}$.
Analogamente per $N \rightarrow + \infty$ la binomiale tende alla Gaussiana
con $\mu = Np$ e $\sigma = \sqrt{Np (1 - p)}$.

## Distribuzione Gaussiana multivariata

Nel caso multidimensionale, la pdf per il vettore $\vec{x} = {x_1 ... n_n}$ è
data da:

$$
  f(\vec{x}, \vec{\mu}, V) = \frac{1}{(2 \pi)^{N/2} \mid V \mid^{1/2}}
  \exp \left[ - \frac{1}{2} (\vec{x} - \vec{\mu})^t V^{-1} (\vec{x}
  - \vec{\mu}) \right]
$$

con $E[x_i] = \mu_i$ e $\text{cov}[x_i, x_j] = V_{ij}$

## Media pesata

Quando si hanno misure con diversi errori, vanno combinate attraverso il
concetto di media pesata:

$$
  E[x] = \frac{\sum_{i = 1}^N \frac{x_i}{\sigma_i^2}}{\sum_{i = 1}^N
  \frac{1}{\sigma_i^2}}
$$
$$
  V[x] = \frac{1}{\sum_{i = 1}^N \frac{1}{\sigma_i^2}}
$$

Ma non ha senso mediare valori che non sono compatibili!

## Distribuzione di Breit-Wigner

![Distribuzione di Breit-Wigner: $x_0 = 20$,
$\Gamma = 10$.](images/wigner.png)

Esistono alcune distribuzioni che hanno momenti non ben definiti e che per
questo si dicono "patologiche". Un esempio è la distribuzione di Breit-Wigner:

$$
  f (x, \Gamma, x_o) = \frac{1}{\pi} \cdot
  \frac{\Gamma/2}{\Gamma^2/4 + (x - x_0)^2}
$$

Un caso particolare è quello in cui $x_0 = 0$ e $\Gamma = 2$, caso in cui è
detta distribuzione di Cauchy:

$$
  f(x, 2, 0) = f(x) = \frac{1}{\pi} \cdot \frac{1}{1 + x^2}
$$

Il valore medio e la varianza non sono definiti perché l'integrale è
divergente. Conviene usare la moda e l'ampiezza a mezza altezza, che sono
rispettivamente $x_0$ e $\Gamma$.
Nella libreria *GSL*, la pdf è scritta in questo modo:

$$
  p(x) = \frac{1}{a \pi (1 + (x/a))^2}
  \hspace{50pt} \Longrightarrow \hspace{50pt}
  a = \Gamma/2
$$

## Distribuzione di Landau

Per una particella carica con $\beta = v/c$ che attraversa un materiale sottile
di spessore $d$, la perdita di energia $\Delta$ segue la distribuzione di
Landau:

![Distribuzione di Landau.](images/landau.png)

Ha una forma complicatissima che racchiude integrali, logaritmi... Anche in
questo caso non si possono definire i momenti algebrici perché l'integrale
diverge.

## Distribuzione del chi-quadro

![Distribuzione del $\chi^2$: $n = 5$.](images/chi2.png)

Date $N$ grandezze distribuite ciascuna con una propria distribuzione
Gaussiana, la somma dei loro quadrati segue la distribuzione $\chi^2$.
Formalmente è definita così:

$$
  f(z, n) \frac{1}{2^{n/2} \Gamma (n/2)} z^{n/2 - 1}e^{-z/2}
$$

\begin{align*}
  &E[z] = n \\
  &V[z] = 2n
\end{align*}

dove $z$ è la variabile e $n$ è il numero di fradi di libertà.
Quando si fa un esperimento e si campiona $y(x)$ e poi si fittano i dati
trovati con una funzione teorica $f(x)$, ciascun valore $y(x)$ si assume
distribuito come una gaussiana attorno al suo valore vero, che assumiamo
essere $f(x)$: dunque i residui, che sono la differenza $R(x)= y(x) - f(x)$,
sono ancora una gaussiana, ma centrata in zero. Il chi quadro è definito come:

$$
  \sum_i \frac{[y(x_i) - f(x_i)]^2}{f(x_i)}
  \hspace{50pt} \text{oppure} \hspace{50pt}
  \sum_i \frac{[y(x_i) - f(x_i)]^2}{\sigma_i^2}
$$

Ne consegue che il chi quadro segua appunto la distribuzione del chi quadro.

Nella libreria *GSL* la distribuzione $\chi^2$ corrisponde alla distribuzione
gamma con $a = n/2$ e $b = 2$.

## Distribuzione esponenziale

![Distribuzione del esponenziale: $\lambda = 3$.](images/exponential.png)

$$
  f(x, \lambda) = \lambda e^{-\lambda x}
$$

\begin{align*}
  &E[z] = \frac{1}{\lambda} \\
  &V[z] = \frac{1}{\lambda^2}
\end{align*}

## Distribuzione t di Student

![Distribuzione t di Student: $\nu = 3$.](images/student.png)

È la distribuzione seguita dalla media di una popolazione gaussiana quando
la si stima con un piccolo campione e senza conoscere la deviazione standard.
Se $y_1$ è distribuita come una Gaussiana e $y_2$ come un $\chi^2$, se $\nu$
sono i gradi di libertà, allora $x$ segue la t di Student:

$$
  x = \frac{y_1}{\sqrt{\frac{y_2}{\nu}}}
$$

che è così definita:

$$
  f(x, \nu) = \frac{\Gamma \left( \frac{\nu + 1}{2} \right)}{\sqrt{\nu \pi}
  \Gamma \left( \frac{\nu}{2} \right)} \left( 1 + \frac{x^2}{\nu}
  \right)^{- \frac{\nu + 1}{2}}
$$

\begin{align*}
  &E[z] = 0 \\
  &V[z] =
  \begin{cases}
    \frac{\nu}{\nu - 2} \hspace{15pt} \nu \greater 2 \\
    \infty \hspace{30pt} \nu \leqslant 2
  \end{cases}
\end{align*}


## Distribuzione di Fischer-Snedecor

![Distribuzione di Fischer: $n = 3$, $m = 4$.](images/fischer.png)

Se si hanno due campioni $\vec{x}$ e $\vec{y}$ di variabili che seguono le
rispettive Gaussiane, si può usare la distribuzione di Fisher-Snedecor per
comparare le due varianze. Se nel primo caso le variabili sono $n$ e nel
secondo sono $m$, allora la distribuzione di Fisher con gradi di libertà
$n-1$ e $m-1$ dà la distribuzione del rapporto:

$$
  \frac{S^2_x / S^2_y}{\sigma^2_x / \sigma^2_y} =
  \frac{S^2_x / \sigma^2_x}{S^2_y / \sigma^2_y}
$$

con:

$$
  S^2_x = \frac{1}{n -1} \sum_{i = 1}^n (x_i - \mu_i)^2
  \hspace{50pt} \text{,} \hspace{50pt}
  S^2_y = \frac{1}{m -1} \sum_{i = 1}^m (y_i - \mu_i)^2
$$

che quindi è il rapporto di due grandezze distribuite secondo il $chi^2$.
La definizione della pdf è complicata...

## Funzione caratteristica

Si definisce funzione caratteristica di una variabile $x$ distribuita secondo
una $f(x)$, la trasformata di Fourier di quest'ultima:

$$
  \hat{f}(k) = E[e^{ikx}] = \int\limits_{-\infty}^{+\infty} dx f(x) e^{ikx}
$$

come per ogni trasformata, tutte le informazioni contenute nella funzione
originaria sono contenute anche nella funzione caratteristica, perché per
tornare alla prima è sufficiente calcolare la trasformata inversa:

$$
  f(x) = \frac{1}{2 \pi} \int\limits_{-\infty}^{+\infty} dx \hat{f}(k) e^{-ikx}
$$

la funzione caratteristica è utile per semplificare alcuni conti. Se
$x_1 \dots x_N$ sono variabili casuali indipendenti:

\begin{align*}
  z = \sum_{i = 1}^N x_i
  \hspace{20pt} \Longrightarrow \hspace{20pt}
  \hat{f}_z(k) &= \int dx_1 \dots dx_N f_1(x_1)
  \dots f_N(x_N) e^{ik \sum_{i=1}^N x_i} = \\
  &= \int dx_1 f_1(x_1) e^{ikx_1} \dots \int dx_N f_N(x_N) e^{ikx_N} = \\
  &= \hat{f}_1(k) \dots \hat{f}_N(k)
\end{align*}

Inoltre vale anche che:

$$
  \frac{d^m}{dk^m} \hat{f}(k) \big|_{k = 0} =
  \frac{d^m}{dk^m}
  \int\limits_{-\infty}^{+\infty} dx f(x) e^{ikx} \big|_{k = 0} =
  i^m \int\limits_{-\infty}^{+\infty} dx f(x) e^{ikx} x^m \big|_{k = 0} =
  i^m \mu_m = i^m E[x^m]
$$

che è il momento algebrico di ordine $m$.
Per esempio, nel caso di due variabili indipendenti $x$ e $y$ gaussiane, si
può notare subito che la loro somma è una gaussiana con $\mu = \mu_x + \mu_y$ e
$\sigma^2 = \sigma_x^2 + \sigma_y^2$. Analogamente per la Poissoniana.
Inoltre è facile osservare quale sia il comportamento delle pdf nei vari limiti
che abbiamo visto in precedenza: se si manda $N \rightarrow \infty$ mantenendo
il valore medio costante nella funzione caratteristica di una binomiale, si
ottiene la funzione caratteristica di una Poissoniana. Anche il teorema
centrale del limite si può dimostrare in questo modo.