analistica/lectures/sections/modulo-3.md

# BPH

## Statistica descrittiva

Si possono distinguere due tipi di analisi dei dati: "model independent"
(statistica descrittiva) e "model dependent", che si basano su un modello
teorico. In questo capitolo studiamo quelli del primo tipo.
Alcuni argomenti tipici di statistica descrittiva sono:

- test per stabilire se due datasets provengono dalla stessa distribuzione
  $f(x)$;
- test per stabilire la correlazione tra due datasets (test di ipotesi);
- metodi per determinare i momenti di una distribuzione;
- metodi per lo smoothing dei dati sperimentali.

### Momenti di una distribuzione

Definire i momenti di una distribuzione ha senso quando gli eventi che la
costituiscono hanno la tendenza ad agglomerarsi attorno ad un valore centrale.
Se i dati sono discreti, si usano le seguenti definizioni:

Media campionaria: se $n_i$ è la frequenza con cui si presenta ciascun valore
$x_j$:

$$
  \bar{x} = \frac{1}{N} \sum_{i = 1}^N x_i
          = \frac{1}{N} \sum_{j = 1}^{N'} n_j x_j
$$

Momento centrale di ordine $r$:

$$
  V_r = \frac{1}{N}   \sum_{j=1}^{N'} n_j^r (x_j - \bar{x})^r
$$

Esistono anche altri due valori "centrali", che nel caso continuo diventano:
mediana:

$$
  \int\limits_{-\infty}^{x_{\text{med}}} dx \, f(x) = \frac{1}{2}
$$

moda: valore per cui $f(x)$ è massima, ovvero valore che si ripete con
maggiore frequenza.
Se la pdf ha code molto estese, è possibile che gli integrali non convergano
e questi valori non siano definiti. Per questo motivo la mediana è uno
stimatore del valore centrale più robusto della media.

I momenti centrali definiscono il modo in cui i dati si distribuiscono attorno
al valore centrale: quanto sono "diffusi". Il primo è la varianza (si noti la
correzione di Bessel per cui $N \rightarrow N -1$ al denominatore):

$$
  V = \frac{1}{N - 1} \sum_{i = 1}^N (x_i - \bar{x})^2
$$

La skewness (letteralmente "asimmetria") descrive quanto i valori siano
distribuiti in modo disuniforme attorno al valore medio:

$$
  \gamma = \frac{1}{\sigma^3} E[(x - \bar{x})^3]
$$

dove $\sigma$ è la deviazione standard.

![Skewness.](images/skewness.png){width=12cm}

Quanto una pdf è più o meno piccata rispetto ad una gaussuana è dato dalla
kurtosis ("curved", "arching"):

$$
  K = \frac{1}{\sigma^4} E[(x -\bar{x})^4] -3
$$

![Kurtosis.](images/kurtosis.png){width=8cm}

Esiste una stima per le deviazioni standard di questi parametri nel caso di
distribizioni circa gaussiane:

\begin{align*}
  &V(\sigma^2) = \frac{2 \sigma^4}{N} \\
  &V(\gamma) \approx \frac{15}{N}     \\
  &V(K) \approx \frac{96}{N}
\end{align*}

### Smoothing dei dati

Lo smoothing dei dati si rende necessario quando i dati sono corrotti da un
rumore casuale. Solitamente si attua una media su finestre che inglobano dati
contigui. Fare una media, però, significa abbassare inevitabilmente il valore
nei picchi, perché la maggior parte delle volte conservano l'area al di sotto
del picco e la posizione, ma non l'altezza.
Uno dei più efficienti metodi di smoothing è il filtro di Savitsky-Golay.

Il segnale viene analizzato a gruppi di punti incentrati ciascuno in $Y_i$, con
$i$ che scorre su tutto l'array. Chiamiamo $y_0$ il punto centrale e $Y_N$ e
$Y_{-N}$ gli estremi. $Y_0$ viene sostituito con un valore calcolato in un modo
spiegato di seguito. Durante questo processo, i valori di $Y_i$ non vengono
sostituiti con $f_i$, bensì si crea un array parallelo che sarà poi quello
definitivo smoothato.
I valori di $Y_i$ si ottengono tramite un fit sui punti della finestra con
un polinomio di grado arbitrario $g$: $P_g(j)$. Il polinomio viene poi
valutato in zero e sostituito al valore di $y_0$.

### Test di ipotesi

Supponiamo di voler dimostrare che una certa variabile casuale $x$ segua una
pdf $f(x)$: questa è detta ipotesi nulla $H_0$. Se $f(x)$ non dipende da alcun
parametro, si parla di ipotesi semplice, altrimenti di dice composta. Oltre
alla ipotesi nulla si possono avere una o più ipotesi alternative $H_1$,
$H_2$...
Consideriamo il semplice caso in cui abbiamo una sola ipotesi alternativa
$H_1$ che proponga a sua volta una pdf. Per valutare l'accordo tra i dati e
un'ipotesi nulla si costruisce una statistica di test $t(x)$, che è una
variabile che dipende da $\vec{x}$ che definisco per determinare se l'ipotesi
nulla sia vera oppure no (vedi $t_{\text{cut}}$ oppure la discrepanza...) e che
segue a sua volta due pdf, una prevista da $H_0$ e una da $H_1$.

\begin{center}
\begin{tikzpicture}

  \draw [thick, ->] (0,0) -- (12,0);
  \draw [thick, ->] (0,0) -- (0,6);
  \node [left] at (0,6) {g(t)};
  \node [below] at (12,0) {t};
  \draw [thick, dashed] (6,0) -- (6,6);
  \node [below] at (6,0) {$t_{\text{cut}}$};
  \draw [thick, blue] (0,0) to [out = 20, in = 180] (3,5)
        to [out = 0, in = 180] (8,0);
  \draw [thick, red] (4,0) to [out = 20, in = 180] (7,3)
        to [out = 0, in = 180] (11,0);
  \node [blue] at (2.5, 2) {$g(t \, | \, H_0)$};
  \node [red] at (8, 1) {$g(t \, | \, H_1)$};

\end{tikzpicture}
\end{center}

Si definisce 'significanza del criterio di test' $\alpha$ (mentre $(1 -
\alpha)$ è il 'livello di confidenza del criterio di test', o 'efficienza'):

$$
  \alpha = \int\limits_{t_{\text{cut}}}^{+ \infty} dt \, g(t \, | \, H_0)
$$

mentre $\beta$ è chiamato 'potenza del test' (mentre $(1 - \beta)$ è
detto 'purezza'):

$$
  \beta = \int\limits_{-\infty}^{t_{\text{cut}}} dt \, g(t \, | \, H_1)
$$

Si chiamano:

- errore di prima specie: rigezione di $H_0$ qualora questa sia vera (con
  relativa probabilità $P_1$);
- errore di seconda specie: accettazion di $H_0$ qualora questa sia falsa
  (con relativa probabilità $P_2$);

Per $t < t_{\text{cut}}$ deciso arbitrariamente, imponiamo che l'ipotesi
nulla sia verificata. Ne consgue che $\alpha = P_1$ e $\beta = P_2$.
La scelta migliore di $y_{\text{cut}}$ è quella che dà la massima purezza data
una certa efficienza. Nel caso 1D lo si ottiene automaticamente (vedi esempio),
altrimenti può essere complicato.

Facciamo un esempio in cui applichiamo il lemma di Neyman-Pearson.
Immaginiamo di avere i valori $\vec{x} = (x_1 ... x_N)$ che appartengono ad
una distribuzione normale la cui varianza $\sigma$ è nota e si deve distinguere
tra due valori medi $\mu_0$ e $\mu_1$, cioé:

$$
  H_0 = [\mu = \mu_0]
  \hspace{100pt}
  H_1 = [\mu = \mu_1]
$$

A questo punto le pdf previste da $H_0$ e $H_1$ sono due gaussiane centrate
ciascuna nel proprio valore medio. Secondo il lemma di cui sopra, dobbiamo
calcolare la Likelihood, che è la produttoria su tutte le misure effettuate
$x_i$ della pdf prevista di un'ipotesi calcolata in $x_i$:

$$
  L(\vec{x}, \mu, \sigma) = \frac{1}{(\sigma \sqrt{2 \pi})^N} \Pi_{i=1}^N
  N(x_i, \nu, \sigma)
$$

dove con $N$ si indica la distribuzione normale. Si tratta, cioè, della
probabilità di avere ottenuto quelle misure secondo l'ipotesi considerata.
Vorremo, quindi, che $L(H_0) >> L(H_1)$. A questo scopo si guarda $r$,
parametro previsto dal lemma, che vale:

$$
  r = \frac{(L(\vec{x}) \, | \, H_0)}{(L(\vec{x}) \, | \, H_1)}
  \hspace{30pt} \Longrightarrow \hspace{30pt}
  \ln{r} = \ln{L(\vec{x}, \mu_0, \sigma)} - \ln{L(\vec{x}, \mu_0, \sigma)}
$$

Che deve essere a sua volta molto grande. La regione in cui si deve accettare
l'ipotesi nulla è infatti quella con $r > c$, dove $c$ deve ancora essere
valutato.

$$
  \ln{r} = R(\vec{x}) > \ln{c}
  \hspace{30pt} \Longrightarrow \hspace{30pt}
  \vec{x} > (\text{oppure} <) \, g(c) = t_{\text{cut}}
$$

Per scegliere $k$, si impone che:

$$
  P_1 = \alpha = Pr(\vec{x} > (\text{oppure} <) \, t_{\text{cut}} \,
  | \, H_0)
$$

Quindi ciò che può essere scelto arbitrariamente, alla fine dei conti, è
$\alpha$, che solitamente si impone $= 5 \%$.

### Discriminante lineare di Fisher

In che modo si possono definire $f(t \, | \, H_0)$ e $f(t \, | \, H_1)$? Si
possono fare degli *ansatz* riguardo alla forma di $t$. Il modello di Fischer
utilizza una funzione lineare:

$$
  t = \sum_{i = 1}^N a_i x_i = \vec{a} \cdot \vec{x}
$$

dove il vettore $\vec{a}$ è da determinare. Definiamo l'insieme dei valori medi
e delle "varianze" delle variabili misurate come segue: $\mu_{k, i}$ è il valore
medio della variabile $i$-esima secondo l'ipotesi $k$-esima:

$$
  \mu_{k,i} = \int\limits_{-\infty}^{+\infty} dx_1 \dots dx_N
  \, x_i f(\vec{x} \, | \, H_k)
$$

dove $k$ può quindi essere 0 o 1; mentre:

$$
  (V_k)_{i,j} = \int\limits_{-\infty}^{+\infty} dx_1 \dots dx_N
  \, (x_i - \mu_{k,i})(x_j - \mu_{k,j}) f(\vec{x} \, | \, H_k)
$$

Si può dimostrare che, per funzioni
gaussiane, la migliore statistica di test (ovvero che massimizza $1 - \beta$
per un dato $a$) è quella per cui:

$$
  \vec{a} = \frac{1}{w} (\vec{\nu}_0 - \vec{\nu}_1)
  \hspace{40pt} \text{con} \hspace{40pt}
  W_{i,j} = (V_0 + V_i)_{i,j}
$$

In genere si introduce anche un offset:

$$
  t = a_0 + \sum_{i = 1}^N a_i x_i
$$

### Reti neuronali

Si può dimostrare che se si usa il discriminante lineare di Fisher, allora dati
i dati $\vec{x}$, la probabilità che sia giusta $H_0$ è:

$$
  P(H_0 | \vec{x}) = frac{1}{1 + e^{-t}}
$$

![Logistic function.](images/logistic.png){width=6cm}

che è la funzione logistica. Se le due pdf $f(\vec{x} | H_0)$ e $f(\vec{x} |
H_1)$ non sono gaussiane, allora il discriminante lineare di Fisher non è più
ottimale e si può generalizzare $t(\vec{x})$ con un caso speciale di Artificial
Neural Network (ANN).
Supponiamo di prendere

$$
  t(\vec{x}) = s_0 \left( a_0 \sum_{i = 1}^N a_i x_i \right)
$$

con $s$ detta funzione di attivazione e $a_0$ detta soglia. Siccome la sigmoide
è monotona, questa ANN è equivalente ad un test lineare.