282 lines
9.4 KiB
Markdown
282 lines
9.4 KiB
Markdown
# BPH
|
|
|
|
## Statistica descrittiva
|
|
|
|
Si possono distinguere due tipi di analisi dei dati: "model independent"
|
|
(statistica descrittiva) e "model dependent", che si basano su un modello
|
|
teorico. In questo capitolo studiamo quelli del primo tipo.
|
|
Alcuni argomenti tipici di statistica descrittiva sono:
|
|
|
|
- test per stabilire se due datasets provengono dalla stessa distribuzione
|
|
$f(x)$;
|
|
- test per stabilire la correlazione tra due datasets (test di ipotesi);
|
|
- metodi per determinare i momenti di una distribuzione;
|
|
- metodi per lo smoothing dei dati sperimentali.
|
|
|
|
### Momenti di una distribuzione
|
|
|
|
Definire i momenti di una distribuzione ha senso quando gli eventi che la
|
|
costituiscono hanno la tendenza ad agglomerarsi attorno ad un valore centrale.
|
|
Se i dati sono discreti, si usano le seguenti definizioni:
|
|
|
|
Media campionaria: se $n_i$ è la frequenza con cui si presenta ciascun valore
|
|
$x_j$:
|
|
|
|
$$
|
|
\bar{x} = \frac{1}{N} \sum_{i = 1}^N x_i
|
|
= \frac{1}{N} \sum_{j = 1}^{N'} n_j x_j
|
|
$$
|
|
|
|
Momento centrale di ordine $r$:
|
|
|
|
$$
|
|
V_r = \frac{1}{N} \sum_{j=1}^{N'} n_j^r (x_j - \bar{x})^r
|
|
$$
|
|
|
|
Esistono anche altri due valori "centrali", che nel caso continuo diventano:
|
|
mediana:
|
|
|
|
$$
|
|
\int\limits_{-\infty}^{x_{\text{med}}} dx \, f(x) = \frac{1}{2}
|
|
$$
|
|
|
|
moda: valore per cui $f(x)$ è massima, ovvero valore che si ripete con
|
|
maggiore frequenza.
|
|
Se la pdf ha code molto estese, è possibile che gli integrali non convergano
|
|
e questi valori non siano definiti. Per questo motivo la mediana è uno
|
|
stimatore del valore centrale più robusto della media.
|
|
|
|
I momenti centrali definiscono il modo in cui i dati si distribuiscono attorno
|
|
al valore centrale: quanto sono "diffusi". Il primo è la varianza (si noti la
|
|
correzione di Bessel per cui $N \rightarrow N -1$ al denominatore):
|
|
|
|
$$
|
|
V = \frac{1}{N - 1} \sum_{i = 1}^N (x_i - \bar{x})^2
|
|
$$
|
|
|
|
La skewness (letteralmente "asimmetria") descrive quanto i valori siano
|
|
distribuiti in modo disuniforme attorno al valore medio:
|
|
|
|
$$
|
|
\gamma = \frac{1}{\sigma^3} E[(x - \bar{x})^3]
|
|
$$
|
|
|
|
dove $\sigma$ è la deviazione standard.
|
|
|
|
![Skewness.](images/skewness.png){width=12cm}
|
|
|
|
Quanto una pdf è più o meno piccata rispetto ad una gaussuana è dato dalla
|
|
kurtosis ("curved", "arching"):
|
|
|
|
$$
|
|
K = \frac{1}{\sigma^4} E[(x -\bar{x})^4] -3
|
|
$$
|
|
|
|
![Kurtosis.](images/kurtosis.png){width=8cm}
|
|
|
|
Esiste una stima per le deviazioni standard di questi parametri nel caso di
|
|
distribizioni circa gaussiane:
|
|
|
|
\begin{align*}
|
|
&V(\sigma^2) = \frac{2 \sigma^4}{N} \\
|
|
&V(\gamma) \approx \frac{15}{N} \\
|
|
&V(K) \approx \frac{96}{N}
|
|
\end{align*}
|
|
|
|
### Smoothing dei dati
|
|
|
|
Lo smoothing dei dati si rende necessario quando i dati sono corrotti da un
|
|
rumore casuale. Solitamente si attua una media su finestre che inglobano dati
|
|
contigui. Fare una media, però, significa abbassare inevitabilmente il valore
|
|
nei picchi, perché la maggior parte delle volte conservano l'area al di sotto
|
|
del picco e la posizione, ma non l'altezza.
|
|
Uno dei più efficienti metodi di smoothing è il filtro di Savitsky-Golay.
|
|
|
|
Il segnale viene analizzato a gruppi di punti incentrati ciascuno in $Y_i$, con
|
|
$i$ che scorre su tutto l'array. Chiamiamo $y_0$ il punto centrale e $Y_N$ e
|
|
$Y_{-N}$ gli estremi. $Y_0$ viene sostituito con un valore calcolato in un modo
|
|
spiegato di seguito. Durante questo processo, i valori di $Y_i$ non vengono
|
|
sostituiti con $f_i$, bensì si crea un array parallelo che sarà poi quello
|
|
definitivo smoothato.
|
|
I valori di $Y_i$ si ottengono tramite un fit sui punti della finestra con
|
|
un polinomio di grado arbitrario $g$: $P_g(j)$. Il polinomio viene poi
|
|
valutato in zero e sostituito al valore di $y_0$.
|
|
|
|
### Test di ipotesi
|
|
|
|
Supponiamo di voler dimostrare che una certa variabile casuale $x$ segua una
|
|
pdf $f(x)$: questa è detta ipotesi nulla $H_0$. Se $f(x)$ non dipende da alcun
|
|
parametro, si parla di ipotesi semplice, altrimenti di dice composta. Oltre
|
|
alla ipotesi nulla si possono avere una o più ipotesi alternative $H_1$,
|
|
$H_2$...
|
|
Consideriamo il semplice caso in cui abbiamo una sola ipotesi alternativa
|
|
$H_1$ che proponga a sua volta una pdf. Per valutare l'accordo tra i dati e
|
|
un'ipotesi nulla si costruisce una statistica di test $t(x)$, che è una
|
|
variabile che dipende da $\vec{x}$ che definisco per determinare se l'ipotesi
|
|
nulla sia vera oppure no (vedi $t_{\text{cut}}$ oppure la discrepanza...) e che
|
|
segue a sua volta due pdf, una prevista da $H_0$ e una da $H_1$.
|
|
|
|
\begin{center}
|
|
\begin{tikzpicture}
|
|
|
|
\draw [thick, ->] (0,0) -- (12,0);
|
|
\draw [thick, ->] (0,0) -- (0,6);
|
|
\node [left] at (0,6) {g(t)};
|
|
\node [below] at (12,0) {t};
|
|
\draw [thick, dashed] (6,0) -- (6,6);
|
|
\node [below] at (6,0) {$t_{\text{cut}}$};
|
|
\draw [thick, blue] (0,0) to [out = 20, in = 180] (3,5)
|
|
to [out = 0, in = 180] (8,0);
|
|
\draw [thick, red] (4,0) to [out = 20, in = 180] (7,3)
|
|
to [out = 0, in = 180] (11,0);
|
|
\node [blue] at (2.5, 2) {$g(t \, | \, H_0)$};
|
|
\node [red] at (8, 1) {$g(t \, | \, H_1)$};
|
|
|
|
\end{tikzpicture}
|
|
\end{center}
|
|
|
|
Si definisce 'significanza del criterio di test' $\alpha$ (mentre $(1 -
|
|
\alpha)$ è il 'livello di confidenza del criterio di test', o 'efficienza'):
|
|
|
|
$$
|
|
\alpha = \int\limits_{t_{\text{cut}}}^{+ \infty} dt \, g(t \, | \, H_0)
|
|
$$
|
|
|
|
mentre $\beta$ è chiamato 'potenza del test' (mentre $(1 - \beta)$ è
|
|
detto 'purezza'):
|
|
|
|
$$
|
|
\beta = \int\limits_{-\infty}^{t_{\text{cut}}} dt \, g(t \, | \, H_1)
|
|
$$
|
|
|
|
Si chiamano:
|
|
|
|
- errore di prima specie: rigezione di $H_0$ qualora questa sia vera (con
|
|
relativa probabilità $P_1$);
|
|
- errore di seconda specie: accettazion di $H_0$ qualora questa sia falsa
|
|
(con relativa probabilità $P_2$);
|
|
|
|
Per $t < t_{\text{cut}}$ deciso arbitrariamente, imponiamo che l'ipotesi
|
|
nulla sia verificata. Ne consgue che $\alpha = P_1$ e $\beta = P_2$.
|
|
La scelta migliore di $y_{\text{cut}}$ è quella che dà la massima purezza data
|
|
una certa efficienza. Nel caso 1D lo si ottiene automaticamente (vedi esempio),
|
|
altrimenti può essere complicato.
|
|
|
|
Facciamo un esempio in cui applichiamo il lemma di Neyman-Pearson.
|
|
Immaginiamo di avere i valori $\vec{x} = (x_1 ... x_N)$ che appartengono ad
|
|
una distribuzione normale la cui varianza $\sigma$ è nota e si deve distinguere
|
|
tra due valori medi $\mu_0$ e $\mu_1$, cioé:
|
|
|
|
$$
|
|
H_0 = [\mu = \mu_0]
|
|
\hspace{100pt}
|
|
H_1 = [\mu = \mu_1]
|
|
$$
|
|
|
|
A questo punto le pdf previste da $H_0$ e $H_1$ sono due gaussiane centrate
|
|
ciascuna nel proprio valore medio. Secondo il lemma di cui sopra, dobbiamo
|
|
calcolare la Likelihood, che è la produttoria su tutte le misure effettuate
|
|
$x_i$ della pdf prevista di un'ipotesi calcolata in $x_i$:
|
|
|
|
$$
|
|
L(\vec{x}, \mu, \sigma) = \frac{1}{(\sigma \sqrt{2 \pi})^N} \Pi_{i=1}^N
|
|
N(x_i, \nu, \sigma)
|
|
$$
|
|
|
|
dove con $N$ si indica la distribuzione normale. Si tratta, cioè, della
|
|
probabilità di avere ottenuto quelle misure secondo l'ipotesi considerata.
|
|
Vorremo, quindi, che $L(H_0) >> L(H_1)$. A questo scopo si guarda $r$,
|
|
parametro previsto dal lemma, che vale:
|
|
|
|
$$
|
|
r = \frac{(L(\vec{x}) \, | \, H_0)}{(L(\vec{x}) \, | \, H_1)}
|
|
\hspace{30pt} \Longrightarrow \hspace{30pt}
|
|
\ln{r} = \ln{L(\vec{x}, \mu_0, \sigma)} - \ln{L(\vec{x}, \mu_0, \sigma)}
|
|
$$
|
|
|
|
Che deve essere a sua volta molto grande. La regione in cui si deve accettare
|
|
l'ipotesi nulla è infatti quella con $r > c$, dove $c$ deve ancora essere
|
|
valutato.
|
|
|
|
$$
|
|
\ln{r} = R(\vec{x}) > \ln{c}
|
|
\hspace{30pt} \Longrightarrow \hspace{30pt}
|
|
\vec{x} > (\text{oppure} <) \, g(c) = t_{\text{cut}}
|
|
$$
|
|
|
|
Per scegliere $k$, si impone che:
|
|
|
|
$$
|
|
P_1 = \alpha = Pr(\vec{x} > (\text{oppure} <) \, t_{\text{cut}} \,
|
|
| \, H_0)
|
|
$$
|
|
|
|
Quindi ciò che può essere scelto arbitrariamente, alla fine dei conti, è
|
|
$\alpha$, che solitamente si impone $= 5 \%$.
|
|
|
|
### Discriminante lineare di Fisher
|
|
|
|
In che modo si possono definire $f(t \, | \, H_0)$ e $f(t \, | \, H_1)$? Si
|
|
possono fare degli *ansatz* riguardo alla forma di $t$. Il modello di Fischer
|
|
utilizza una funzione lineare:
|
|
|
|
$$
|
|
t = \sum_{i = 1}^N a_i x_i = \vec{a} \cdot \vec{x}
|
|
$$
|
|
|
|
dove il vettore $\vec{a}$ è da determinare. Definiamo l'insieme dei valori medi
|
|
e delle "varianze" delle variabili misurate come segue: $\mu_{k, i}$ è il valore
|
|
medio della variabile $i$-esima secondo l'ipotesi $k$-esima:
|
|
|
|
$$
|
|
\mu_{k,i} = \int\limits_{-\infty}^{+\infty} dx_1 \dots dx_N
|
|
\, x_i f(\vec{x} \, | \, H_k)
|
|
$$
|
|
|
|
dove $k$ può quindi essere 0 o 1; mentre:
|
|
|
|
$$
|
|
(V_k)_{i,j} = \int\limits_{-\infty}^{+\infty} dx_1 \dots dx_N
|
|
\, (x_i - \mu_{k,i})(x_j - \mu_{k,j}) f(\vec{x} \, | \, H_k)
|
|
$$
|
|
|
|
Si può dimostrare che, per funzioni
|
|
gaussiane, la migliore statistica di test (ovvero che massimizza $1 - \beta$
|
|
per un dato $a$) è quella per cui:
|
|
|
|
$$
|
|
\vec{a} = \frac{1}{w} (\vec{\nu}_0 - \vec{\nu}_1)
|
|
\hspace{40pt} \text{con} \hspace{40pt}
|
|
W_{i,j} = (V_0 + V_i)_{i,j}
|
|
$$
|
|
|
|
In genere si introduce anche un offset:
|
|
|
|
$$
|
|
t = a_0 + \sum_{i = 1}^N a_i x_i
|
|
$$
|
|
|
|
### Reti neuronali
|
|
|
|
Si può dimostrare che se si usa il discriminante lineare di Fisher, allora dati
|
|
i dati $\vec{x}$, la probabilità che sia giusta $H_0$ è:
|
|
|
|
$$
|
|
P(H_0 | \vec{x}) = frac{1}{1 + e^{-t}}
|
|
$$
|
|
|
|
![Logistic function.](images/logistic.png){width=6cm}
|
|
|
|
che è la funzione logistica. Se le due pdf $f(\vec{x} | H_0)$ e $f(\vec{x} |
|
|
H_1)$ non sono gaussiane, allora il discriminante lineare di Fisher non è più
|
|
ottimale e si può generalizzare $t(\vec{x})$ con un caso speciale di Artificial
|
|
Neural Network (ANN).
|
|
Supponiamo di prendere
|
|
|
|
$$
|
|
t(\vec{x}) = s_0 \left( a_0 \sum_{i = 1}^N a_i x_i \right)
|
|
$$
|
|
|
|
con $s$ detta funzione di attivazione e $a_0$ detta soglia. Siccome la sigmoide
|
|
è monotona, questa ANN è equivalente ad un test lineare.
|