# BPH ## Statistica descrittiva Si possono distinguere due tipi di analisi dei dati: "model independent" (statistica descrittiva) e "model dependent", che si basano su un modello teorico. In questo capitolo studiamo quelli del primo tipo. Alcuni argomenti tipici di statistica descrittiva sono: - test per stabilire se due datasets provengono dalla stessa distribuzione $f(x)$; - test per stabilire la correlazione tra due datasets (test di ipotesi); - metodi per determinare i momenti di una distribuzione; - metodi per lo smoothing dei dati sperimentali. ### Momenti di una distribuzione Definire i momenti di una distribuzione ha senso quando gli eventi che la costituiscono hanno la tendenza ad agglomerarsi attorno ad un valore centrale. Se i dati sono discreti, si usano le seguenti definizioni: Media campionaria: se $n_i$ è la frequenza con cui si presenta ciascun valore $x_j$: $$ \bar{x} = \frac{1}{N} \sum_{i = 1}^N x_i = \frac{1}{N} \sum_{j = 1}^{N'} n_j x_j $$ Momento centrale di ordine $r$: $$ V_r = \frac{1}{N} \sum_{j=1}^{N'} n_j^r (x_j - \bar{x})^r $$ Esistono anche altri due valori "centrali", che nel caso continuo diventano: mediana: $$ \int\limits_{-\infty}^{x_{\text{med}}} dx \, f(x) = \frac{1}{2} $$ moda: valore per cui $f(x)$ è massima, ovvero valore che si ripete con maggiore frequenza. Se la pdf ha code molto estese, è possibile che gli integrali non convergano e questi valori non siano definiti. Per questo motivo la mediana è uno stimatore del valore centrale più robusto della media. I momenti centrali definiscono il modo in cui i dati si distribuiscono attorno al valore centrale: quanto sono "diffusi". Il primo è la varianza (si noti la correzione di Bessel per cui $N \rightarrow N -1$ al denominatore): $$ V = \frac{1}{N - 1} \sum_{i = 1}^N (x_i - \bar{x})^2 $$ La skewness (letteralmente "asimmetria") descrive quanto i valori siano distribuiti in modo disuniforme attorno al valore medio: $$ \gamma = \frac{1}{\sigma^3} E[(x - \bar{x})^3] $$ dove $\sigma$ è la deviazione standard. ![Skewness.](images/skewness.png){width=12cm} Quanto una pdf è più o meno piccata rispetto ad una gaussuana è dato dalla kurtosis ("curved", "arching"): $$ K = \frac{1}{\sigma^4} E[(x -\bar{x})^4] -3 $$ ![Kurtosis.](images/kurtosis.png){width=8cm} Esiste una stima per le deviazioni standard di questi parametri nel caso di distribizioni circa gaussiane: \begin{align*} &V(\sigma^2) = \frac{2 \sigma^4}{N} \\ &V(\gamma) \approx \frac{15}{N} \\ &V(K) \approx \frac{96}{N} \end{align*} ### Smoothing dei dati Lo smoothing dei dati si rende necessario quando i dati sono corrotti da un rumore casuale. Solitamente si attua una media su finestre che inglobano dati contigui. Fare una media, però, significa abbassare inevitabilmente il valore nei picchi, perché la maggior parte delle volte conservano l'area al di sotto del picco e la posizione, ma non l'altezza. Uno dei più efficienti metodi di smoothing è il filtro di Savitsky-Golay. Il segnale viene analizzato a gruppi di punti incentrati ciascuno in $Y_i$, con $i$ che scorre su tutto l'array. Chiamiamo $y_0$ il punto centrale e $Y_N$ e $Y_{-N}$ gli estremi. $Y_0$ viene sostituito con un valore calcolato in un modo spiegato di seguito. Durante questo processo, i valori di $Y_i$ non vengono sostituiti con $f_i$, bensì si crea un array parallelo che sarà poi quello definitivo smoothato. I valori di $Y_i$ si ottengono tramite un fit sui punti della finestra con un polinomio di grado arbitrario $g$: $P_g(j)$. Il polinomio viene poi valutato in zero e sostituito al valore di $y_0$. ### Test di ipotesi Supponiamo di voler dimostrare che una certa variabile casuale $x$ segua una pdf $f(x)$: questa è detta ipotesi nulla $H_0$. Se $f(x)$ non dipende da alcun parametro, si parla di ipotesi semplice, altrimenti di dice composta. Oltre alla ipotesi nulla si possono avere una o più ipotesi alternative $H_1$, $H_2$... Consideriamo il semplice caso in cui abbiamo una sola ipotesi alternativa $H_1$ che proponga a sua volta una pdf. Per valutare l'accordo tra i dati e un'ipotesi nulla si costruisce una statistica di test $t(x)$, che è una variabile che dipende da $\vec{x}$ che definisco per determinare se l'ipotesi nulla sia vera oppure no (vedi $t_{\text{cut}}$ oppure la discrepanza...) e che segue a sua volta due pdf, una prevista da $H_0$ e una da $H_1$. \begin{center} \begin{tikzpicture} \draw [thick, ->] (0,0) -- (12,0); \draw [thick, ->] (0,0) -- (0,6); \node [left] at (0,6) {g(t)}; \node [below] at (12,0) {t}; \draw [thick, dashed] (6,0) -- (6,6); \node [below] at (6,0) {$t_{\text{cut}}$}; \draw [thick, blue] (0,0) to [out = 20, in = 180] (3,5) to [out = 0, in = 180] (8,0); \draw [thick, red] (4,0) to [out = 20, in = 180] (7,3) to [out = 0, in = 180] (11,0); \node [blue] at (2.5, 2) {$g(t \, | \, H_0)$}; \node [red] at (8, 1) {$g(t \, | \, H_1)$}; \end{tikzpicture} \end{center} Si definisce 'significanza del criterio di test' $\alpha$ (mentre $(1 - \alpha)$ è il 'livello di confidenza del criterio di test', o 'efficienza'): $$ \alpha = \int\limits_{t_{\text{cut}}}^{+ \infty} dt \, g(t \, | \, H_0) $$ mentre $\beta$ è chiamato 'potenza del test' (mentre $(1 - \beta)$ è detto 'purezza'): $$ \beta = \int\limits_{-\infty}^{t_{\text{cut}}} dt \, g(t \, | \, H_1) $$ Si chiamano: - errore di prima specie: rigezione di $H_0$ qualora questa sia vera (con relativa probabilità $P_1$); - errore di seconda specie: accettazion di $H_0$ qualora questa sia falsa (con relativa probabilità $P_2$); Per $t < t_{\text{cut}}$ deciso arbitrariamente, imponiamo che l'ipotesi nulla sia verificata. Ne consgue che $\alpha = P_1$ e $\beta = P_2$. La scelta migliore di $y_{\text{cut}}$ è quella che dà la massima purezza data una certa efficienza. Nel caso 1D lo si ottiene automaticamente (vedi esempio), altrimenti può essere complicato. Facciamo un esempio in cui applichiamo il lemma di Neyman-Pearson. Immaginiamo di avere i valori $\vec{x} = (x_1 ... x_N)$ che appartengono ad una distribuzione normale la cui varianza $\sigma$ è nota e si deve distinguere tra due valori medi $\mu_0$ e $\mu_1$, cioé: $$ H_0 = [\mu = \mu_0] \hspace{100pt} H_1 = [\mu = \mu_1] $$ A questo punto le pdf previste da $H_0$ e $H_1$ sono due gaussiane centrate ciascuna nel proprio valore medio. Secondo il lemma di cui sopra, dobbiamo calcolare la Likelihood, che è la produttoria su tutte le misure effettuate $x_i$ della pdf prevista di un'ipotesi calcolata in $x_i$: $$ L(\vec{x}, \mu, \sigma) = \frac{1}{(\sigma \sqrt{2 \pi})^N} \Pi_{i=1}^N N(x_i, \nu, \sigma) $$ dove con $N$ si indica la distribuzione normale. Si tratta, cioè, della probabilità di avere ottenuto quelle misure secondo l'ipotesi considerata. Vorremo, quindi, che $L(H_0) >> L(H_1)$. A questo scopo si guarda $r$, parametro previsto dal lemma, che vale: $$ r = \frac{(L(\vec{x}) \, | \, H_0)}{(L(\vec{x}) \, | \, H_1)} \hspace{30pt} \Longrightarrow \hspace{30pt} \ln{r} = \ln{L(\vec{x}, \mu_0, \sigma)} - \ln{L(\vec{x}, \mu_0, \sigma)} $$ Che deve essere a sua volta molto grande. La regione in cui si deve accettare l'ipotesi nulla è infatti quella con $r > c$, dove $c$ deve ancora essere valutato. $$ \ln{r} = R(\vec{x}) > \ln{c} \hspace{30pt} \Longrightarrow \hspace{30pt} \vec{x} > (\text{oppure} <) \, g(c) = t_{\text{cut}} $$ Per scegliere $k$, si impone che: $$ P_1 = \alpha = Pr(\vec{x} > (\text{oppure} <) \, t_{\text{cut}} \, | \, H_0) $$ Quindi ciò che può essere scelto arbitrariamente, alla fine dei conti, è $\alpha$, che solitamente si impone $= 5 \%$. ### Discriminante lineare di Fisher In che modo si possono definire $f(t \, | \, H_0)$ e $f(t \, | \, H_1)$? Si possono fare degli *ansatz* riguardo alla forma di $t$. Il modello di Fischer utilizza una funzione lineare: $$ t = \sum_{i = 1}^N a_i x_i = \vec{a} \cdot \vec{x} $$ dove il vettore $\vec{a}$ è da determinare. Definiamo l'insieme dei valori medi e delle "varianze" delle variabili misurate come segue: $\mu_{k, i}$ è il valore medio della variabile $i$-esima secondo l'ipotesi $k$-esima: $$ \mu_{k,i} = \int\limits_{-\infty}^{+\infty} dx_1 \dots dx_N \, x_i f(\vec{x} \, | \, H_k) $$ dove $k$ può quindi essere 0 o 1; mentre: $$ (V_k)_{i,j} = \int\limits_{-\infty}^{+\infty} dx_1 \dots dx_N \, (x_i - \mu_{k,i})(x_j - \mu_{k,j}) f(\vec{x} \, | \, H_k) $$ Si può dimostrare che, per funzioni gaussiane, la migliore statistica di test (ovvero che massimizza $1 - \beta$ per un dato $a$) è quella per cui: $$ \vec{a} = \frac{1}{w} (\vec{\nu}_0 - \vec{\nu}_1) \hspace{40pt} \text{con} \hspace{40pt} W_{i,j} = (V_0 + V_i)_{i,j} $$ In genere si introduce anche un offset: $$ t = a_0 + \sum_{i = 1}^N a_i x_i $$ ### Reti neuronali Si può dimostrare che se si usa il discriminante lineare di Fisher, allora dati i dati $\vec{x}$, la probabilità che sia giusta $H_0$ è: $$ P(H_0 | \vec{x}) = frac{1}{1 + e^{-t}} $$ ![Logistic function.](images/logistic.png){width=6cm} che è la funzione logistica. Se le due pdf $f(\vec{x} | H_0)$ e $f(\vec{x} | H_1)$ non sono gaussiane, allora il discriminante lineare di Fisher non è più ottimale e si può generalizzare $t(\vec{x})$ con un caso speciale di Artificial Neural Network (ANN). Supponiamo di prendere $$ t(\vec{x}) = s_0 \left( a_0 \sum_{i = 1}^N a_i x_i \right) $$ con $s$ detta funzione di attivazione e $a_0$ detta soglia. Siccome la sigmoide è monotona, questa ANN è equivalente ad un test lineare.