analistica/lectures/sections/modulo-3.md

9.4 KiB

BPH

Statistica descrittiva

Si possono distinguere due tipi di analisi dei dati: "model independent" (statistica descrittiva) e "model dependent", che si basano su un modello teorico. In questo capitolo studiamo quelli del primo tipo.
Alcuni argomenti tipici di statistica descrittiva sono:

  • test per stabilire se due datasets provengono dalla stessa distribuzione f(x);
  • test per stabilire la correlazione tra due datasets (test di ipotesi);
  • metodi per determinare i momenti di una distribuzione;
  • metodi per lo smoothing dei dati sperimentali.

Momenti di una distribuzione

Definire i momenti di una distribuzione ha senso quando gli eventi che la costituiscono hanno la tendenza ad agglomerarsi attorno ad un valore centrale. Se i dati sono discreti, si usano le seguenti definizioni:

Media campionaria: se n_i è la frequenza con cui si presenta ciascun valore x_j:


  \bar{x} = \frac{1}{N} \sum_{i = 1}^N x_i
          = \frac{1}{N} \sum_{j = 1}^{N'} n_j x_j

Momento centrale di ordine r:


  V_r = \frac{1}{N}   \sum_{j=1}^{N'} n_j^r (x_j - \bar{x})^r

Esistono anche altri due valori "centrali", che nel caso continuo diventano: mediana:


  \int\limits_{-\infty}^{x_{\text{med}}} dx \, f(x) = \frac{1}{2}

moda: valore per cui f(x) è massima, ovvero valore che si ripete con maggiore frequenza.
Se la pdf ha code molto estese, è possibile che gli integrali non convergano e questi valori non siano definiti. Per questo motivo la mediana è uno stimatore del valore centrale più robusto della media.

I momenti centrali definiscono il modo in cui i dati si distribuiscono attorno al valore centrale: quanto sono "diffusi". Il primo è la varianza (si noti la correzione di Bessel per cui N \rightarrow N -1 al denominatore):


  V = \frac{1}{N - 1} \sum_{i = 1}^N (x_i - \bar{x})^2

La skewness (letteralmente "asimmetria") descrive quanto i valori siano distribuiti in modo disuniforme attorno al valore medio:


  \gamma = \frac{1}{\sigma^3} E[(x - \bar{x})^3]

dove \sigma è la deviazione standard.

Skewness.{width=12cm}

Quanto una pdf è più o meno piccata rispetto ad una gaussuana è dato dalla kurtosis ("curved", "arching"):


  K = \frac{1}{\sigma^4} E[(x -\bar{x})^4] -3

Kurtosis.{width=8cm}

Esiste una stima per le deviazioni standard di questi parametri nel caso di distribizioni circa gaussiane:

\begin{align*} &V(\sigma^2) = \frac{2 \sigma^4}{N} \ &V(\gamma) \approx \frac{15}{N} \ &V(K) \approx \frac{96}{N} \end{align*}

Smoothing dei dati

Lo smoothing dei dati si rende necessario quando i dati sono corrotti da un rumore casuale. Solitamente si attua una media su finestre che inglobano dati contigui. Fare una media, però, significa abbassare inevitabilmente il valore nei picchi, perché la maggior parte delle volte conservano l'area al di sotto del picco e la posizione, ma non l'altezza.
Uno dei più efficienti metodi di smoothing è il filtro di Savitsky-Golay.

Il segnale viene analizzato a gruppi di punti incentrati ciascuno in Y_i, con i che scorre su tutto l'array. Chiamiamo y_0 il punto centrale e Y_N e Y_{-N} gli estremi. Y_0 viene sostituito con un valore calcolato in un modo spiegato di seguito. Durante questo processo, i valori di Y_i non vengono sostituiti con f_i, bensì si crea un array parallelo che sarà poi quello definitivo smoothato.
I valori di Y_i si ottengono tramite un fit sui punti della finestra con un polinomio di grado arbitrario g: P_g(j). Il polinomio viene poi valutato in zero e sostituito al valore di y_0.

Test di ipotesi

Supponiamo di voler dimostrare che una certa variabile casuale x segua una pdf f(x): questa è detta ipotesi nulla H_0. Se f(x) non dipende da alcun parametro, si parla di ipotesi semplice, altrimenti di dice composta. Oltre alla ipotesi nulla si possono avere una o più ipotesi alternative H_1, H_2...
Consideriamo il semplice caso in cui abbiamo una sola ipotesi alternativa H_1 che proponga a sua volta una pdf. Per valutare l'accordo tra i dati e un'ipotesi nulla si costruisce una statistica di test t(x), che è una variabile che dipende da \vec{x} che definisco per determinare se l'ipotesi nulla sia vera oppure no (vedi t_{\text{cut}} oppure la discrepanza...) e che segue a sua volta due pdf, una prevista da H_0 e una da H_1.

\begin{center} \begin{tikzpicture}

\draw [thick, ->] (0,0) -- (12,0); \draw [thick, ->] (0,0) -- (0,6); \node [left] at (0,6) {g(t)}; \node [below] at (12,0) {t}; \draw [thick, dashed] (6,0) -- (6,6); \node [below] at (6,0) {$t_{\text{cut}}$}; \draw [thick, blue] (0,0) to [out = 20, in = 180] (3,5) to [out = 0, in = 180] (8,0); \draw [thick, red] (4,0) to [out = 20, in = 180] (7,3) to [out = 0, in = 180] (11,0); \node [blue] at (2.5, 2) {$g(t , | , H_0)$}; \node [red] at (8, 1) {$g(t , | , H_1)$};

\end{tikzpicture} \end{center}

Si definisce 'significanza del criterio di test' \alpha (mentre $(1 - \alpha)$ è il 'livello di confidenza del criterio di test', o 'efficienza'):


  \alpha = \int\limits_{t_{\text{cut}}}^{+ \infty} dt \, g(t \, | \, H_0)

mentre \beta è chiamato 'potenza del test' (mentre (1 - \beta) è detto 'purezza'):


  \beta = \int\limits_{-\infty}^{t_{\text{cut}}} dt \, g(t \, | \, H_1)

Si chiamano:

  • errore di prima specie: rigezione di H_0 qualora questa sia vera (con relativa probabilità P_1);
  • errore di seconda specie: accettazion di H_0 qualora questa sia falsa (con relativa probabilità P_2);

Per t < t_{\text{cut}} deciso arbitrariamente, imponiamo che l'ipotesi nulla sia verificata. Ne consgue che \alpha = P_1 e \beta = P_2.
La scelta migliore di y_{\text{cut}} è quella che dà la massima purezza data una certa efficienza. Nel caso 1D lo si ottiene automaticamente (vedi esempio), altrimenti può essere complicato.

Facciamo un esempio in cui applichiamo il lemma di Neyman-Pearson.
Immaginiamo di avere i valori \vec{x} = (x_1 ... x_N) che appartengono ad una distribuzione normale la cui varianza \sigma è nota e si deve distinguere tra due valori medi \mu_0 e \mu_1, cioé:


  H_0 = [\mu = \mu_0]
  \hspace{100pt}
  H_1 = [\mu = \mu_1]

A questo punto le pdf previste da H_0 e H_1 sono due gaussiane centrate ciascuna nel proprio valore medio. Secondo il lemma di cui sopra, dobbiamo calcolare la Likelihood, che è la produttoria su tutte le misure effettuate x_i della pdf prevista di un'ipotesi calcolata in x_i:


  L(\vec{x}, \mu, \sigma) = \frac{1}{(\sigma \sqrt{2 \pi})^N} \Pi_{i=1}^N
  N(x_i, \nu, \sigma)

dove con N si indica la distribuzione normale. Si tratta, cioè, della probabilità di avere ottenuto quelle misure secondo l'ipotesi considerata. Vorremo, quindi, che L(H_0) >> L(H_1). A questo scopo si guarda r, parametro previsto dal lemma, che vale:


  r = \frac{(L(\vec{x}) \, | \, H_0)}{(L(\vec{x}) \, | \, H_1)}
  \hspace{30pt} \Longrightarrow \hspace{30pt}
  \ln{r} = \ln{L(\vec{x}, \mu_0, \sigma)} - \ln{L(\vec{x}, \mu_0, \sigma)}

Che deve essere a sua volta molto grande. La regione in cui si deve accettare l'ipotesi nulla è infatti quella con r > c, dove c deve ancora essere valutato.


  \ln{r} = R(\vec{x}) > \ln{c}
  \hspace{30pt} \Longrightarrow \hspace{30pt}
  \vec{x} > (\text{oppure} <) \, g(c) = t_{\text{cut}}

Per scegliere k, si impone che:


  P_1 = \alpha = Pr(\vec{x} > (\text{oppure} <) \, t_{\text{cut}} \,
  | \, H_0) 

Quindi ciò che può essere scelto arbitrariamente, alla fine dei conti, è \alpha, che solitamente si impone = 5 \%.

Discriminante lineare di Fisher

In che modo si possono definire f(t \, | \, H_0) e f(t \, | \, H_1)? Si possono fare degli ansatz riguardo alla forma di t. Il modello di Fischer utilizza una funzione lineare:


  t = \sum_{i = 1}^N a_i x_i = \vec{a} \cdot \vec{x}

dove il vettore \vec{a} è da determinare. Definiamo l'insieme dei valori medi e delle "varianze" delle variabili misurate come segue: \mu_{k, i} è il valore medio della variabile $i$-esima secondo l'ipotesi $k$-esima:


  \mu_{k,i} = \int\limits_{-\infty}^{+\infty} dx_1 \dots dx_N
  \, x_i f(\vec{x} \, | \, H_k)

dove k può quindi essere 0 o 1; mentre:


  (V_k)_{i,j} = \int\limits_{-\infty}^{+\infty} dx_1 \dots dx_N
  \, (x_i - \mu_{k,i})(x_j - \mu_{k,j}) f(\vec{x} \, | \, H_k)

Si può dimostrare che, per funzioni gaussiane, la migliore statistica di test (ovvero che massimizza $1 - \beta$ per un dato a) è quella per cui:


  \vec{a} = \frac{1}{w} (\vec{\nu}_0 - \vec{\nu}_1)
  \hspace{40pt} \text{con} \hspace{40pt}
  W_{i,j} = (V_0 + V_i)_{i,j}

In genere si introduce anche un offset:


  t = a_0 + \sum_{i = 1}^N a_i x_i

Reti neuronali

Si può dimostrare che se si usa il discriminante lineare di Fisher, allora dati i dati \vec{x}, la probabilità che sia giusta H_0 è:


  P(H_0 | \vec{x}) = frac{1}{1 + e^{-t}}

Logistic function.{width=6cm}

che è la funzione logistica. Se le due pdf f(\vec{x} | H_0) e $f(\vec{x} | H_1)$ non sono gaussiane, allora il discriminante lineare di Fisher non è più ottimale e si può generalizzare t(\vec{x}) con un caso speciale di Artificial Neural Network (ANN).
Supponiamo di prendere


  t(\vec{x}) = s_0 \left( a_0 \sum_{i = 1}^N a_i x_i \right)

con s detta funzione di attivazione e a_0 detta soglia. Siccome la sigmoide è monotona, questa ANN è equivalente ad un test lineare.