9.4 KiB
BPH
Statistica descrittiva
Si possono distinguere due tipi di analisi dei dati: "model independent"
(statistica descrittiva) e "model dependent", che si basano su un modello
teorico. In questo capitolo studiamo quelli del primo tipo.
Alcuni argomenti tipici di statistica descrittiva sono:
- test per stabilire se due datasets provengono dalla stessa distribuzione
f(x)
; - test per stabilire la correlazione tra due datasets (test di ipotesi);
- metodi per determinare i momenti di una distribuzione;
- metodi per lo smoothing dei dati sperimentali.
Momenti di una distribuzione
Definire i momenti di una distribuzione ha senso quando gli eventi che la costituiscono hanno la tendenza ad agglomerarsi attorno ad un valore centrale. Se i dati sono discreti, si usano le seguenti definizioni:
Media campionaria: se n_i
è la frequenza con cui si presenta ciascun valore
x_j
:
\bar{x} = \frac{1}{N} \sum_{i = 1}^N x_i
= \frac{1}{N} \sum_{j = 1}^{N'} n_j x_j
Momento centrale di ordine r
:
V_r = \frac{1}{N} \sum_{j=1}^{N'} n_j^r (x_j - \bar{x})^r
Esistono anche altri due valori "centrali", che nel caso continuo diventano: mediana:
\int\limits_{-\infty}^{x_{\text{med}}} dx \, f(x) = \frac{1}{2}
moda: valore per cui f(x)
è massima, ovvero valore che si ripete con
maggiore frequenza.
Se la pdf ha code molto estese, è possibile che gli integrali non convergano
e questi valori non siano definiti. Per questo motivo la mediana è uno
stimatore del valore centrale più robusto della media.
I momenti centrali definiscono il modo in cui i dati si distribuiscono attorno
al valore centrale: quanto sono "diffusi". Il primo è la varianza (si noti la
correzione di Bessel per cui N \rightarrow N -1
al denominatore):
V = \frac{1}{N - 1} \sum_{i = 1}^N (x_i - \bar{x})^2
La skewness (letteralmente "asimmetria") descrive quanto i valori siano distribuiti in modo disuniforme attorno al valore medio:
\gamma = \frac{1}{\sigma^3} E[(x - \bar{x})^3]
dove \sigma
è la deviazione standard.
Quanto una pdf è più o meno piccata rispetto ad una gaussuana è dato dalla kurtosis ("curved", "arching"):
K = \frac{1}{\sigma^4} E[(x -\bar{x})^4] -3
Esiste una stima per le deviazioni standard di questi parametri nel caso di distribizioni circa gaussiane:
\begin{align*} &V(\sigma^2) = \frac{2 \sigma^4}{N} \ &V(\gamma) \approx \frac{15}{N} \ &V(K) \approx \frac{96}{N} \end{align*}
Smoothing dei dati
Lo smoothing dei dati si rende necessario quando i dati sono corrotti da un
rumore casuale. Solitamente si attua una media su finestre che inglobano dati
contigui. Fare una media, però, significa abbassare inevitabilmente il valore
nei picchi, perché la maggior parte delle volte conservano l'area al di sotto
del picco e la posizione, ma non l'altezza.
Uno dei più efficienti metodi di smoothing è il filtro di Savitsky-Golay.
Il segnale viene analizzato a gruppi di punti incentrati ciascuno in Y_i
, con
i
che scorre su tutto l'array. Chiamiamo y_0
il punto centrale e Y_N
e
Y_{-N}
gli estremi. Y_0
viene sostituito con un valore calcolato in un modo
spiegato di seguito. Durante questo processo, i valori di Y_i
non vengono
sostituiti con f_i
, bensì si crea un array parallelo che sarà poi quello
definitivo smoothato.
I valori di Y_i
si ottengono tramite un fit sui punti della finestra con
un polinomio di grado arbitrario g
: P_g(j)
. Il polinomio viene poi
valutato in zero e sostituito al valore di y_0
.
Test di ipotesi
Supponiamo di voler dimostrare che una certa variabile casuale x
segua una
pdf f(x)
: questa è detta ipotesi nulla H_0
. Se f(x)
non dipende da alcun
parametro, si parla di ipotesi semplice, altrimenti di dice composta. Oltre
alla ipotesi nulla si possono avere una o più ipotesi alternative H_1
,
H_2
...
Consideriamo il semplice caso in cui abbiamo una sola ipotesi alternativa
H_1
che proponga a sua volta una pdf. Per valutare l'accordo tra i dati e
un'ipotesi nulla si costruisce una statistica di test t(x)
, che è una
variabile che dipende da \vec{x}
che definisco per determinare se l'ipotesi
nulla sia vera oppure no (vedi t_{\text{cut}}
oppure la discrepanza...) e che
segue a sua volta due pdf, una prevista da H_0
e una da H_1
.
\begin{center} \begin{tikzpicture}
\draw [thick, ->] (0,0) -- (12,0); \draw [thick, ->] (0,0) -- (0,6); \node [left] at (0,6) {g(t)}; \node [below] at (12,0) {t}; \draw [thick, dashed] (6,0) -- (6,6); \node [below] at (6,0) {$t_{\text{cut}}$}; \draw [thick, blue] (0,0) to [out = 20, in = 180] (3,5) to [out = 0, in = 180] (8,0); \draw [thick, red] (4,0) to [out = 20, in = 180] (7,3) to [out = 0, in = 180] (11,0); \node [blue] at (2.5, 2) {$g(t , | , H_0)$}; \node [red] at (8, 1) {$g(t , | , H_1)$};
\end{tikzpicture} \end{center}
Si definisce 'significanza del criterio di test' \alpha
(mentre $(1 -
\alpha)$ è il 'livello di confidenza del criterio di test', o 'efficienza'):
\alpha = \int\limits_{t_{\text{cut}}}^{+ \infty} dt \, g(t \, | \, H_0)
mentre \beta
è chiamato 'potenza del test' (mentre (1 - \beta)
è
detto 'purezza'):
\beta = \int\limits_{-\infty}^{t_{\text{cut}}} dt \, g(t \, | \, H_1)
Si chiamano:
- errore di prima specie: rigezione di
H_0
qualora questa sia vera (con relativa probabilitàP_1
); - errore di seconda specie: accettazion di
H_0
qualora questa sia falsa (con relativa probabilitàP_2
);
Per t < t_{\text{cut}}
deciso arbitrariamente, imponiamo che l'ipotesi
nulla sia verificata. Ne consgue che \alpha = P_1
e \beta = P_2
.
La scelta migliore di y_{\text{cut}}
è quella che dà la massima purezza data
una certa efficienza. Nel caso 1D lo si ottiene automaticamente (vedi esempio),
altrimenti può essere complicato.
Facciamo un esempio in cui applichiamo il lemma di Neyman-Pearson.
Immaginiamo di avere i valori \vec{x} = (x_1 ... x_N)
che appartengono ad
una distribuzione normale la cui varianza \sigma
è nota e si deve distinguere
tra due valori medi \mu_0
e \mu_1
, cioé:
H_0 = [\mu = \mu_0]
\hspace{100pt}
H_1 = [\mu = \mu_1]
A questo punto le pdf previste da H_0
e H_1
sono due gaussiane centrate
ciascuna nel proprio valore medio. Secondo il lemma di cui sopra, dobbiamo
calcolare la Likelihood, che è la produttoria su tutte le misure effettuate
x_i
della pdf prevista di un'ipotesi calcolata in x_i
:
L(\vec{x}, \mu, \sigma) = \frac{1}{(\sigma \sqrt{2 \pi})^N} \Pi_{i=1}^N
N(x_i, \nu, \sigma)
dove con N
si indica la distribuzione normale. Si tratta, cioè, della
probabilità di avere ottenuto quelle misure secondo l'ipotesi considerata.
Vorremo, quindi, che L(H_0) >> L(H_1)
. A questo scopo si guarda r
,
parametro previsto dal lemma, che vale:
r = \frac{(L(\vec{x}) \, | \, H_0)}{(L(\vec{x}) \, | \, H_1)}
\hspace{30pt} \Longrightarrow \hspace{30pt}
\ln{r} = \ln{L(\vec{x}, \mu_0, \sigma)} - \ln{L(\vec{x}, \mu_0, \sigma)}
Che deve essere a sua volta molto grande. La regione in cui si deve accettare
l'ipotesi nulla è infatti quella con r > c
, dove c
deve ancora essere
valutato.
\ln{r} = R(\vec{x}) > \ln{c}
\hspace{30pt} \Longrightarrow \hspace{30pt}
\vec{x} > (\text{oppure} <) \, g(c) = t_{\text{cut}}
Per scegliere k
, si impone che:
P_1 = \alpha = Pr(\vec{x} > (\text{oppure} <) \, t_{\text{cut}} \,
| \, H_0)
Quindi ciò che può essere scelto arbitrariamente, alla fine dei conti, è
\alpha
, che solitamente si impone = 5 \%
.
Discriminante lineare di Fisher
In che modo si possono definire f(t \, | \, H_0)
e f(t \, | \, H_1)
? Si
possono fare degli ansatz riguardo alla forma di t
. Il modello di Fischer
utilizza una funzione lineare:
t = \sum_{i = 1}^N a_i x_i = \vec{a} \cdot \vec{x}
dove il vettore \vec{a}
è da determinare. Definiamo l'insieme dei valori medi
e delle "varianze" delle variabili misurate come segue: \mu_{k, i}
è il valore
medio della variabile $i$-esima secondo l'ipotesi $k$-esima:
\mu_{k,i} = \int\limits_{-\infty}^{+\infty} dx_1 \dots dx_N
\, x_i f(\vec{x} \, | \, H_k)
dove k
può quindi essere 0 o 1; mentre:
(V_k)_{i,j} = \int\limits_{-\infty}^{+\infty} dx_1 \dots dx_N
\, (x_i - \mu_{k,i})(x_j - \mu_{k,j}) f(\vec{x} \, | \, H_k)
Si può dimostrare che, per funzioni
gaussiane, la migliore statistica di test (ovvero che massimizza $1 - \beta$
per un dato a
) è quella per cui:
\vec{a} = \frac{1}{w} (\vec{\nu}_0 - \vec{\nu}_1)
\hspace{40pt} \text{con} \hspace{40pt}
W_{i,j} = (V_0 + V_i)_{i,j}
In genere si introduce anche un offset:
t = a_0 + \sum_{i = 1}^N a_i x_i
Reti neuronali
Si può dimostrare che se si usa il discriminante lineare di Fisher, allora dati
i dati \vec{x}
, la probabilità che sia giusta H_0
è:
P(H_0 | \vec{x}) = frac{1}{1 + e^{-t}}
che è la funzione logistica. Se le due pdf f(\vec{x} | H_0)
e $f(\vec{x} |
H_1)$ non sono gaussiane, allora il discriminante lineare di Fisher non è più
ottimale e si può generalizzare t(\vec{x})
con un caso speciale di Artificial
Neural Network (ANN).
Supponiamo di prendere
t(\vec{x}) = s_0 \left( a_0 \sum_{i = 1}^N a_i x_i \right)
con s
detta funzione di attivazione e a_0
detta soglia. Siccome la sigmoide
è monotona, questa ANN è equivalente ad un test lineare.