lectures: remove everything about the previous pdf
Before Width: | Height: | Size: 13 KiB |
Before Width: | Height: | Size: 17 KiB |
Before Width: | Height: | Size: 119 KiB |
Before Width: | Height: | Size: 17 KiB |
Before Width: | Height: | Size: 15 KiB |
Before Width: | Height: | Size: 20 KiB |
Before Width: | Height: | Size: 44 KiB |
Before Width: | Height: | Size: 18 KiB |
Before Width: | Height: | Size: 48 KiB |
Before Width: | Height: | Size: 14 KiB |
Before Width: | Height: | Size: 67 KiB |
Before Width: | Height: | Size: 18 KiB |
Before Width: | Height: | Size: 17 KiB |
Before Width: | Height: | Size: 21 KiB |
@ -1,17 +0,0 @@
|
||||
sections = $(shell find sections/ -name '*.md' | sort -V)
|
||||
|
||||
pandoc = \
|
||||
@ pandoc $(1) \
|
||||
--toc \
|
||||
--standalone \
|
||||
--pdf-engine=xelatex \
|
||||
-F pandoc-crossref \
|
||||
-o $(2).pdf
|
||||
|
||||
all: lectures.pdf
|
||||
|
||||
clean:
|
||||
rm lectures.pdf
|
||||
|
||||
lectures.pdf: $(sections) images
|
||||
$(call pandoc, $(sections), lessons)
|
@ -1,23 +0,0 @@
|
||||
---
|
||||
title: Analisi statistica
|
||||
subtitle: Riassunto delle slides
|
||||
numbersections: true
|
||||
documentclass: article
|
||||
fontsize: 12pt
|
||||
|
||||
geometry:
|
||||
- width=150mm
|
||||
- top=20mm
|
||||
- bottom=30mm
|
||||
|
||||
header-includes: |
|
||||
```{=latex}
|
||||
% start new page with each section
|
||||
\usepackage{etoolbox}
|
||||
\usepackage{tikz}
|
||||
\usepackage{amsmath}
|
||||
\usepackage{amssymb}
|
||||
\usepackage{siunitx}
|
||||
\pretocmd{\section}{\clearpage}{}{}
|
||||
```
|
||||
---
|
@ -1,140 +0,0 @@
|
||||
# Calcolo numerico
|
||||
|
||||
## Compilare un programma
|
||||
|
||||
Per eseguire un programma, un computer fa questa cosa: legge le informazioni
|
||||
dall'input e le mette nella memoria; poi da qui legge le istruzioni
|
||||
sequenzialmente e se c'è qualche calcolo da fare, lo fa fare alla ALU
|
||||
(aritmetic logic unit) e memorizza il risultato nella memoria; alla fine passa
|
||||
tutto in output.
|
||||
Per essere eseguibile, un programma deve essere scritto in codice macchina
|
||||
e per questo si usano i linguaggi di programmazione che, attraverso il
|
||||
compilatore, vengono tradotti in codice macchina:
|
||||
|
||||
- codice sorgente,
|
||||
- compilatore,
|
||||
- codice oggetto,
|
||||
- linker (aggiunge le librerie),
|
||||
- codice eseguibile.
|
||||
|
||||
## Errori di implementazione
|
||||
|
||||
Quando si passa dal modello astratto a quello implementato, si distinguono
|
||||
tre tipi di errori:
|
||||
|
||||
- errori analitici: causati dalla necessità di una aritmetica discreta,
|
||||
cioè il fatto che non si possa rappresentare una cosa continua e quindi
|
||||
la si fa a punti;
|
||||
- errori inerenti o algoritmici (o di round-off): causati dal numero finito di
|
||||
cifre significative. Dipendono dall'algoritmo utilizzato, perché ci sono
|
||||
metodi migliori di altri per evitare questo tipo di problemi.
|
||||
|
||||
## Rappresentazione di un numero
|
||||
|
||||
L'obiettivo è quello di tenere sotto controllo gli errori di round-off.
|
||||
Per rappresentare un numero, esistono diverse rappresentazioni, tra cui quella
|
||||
di Von Neumann: si dedicano $n$ cifre significative alla mantissa e poi un tot
|
||||
anche alla caratteristica, cioè all'ordine di grandezza (che generalmente è in
|
||||
base 2).
|
||||
Con $n$ cifre significative in base 2, il numero più alto rappresentabile è
|
||||
$2^n -1$ perché con due cifre (0 e 1), ci sono $2^n$ possibili numeri
|
||||
rappresentabili e, se posti in ordine crescente, ognuno dista dal precedente
|
||||
un'unità, con il minimo che vale 0 (tutti 0), per cui il numero più alto che si
|
||||
può rappresentare è $2^n -1$:
|
||||
|
||||
- 0 è l'1,
|
||||
- 1 e il 2,
|
||||
- ...$2^n -1$ è il $2^n$-esimo.
|
||||
|
||||
questo numero corrisponde a un numero in base dieci di $m$ cifre significative,
|
||||
per cui:
|
||||
|
||||
$$
|
||||
m = \log(2^n -1)
|
||||
$$
|
||||
|
||||
quindi per un numero con 24 bit per la mantissa, si hanno circa 7 cifre
|
||||
significative in base 10.
|
||||
In precisione semplice (floating point):
|
||||
|
||||
- un bit per il segno,
|
||||
- 23 bit per la mantissa (quindi 7 cifre significative),
|
||||
- 8 bits per la caratteristica.
|
||||
|
||||
In precisione doppia (duble) si raddoppiano i bite alla mantissa e le cifre
|
||||
significative diventano 17, però il tempo per le moltiplicazioni è triplicato
|
||||
e si occupa più memoria, quindi non è che convenga moltissimo.
|
||||
|
||||
Esiste anche la rappresentazione fixed-point, in cui c'è un bit per il segno
|
||||
e i restanti per il numero in sé, in cui da qualche parte c'è la virgola.
|
||||
Nel caso del fixed pointd, l'errore relativo può variare moltissimo a seconda
|
||||
del numero rappresentato, mentre per i float è lo stesso per ogni numero: la
|
||||
densità relativa non è costante.
|
||||
Quando un insieme di rappresentazione non è chiuso rispetto ad un'operazione,
|
||||
il risultato presenta sicuramente errore di round-off e deve essere
|
||||
approssimato.
|
||||
|
||||
|
||||
## Errori algoritmici
|
||||
|
||||
Per numeri troppo grandi o troppo piccoli che non si riesce a
|
||||
rappresentare, si parla rispettivamente di overflow o underflow. Per questo
|
||||
motivo, somme e soprattutto differenze di numeri grandi portano grandi errori
|
||||
dovuti all'arrotondamento: bisogna cercare di evitarlo se possibile. Per
|
||||
esempio, per calcolare un polinomio, conviene usare il metodi di
|
||||
Ruffini-Horner perché riduce il numero di operazioni da effettuare:
|
||||
|
||||
- metodo semplice:
|
||||
|
||||
$$
|
||||
p(x) = a_0 + a_1x + a_2x^2 + ... +a_nx^n
|
||||
$$
|
||||
|
||||
che sono n addizioni e n(n+1)/2 moltiplicazioni, quindi $\sim n^2$.
|
||||
- metodo di R-H:
|
||||
|
||||
$$
|
||||
p (x) = (((((a_n)x +a_{n-1})x +a_{n-2}x +...
|
||||
$$
|
||||
|
||||
che sono n addizioni e n moltiplicazioni, quindi $\sim n$.
|
||||
|
||||
Il problema si verifica anche se si sottraggono due numeri molto simili tra
|
||||
loro, perché il risultato è un numero molto piccolo che potrebbe finire in
|
||||
underflow (si parla di "cancellazione catastrofica").
|
||||
|
||||
\textcolor{orange}{oss:} Il costo computazionale della risoluzione di un
|
||||
sistema lineare in $n$ equazioni è asintoticamente uguale al costo del
|
||||
prodotto di due matrici $nxn$. Esistono algoritmi che non richiedono più di
|
||||
$k \cdot n^{\alpha}$ operazioni, col il più piccolo valore noto di $\alpha$
|
||||
pari a 0.2375.
|
||||
|
||||
Alcuni algoritmi sono definiti "instabili": accade quando gli errori di
|
||||
round-off si accumulano fino a portare a risultati completamente errati.
|
||||
Esistono problemi detti "mal condizionati" che con qualsiasi algoritmo danno
|
||||
errori talmente elevati da rendere il risultato privo di significato. In
|
||||
questi casi, piccole variazioni dei dati iniziali portano a grandi variazioni
|
||||
nei risultati. Si chiama "numero di condizionamento del problema" il seguente
|
||||
rapporto:
|
||||
|
||||
$$
|
||||
\frac{\Delta r}{\Delta \alpha} =
|
||||
\frac{\text{\% errore risultato}}{\text{\% errore dato iniziale}}
|
||||
$$
|
||||
|
||||
che può quindi essere espresso in questo modo:
|
||||
|
||||
$$
|
||||
\Delta \alpha = \frac{x + h - x}{x} = \frac{h}{x}
|
||||
\hspace{100pt}
|
||||
\Delta r = \frac{f(x + h)-f(x)}{f(x)}
|
||||
$$
|
||||
$$
|
||||
\frac{\Delta r}{\Delta \alpha} =
|
||||
\frac{f(x + h)-f(x)}{h} \cdot \frac{x}{f(x)} =
|
||||
f'(x) \cdot \frac{x}{f(x)}
|
||||
$$
|
||||
|
||||
Se questo numero è $<< 1$, allora il problema è poco sensibile ai dati
|
||||
iniziali.
|
||||
|
@ -1,257 +0,0 @@
|
||||
# Probabilità
|
||||
|
||||
## Concetto di probabilità
|
||||
|
||||
Consideriamo un insieme S di eventi detto "spazio campionario" e due eventi
|
||||
casuali A e B. Essi sono soggetti agli assiomi di Kolmogorov:
|
||||
|
||||
$\forall A \subseteq S, 0 \leqslant P(A) \leqslant 1$
|
||||
$P(S) = 1$
|
||||
$A \cap B = \varnothing \Longrightarrow P(A \cup B) = P(A) + P(B)$
|
||||
|
||||
Si definisce probabilità condizionata di A dato B:
|
||||
|
||||
$$
|
||||
P(A|B) = \frac{P(A \cap B)}{P(B)}
|
||||
$$
|
||||
|
||||
Se due eventi sono indipendenti, allora vale che:
|
||||
|
||||
$$
|
||||
P(A \cap B) = P(A) \cdot P(B) \Longrightarrow
|
||||
P(A|B) = \frac{P(A) \cdot P(B)}{P(B)} = P(A)
|
||||
$$
|
||||
|
||||
Esistono diversi approcci per definire la probabilità:
|
||||
|
||||
- approccio frequentista:
|
||||
|
||||
$$
|
||||
P(A) = \lim_{n \rightarrow +\infty} \frac{\#A}{n}
|
||||
$$
|
||||
|
||||
ma c'è il problema che è impossibile fare un numero infinito di tentativi.
|
||||
- approccio bayesiano:
|
||||
utilizzare il teorema di Bayes, per esempio:
|
||||
|
||||
$$
|
||||
P(\text{teoria|dati}) \propto P(\text{dati|teoria}) \cdot P(\text{teoria})
|
||||
$$
|
||||
si tratta quindi di un approccio "soggettivo", almeno per l'ultimo termine
|
||||
dell'equazione qua sopra, perché la probabilità della validità della teoria
|
||||
può essere data sulla base di ragionamenti e osservazioni riguardanti il
|
||||
fenomeno di cui si sta parlando.
|
||||
|
||||
\begin{tikzpicture}
|
||||
\draw [thick, pink] (0,0) -- (1,0);
|
||||
\draw [red] (1.5,0) circle [radius=0.1];
|
||||
\draw [thick, pink] (2,0) -- (3,0);
|
||||
\draw [red] (3.5,0) circle [radius=0.1];
|
||||
\draw [thick, pink] (4,0) -- (5,0);
|
||||
\draw [red] (5.5,0) circle [radius=0.1];
|
||||
\draw [thick, pink] (6,0) -- (7,0);
|
||||
\draw [red] (7.5,0) circle [radius=0.1];
|
||||
\draw [thick, pink] (8,0) -- (9,0);
|
||||
\draw [red] (9.5,0) circle [radius=0.1];
|
||||
\draw [thick, pink] (10,0) -- (11,0);
|
||||
\draw [red] (11.5,0) circle [radius=0.1];
|
||||
\draw [thick, pink] (12,0) -- (13,0);
|
||||
\draw [red] (13.5,0) circle [radius=0.1];
|
||||
\draw [thick, pink] (14,0) -- (15,0);
|
||||
\end{tikzpicture}
|
||||
|
||||
### Esempio di probabilità condizionata
|
||||
|
||||
Si osservano dei decadimenti e se ne misurano indipendentemente $N_a$ e $N_b$;
|
||||
in comune ne sono stati misurati $N_{ab}$. Possiamo stimare il numero totale
|
||||
di eventi $N$ e l'efficienza totale $\epsilon$.
|
||||
|
||||
$$
|
||||
P(a) = \frac{N_a}{N} \hspace{100pt} P(b) = \frac{N_b}{N}
|
||||
$$
|
||||
$$
|
||||
P(ab) = \frac{N_{ab}}{N} = P(a) \cdot P(b) = \frac{N_a \cdot N_b}{N^2}
|
||||
\Longrightarrow N = \frac{N_a \cdot N_b}{N_{ab}}
|
||||
$$
|
||||
$$
|
||||
\epsilon = P(a \cup b) = P(a) + P(b) -P(a \cap b) =
|
||||
\frac{N_a + N_b - N_{ab}}{N}
|
||||
$$
|
||||
|
||||
\begin{tikzpicture}
|
||||
\draw [thick, pink] (0,0) -- (1,0);
|
||||
\draw [red] (1.5,0) circle [radius=0.1];
|
||||
\draw [thick, pink] (2,0) -- (3,0);
|
||||
\draw [red] (3.5,0) circle [radius=0.1];
|
||||
\draw [thick, pink] (4,0) -- (5,0);
|
||||
\draw [red] (5.5,0) circle [radius=0.1];
|
||||
\draw [thick, pink] (6,0) -- (7,0);
|
||||
\draw [red] (7.5,0) circle [radius=0.1];
|
||||
\draw [thick, pink] (8,0) -- (9,0);
|
||||
\draw [red] (9.5,0) circle [radius=0.1];
|
||||
\draw [thick, pink] (10,0) -- (11,0);
|
||||
\draw [red] (11.5,0) circle [radius=0.1];
|
||||
\draw [thick, pink] (12,0) -- (13,0);
|
||||
\draw [red] (13.5,0) circle [radius=0.1];
|
||||
\draw [thick, pink] (14,0) -- (15,0);
|
||||
\end{tikzpicture}
|
||||
|
||||
## Teorema di Bayes
|
||||
|
||||
$$
|
||||
P(A|B) = \frac{P(A \cap B)}{P(B)}
|
||||
\hspace{100pt}
|
||||
P(B|A) = \frac{P(B \cap A)}{P(A)}
|
||||
$$
|
||||
$$
|
||||
P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)}
|
||||
$$
|
||||
|
||||
Dal teorema di Bayes è possibile dedurre il teorema della probabilità totale:
|
||||
consideriamo un insieme $S$ diviso in sottoinsiemi disgiunti $A_i$ la cui
|
||||
unione dà l'insieme di partenza:
|
||||
|
||||
$$
|
||||
\cup_i A_i = S
|
||||
$$
|
||||
|
||||
e consideriamo un insieme $B$ anch'esso interno ad $S$:
|
||||
|
||||
$$
|
||||
B = B \cap S = B \cap (\cup_i A_i) = \cup_i (B \cap A_i)
|
||||
$$
|
||||
$$
|
||||
\Longrightarrow P(B) = \sum_i P(B \cap A_i)
|
||||
$$
|
||||
$$
|
||||
\Longrightarrow P(B) = \sum_i P(B|A_i)P(A_i)
|
||||
$$
|
||||
|
||||
da cui, per uno specifico insieme $A_j$, attraverso il teorema di Bayes:
|
||||
|
||||
$$
|
||||
P(A_j|B) = \frac{P(B|A_j) \cdot P(A_j)}{\sum_i P(B|A_i)P(A_i)}
|
||||
$$
|
||||
|
||||
\begin{tikzpicture}
|
||||
\draw [thick, pink] (0,0) -- (1,0);
|
||||
\draw [red] (1.5,0) circle [radius=0.1];
|
||||
\draw [thick, pink] (2,0) -- (3,0);
|
||||
\draw [red] (3.5,0) circle [radius=0.1];
|
||||
\draw [thick, pink] (4,0) -- (5,0);
|
||||
\draw [red] (5.5,0) circle [radius=0.1];
|
||||
\draw [thick, pink] (6,0) -- (7,0);
|
||||
\draw [red] (7.5,0) circle [radius=0.1];
|
||||
\draw [thick, pink] (8,0) -- (9,0);
|
||||
\draw [red] (9.5,0) circle [radius=0.1];
|
||||
\draw [thick, pink] (10,0) -- (11,0);
|
||||
\draw [red] (11.5,0) circle [radius=0.1];
|
||||
\draw [thick, pink] (12,0) -- (13,0);
|
||||
\draw [red] (13.5,0) circle [radius=0.1];
|
||||
\draw [thick, pink] (14,0) -- (15,0);
|
||||
\end{tikzpicture}
|
||||
|
||||
### Esempio di probabilità totale: segnale e fondo
|
||||
|
||||
Un rilevatore misura segnale e fondo con relative efficienze $P(R|S)$ e
|
||||
$P(R|F)$. Se sono note a priori la probabilità di segnale e di fondo
|
||||
$P(S)$ e $P(F)$, allora si può risalire alla probabilità, data una
|
||||
misurazione, di aver misurato il segnale:
|
||||
|
||||
$$
|
||||
P(S|R) = \frac{P(R|S) \cdot P(S)}{P(R|S) \cdot P(S) + P(R|F) \cdot P(F)}
|
||||
$$
|
||||
|
||||
\begin{tikzpicture}
|
||||
\draw [thick, pink] (0,0) -- (1,0);
|
||||
\draw [red] (1.5,0) circle [radius=0.1];
|
||||
\draw [thick, pink] (2,0) -- (3,0);
|
||||
\draw [red] (3.5,0) circle [radius=0.1];
|
||||
\draw [thick, pink] (4,0) -- (5,0);
|
||||
\draw [red] (5.5,0) circle [radius=0.1];
|
||||
\draw [thick, pink] (6,0) -- (7,0);
|
||||
\draw [red] (7.5,0) circle [radius=0.1];
|
||||
\draw [thick, pink] (8,0) -- (9,0);
|
||||
\draw [red] (9.5,0) circle [radius=0.1];
|
||||
\draw [thick, pink] (10,0) -- (11,0);
|
||||
\draw [red] (11.5,0) circle [radius=0.1];
|
||||
\draw [thick, pink] (12,0) -- (13,0);
|
||||
\draw [red] (13.5,0) circle [radius=0.1];
|
||||
\draw [thick, pink] (14,0) -- (15,0);
|
||||
\end{tikzpicture}
|
||||
|
||||
### Esempio di probabilità totale: AIDS
|
||||
|
||||
$$
|
||||
P(\text{AIDS}) = 0.001 \hspace{50pt} P(\text{no AIDS}) = 0.999
|
||||
$$
|
||||
$$
|
||||
P(\text{+|AIDS}) = 0.98 \hspace{50pt} P(\text{-|AIDS}) = 0.02
|
||||
$$
|
||||
$$
|
||||
P(\text{+|no AIDS}) = 0.03 \hspace{50pt} P(\text{-|no AIDS}) = 0.97
|
||||
$$
|
||||
|
||||
Quindi se il test è positivo, la probabilità di avere davvero preso l'AIDS è:
|
||||
|
||||
$$
|
||||
P(\text{AIDS|+}) = \frac{P(\text{+|AIDS}) \cdot P(\text{AIDS})}
|
||||
{P(\text{+|AIDS}) \cdot P(\text{AIDS}) + P(\text{+|no AIDS}) \cdot
|
||||
P(\text{no AIDS})} = 0.032
|
||||
$$
|
||||
|
||||
\begin{tikzpicture}
|
||||
\draw [thick, pink] (0,0) -- (1,0);
|
||||
\draw [red] (1.5,0) circle [radius=0.1];
|
||||
\draw [thick, pink] (2,0) -- (3,0);
|
||||
\draw [red] (3.5,0) circle [radius=0.1];
|
||||
\draw [thick, pink] (4,0) -- (5,0);
|
||||
\draw [red] (5.5,0) circle [radius=0.1];
|
||||
\draw [thick, pink] (6,0) -- (7,0);
|
||||
\draw [red] (7.5,0) circle [radius=0.1];
|
||||
\draw [thick, pink] (8,0) -- (9,0);
|
||||
\draw [red] (9.5,0) circle [radius=0.1];
|
||||
\draw [thick, pink] (10,0) -- (11,0);
|
||||
\draw [red] (11.5,0) circle [radius=0.1];
|
||||
\draw [thick, pink] (12,0) -- (13,0);
|
||||
\draw [red] (13.5,0) circle [radius=0.1];
|
||||
\draw [thick, pink] (14,0) -- (15,0);
|
||||
\end{tikzpicture}
|
||||
|
||||
### Approccio bayesiano con una teoria
|
||||
|
||||
Cominciamo com un esempio: con un esperimento è stata misurata la massa di
|
||||
un elettrone e sono stati trovati i valori {$m_i$}, di cui il valore medio
|
||||
è $m_e = \SI{520 \pm 10}{KeV}$. Si assume quindi che il valore vero sia
|
||||
compreso tra \SI{510}{KeV} e \SI{530}{KeV} con una probabilità del 68% data
|
||||
dal confidence level. Per cui, la probabilità che la massa vera sia proprio
|
||||
\SI{520}{KeV} è data da:
|
||||
|
||||
$$
|
||||
P(m_e|{m_i}) = \frac{}{}
|
||||
$$
|
||||
|
||||
\textcolor{red}{**rivedere negli appunti questa formula**}
|
||||
|
||||
Quando si fa una misurazione, si misurano $N$ valori e si calcolano il valore
|
||||
medio $\bar{x}$ e la deviazione standard $\sigma$ e si dice che il risultato è:
|
||||
|
||||
$$
|
||||
\mu = \bar{x} \pm \frac{\sigma}{\sqrt{N}}
|
||||
$$
|
||||
|
||||
e di solito lo si interpreta dicendo che:
|
||||
|
||||
$$
|
||||
P \left( \bar{x} - \frac{\sigma}{\sqrt{N}} \leqslant \mu \leqslant
|
||||
\bar{x} + \frac{\sigma}{\sqrt{N}} \right) = 68\%
|
||||
$$
|
||||
|
||||
ma in realtà quello che sappiamo è solo che:
|
||||
|
||||
$$
|
||||
P \left( \mu - \frac{\sigma_{true}}{\sqrt{N}} \leqslant \bar{x} \leqslant
|
||||
\mu + \frac{\sigma_{true}}{\sqrt{N}} \right) = 68\%
|
||||
$$
|
||||
|
||||
**\textcolor{red}{WHAT?!?}**
|
@ -1,480 +0,0 @@
|
||||
# Statistica
|
||||
|
||||
## Distribuzioni di probabilità
|
||||
|
||||
Una funzione di densità di probabilità $f$ è definita in modo che la probabilità
|
||||
che una variabile $x$ sia compresa tra $x$ e $x + dx$ sia data da:
|
||||
|
||||
$$
|
||||
P(x \subset [x, x + dx]) = f(x)dx
|
||||
$$
|
||||
|
||||
dunque vale che:
|
||||
|
||||
$$
|
||||
\int\limits_{- \infty}^{+ \infty} dx f(x) = 1
|
||||
$$
|
||||
|
||||
Si definisce funzione cumulante:
|
||||
|
||||
$$
|
||||
F(x) = \int\limits_{- \infty}^x dx' f(x')
|
||||
$$
|
||||
|
||||
e quantile di ordine $\alpha$ il valore di $x$ per cui $F(x) = \alpha$.
|
||||
Nel caso multidimensionale in cui si abbiano due o più variabili, si parla di
|
||||
joint pdf:
|
||||
|
||||
$$
|
||||
f(x, y) \hspace{30pt} \Longrightarrow \hspace{30pt}
|
||||
\int\limits_{- \infty}^{+ \infty} \int\limits_{- \infty}^{+ \infty}
|
||||
dx dy f(x, y) = 1
|
||||
$$
|
||||
|
||||
e si definiscono due distribuzioni marginali:
|
||||
|
||||
$$
|
||||
f_x (x) = \int\limits_{- \infty}^{+ \infty} dy f(x, y)
|
||||
\hspace{50pt}
|
||||
f_y (y) = \int\limits_{- \infty}^{+ \infty} dx f(y, x)
|
||||
$$
|
||||
|
||||
dunque due variabili $x$ e $y$ sono indipendenti se $f(x) = f_x(x) \cdot
|
||||
f_y(y)$. Ora, se $A$ è l'evento di probabilità $f_x(x)dx$, mentre $B$ ha
|
||||
probabilità $f_y(y)dy$, allora si possono definire le pdf condizionali come
|
||||
segue:
|
||||
|
||||
$$
|
||||
P(B|A) = \frac{P (A \cap B)}{P(A)} = \frac{f(x, y)dxdy}{f_x(x)dx}
|
||||
\hspace{20pt} \Longrightarrow \hspace{20pt} h(y|x) = \frac{f(x, y)}{f_x(x)}
|
||||
$$
|
||||
|
||||
per cui il teorema di Bayes diventa:
|
||||
|
||||
$$
|
||||
g(x|y) = \frac{h(y|x)f_x(x)}{f_y(y)}
|
||||
$$
|
||||
|
||||
\begin{tikzpicture}
|
||||
\draw [thick, pink] (0,0) -- (1,0);
|
||||
\draw [red] (1.5,0) circle [radius=0.1];
|
||||
\draw [thick, pink] (2,0) -- (3,0);
|
||||
\draw [red] (3.5,0) circle [radius=0.1];
|
||||
\draw [thick, pink] (4,0) -- (5,0);
|
||||
\draw [red] (5.5,0) circle [radius=0.1];
|
||||
\draw [thick, pink] (6,0) -- (7,0);
|
||||
\draw [red] (7.5,0) circle [radius=0.1];
|
||||
\draw [thick, pink] (8,0) -- (9,0);
|
||||
\draw [red] (9.5,0) circle [radius=0.1];
|
||||
\draw [thick, pink] (10,0) -- (11,0);
|
||||
\draw [red] (11.5,0) circle [radius=0.1];
|
||||
\draw [thick, pink] (12,0) -- (13,0);
|
||||
\draw [red] (13.5,0) circle [radius=0.1];
|
||||
\draw [thick, pink] (14,0) -- (15,0);
|
||||
\end{tikzpicture}
|
||||
|
||||
### Paradosso di Borel-Kolmogorov
|
||||
|
||||
Si considerino dei punti distribuiti uniformemente sulla superficie del pianeta
|
||||
Terra: ci si aspetterebbe che i punti siano uniformemente distribuiti anche
|
||||
lungo un parallelo o un meridiano... ma consideriamo un meridiano: esso giace
|
||||
per il 25% a nord del 45'esimo parallelo e quindi, secondo la logica di prima,
|
||||
anche il 25% dei punti che si trovano su di esso. Però non è vero che il 45%
|
||||
della superficie terrestre è al di sopra del 45'esimo parallelo!
|
||||
Il paradosso è risolto perché non ci si può basare su un insieme di misura
|
||||
nulla quale il meridiano (perché è unidimensionale). Lo si vede chiaramente
|
||||
adottando la terminologia poc'anzi introdotta:
|
||||
Se la distribuzione è uniforme, la probabilità di trovare un punto in una
|
||||
certa superficie è dato dal rapporto tra l'angolo solido descritto da tale
|
||||
superficie e l'angolo solido totale:
|
||||
|
||||
$$
|
||||
f(\theta, \phi) d\theta d\phi= \frac{d\phi d\theta \cos(\theta)}{4 \pi}
|
||||
$$
|
||||
|
||||
da cui è possibile determinare la due probabilità marginali:
|
||||
|
||||
$$
|
||||
f_{\phi}(\phi) = \int\limits_{0}^{\pi} f(\theta, \phi) d\theta =
|
||||
\int\limits_{0}^{\pi} \frac{\cos(\theta)}{4 \pi} = \frac{\cos(\theta)}{2}
|
||||
$$
|
||||
$$
|
||||
f_{\theta}(\theta) = \int\limits_{0}^{2 \pi} f(\theta, \phi) d\phi =
|
||||
\frac{1}{2 \pi}
|
||||
$$
|
||||
|
||||
per cui si tratta di due costanti rispetto alle rispettive variabili. Da ciò
|
||||
si può dunque dedurre che, mentre la densità lungo un parallelo è
|
||||
effettivamente costante, lo stesso non si può dire riguardo a un meridiano.
|
||||
|
||||
\begin{tikzpicture}
|
||||
\draw [thick, pink] (0,0) -- (1,0);
|
||||
\draw [red] (1.5,0) circle [radius=0.1];
|
||||
\draw [thick, pink] (2,0) -- (3,0);
|
||||
\draw [red] (3.5,0) circle [radius=0.1];
|
||||
\draw [thick, pink] (4,0) -- (5,0);
|
||||
\draw [red] (5.5,0) circle [radius=0.1];
|
||||
\draw [thick, pink] (6,0) -- (7,0);
|
||||
\draw [red] (7.5,0) circle [radius=0.1];
|
||||
\draw [thick, pink] (8,0) -- (9,0);
|
||||
\draw [red] (9.5,0) circle [radius=0.1];
|
||||
\draw [thick, pink] (10,0) -- (11,0);
|
||||
\draw [red] (11.5,0) circle [radius=0.1];
|
||||
\draw [thick, pink] (12,0) -- (13,0);
|
||||
\draw [red] (13.5,0) circle [radius=0.1];
|
||||
\draw [thick, pink] (14,0) -- (15,0);
|
||||
\end{tikzpicture}
|
||||
|
||||
Una funzione di una variabile casuale è essa stessa una variabile casuale.
|
||||
Consideriamo la pdf $f(x)$ e una funzione $a(x)$ di cui si vuole trovare la pdf
|
||||
$g(a)$. Nel caso in cui l'inversa di $a(x)$ sia univoca, definita $dS$ la
|
||||
regione delle $x$ per cui $a \subset [a, a +da]$:
|
||||
|
||||
$$
|
||||
g(a)da = \int\limits_{dS} dxf(x)
|
||||
= \left| \int\limits_{x(a)}^{x(a +da)} f(x')dx' \right|
|
||||
= \int\limits_{x(a) + \left| \frac{dx}{da} \right| da}^{x(a +da)} f(x')dx'
|
||||
$$
|
||||
|
||||
Ovvero:
|
||||
|
||||
$$
|
||||
g(a) = f(x(a)) \left| \frac{dx}{da} \right|
|
||||
$$
|
||||
|
||||
e se $x(a)$ non è univoca, allora bisogna considerare tutti gli intervalli $dS$
|
||||
di $dx$ che corrispondono a $da$.
|
||||
Nel caso di funzioni di $N$ variabili, siccome vale che:
|
||||
|
||||
$$
|
||||
g(a')da' = \int \dots \int\limits_{dS} f(x_1 \dots x_N) dx_1 \dots dx_N
|
||||
$$
|
||||
|
||||
con $dS$ regione dello spazio delle $x$ compreso tra le isosuperfici:
|
||||
|
||||
$$
|
||||
a(\vec{x}) = a' \hspace{10pt} \wedge \hspace{10pt} a(\vec{x}) = a' + da'
|
||||
$$
|
||||
|
||||
Nel caso in cui $z = x \cdot y$, si trova la convoluzione di Mellin:
|
||||
|
||||
$$
|
||||
g(z)dz = \int\limits_{dS} dxdy f(x, y)
|
||||
= \int\limits_{-\infty}^{+\infty} dx
|
||||
\int\limits_{\frac{z}{x}}^{\frac{z + dz}{x}} dy f(x, y)
|
||||
$$
|
||||
|
||||
**\textcolor{red}{Non ho capito questa parte...}**
|
||||
|
||||
## Propagazione degli errori
|
||||
|
||||
Consideriamo una variabile $x$ con pdf $f(x)$. Si definisce valore di
|
||||
aspettazione o media (e lo si indica spesso con $\mu$):
|
||||
|
||||
$$
|
||||
E[x] = \int dx f(x) x
|
||||
$$
|
||||
|
||||
Nel caso di una variabile $y(x)$ con pdf $g(x)$, invece:
|
||||
|
||||
$$
|
||||
E[y] = \int dy \cdot y \cdot g(y) = \int dx f(x) g(x)
|
||||
$$
|
||||
|
||||
Mentre si definisce varianza (e la si indica spesso con $\sigma^2$, mentre
|
||||
con deviazione standard si intende $\sigma$):
|
||||
|
||||
$$
|
||||
V[x] = E[x - E[x]^2] = E[x^2] - \mu^2
|
||||
$$
|
||||
|
||||
Più in generale si definiscono 'momenti algebrici' $E[x^n] =\mu'_n$ con
|
||||
$\mu'_1 = \mu$ e 'momenti centrali' $E[(x -\mu)^n] = \mu_n$ con $\mu_2 =
|
||||
\sigma^2$.
|
||||
Si definiscono inoltre due grandezze di correlazione. La covarianza:
|
||||
|
||||
$$
|
||||
\text{cov} [x, y] = E[xy] - E[x]E[y] = E[xy] - \mu_x \mu_y
|
||||
$$
|
||||
|
||||
che equivale a:
|
||||
|
||||
\begin{align*}
|
||||
\text{cov} [x, y]
|
||||
&= E[(x -\mu_x)(y -\mu_y)] \\
|
||||
&= E[xy -x\mu_y -y\mu_x + \mu_x\mu_Y] \\
|
||||
&= E[xy] -\mu_y E[x] -\mu_x E[y] + \mu_x \mu_y \\
|
||||
&= E[xy] -\mu_y mu_x - \mu_x \mu_y + \mu_x \mu_y \\
|
||||
&= E[xy] - \mu_x \mu_y
|
||||
\end{align*}
|
||||
|
||||
Notare che se $x$ e $y$ sono indipendenti, allora $f(x, y) = f_x(x)f_y(y)$,
|
||||
perciò:
|
||||
|
||||
$$
|
||||
E[xy] = \int dx \int dy xy f(x, y) = \mu_x \mu_y
|
||||
\hspace{20pt} \Longrightarrow \hspace{20pt} \text{cov} [x, y] = 0
|
||||
$$
|
||||
|
||||
e il coefficiente di correlazione:
|
||||
|
||||
$$
|
||||
\rho_{xy} = \frac{\text{cov} [xy]}{\sigma_x \sigma_y}
|
||||
$$
|
||||
|
||||
![Esempio di correlazione tra due
|
||||
grandezze.](images/correlazione.png){width=70%}
|
||||
|
||||
Anche se la $f(\vec{x})$ non è completamente nota, è comunque possibile stimare
|
||||
il valore medio e la varianza di una grandezza $y(\vec{x})$ conoscendo solo le
|
||||
stime di media e varianza della pdf. Espandiamo attraverso la serie di
|
||||
Taylor:
|
||||
|
||||
$$
|
||||
y(\vec{x}) = y(\vec{\mu}) + \sum_{i= 1}^N \left[
|
||||
\frac{\partial y}{\partial x_i} \right]_{\vec{x}
|
||||
= \vec{\mu}} (x_i - \mu_i)
|
||||
$$
|
||||
$$
|
||||
\Longrightarrow \hspace{20pt} E[y] = y(\vec{\mu})
|
||||
\Longleftarrow \hspace{20pt} E[x_i] = \mu_i
|
||||
$$
|
||||
|
||||
Mentre per la varianza servono $E[y^2]$ ed $E[y]$. Sempre passando
|
||||
attraverso uno sviluppo di Taylor attorno al valore medio:
|
||||
|
||||
\begin{align*}
|
||||
E[y^2] &= y^2(\vec{\mu}) + 2y(\vec{\mu}) \sum_{i = 1}^{N}
|
||||
\left[ \frac{\partial y} {\partial x_i} \right]_{\vec{x} = \vec{\mu}}
|
||||
E[x_i - \mu_i] \\
|
||||
&+ E \left[ \left( \sum_{i_1}^N
|
||||
\left[ \frac{\partial y}{\partial x_i} \right]_{\vec{x} = \vec{\mu}}
|
||||
(x_i - \mu_i) \right) \left( \sum_{j = 1}^N \left[ \frac{\partial y}
|
||||
{\partial x_i} \right]_{\vec{x} = \vec{\mu}} (x_j - \mu_j) \right) \right]
|
||||
\end{align*}
|
||||
|
||||
Siccome il secondo termine si annulla sempre perché $E[x_i] = \mu_i$, allora
|
||||
rimane che:
|
||||
|
||||
$$
|
||||
V[y] = E[y^2] - E[y]^2 = \sigma_y^2 = \sum_{i,j = 1}^N \left[
|
||||
\frac{\partial y}{\partial x_i}
|
||||
\frac{\partial y}{\partial x_j}\right]_{\vec{x} = \vec{\mu}} V_{ij}
|
||||
$$
|
||||
|
||||
Con $V_{ij}$ che è la matrice di covarianza, che ha come entrate:
|
||||
|
||||
$$
|
||||
V_{ij} = E[(x_i - \mu_i)(x_j - \mu_j)] = \rho_{ij} \sigma_i \sigma_j
|
||||
$$
|
||||
|
||||
e quindi, nel caso in cui le variabili siano scorrelate, si ottiene che:
|
||||
|
||||
$$
|
||||
V_{ij} = \sigma_i^2 \delta_{ij}
|
||||
\hspace{20pt} \Longrightarrow \hspace{20pt}
|
||||
\sigma_y^2 = \sum_{i = 1}^N \left[ \frac{\partial y}{\partial x_i}
|
||||
\right]_{\vec{x} = \vec{\mu}}^2 \sigma_i^2
|
||||
$$
|
||||
|
||||
Cioè dice quanto cambia la $y$ al variare del 'dato iniziale' $\vec{x}$.
|
||||
Ma quindi, per quanto visto prima:
|
||||
|
||||
$$
|
||||
\text{cov} [x_i, x_j] = E[(x_i - \mu_i)(x_j - \mu_j)] = V_{ij}
|
||||
$$
|
||||
|
||||
Più in generale, date $\vec{y}$ variabili dipendenti da $\vec{x}$, vale che:
|
||||
|
||||
$$
|
||||
U = AVA^T \hspace{30pt} \text{con} \hspace{30pt} A_{ij} = \left[
|
||||
\frac{\partial y_i}{\partial x_j} \right]_{\vec{x} = \vec{\mu}}
|
||||
\hspace{30pt} \text{e con} \hspace{30pt} U_{kl} = \text{cov}[y_k, y_l]
|
||||
$$
|
||||
|
||||
dove $U$ è detta matrice di covarianza delle $y$.
|
||||
Attenzione: quanto detto fin'ora, che descrive in che modo gli errori di
|
||||
$\vec{x}$ influenzano $y$, vale solo nel caso in cui $y$ sia lineare nelle $x$.
|
||||
Quindi, in casi come $y(x) = 1/x$, non si può fare questo discorso.
|
||||
|
||||
\begin{tikzpicture}
|
||||
\draw [thick, pink] (0,0) -- (1,0);
|
||||
\draw [red] (1.5,0) circle [radius=0.1];
|
||||
\draw [thick, pink] (2,0) -- (3,0);
|
||||
\draw [red] (3.5,0) circle [radius=0.1];
|
||||
\draw [thick, pink] (4,0) -- (5,0);
|
||||
\draw [red] (5.5,0) circle [radius=0.1];
|
||||
\draw [thick, pink] (6,0) -- (7,0);
|
||||
\draw [red] (7.5,0) circle [radius=0.1];
|
||||
\draw [thick, pink] (8,0) -- (9,0);
|
||||
\draw [red] (9.5,0) circle [radius=0.1];
|
||||
\draw [thick, pink] (10,0) -- (11,0);
|
||||
\draw [red] (11.5,0) circle [radius=0.1];
|
||||
\draw [thick, pink] (12,0) -- (13,0);
|
||||
\draw [red] (13.5,0) circle [radius=0.1];
|
||||
\draw [thick, pink] (14,0) -- (15,0);
|
||||
\end{tikzpicture}
|
||||
|
||||
### Esempio
|
||||
|
||||
Consideriamo:
|
||||
|
||||
$$
|
||||
y = x_1 - x_2
|
||||
$$
|
||||
$$
|
||||
\text{con} \hspace{30pt} \mu_1 = \mu_2 = 10 \hspace{30pt} \wedge
|
||||
\hspace{30pt} \sigma_1 = \sigma_2 = 1
|
||||
$$
|
||||
|
||||
allora abbiamo che $y = y(x_1, x_2)$, quindi:
|
||||
|
||||
$$
|
||||
E[y] = y(\mu_1, \mu_2) = 10 - 10 = 0
|
||||
$$
|
||||
$$
|
||||
V[y] = \sum_{i, j = 1}^2 \left[ \frac{\partial y}{\partial x_i}
|
||||
\frac{\partial y}{\partial x_j}\right]_{\vec{x} = \vec{\mu}} V_{ij} =
|
||||
1 \cdot V_{11} + 1 \cdot V_{22} -1 \cdot 2 \cdot V_{12}
|
||||
$$
|
||||
|
||||
Se le correlazioni sono nulle, allora $V_{12} = 0 \Longrightarrow V[y] = 2
|
||||
\Longrightarrow \sigma_y = 1.4$, se invece $x_1$ e $x_2$ sono correlate, nel
|
||||
caso in cui il coefficiente di correlazione sia unitario si ha che $V[y] =
|
||||
0$. Quindi la correlazione può cambiare di molto le cose.
|
||||
|
||||
\begin{tikzpicture}
|
||||
\draw [thick, pink] (0,0) -- (1,0);
|
||||
\draw [red] (1.5,0) circle [radius=0.1];
|
||||
\draw [thick, pink] (2,0) -- (3,0);
|
||||
\draw [red] (3.5,0) circle [radius=0.1];
|
||||
\draw [thick, pink] (4,0) -- (5,0);
|
||||
\draw [red] (5.5,0) circle [radius=0.1];
|
||||
\draw [thick, pink] (6,0) -- (7,0);
|
||||
\draw [red] (7.5,0) circle [radius=0.1];
|
||||
\draw [thick, pink] (8,0) -- (9,0);
|
||||
\draw [red] (9.5,0) circle [radius=0.1];
|
||||
\draw [thick, pink] (10,0) -- (11,0);
|
||||
\draw [red] (11.5,0) circle [radius=0.1];
|
||||
\draw [thick, pink] (12,0) -- (13,0);
|
||||
\draw [red] (13.5,0) circle [radius=0.1];
|
||||
\draw [thick, pink] (14,0) -- (15,0);
|
||||
\end{tikzpicture}
|
||||
|
||||
### Errori sistematici
|
||||
|
||||
Consideriamo due grandezze $x_1$ e $x_2$ con un errore sistematico in comune
|
||||
$S$:
|
||||
|
||||
\begin{align*}
|
||||
&x_1 = x_{1_0} + x_{1_s} \\
|
||||
&x_2 = x_{2_0} + x_{2_s}
|
||||
\end{align*}
|
||||
|
||||
si avrà che i termini con pedice $0$ sono indipendenti tra loro, mentre gli
|
||||
altri due saranno correlati. Dato che gli errori si sommano in quadratura, la
|
||||
matrice di covarianza sarà quindi:
|
||||
|
||||
$$
|
||||
\text{cov}[x_1, x_2] = S^2 \hspace{30pt} \Longrightarrow \hspace{30pt}
|
||||
V = \begin{pmatrix}
|
||||
\sigma_1^2 + S^2 & S^2\\
|
||||
S^2 & \sigma_2^2 + S^2
|
||||
\end{pmatrix}
|
||||
$$
|
||||
|
||||
perché:
|
||||
|
||||
\begin{align*}
|
||||
\text{cov}[x_1, x_2] &= E[x_1 x_2] - E[x_1]E[x_2] = \\
|
||||
&= E[(x_{1_0} + x_{1_s})(x_{2_0} + x_{2_s})] - E[x_{1_0} + x_{1_s}]
|
||||
E[x_{2_0} + x_{2_s}] = \\
|
||||
&= E[x_{1_0}x_{2_0}] + E[x_{1_0}x_{2_s}] + E[x_{1_s}x_{2_0}]
|
||||
+ E[x_{1_s}x_{2_s}] + \\
|
||||
&\hspace{13pt} - E[x_{1_0}]E[x_{2_0}] - E[x_{1_0}]E[x_{2_2}]
|
||||
- E[x_{1_s}]E[x_{2_0}] - E[x_{1_s}]E[x_{2_s}] = \\
|
||||
&= \mu_1 \mu_2 + \mu_1E[x_{2_s}] + E[x_{1_s}]\mu_2 +E[x_{1_s}x_{2_s}] + \\
|
||||
&\hspace{13pt} - \mu_1 \mu_2 - \mu_1 E[x_{2_s}] - E[x_{1_s}] \mu_2
|
||||
- E[x_{1_s}] E[x_{2_s}] = \\
|
||||
&= E[x_{1_s} x_{2_s}] - E[x_{1_s}] E[x_{2_s}] = \text{cov}[x_{1_s}, x_{2_s}]
|
||||
\end{align*}
|
||||
|
||||
### Trasformazione ortogonale
|
||||
|
||||
Può tornare utile fare un cambio di variabile che permetta di ottenere una
|
||||
matrice di covarianza delle $y$ diagonale.
|
||||
Consideriamo le solite variabili $Y_i$ legate linearmente alle $x_j$:
|
||||
|
||||
$$
|
||||
y_i = \sum_j = A^i_j x_j
|
||||
\hspace{30pt} \Longrightarrow \hspace{30pt}
|
||||
U_{ij} = \sum_{k,l} A_{ik} V_{kl} A^T_{lj}
|
||||
$$
|
||||
|
||||
Si tratta quindi di diagonalizzare la matrice $U$: la soluzione è semplice,
|
||||
la matrice $A$ è quella formata dagli autovalori di $V$. Questo concetto è
|
||||
utile nel caso della scelta delle coordinate da utilizzare.
|
||||
Se immaginiamo di star utilizzando le coordinate polari $\vec{x} = (x, y)$, la
|
||||
matrice di covarianza sarà:
|
||||
|
||||
$$
|
||||
V = \begin{pmatrix}
|
||||
\sigma_1^2 & \rho \sigma_1 \sigma_2 \\
|
||||
\rho \sigma_1 \sigma_2 & \sigma_2^2
|
||||
\end{pmatrix}
|
||||
$$
|
||||
|
||||
Diagonaliziamola: prima di tutto troviamo gli autovalori della matrice $V -
|
||||
\lambda I$:
|
||||
|
||||
$$
|
||||
\begin{vmatrix}
|
||||
\sigma_1^2 - \lambda & \rho \sigma_1 \sigma_2 \\
|
||||
\rho \sigma_1 \sigma_2 & \sigma_2^2 - \lambda
|
||||
\end{vmatrix}
|
||||
= (\sigma_1^2 - \lambda) (\sigma_2^2 - \lambda) - \rho^2 \sigma_1^2
|
||||
\sigma_2^2 = 0
|
||||
$$
|
||||
\begin{align*}
|
||||
&\Longrightarrow \hspace{30pt}
|
||||
\lambda^2 -(\sigma_1^2 + \sigma_2^2) \lambda + \sigma_1^2 \sigma_2^2
|
||||
(1 - \rho^2) = 0 \\
|
||||
&\Longrightarrow \hspace{30pt}
|
||||
\lambda_{1,2} = \frac{\sigma_1^2 + \sigma_2^2 \pm
|
||||
\sqrt{\sigma_1^4 + \sigma_2^4 +2 \sigma_1^2 \sigma_2^2
|
||||
- 4 \sigma_1^2 \sigma_2^2 + 4\rho^2 \sigma_1^2 \sigma_2^2}}{2} = \\
|
||||
&\Longrightarrow \hspace{30pt}
|
||||
\lambda_{1,2} = \frac{\sigma_1^2 + \sigma_2^2 \pm
|
||||
\sqrt{(\sigma_1^2 - \sigma_2^2)^2 +4 \rho^2 \sigma_1^2 \sigma_2^2}}{2}
|
||||
\end{align*}
|
||||
|
||||
e ora calcoliamo gli autovettori:
|
||||
|
||||
$$
|
||||
(V - \lambda I)\vec{r} = 0
|
||||
\hspace{30pt} \Longrightarrow \hspace{30pt}
|
||||
\begin{pmatrix}
|
||||
\sigma_1^2 - \lambda & \rho \sigma_1 \sigma_2 \\
|
||||
\rho \sigma_1 \sigma_2 & \sigma_2^2 - \lambda
|
||||
\end{pmatrix}
|
||||
\begin{pmatrix}
|
||||
r_1 \\
|
||||
r_2
|
||||
\end{pmatrix}
|
||||
=
|
||||
\begin{pmatrix}
|
||||
r_1 \\
|
||||
r_2
|
||||
\end{pmatrix}
|
||||
$$
|
||||
$$
|
||||
\Longrightarrow \hspace{30pt}
|
||||
\begin{cases}
|
||||
(\sigma_1^2 - \lambda)r_1 + \rho \sigma_1 \sigma_2 r_2 = r_1 \\
|
||||
\rho \sigma_1 \sigma_2 r_1 + (\sigma_2^2 - \lambda)r_2 = r_2
|
||||
\end{cases}
|
||||
\hspace{30pt} \Longrightarrow \hspace{30pt}
|
||||
r_1 = \frac{}{} r_2
|
||||
$$
|
||||
|
||||
eccetera eccetera...
|
@ -1,466 +0,0 @@
|
||||
Distribuzioni di probabilità
|
||||
|
||||
## Distribuzione binomiale
|
||||
|
||||
![Distribuzione binomiale: p = 0.3, n = 10,
|
||||
N = 1000.](images/binomiale.png)
|
||||
|
||||
Si considerino $N$ tentativi di un esperimento che può avere come esiti
|
||||
soltanto successo o fallimento e che la probabilità di ogni successo sia $p$.
|
||||
Definiamo $n$ il numero dei successi. Dunque la probabilità di ottenere $n$
|
||||
successi su $N$ tentativi totali è data da:
|
||||
|
||||
$$
|
||||
P(N, n, p) = \binom{N}{n} p^n (1 - p)^{N -n}
|
||||
$$
|
||||
|
||||
perché:
|
||||
|
||||
- la probabilità che un successo si verifichi è $p$;
|
||||
- la probabilità che $k$ successi si verifichino è data dal prodotto di tutte
|
||||
le probabilità: $p^n$;
|
||||
- lo stesso discorso vale per gli insuccessi: ognuno ha probabilità $(1_p)$ e
|
||||
se ne verificano $N -n$;
|
||||
- il termine binomiale rappresenta tutte le possibili permutazioni: il
|
||||
concetto è semplice se si immagina di posizionare successi e fallimenti
|
||||
all'interno di una griglia con $N$ possibili posizioni: un successo è un
|
||||
pallino bianco e un fallimento è un pallino nero. In quanti posti posso
|
||||
mettere il primo successo? $N$. E il secondo? $N -1$. E il terzo? E così
|
||||
via, finché ho messo tutti i successi, che occupano $n$ posizioni, l'ultima
|
||||
delle quali è stata scelta tra $N - (n -1)$ posizioni, per cui:
|
||||
|
||||
$$
|
||||
N \cdot (N -1) \dots (N -n + 1) =
|
||||
\frac{N \cdot (N -1) \dots (N -n + 1) \cdot 2 \cdot 1}
|
||||
{(N -n) \cdot (N - n -1) \dots 2 \cdot 1} = \frac{N!}{(N -n)!}
|
||||
$$
|
||||
|
||||
ma non bisogna considerare che poi tutte le posizioni delle palline nere
|
||||
sono uguali, quindi va ulteriormente diviso per $n!$ per le stesse ragioni.
|
||||
Da cui:
|
||||
|
||||
$$
|
||||
\binom{N}{n} = \frac{N!}{n! (N -n)!}
|
||||
$$
|
||||
|
||||
Per la normalizzazione, vale che:
|
||||
|
||||
$$
|
||||
\sum_{n = 0}^N P(N, n, p) = 1
|
||||
$$
|
||||
|
||||
Possiamo definire un valore di aspettazione e una varianza:
|
||||
|
||||
\begin{align*}
|
||||
&E[n] = \sum_{n = 0}^N n P(N, n, p) = Np \\
|
||||
&V[n] = E[n^2] - E[n]^2 = Np(1 -p)
|
||||
\end{align*}
|
||||
|
||||
## Distribuzione multinomiale
|
||||
|
||||
È la generalizzazione della pdf precedente nel caso in cui ci siano $m$
|
||||
possibili risultati, ciascuno con una probabilità $P_m$ di verificarsi. Per
|
||||
esempio, è il caso di un istogramma riguardo al quale ci si domanda quale sia la
|
||||
probabilità di trovarlo esattamente con quelle specifiche entrate.
|
||||
La probabilità è conseguentemente data da:
|
||||
|
||||
$$
|
||||
P(N, \vec{n}, \vec{p}) = \frac{N!}{n_1! n_2! \dots n_m!}
|
||||
p_1^{n_1} p_2^{n_2} \dots p_m^{n_m}
|
||||
$$
|
||||
|
||||
E come valore di aspettazione e deviazione standard si ottiene che:
|
||||
|
||||
\begin{align*}
|
||||
&E[n_i] = Np_i \\
|
||||
&V[n_i] = Np_i (1 -p_i)
|
||||
\end{align*}
|
||||
|
||||
### Legge dei grandi numeri
|
||||
|
||||
La legge dei grandi numeri afferma che la media sperimentale di una variabile
|
||||
$x$, per un numero di tentativi $N$ che tende all'infinito, si avvicina molto
|
||||
alla media vera. Questa legge può essere utilizzata per stimare le probabilità
|
||||
$P_i$ di una distribuzione muiltinomiale tramite le frequenze con cui i diversi
|
||||
eventi si verificano.
|
||||
Si consideri la frequenza $f_j$ con cui l'evento j-esimo si verifica, dato un
|
||||
set di $N$ tentativi:
|
||||
|
||||
$$
|
||||
f_j = \frac{1}{N} \sum_{i = 1}^N x_i = \frac{x_j}{N}
|
||||
$$
|
||||
|
||||
dove $x_i$ è una variabile che vale 1 se l'evento j-esimo si è verificato e
|
||||
vale 0 quando se ne è verificato un altro e $x_j$ è quindi il numero di volte
|
||||
che l'evento j-esimo si è verificato.
|
||||
A differenza di $P_j$, $f_j$ è una variabile casuale perché dipende da $x_j$
|
||||
che è la somma di variabili casuali. Definiamo valore medio:
|
||||
|
||||
$$
|
||||
E(f_j) = \frac{E(x_j)}{N} = P_j
|
||||
$$
|
||||
|
||||
e calcoliamo la varianza:
|
||||
|
||||
$$
|
||||
V \left[ f_j \right] = V \left[ \frac{x_j}{N} \right] =
|
||||
E \left[ \frac{x_j^2}{N^2} \right] - \left( E \left[ \frac{x_j}{N}
|
||||
\right] \right)^2 = \frac{1}{N^2} V \left[ x_j \right]
|
||||
$$
|
||||
|
||||
ora, $x_j$ è esattamente $n_j$ della multinomiale, perciò:
|
||||
|
||||
$$
|
||||
V[x_j] = NP_j (1 - P_j)
|
||||
\hspace{30pt} \Longrightarrow \hspace{30pt}
|
||||
V[f_j] = \frac{1}{N} P_j (1 - P_j) \leqslant \frac{1}{N}
|
||||
$$
|
||||
|
||||
## Distribuzione di Poisson
|
||||
|
||||
![Distribuzione Poissoniana: $\nu$ = 1,
|
||||
N = 1000.](images/poisson.png)
|
||||
|
||||
Se si considera la distribuzione binomiale e ci si pone nel limite in cui il
|
||||
numero di tentativi ripetuti tenda all'infinito e che la probabilità di
|
||||
successo tenda a zero (con il vincolo che $N \cdot p = cost = \nu$), si ottiene
|
||||
la distribuzione di Poisson:
|
||||
|
||||
$$
|
||||
P(N, n, \nu) = \frac{\nu^n}{n!} e^{-\nu}
|
||||
$$
|
||||
|
||||
con:
|
||||
|
||||
\begin{align*}
|
||||
&E[n] = \nu \\
|
||||
&V[n] = \nu
|
||||
\end{align*}
|
||||
|
||||
dove $\nu = NP = \frac{}{}$ numero medio di successi.
|
||||
Quando $N$ è talmente grande da non essere definito (come nel caso in cui si
|
||||
osservino i decadimenti di un atomo e dunque i tentativi sono le osservazioni,
|
||||
che sono dunque continue), non è più possibile definire una probabilità di
|
||||
successo per ogni evento (perché sarebbe nulla, da cui il motivo per cui
|
||||
la Poissoniana è definita con questi due limiti), e quindi $\nu$ va definita in
|
||||
un altro modo. Infatti la distribuzione di Poisson, trattandosi di un limite in
|
||||
$N$ e $p$, non dipende più esplicitamente da queste due grandezze.
|
||||
Nel caso in cui si osservi il decadimento di un atomo, si è soliti procedere in
|
||||
questo modo: si suddivide il tempo di osservazione in intervalli (il che
|
||||
significa aver suddiviso gli infiniti tentativi in sottoinsiemi di infiniti
|
||||
tentativi) e si misura quante volte in ognuno di questi intervalli si verifica
|
||||
un successo. L'esperimento è ora praticamente suddiviso in più esperimenti
|
||||
minori da cui è possibile dedurre un numero medio frequentistico di successi.
|
||||
Per esempio:
|
||||
|
||||
----------------------------------------------------------
|
||||
# successi 0 1 2 3 4 5 6 7
|
||||
------------- ------ ----- ----- ---- ---- --- ----- -----
|
||||
# intervalli 1042 860 307 78 15 3 0 0
|
||||
|
||||
Poisson 1064 823 318 82 16 2 0.3 0.3
|
||||
----------------------------------------------------------
|
||||
|
||||
Table: Decadimento di un atomo. Il tempo di osservazione è stato suddiviso in
|
||||
intervalli e per ogni intervallo è stato contato il numero di successi
|
||||
osservati.
|
||||
|
||||
\newpage
|
||||
|
||||
Il numero medio di eventi è:
|
||||
|
||||
$$
|
||||
\frac{1042 \cdot 0 + 860 \cdot 1 + 307 \cdot 2 + 78 \cdot 3 + 15 \cdot 4
|
||||
+ 3 \cdot 5 + 0 \cdot 6 + 0 \cdot 7}{1064 + 860 + 307 + 78 + 15 + 3
|
||||
+ 0 + 0} = 0.77
|
||||
$$
|
||||
|
||||
Da cui è possibile calcolare i valori sempre riportati nella tabella precedente.
|
||||
|
||||
## Distribuzione uniforme
|
||||
|
||||
![Distribuzione uniforme: $a = 0$, $b = 100$.](images/uniform.png)
|
||||
|
||||
Una pdf di numeri che hanno tutti uguale probabilità di verificarsi è detta
|
||||
uniforme:
|
||||
|
||||
$$
|
||||
P (n, a, b) = \begin{cases}
|
||||
\frac{1}{b - a} \hspace{30pt} a \leqslant x \leqslant b \\
|
||||
0 \hspace{42pt} \text{altrove}
|
||||
\end{cases}
|
||||
$$
|
||||
|
||||
con:
|
||||
|
||||
\begin{align*}
|
||||
E[n] = \frac{1}{2} (a + b) \\
|
||||
V[n] = \frac{1}{12} (a + b)^2
|
||||
\end{align*}
|
||||
|
||||
Se una variabile è distribuita secondo una pdf $f(x)$, la sua cumulante è
|
||||
uniformemente distribuita. Intuitivamente è semplice perché basta vederla in
|
||||
questo modo: si immagini il grafico della pdf; ogni volta che si estrae un
|
||||
numero, questo cadrà in un punto casuale nell'area al di sotto della pdf,
|
||||
lasciando uno spazio casuale alla sua sinistra (che è il valore della
|
||||
cumulante)
|
||||
|
||||
## Distribuzione Gaussiana e CLT
|
||||
|
||||
![Distribuzione Gaussiana: $\mu = 30$,
|
||||
$\sigma = 5$.](images/gaussian.png)
|
||||
|
||||
La distribuzione Gaussiana (o normale) è definita come:
|
||||
|
||||
$$
|
||||
P (x, \mu, \sigma) = \frac{1}{\sqrt{2 \pi} \sigma}
|
||||
e^{\frac{(x - \mu)^2}{2 \sigma^2}}
|
||||
$$
|
||||
|
||||
con:
|
||||
|
||||
\begin{align*}
|
||||
E[x] = \mu \\
|
||||
V[x] = \sigma^2
|
||||
\end{align*}
|
||||
|
||||
La error function, che è la cumulativa di questa pdf, è molto utile in
|
||||
laboratorio e i suoi valori sono tabulati.
|
||||
Il teorema centrale del limite afferma che date $n$ variabili casuali
|
||||
indipendenti distribuite con una pdf comune e varianze $\sigma_i^2$, nel
|
||||
limite in qui $n \rightarrow + \infty$, la somma di queste variabili segue un
|
||||
andamento gaussiano con valore medio la somma dei valori medi e varianza la
|
||||
somma delle varianze.
|
||||
Ciò può essere sfruttato per generare numeri casuali distribuiti secondo una
|
||||
distribuzione normale.
|
||||
|
||||
|
||||
Per grandi valori di $\mu$ (vale a dire qualche unità), la distribuzione di
|
||||
Poisson tende a quella Gaussiana con $\mu = \nu$ e $\sigma = \sqrt{\nu}$.
|
||||
Analogamente per $N \rightarrow + \infty$ la binomiale tende alla Gaussiana
|
||||
con $\mu = Np$ e $\sigma = \sqrt{Np (1 - p)}$.
|
||||
|
||||
## Distribuzione Gaussiana multivariata
|
||||
|
||||
Nel caso multidimensionale, la pdf per il vettore $\vec{x} = {x_1 ... n_n}$ è
|
||||
data da:
|
||||
|
||||
$$
|
||||
f(\vec{x}, \vec{\mu}, V) = \frac{1}{(2 \pi)^{N/2} \mid V \mid^{1/2}}
|
||||
\exp \left[ - \frac{1}{2} (\vec{x} - \vec{\mu})^t V^{-1} (\vec{x}
|
||||
- \vec{\mu}) \right]
|
||||
$$
|
||||
|
||||
con $E[x_i] = \mu_i$ e $\text{cov}[x_i, x_j] = V_{ij}$
|
||||
|
||||
## Media pesata
|
||||
|
||||
Quando si hanno misure con diversi errori, vanno combinate attraverso il
|
||||
concetto di media pesata:
|
||||
|
||||
$$
|
||||
E[x] = \frac{\sum_{i = 1}^N \frac{x_i}{\sigma_i^2}}{\sum_{i = 1}^N
|
||||
\frac{1}{\sigma_i^2}}
|
||||
$$
|
||||
$$
|
||||
V[x] = \frac{1}{\sum_{i = 1}^N \frac{1}{\sigma_i^2}}
|
||||
$$
|
||||
|
||||
Ma non ha senso mediare valori che non sono compatibili!
|
||||
|
||||
## Distribuzione di Breit-Wigner
|
||||
|
||||
![Distribuzione di Breit-Wigner: $x_0 = 20$,
|
||||
$\Gamma = 10$.](images/wigner.png)
|
||||
|
||||
Esistono alcune distribuzioni che hanno momenti non ben definiti e che per
|
||||
questo si dicono "patologiche". Un esempio è la distribuzione di Breit-Wigner:
|
||||
|
||||
$$
|
||||
f (x, \Gamma, x_o) = \frac{1}{\pi} \cdot
|
||||
\frac{\Gamma/2}{\Gamma^2/4 + (x - x_0)^2}
|
||||
$$
|
||||
|
||||
Un caso particolare è quello in cui $x_0 = 0$ e $\Gamma = 2$, caso in cui è
|
||||
detta distribuzione di Cauchy:
|
||||
|
||||
$$
|
||||
f(x, 2, 0) = f(x) = \frac{1}{\pi} \cdot \frac{1}{1 + x^2}
|
||||
$$
|
||||
|
||||
Il valore medio e la varianza non sono definiti perché l'integrale è
|
||||
divergente. Conviene usare la moda e l'ampiezza a mezza altezza, che sono
|
||||
rispettivamente $x_0$ e $\Gamma$.
|
||||
Nella libreria *GSL*, la pdf è scritta in questo modo:
|
||||
|
||||
$$
|
||||
p(x) = \frac{1}{a \pi (1 + (x/a))^2}
|
||||
\hspace{50pt} \Longrightarrow \hspace{50pt}
|
||||
a = \Gamma/2
|
||||
$$
|
||||
|
||||
## Distribuzione di Landau
|
||||
|
||||
Per una particella carica con $\beta = v/c$ che attraversa un materiale sottile
|
||||
di spessore $d$, la perdita di energia $\Delta$ segue la distribuzione di
|
||||
Landau:
|
||||
|
||||
![Distribuzione di Landau.](images/landau.png)
|
||||
|
||||
Ha una forma complicatissima che racchiude integrali, logaritmi... Anche in
|
||||
questo caso non si possono definire i momenti algebrici perché l'integrale
|
||||
diverge.
|
||||
|
||||
## Distribuzione del chi-quadro
|
||||
|
||||
![Distribuzione del $\chi^2$: $n = 5$.](images/chi2.png)
|
||||
|
||||
Date $N$ grandezze distribuite ciascuna con una propria distribuzione
|
||||
Gaussiana, la somma dei loro quadrati segue la distribuzione $\chi^2$.
|
||||
Formalmente è definita così:
|
||||
|
||||
$$
|
||||
f(z, n) \frac{1}{2^{n/2} \Gamma (n/2)} z^{n/2 - 1}e^{-z/2}
|
||||
$$
|
||||
|
||||
\begin{align*}
|
||||
&E[z] = n \\
|
||||
&V[z] = 2n
|
||||
\end{align*}
|
||||
|
||||
dove $z$ è la variabile e $n$ è il numero di fradi di libertà.
|
||||
Quando si fa un esperimento e si campiona $y(x)$ e poi si fittano i dati
|
||||
trovati con una funzione teorica $f(x)$, ciascun valore $y(x)$ si assume
|
||||
distribuito come una gaussiana attorno al suo valore vero, che assumiamo
|
||||
essere $f(x)$: dunque i residui, che sono la differenza $R(x)= y(x) - f(x)$,
|
||||
sono ancora una gaussiana, ma centrata in zero. Il chi quadro è definito come:
|
||||
|
||||
$$
|
||||
\sum_i \frac{[y(x_i) - f(x_i)]^2}{f(x_i)}
|
||||
\hspace{50pt} \text{oppure} \hspace{50pt}
|
||||
\sum_i \frac{[y(x_i) - f(x_i)]^2}{\sigma_i^2}
|
||||
$$
|
||||
|
||||
Ne consegue che il chi quadro segua appunto la distribuzione del chi quadro.
|
||||
|
||||
Nella libreria *GSL* la distribuzione $\chi^2$ corrisponde alla distribuzione
|
||||
gamma con $a = n/2$ e $b = 2$.
|
||||
|
||||
## Distribuzione esponenziale
|
||||
|
||||
![Distribuzione del esponenziale: $\lambda = 3$.](images/exponential.png)
|
||||
|
||||
$$
|
||||
f(x, \lambda) = \lambda e^{-\lambda x}
|
||||
$$
|
||||
|
||||
\begin{align*}
|
||||
&E[z] = \frac{1}{\lambda} \\
|
||||
&V[z] = \frac{1}{\lambda^2}
|
||||
\end{align*}
|
||||
|
||||
## Distribuzione t di Student
|
||||
|
||||
![Distribuzione t di Student: $\nu = 3$.](images/student.png)
|
||||
|
||||
È la distribuzione seguita dalla media di una popolazione gaussiana quando
|
||||
la si stima con un piccolo campione e senza conoscere la deviazione standard.
|
||||
Se $y_1$ è distribuita come una Gaussiana e $y_2$ come un $\chi^2$, se $\nu$
|
||||
sono i gradi di libertà, allora $x$ segue la t di Student:
|
||||
|
||||
$$
|
||||
x = \frac{y_1}{\sqrt{\frac{y_2}{\nu}}}
|
||||
$$
|
||||
|
||||
che è così definita:
|
||||
|
||||
$$
|
||||
f(x, \nu) = \frac{\Gamma \left( \frac{\nu + 1}{2} \right)}{\sqrt{\nu \pi}
|
||||
\Gamma \left( \frac{\nu}{2} \right)} \left( 1 + \frac{x^2}{\nu}
|
||||
\right)^{- \frac{\nu + 1}{2}}
|
||||
$$
|
||||
|
||||
\begin{align*}
|
||||
&E[z] = 0 \\
|
||||
&V[z] =
|
||||
\begin{cases}
|
||||
\frac{\nu}{\nu - 2} \hspace{15pt} \nu \greater 2 \\
|
||||
\infty \hspace{30pt} \nu \leqslant 2
|
||||
\end{cases}
|
||||
\end{align*}
|
||||
|
||||
|
||||
## Distribuzione di Fischer-Snedecor
|
||||
|
||||
![Distribuzione di Fischer: $n = 3$, $m = 4$.](images/fischer.png)
|
||||
|
||||
Se si hanno due campioni $\vec{x}$ e $\vec{y}$ di variabili che seguono le
|
||||
rispettive Gaussiane, si può usare la distribuzione di Fisher-Snedecor per
|
||||
comparare le due varianze. Se nel primo caso le variabili sono $n$ e nel
|
||||
secondo sono $m$, allora la distribuzione di Fisher con gradi di libertà
|
||||
$n-1$ e $m-1$ dà la distribuzione del rapporto:
|
||||
|
||||
$$
|
||||
\frac{S^2_x / S^2_y}{\sigma^2_x / \sigma^2_y} =
|
||||
\frac{S^2_x / \sigma^2_x}{S^2_y / \sigma^2_y}
|
||||
$$
|
||||
|
||||
con:
|
||||
|
||||
$$
|
||||
S^2_x = \frac{1}{n -1} \sum_{i = 1}^n (x_i - \mu_i)^2
|
||||
\hspace{50pt} \text{,} \hspace{50pt}
|
||||
S^2_y = \frac{1}{m -1} \sum_{i = 1}^m (y_i - \mu_i)^2
|
||||
$$
|
||||
|
||||
che quindi è il rapporto di due grandezze distribuite secondo il $chi^2$.
|
||||
La definizione della pdf è complicata...
|
||||
|
||||
## Funzione caratteristica
|
||||
|
||||
Si definisce funzione caratteristica di una variabile $x$ distribuita secondo
|
||||
una $f(x)$, la trasformata di Fourier di quest'ultima:
|
||||
|
||||
$$
|
||||
\hat{f}(k) = E[e^{ikx}] = \int\limits_{-\infty}^{+\infty} dx f(x) e^{ikx}
|
||||
$$
|
||||
|
||||
come per ogni trasformata, tutte le informazioni contenute nella funzione
|
||||
originaria sono contenute anche nella funzione caratteristica, perché per
|
||||
tornare alla prima è sufficiente calcolare la trasformata inversa:
|
||||
|
||||
$$
|
||||
f(x) = \frac{1}{2 \pi} \int\limits_{-\infty}^{+\infty} dx \hat{f}(k) e^{-ikx}
|
||||
$$
|
||||
|
||||
la funzione caratteristica è utile per semplificare alcuni conti. Se
|
||||
$x_1 \dots x_N$ sono variabili casuali indipendenti:
|
||||
|
||||
\begin{align*}
|
||||
z = \sum_{i = 1}^N x_i
|
||||
\hspace{20pt} \Longrightarrow \hspace{20pt}
|
||||
\hat{f}_z(k) &= \int dx_1 \dots dx_N f_1(x_1)
|
||||
\dots f_N(x_N) e^{ik \sum_{i=1}^N x_i} = \\
|
||||
&= \int dx_1 f_1(x_1) e^{ikx_1} \dots \int dx_N f_N(x_N) e^{ikx_N} = \\
|
||||
&= \hat{f}_1(k) \dots \hat{f}_N(k)
|
||||
\end{align*}
|
||||
|
||||
Inoltre vale anche che:
|
||||
|
||||
$$
|
||||
\frac{d^m}{dk^m} \hat{f}(k) \big|_{k = 0} =
|
||||
\frac{d^m}{dk^m}
|
||||
\int\limits_{-\infty}^{+\infty} dx f(x) e^{ikx} \big|_{k = 0} =
|
||||
i^m \int\limits_{-\infty}^{+\infty} dx f(x) e^{ikx} x^m \big|_{k = 0} =
|
||||
i^m \mu_m = i^m E[x^m]
|
||||
$$
|
||||
|
||||
che è il momento algebrico di ordine $m$.
|
||||
Per esempio, nel caso di due variabili indipendenti $x$ e $y$ gaussiane, si
|
||||
può notare subito che la loro somma è una gaussiana con $\mu = \mu_x + \mu_y$ e
|
||||
$\sigma^2 = \sigma_x^2 + \sigma_y^2$. Analogamente per la Poissoniana.
|
||||
Inoltre è facile osservare quale sia il comportamento delle pdf nei vari limiti
|
||||
che abbiamo visto in precedenza: se si manda $N \rightarrow \infty$ mantenendo
|
||||
il valore medio costante nella funzione caratteristica di una binomiale, si
|
||||
ottiene la funzione caratteristica di una Poissoniana. Anche il teorema
|
||||
centrale del limite si può dimostrare in questo modo.
|
@ -1,281 +0,0 @@
|
||||
# BPH
|
||||
|
||||
## Statistica descrittiva
|
||||
|
||||
Si possono distinguere due tipi di analisi dei dati: "model independent"
|
||||
(statistica descrittiva) e "model dependent", che si basano su un modello
|
||||
teorico. In questo capitolo studiamo quelli del primo tipo.
|
||||
Alcuni argomenti tipici di statistica descrittiva sono:
|
||||
|
||||
- test per stabilire se due datasets provengono dalla stessa distribuzione
|
||||
$f(x)$;
|
||||
- test per stabilire la correlazione tra due datasets (test di ipotesi);
|
||||
- metodi per determinare i momenti di una distribuzione;
|
||||
- metodi per lo smoothing dei dati sperimentali.
|
||||
|
||||
### Momenti di una distribuzione
|
||||
|
||||
Definire i momenti di una distribuzione ha senso quando gli eventi che la
|
||||
costituiscono hanno la tendenza ad agglomerarsi attorno ad un valore centrale.
|
||||
Se i dati sono discreti, si usano le seguenti definizioni:
|
||||
|
||||
Media campionaria: se $n_i$ è la frequenza con cui si presenta ciascun valore
|
||||
$x_j$:
|
||||
|
||||
$$
|
||||
\bar{x} = \frac{1}{N} \sum_{i = 1}^N x_i
|
||||
= \frac{1}{N} \sum_{j = 1}^{N'} n_j x_j
|
||||
$$
|
||||
|
||||
Momento centrale di ordine $r$:
|
||||
|
||||
$$
|
||||
V_r = \frac{1}{N} \sum_{j=1}^{N'} n_j^r (x_j - \bar{x})^r
|
||||
$$
|
||||
|
||||
Esistono anche altri due valori "centrali", che nel caso continuo diventano:
|
||||
mediana:
|
||||
|
||||
$$
|
||||
\int\limits_{-\infty}^{x_{\text{med}}} dx \, f(x) = \frac{1}{2}
|
||||
$$
|
||||
|
||||
moda: valore per cui $f(x)$ è massima, ovvero valore che si ripete con
|
||||
maggiore frequenza.
|
||||
Se la pdf ha code molto estese, è possibile che gli integrali non convergano
|
||||
e questi valori non siano definiti. Per questo motivo la mediana è uno
|
||||
stimatore del valore centrale più robusto della media.
|
||||
|
||||
I momenti centrali definiscono il modo in cui i dati si distribuiscono attorno
|
||||
al valore centrale: quanto sono "diffusi". Il primo è la varianza (si noti la
|
||||
correzione di Bessel per cui $N \rightarrow N -1$ al denominatore):
|
||||
|
||||
$$
|
||||
V = \frac{1}{N - 1} \sum_{i = 1}^N (x_i - \bar{x})^2
|
||||
$$
|
||||
|
||||
La skewness (letteralmente "asimmetria") descrive quanto i valori siano
|
||||
distribuiti in modo disuniforme attorno al valore medio:
|
||||
|
||||
$$
|
||||
\gamma = \frac{1}{\sigma^3} E[(x - \bar{x})^3]
|
||||
$$
|
||||
|
||||
dove $\sigma$ è la deviazione standard.
|
||||
|
||||
![Skewness.](images/skewness.png){width=12cm}
|
||||
|
||||
Quanto una pdf è più o meno piccata rispetto ad una gaussuana è dato dalla
|
||||
kurtosis ("curved", "arching"):
|
||||
|
||||
$$
|
||||
K = \frac{1}{\sigma^4} E[(x -\bar{x})^4] -3
|
||||
$$
|
||||
|
||||
![Kurtosis.](images/kurtosis.png){width=8cm}
|
||||
|
||||
Esiste una stima per le deviazioni standard di questi parametri nel caso di
|
||||
distribizioni circa gaussiane:
|
||||
|
||||
\begin{align*}
|
||||
&V(\sigma^2) = \frac{2 \sigma^4}{N} \\
|
||||
&V(\gamma) \approx \frac{15}{N} \\
|
||||
&V(K) \approx \frac{96}{N}
|
||||
\end{align*}
|
||||
|
||||
### Smoothing dei dati
|
||||
|
||||
Lo smoothing dei dati si rende necessario quando i dati sono corrotti da un
|
||||
rumore casuale. Solitamente si attua una media su finestre che inglobano dati
|
||||
contigui. Fare una media, però, significa abbassare inevitabilmente il valore
|
||||
nei picchi, perché la maggior parte delle volte conservano l'area al di sotto
|
||||
del picco e la posizione, ma non l'altezza.
|
||||
Uno dei più efficienti metodi di smoothing è il filtro di Savitsky-Golay.
|
||||
|
||||
Il segnale viene analizzato a gruppi di punti incentrati ciascuno in $Y_i$, con
|
||||
$i$ che scorre su tutto l'array. Chiamiamo $y_0$ il punto centrale e $Y_N$ e
|
||||
$Y_{-N}$ gli estremi. $Y_0$ viene sostituito con un valore calcolato in un modo
|
||||
spiegato di seguito. Durante questo processo, i valori di $Y_i$ non vengono
|
||||
sostituiti con $f_i$, bensì si crea un array parallelo che sarà poi quello
|
||||
definitivo smoothato.
|
||||
I valori di $Y_i$ si ottengono tramite un fit sui punti della finestra con
|
||||
un polinomio di grado arbitrario $g$: $P_g(j)$. Il polinomio viene poi
|
||||
valutato in zero e sostituito al valore di $y_0$.
|
||||
|
||||
### Test di ipotesi
|
||||
|
||||
Supponiamo di voler dimostrare che una certa variabile casuale $x$ segua una
|
||||
pdf $f(x)$: questa è detta ipotesi nulla $H_0$. Se $f(x)$ non dipende da alcun
|
||||
parametro, si parla di ipotesi semplice, altrimenti di dice composta. Oltre
|
||||
alla ipotesi nulla si possono avere una o più ipotesi alternative $H_1$,
|
||||
$H_2$...
|
||||
Consideriamo il semplice caso in cui abbiamo una sola ipotesi alternativa
|
||||
$H_1$ che proponga a sua volta una pdf. Per valutare l'accordo tra i dati e
|
||||
un'ipotesi nulla si costruisce una statistica di test $t(x)$, che è una
|
||||
variabile che dipende da $\vec{x}$ che definisco per determinare se l'ipotesi
|
||||
nulla sia vera oppure no (vedi $t_{\text{cut}}$ oppure la discrepanza...) e che
|
||||
segue a sua volta due pdf, una prevista da $H_0$ e una da $H_1$.
|
||||
|
||||
\begin{center}
|
||||
\begin{tikzpicture}
|
||||
|
||||
\draw [thick, ->] (0,0) -- (12,0);
|
||||
\draw [thick, ->] (0,0) -- (0,6);
|
||||
\node [left] at (0,6) {g(t)};
|
||||
\node [below] at (12,0) {t};
|
||||
\draw [thick, dashed] (6,0) -- (6,6);
|
||||
\node [below] at (6,0) {$t_{\text{cut}}$};
|
||||
\draw [thick, blue] (0,0) to [out = 20, in = 180] (3,5)
|
||||
to [out = 0, in = 180] (8,0);
|
||||
\draw [thick, red] (4,0) to [out = 20, in = 180] (7,3)
|
||||
to [out = 0, in = 180] (11,0);
|
||||
\node [blue] at (2.5, 2) {$g(t \, | \, H_0)$};
|
||||
\node [red] at (8, 1) {$g(t \, | \, H_1)$};
|
||||
|
||||
\end{tikzpicture}
|
||||
\end{center}
|
||||
|
||||
Si definisce 'significanza del criterio di test' $\alpha$ (mentre $(1 -
|
||||
\alpha)$ è il 'livello di confidenza del criterio di test', o 'efficienza'):
|
||||
|
||||
$$
|
||||
\alpha = \int\limits_{t_{\text{cut}}}^{+ \infty} dt \, g(t \, | \, H_0)
|
||||
$$
|
||||
|
||||
mentre $\beta$ è chiamato 'potenza del test' (mentre $(1 - \beta)$ è
|
||||
detto 'purezza'):
|
||||
|
||||
$$
|
||||
\beta = \int\limits_{-\infty}^{t_{\text{cut}}} dt \, g(t \, | \, H_1)
|
||||
$$
|
||||
|
||||
Si chiamano:
|
||||
|
||||
- errore di prima specie: rigezione di $H_0$ qualora questa sia vera (con
|
||||
relativa probabilità $P_1$);
|
||||
- errore di seconda specie: accettazion di $H_0$ qualora questa sia falsa
|
||||
(con relativa probabilità $P_2$);
|
||||
|
||||
Per $t < t_{\text{cut}}$ deciso arbitrariamente, imponiamo che l'ipotesi
|
||||
nulla sia verificata. Ne consgue che $\alpha = P_1$ e $\beta = P_2$.
|
||||
La scelta migliore di $y_{\text{cut}}$ è quella che dà la massima purezza data
|
||||
una certa efficienza. Nel caso 1D lo si ottiene automaticamente (vedi esempio),
|
||||
altrimenti può essere complicato.
|
||||
|
||||
Facciamo un esempio in cui applichiamo il lemma di Neyman-Pearson.
|
||||
Immaginiamo di avere i valori $\vec{x} = (x_1 ... x_N)$ che appartengono ad
|
||||
una distribuzione normale la cui varianza $\sigma$ è nota e si deve distinguere
|
||||
tra due valori medi $\mu_0$ e $\mu_1$, cioé:
|
||||
|
||||
$$
|
||||
H_0 = [\mu = \mu_0]
|
||||
\hspace{100pt}
|
||||
H_1 = [\mu = \mu_1]
|
||||
$$
|
||||
|
||||
A questo punto le pdf previste da $H_0$ e $H_1$ sono due gaussiane centrate
|
||||
ciascuna nel proprio valore medio. Secondo il lemma di cui sopra, dobbiamo
|
||||
calcolare la Likelihood, che è la produttoria su tutte le misure effettuate
|
||||
$x_i$ della pdf prevista di un'ipotesi calcolata in $x_i$:
|
||||
|
||||
$$
|
||||
L(\vec{x}, \mu, \sigma) = \frac{1}{(\sigma \sqrt{2 \pi})^N} \Pi_{i=1}^N
|
||||
N(x_i, \nu, \sigma)
|
||||
$$
|
||||
|
||||
dove con $N$ si indica la distribuzione normale. Si tratta, cioè, della
|
||||
probabilità di avere ottenuto quelle misure secondo l'ipotesi considerata.
|
||||
Vorremo, quindi, che $L(H_0) >> L(H_1)$. A questo scopo si guarda $r$,
|
||||
parametro previsto dal lemma, che vale:
|
||||
|
||||
$$
|
||||
r = \frac{(L(\vec{x}) \, | \, H_0)}{(L(\vec{x}) \, | \, H_1)}
|
||||
\hspace{30pt} \Longrightarrow \hspace{30pt}
|
||||
\ln{r} = \ln{L(\vec{x}, \mu_0, \sigma)} - \ln{L(\vec{x}, \mu_0, \sigma)}
|
||||
$$
|
||||
|
||||
Che deve essere a sua volta molto grande. La regione in cui si deve accettare
|
||||
l'ipotesi nulla è infatti quella con $r > c$, dove $c$ deve ancora essere
|
||||
valutato.
|
||||
|
||||
$$
|
||||
\ln{r} = R(\vec{x}) > \ln{c}
|
||||
\hspace{30pt} \Longrightarrow \hspace{30pt}
|
||||
\vec{x} > (\text{oppure} <) \, g(c) = t_{\text{cut}}
|
||||
$$
|
||||
|
||||
Per scegliere $k$, si impone che:
|
||||
|
||||
$$
|
||||
P_1 = \alpha = Pr(\vec{x} > (\text{oppure} <) \, t_{\text{cut}} \,
|
||||
| \, H_0)
|
||||
$$
|
||||
|
||||
Quindi ciò che può essere scelto arbitrariamente, alla fine dei conti, è
|
||||
$\alpha$, che solitamente si impone $= 5 \%$.
|
||||
|
||||
### Discriminante lineare di Fisher
|
||||
|
||||
In che modo si possono definire $f(t \, | \, H_0)$ e $f(t \, | \, H_1)$? Si
|
||||
possono fare degli *ansatz* riguardo alla forma di $t$. Il modello di Fischer
|
||||
utilizza una funzione lineare:
|
||||
|
||||
$$
|
||||
t = \sum_{i = 1}^N a_i x_i = \vec{a} \cdot \vec{x}
|
||||
$$
|
||||
|
||||
dove il vettore $\vec{a}$ è da determinare. Definiamo l'insieme dei valori medi
|
||||
e delle "varianze" delle variabili misurate come segue: $\mu_{k, i}$ è il valore
|
||||
medio della variabile $i$-esima secondo l'ipotesi $k$-esima:
|
||||
|
||||
$$
|
||||
\mu_{k,i} = \int\limits_{-\infty}^{+\infty} dx_1 \dots dx_N
|
||||
\, x_i f(\vec{x} \, | \, H_k)
|
||||
$$
|
||||
|
||||
dove $k$ può quindi essere 0 o 1; mentre:
|
||||
|
||||
$$
|
||||
(V_k)_{i,j} = \int\limits_{-\infty}^{+\infty} dx_1 \dots dx_N
|
||||
\, (x_i - \mu_{k,i})(x_j - \mu_{k,j}) f(\vec{x} \, | \, H_k)
|
||||
$$
|
||||
|
||||
Si può dimostrare che, per funzioni
|
||||
gaussiane, la migliore statistica di test (ovvero che massimizza $1 - \beta$
|
||||
per un dato $a$) è quella per cui:
|
||||
|
||||
$$
|
||||
\vec{a} = \frac{1}{w} (\vec{\nu}_0 - \vec{\nu}_1)
|
||||
\hspace{40pt} \text{con} \hspace{40pt}
|
||||
W_{i,j} = (V_0 + V_i)_{i,j}
|
||||
$$
|
||||
|
||||
In genere si introduce anche un offset:
|
||||
|
||||
$$
|
||||
t = a_0 + \sum_{i = 1}^N a_i x_i
|
||||
$$
|
||||
|
||||
### Reti neuronali
|
||||
|
||||
Si può dimostrare che se si usa il discriminante lineare di Fisher, allora dati
|
||||
i dati $\vec{x}$, la probabilità che sia giusta $H_0$ è:
|
||||
|
||||
$$
|
||||
P(H_0 | \vec{x}) = frac{1}{1 + e^{-t}}
|
||||
$$
|
||||
|
||||
![Logistic function.](images/logistic.png){width=6cm}
|
||||
|
||||
che è la funzione logistica. Se le due pdf $f(\vec{x} | H_0)$ e $f(\vec{x} |
|
||||
H_1)$ non sono gaussiane, allora il discriminante lineare di Fisher non è più
|
||||
ottimale e si può generalizzare $t(\vec{x})$ con un caso speciale di Artificial
|
||||
Neural Network (ANN).
|
||||
Supponiamo di prendere
|
||||
|
||||
$$
|
||||
t(\vec{x}) = s_0 \left( a_0 \sum_{i = 1}^N a_i x_i \right)
|
||||
$$
|
||||
|
||||
con $s$ detta funzione di attivazione e $a_0$ detta soglia. Siccome la sigmoide
|
||||
è monotona, questa ANN è equivalente ad un test lineare.
|