290 lines
12 KiB
Markdown
290 lines
12 KiB
Markdown
@1 ----------------------------------------------------------------------------
|
||
|
||
# Numero di condizionamento
|
||
|
||
È il rapporto tra la variazione percentuale del risultato e la variazione
|
||
percentuale del dato in ingresso. È un parametro utile per controllare se
|
||
un problema sia mal o ben condizionato.
|
||
Nel caso di una funzione f, questo parametro si riduce ad essere
|
||
10.1016/0168-9002(90)91334-8
|
||
x f'(x) / f(x)
|
||
|
||
e il limite per l'incremento dei dati iniziali tendente a zero è detto
|
||
`fattore di amplificazione` e il problema potrebbe essere mal condizionato
|
||
soltanto per determinati valori di x.
|
||
|
||
@2 ----------------------------------------------------------------------------
|
||
|
||
# Probabilità condizionata
|
||
|
||
La seconda uguaglianza è valida se A e B sono eventi indipendenti.
|
||
|
||
P(A ⋂ B) P(A) P(B)
|
||
P(A|B) = -------- = --------- = P(A)
|
||
P(B) P(B)
|
||
|
||
da cui si ottiene il `teorema di Bayes`:
|
||
|
||
P(A ⋂ B) \
|
||
P(A|B) = -------- |
|
||
P(B) | P(B|A) P(A)
|
||
> P(A|B) = -----------
|
||
P(B ⋂ A) | P(B)
|
||
P(B|A) = -------- |
|
||
P(A) /
|
||
|
||
# Correlazione tra variabili
|
||
|
||
Si può usare per determinare se una teoria sia valida oppure no dato un certo
|
||
campione sperimentale (A è la teoria e B sono i dati). P(A ⋂ B) è la joint pdf.
|
||
Le `convoluzioni di Mellin e Fourier` servono per trovare la pdf di una
|
||
variabile che è rispettivamente il prodotto o la somma di altre due variabili
|
||
con pdf nota (dimostrazione cartacea).
|
||
La `covarianza` cov(x, y) è definita come:
|
||
|
||
cov(x, y) = E[x * y] - (μx * μy) = E[(x - μx)*(y - μy)]
|
||
|
||
e il coefficiente di correlazione di Pearson è definito come:
|
||
|
||
ρ = cov(x, y)/(σx * σy)
|
||
|
||
ed è compreso tra -1 e 1. Dice quanto le varibili siano correlate: se è nullo,
|
||
non lo sono per niente; se è positivo, sono inclinate in avanti, altrimenti
|
||
sono inclinate in dietro.
|
||
Per dei dati è definita la `matrice di covarianza` V (se sono indipendenti,
|
||
sarà diagonale, con gli errori quadrati come entrate). Se poi ho delle
|
||
grandezze che dipendono da questi dati, la loro matrice di covarianza U può
|
||
essere calcolata da quella iniziale come:
|
||
|
||
U = AVA^T con Aij = ∂_xi yj
|
||
|
||
dove A è quindi la matrice del cambio di base nel caso di un cambio di
|
||
variabili.
|
||
In teoria questa cosa funziona solo se le y dipendono linearmente dalle x su
|
||
dimensioni comparabili con le σ. Importante: eventuali errori sistematici si
|
||
sommano in quadratura su tutta la matrice di covarianza.
|
||
|
||
# Distribuzioni di probabilità
|
||
|
||
Abbiamo visto diversi tipi:
|
||
- Binomiale
|
||
/ N \ E[n] = N*p
|
||
P(n, N, p) = | | p^n (1 + p)^(N - n) con
|
||
\ n / V[n] = N*p*(p-1)
|
||
|
||
da cui si può poi ricavare la multinomiale.
|
||
- Poissoniana
|
||
|
||
ν^n
|
||
P(n, ν) = --- e^(-ν) con E[n] = V[n] = ν
|
||
n!
|
||
|
||
Si ottiene dal caso precedente per N→∞ e p→0 con N*p = ν.
|
||
- Uniforme
|
||
1 E[x] = (a + b)/2
|
||
P(x, b, a) = ----- con
|
||
b - a V[x] = (b - a)^2/12
|
||
- Gaussiana
|
||
1 / (x - μ)^2 \ E[x] = μ
|
||
G(x, μ, σ) = -------- e^| - --------- | con
|
||
√(2 π) σ \ 2 σ^2 / V[x] = σ^2
|
||
|
||
È il limite delle prime due distribuzioni per N→∞.
|
||
|
||
Il `teorema centrale` del limite dice che se una variabile è la somma di N
|
||
variabli indipendenti tutte con la stessa pdf con valore medio μi e devstd σi,
|
||
allora tale variabile ha distribuzione Normale con:
|
||
|
||
μ = Σμi e σ² = Σσi²
|
||
|
||
@3 ----------------------------------------------------------------------------
|
||
|
||
# Momenti di una distribuzione
|
||
|
||
A parte il valore medio e la varianza, solitamente si definiscono skewness e
|
||
kurtosis:
|
||
|
||
| (x - X)³ | | (x - X)⁴ |
|
||
γ = E | -------- | k = E | -------- | - 3
|
||
| σ³ | | σ⁴ |
|
||
|
||
dove X è la media campionaria e 3 è la kurtosis della Gaussiana.
|
||
|
||
# Test di ipotesi
|
||
|
||
Se ho dei dati sperimentali e devo scegliere tra due (o più) ipotesi, devo
|
||
costruire una `statistica di test` che avrà una propria pdf e in questa porre
|
||
un valore di soglia. Anche la pdf della statistica di test avrà una pdf o
|
||
l'altra a seconda di quale delle due ipotesi sia vera.
|
||
|
||
- Se è vera l'ipotesi nulla, l'area dal cut a +∞ è detta significanza α e
|
||
1 - α è detto livello di confidenza (o efficienza).
|
||
- Se è vera l'ipotesi alternativa, se l'area da -∞ al cut è β, allora 1 - β
|
||
è detta potenza del test (o purezza).
|
||
|
||
Si chiama errore di prima specie se si scarta l'ipotesi nulla quando invece è
|
||
vera ed errore di seconda specie quando la si accetta e invece è falsa.
|
||
Noi abbiamo sempre controllato solo qual è la pdf della statistica di test nel
|
||
caso in cui l'ipotesi nulla sia vera e abbiamo posto il livello di confidenza
|
||
al 95%, ovvero α = 5%.
|
||
La potenza è detta anche purezza perché è la probabilità di scambiare "rumore
|
||
per segnale", mentre l'intervallo di confidenza si dice anche efficienza perché
|
||
è la probabilità di scambiare "il segnale per segnale".
|
||
|
||
Il `lemma di Neyemann Pearson` dice che la statistica di test che massimizza la
|
||
purezza una volta fissata l'efficienza è il rapporto delle Likelihood:
|
||
|
||
L(H0)/L(H1).
|
||
|
||
o comunque il rapporto delle probabilità di ottenere il campione misurato
|
||
secondo le due ipotesi.
|
||
Nel caso in cui le due pdf siano gaussiane, il discriminante di Fisher porta
|
||
allo stesso risultato che si otterrebbe con il rapporto delle likelihood.
|
||
|
||
# Confronto di due datasets
|
||
|
||
Il test di `Kolmogorov-Smirnov` serve per confrontare dati non binnati: o un set
|
||
di dati con una funzione attesa, oppure due set di dati tra loro. Siccome
|
||
confronta tra loro le cumulative, va bene nel confrontare shifts dei dati o
|
||
grandi variazioni ma non piccoli dip nelle pdf. Per farlo in più dimensioni,
|
||
esistono varie idee ma non c'è n'è una standard e soprautto la distribuzione
|
||
della statistica non è nota e va simulata.
|
||
Se i dati sono binnati, invece, allora si può usare il `test del χ²`:
|
||
|
||
(ni - νi)²
|
||
χ² = Σ ---------
|
||
νi
|
||
|
||
e si guarda qual è il p-value della sua distribuzione, che è nota.
|
||
|
||
Il `p-value` è la probabilità di misurare un valore che si allontani ancora di
|
||
più del valore trovato rispetto alla statistica di test prevista dall'ipotesi
|
||
nulla. Ovvero:
|
||
|
||
- se H0 dice che il valore medio di t è t0
|
||
- ed io ho misurato un valore la cui statistica di test vale tx < t0
|
||
- il p-value è dato dall'integrale da -∞ a tx della pdf della statistica di
|
||
test nel caso in cui l'ipotesi nulla sia vera.
|
||
|
||
deve essere grande affinché l'ipotesi nulla possa essere ritenuta vera, dato
|
||
il dato controllato e quindi la significanza α dovrebbe essere grande (invece
|
||
la si mette sempre a 0.5 perché è standard). Oppure deve essere piccolo se
|
||
voglio confutarla (e quindi metterò una piccola significanza di riferimento).
|
||
Attenzione al `look-elsewhere effect`: se mi sforzo di trovare un p-value
|
||
minore di α (significanza), se faccio tante prove, prima o poi lo troverò, ma
|
||
non vuol dire che sia significativo.
|
||
|
||
@4 ----------------------------------------------------------------------------
|
||
|
||
# Stima di parametri
|
||
|
||
Consideriamo una variabile casuale x che segue la pdf f(x), la quale ha dei
|
||
parametri Θ. Se io faccio una misura y di questi, allora otterrò uno stimatore
|
||
⊇(y) dei parametri Θ. Anche questo stimatore avrà una sua pdf che dipende dal
|
||
valore vero. Uno stimatore deve soddisfare alcuni requisiti:
|
||
|
||
- consistenza: per N→∞, ⊇→Θ;
|
||
- unbias: E[⊇] = Θ
|
||
Ovvero: ripetendo tante volte l'esperimento, il valore medio della
|
||
distribuzione deve essere il valore vero;
|
||
- deve avere una piccola varianza.
|
||
|
||
Per esempio, la media campionaria è uno stimatore della media e la sua varianza
|
||
è σ²/N, nel senso che se si ripetesse lo stesso esperimento tante volte e si
|
||
guardasse la distribuzione delle medie così ottenute, otterremmo che queste
|
||
medie seguono una pdf con questa varianza. Affinché lo stimatore della varianza
|
||
sia unbiasato, si deve introdurre la correzione di Bessel.
|
||
|
||
Un metodo che si può utilizzare è la maximum likelihood. Se lo si applica al
|
||
caso di una gaussiana, si trova che gli stimatori della media e della varianza
|
||
sono la media e la varianza campionarie. Quest'ultima va però corretta con la
|
||
correzione di Bessel.
|
||
|
||
La disuguaglianza di `Cramer-Rao` (detto anche bound RCF) afferma che la matrice
|
||
di covarianza è >= all'inverso della matrice Hessiana di -L calcolata nel
|
||
minimo.
|
||
|
||
Uno `stimatore robusto` è poco sensibile ai valori nelle code della
|
||
distribuzione. È buono che gli stimatori siano robusti. Un esempio è la media
|
||
trimmata, in cui nel calcolo si escludono i punti più esterni.
|
||
Quando si sta lavorando con una gaussiana contaminata, ovvero che è la somma
|
||
di due gaussiane in cui la seconda è, per esempio, il rumore, ed ha una
|
||
varianza maggiore, allora anziché usare la varianza campionaria standard,
|
||
è meglio usare d_n:
|
||
|
||
1
|
||
d_n = - Σi |xi - X|
|
||
N
|
||
|
||
L'`extended maximum likelihood` si usa quando non ho deciso io il numero di
|
||
dati ma è esso stesso una misura sperimentale (come nel caso dei decadimenti):
|
||
in questo caso si moltiplica la Likelihood per la probabilità (Poissoniana) di
|
||
ottenere quel numero di decadimenti: se la relazione ν(Θ) è nota, ciò permette
|
||
di ottenere degli stimatori con minore varianza.
|
||
|
||
@5 ----------------------------------------------------------------------------
|
||
|
||
# Stima di parametri
|
||
|
||
Il χ² è il metodo della Maximum Likelihood nel caso in cui:
|
||
|
||
- ho delle misure yi(xi) affette da un rumore gaussiano,
|
||
- i valori medi e le devstd di queste gaussiane sono λi e σi,
|
||
- la likelihood sarebbe il prodotto delle gaussiane e quindi il logaritmo è
|
||
la somma degli esponenti
|
||
- massimizzare questa somma equivale a minimizzare il χ² dove i valori
|
||
attesi sono dati dalle λi e gli errori dalle σi.
|
||
|
||
Nella pratica i λi si suppone coincidano con il valore atteso della pdf e le
|
||
varianze con le varianze campionarie.
|
||
Nel caso in cui la funzione attesa sia lineare nei parametri, il metodo ha
|
||
soluzione analitica.
|
||
Di solito si guarda poi il `χ² ridotto` e il fit è buono se è prossimo a uno.
|
||
|
||
IMPORTANTE:
|
||
Il metodo della Likelihood e quello dei momenti si usano quando si hanno punti
|
||
distribuiti secondo una pdf e si vogliono stimare i parametri della pdf. NON
|
||
si hanno delle y(x). Il metodo del χ², invece, si usa per trovare la funzione
|
||
che lega le y alle x. Se lo si vuole usare con dei dati ottenuti da una pdf,
|
||
allora bisogna binnarli in modo tale da ottenere le y.
|
||
|
||
Quando ci sono dei problemi nella minimizzazione del χ², si può provare ad
|
||
usare il `metodo dei momenti`, anche se generalmente dà risultati con maggiore
|
||
varianza (il teorema di `Gauss Markov` afferma che gli estimatori che si
|
||
trovano col χ² sono infatti quelli con la varianza minima).
|
||
|
||
- Ho dei punti xi e voglio trovare i parametri della pdf fΘ(x),
|
||
- calcolo analiticamente i momenti della funzione come integrali della
|
||
funzione per x, per x², eccetera. (se i parametri sono n, calcolo i primi
|
||
n momenti)
|
||
- calcolo i momenti in modo discreto usando i dati xi
|
||
(X = Σxi/N, X² = Σx²i(N)
|
||
- uguaglio quelli analitici con quelli sperimentali e trovo i Θ.
|
||
|
||
L'errore è dato dalla propagazione degli errori (che è il solito U = AVA^T).
|
||
|
||
@6 ----------------------------------------------------------------------------
|
||
|
||
# Stima di intervalli di confidenza
|
||
|
||
Un intervallo di confidenza può soddisfare certe caratteristiche:
|
||
|
||
- simmetrico: i bordi sono equidistanti dal valore centrale;
|
||
- centrale: la parte di area della pdf lasciata fuori è uguale tra dx e sx;
|
||
- one side: se uno dei due estremi è ±∞.
|
||
|
||
Dire che:
|
||
|
||
x = x₀ ± δx CL = 68%
|
||
|
||
significa che ripetendo N volte l'esperimento, il 68% delle volte si otterrà
|
||
che x₀ appartiene a quell'intervallo (non che il valore vero ha il 68% di
|
||
probabilità di essere in quell'intervallo, che non ha alcun senso...).
|
||
Quando si vuole stimare la media di una distribuzione, per il CLT questa segue
|
||
una distribuzione gaussiana per N→∞ e quindi gli intervalli di confidenza sono
|
||
noti, date le σ.
|
||
|
||
La `quantile` di 0.5 è la mediana. Il che significa che la quantile è l'inversa
|
||
della cumulativa.
|
||
Se ho effettuato la misura di una grandezza ...?
|