Giù Marcer 0898b3cb30 lectures: went on writing notes.md

2020-07-05 11:36:14 +02:00

12 KiB

Raw Blame History

@1 ----------------------------------------------------------------------------

Numero di condizionamento

È il rapporto tra la variazione percentuale del risultato e la variazione percentuale del dato in ingresso. È un parametro utile per controllare se un problema sia mal o ben condizionato. Nel caso di una funzione f, questo parametro si riduce ad essere 10.1016/0168-9002(90)91334-8 x f'(x) / f(x)

e il limite per l'incremento dei dati iniziali tendente a zero è detto fattore di amplificazione e il problema potrebbe essere mal condizionato soltanto per determinati valori di x.

@2 ----------------------------------------------------------------------------

Probabilità condizionata

La seconda uguaglianza è valida se A e B sono eventi indipendenti.

       P(A ⋂ B)   P(A) P(B)

P(A|B) = -------- = --------- = P(A) P(B) P(B)

da cui si ottiene il teorema di Bayes:

       P(A ⋂ B) \

P(A|B) = -------- | P(B) | P(B|A) P(A) > P(A|B) = ----------- P(B ⋂ A) | P(B) P(B|A) = -------- | P(A) /

Correlazione tra variabili

Si può usare per determinare se una teoria sia valida oppure no dato un certo campione sperimentale (A è la teoria e B sono i dati). P(A ⋂ B) è la joint pdf. Le convoluzioni di Mellin e Fourier servono per trovare la pdf di una variabile che è rispettivamente il prodotto o la somma di altre due variabili con pdf nota (dimostrazione cartacea). La covarianza cov(x, y) è definita come:

cov(x, y) = E[x * y] - (μx * μy) = E[(x - μx)*(y - μy)]

e il coefficiente di correlazione di Pearson è definito come:

ρ = cov(x, y)/(σx * σy)

ed è compreso tra -1 e 1. Dice quanto le varibili siano correlate: se è nullo, non lo sono per niente; se è positivo, sono inclinate in avanti, altrimenti sono inclinate in dietro. Per dei dati è definita la matrice di covarianza V (se sono indipendenti, sarà diagonale, con gli errori quadrati come entrate). Se poi ho delle grandezze che dipendono da questi dati, la loro matrice di covarianza U può essere calcolata da quella iniziale come:

U = AVA^T con Aij = ∂_xi yj

dove A è quindi la matrice del cambio di base nel caso di un cambio di variabili. In teoria questa cosa funziona solo se le y dipendono linearmente dalle x su dimensioni comparabili con le σ. Importante: eventuali errori sistematici si sommano in quadratura su tutta la matrice di covarianza.

Distribuzioni di probabilità

Abbiamo visto diversi tipi:

Binomiale / N \ E[n] = Np P(n, N, p) = | | p^n (1 + p)^(N - n) con \ n / V[n] = Np*(p-1)

da cui si può poi ricavare la multinomiale.
Poissoniana
```
        ν^n
```
P(n, ν) = --- e^(-ν) con E[n] = V[n] = ν n!

Si ottiene dal caso precedente per N→∞ e p→0 con N*p = ν.
Uniforme 1 E[x] = (a + b)/2 P(x, b, a) = ----- con b - a V[x] = (b - a)^2/12
Gaussiana 1 / (x - μ)^2 \ E[x] = μ G(x, μ, σ) = -------- e^| - --------- | con √(2 π) σ \ 2 σ^2 / V[x] = σ^2

È il limite delle prime due distribuzioni per N→∞.

Il teorema centrale del limite dice che se una variabile è la somma di N variabli indipendenti tutte con la stessa pdf con valore medio μi e devstd σi, allora tale variabile ha distribuzione Normale con:

μ = Σμi e σ² = Σσi²

@3 ----------------------------------------------------------------------------

Momenti di una distribuzione

A parte il valore medio e la varianza, solitamente si definiscono skewness e kurtosis:

    | (x - X)³ |          | (x - X)⁴ |

γ = E | -------- | k = E | -------- | - 3 | σ³ | | σ⁴ |

dove X è la media campionaria e 3 è la kurtosis della Gaussiana.

Test di ipotesi

Se ho dei dati sperimentali e devo scegliere tra due (o più) ipotesi, devo costruire una statistica di test che avrà una propria pdf e in questa porre un valore di soglia. Anche la pdf della statistica di test avrà una pdf o l'altra a seconda di quale delle due ipotesi sia vera.

Se è vera l'ipotesi nulla, l'area dal cut a +∞ è detta significanza α e 1 - α è detto livello di confidenza (o efficienza).
Se è vera l'ipotesi alternativa, se l'area da -∞ al cut è β, allora 1 - β è detta potenza del test (o purezza).

Si chiama errore di prima specie se si scarta l'ipotesi nulla quando invece è vera ed errore di seconda specie quando la si accetta e invece è falsa. Noi abbiamo sempre controllato solo qual è la pdf della statistica di test nel caso in cui l'ipotesi nulla sia vera e abbiamo posto il livello di confidenza al 95%, ovvero α = 5%. La potenza è detta anche purezza perché è la probabilità di scambiare "rumore per segnale", mentre l'intervallo di confidenza si dice anche efficienza perché è la probabilità di scambiare "il segnale per segnale".

Il lemma di Neyemann Pearson dice che la statistica di test che massimizza la purezza una volta fissata l'efficienza è il rapporto delle Likelihood:

L(H0)/L(H1).

o comunque il rapporto delle probabilità di ottenere il campione misurato secondo le due ipotesi. Nel caso in cui le due pdf siano gaussiane, il discriminante di Fisher porta allo stesso risultato che si otterrebbe con il rapporto delle likelihood.

Confronto di due datasets

Il test di Kolmogorov-Smirnov serve per confrontare dati non binnati: o un set di dati con una funzione attesa, oppure due set di dati tra loro. Siccome confronta tra loro le cumulative, va bene nel confrontare shifts dei dati o grandi variazioni ma non piccoli dip nelle pdf. Per farlo in più dimensioni, esistono varie idee ma non c'è n'è una standard e soprautto la distribuzione della statistica non è nota e va simulata. Se i dati sono binnati, invece, allora si può usare il test del χ²:

     (ni - νi)²

χ² = Σ --------- νi

e si guarda qual è il p-value della sua distribuzione, che è nota.

Il p-value è la probabilità di misurare un valore che si allontani ancora di più del valore trovato rispetto alla statistica di test prevista dall'ipotesi nulla. Ovvero:

se H0 dice che il valore medio di t è t0
ed io ho misurato un valore la cui statistica di test vale tx < t0
il p-value è dato dall'integrale da -∞ a tx della pdf della statistica di test nel caso in cui l'ipotesi nulla sia vera.

deve essere grande affinché l'ipotesi nulla possa essere ritenuta vera, dato il dato controllato e quindi la significanza α dovrebbe essere grande (invece la si mette sempre a 0.5 perché è standard). Oppure deve essere piccolo se voglio confutarla (e quindi metterò una piccola significanza di riferimento). Attenzione al look-elsewhere effect: se mi sforzo di trovare un p-value minore di α (significanza), se faccio tante prove, prima o poi lo troverò, ma non vuol dire che sia significativo.

@4 ----------------------------------------------------------------------------

Stima di parametri

Consideriamo una variabile casuale x che segue la pdf f(x), la quale ha dei parametri Θ. Se io faccio una misura y di questi, allora otterrò uno stimatore ⊇(y) dei parametri Θ. Anche questo stimatore avrà una sua pdf che dipende dal valore vero. Uno stimatore deve soddisfare alcuni requisiti:

consistenza: per N→∞, ⊇→Θ;
unbias: E[⊇] = Θ Ovvero: ripetendo tante volte l'esperimento, il valore medio della distribuzione deve essere il valore vero;
deve avere una piccola varianza.

Per esempio, la media campionaria è uno stimatore della media e la sua varianza è σ²/N, nel senso che se si ripetesse lo stesso esperimento tante volte e si guardasse la distribuzione delle medie così ottenute, otterremmo che queste medie seguono una pdf con questa varianza. Affinché lo stimatore della varianza sia unbiasato, si deve introdurre la correzione di Bessel.

Un metodo che si può utilizzare è la maximum likelihood. Se lo si applica al caso di una gaussiana, si trova che gli stimatori della media e della varianza sono la media e la varianza campionarie. Quest'ultima va però corretta con la correzione di Bessel.

La disuguaglianza di Cramer-Rao (detto anche bound RCF) afferma che la matrice di covarianza è >= all'inverso della matrice Hessiana di -L calcolata nel minimo.

Uno stimatore robusto è poco sensibile ai valori nelle code della distribuzione. È buono che gli stimatori siano robusti. Un esempio è la media trimmata, in cui nel calcolo si escludono i punti più esterni. Quando si sta lavorando con una gaussiana contaminata, ovvero che è la somma di due gaussiane in cui la seconda è, per esempio, il rumore, ed ha una varianza maggiore, allora anziché usare la varianza campionaria standard, è meglio usare d_n:

d_n = - Σi |xi - X| N

L'extended maximum likelihood si usa quando non ho deciso io il numero di dati ma è esso stesso una misura sperimentale (come nel caso dei decadimenti): in questo caso si moltiplica la Likelihood per la probabilità (Poissoniana) di ottenere quel numero di decadimenti: se la relazione ν(Θ) è nota, ciò permette di ottenere degli stimatori con minore varianza.

@5 ----------------------------------------------------------------------------

Stima di parametri

Il χ² è il metodo della Maximum Likelihood nel caso in cui:

ho delle misure yi(xi) affette da un rumore gaussiano,
i valori medi e le devstd di queste gaussiane sono λi e σi,
la likelihood sarebbe il prodotto delle gaussiane e quindi il logaritmo è la somma degli esponenti
massimizzare questa somma equivale a minimizzare il χ² dove i valori attesi sono dati dalle λi e gli errori dalle σi.

Nella pratica i λi si suppone coincidano con il valore atteso della pdf e le varianze con le varianze campionarie. Nel caso in cui la funzione attesa sia lineare nei parametri, il metodo ha soluzione analitica. Di solito si guarda poi il χ² ridotto e il fit è buono se è prossimo a uno.

IMPORTANTE: Il metodo della Likelihood e quello dei momenti si usano quando si hanno punti distribuiti secondo una pdf e si vogliono stimare i parametri della pdf. NON si hanno delle y(x). Il metodo del χ², invece, si usa per trovare la funzione che lega le y alle x. Se lo si vuole usare con dei dati ottenuti da una pdf, allora bisogna binnarli in modo tale da ottenere le y.

Quando ci sono dei problemi nella minimizzazione del χ², si può provare ad usare il metodo dei momenti, anche se generalmente dà risultati con maggiore varianza (il teorema di Gauss Markov afferma che gli estimatori che si trovano col χ² sono infatti quelli con la varianza minima).

Ho dei punti xi e voglio trovare i parametri della pdf fΘ(x),
calcolo analiticamente i momenti della funzione come integrali della funzione per x, per x², eccetera. (se i parametri sono n, calcolo i primi n momenti)
calcolo i momenti in modo discreto usando i dati xi (X = Σxi/N, X² = Σx²i(N)
uguaglio quelli analitici con quelli sperimentali e trovo i Θ.

L'errore è dato dalla propagazione degli errori (che è il solito U = AVA^T).

@6 ----------------------------------------------------------------------------

Stima di intervalli di confidenza

Un intervallo di confidenza può soddisfare certe caratteristiche:

simmetrico: i bordi sono equidistanti dal valore centrale;
centrale: la parte di area della pdf lasciata fuori è uguale tra dx e sx;
one side: se uno dei due estremi è ±∞.

Dire che:

x = x₀ ± δx CL = 68%

significa che ripetendo N volte l'esperimento, il 68% delle volte si otterrà che x₀ appartiene a quell'intervallo (non che il valore vero ha il 68% di probabilità di essere in quell'intervallo, che non ha alcun senso...). Quando si vuole stimare la media di una distribuzione, per il CLT questa segue una distribuzione gaussiana per N→∞ e quindi gli intervalli di confidenza sono noti, date le σ.

La quantile di 0.5 è la mediana. Il che significa che la quantile è l'inversa della cumulativa. Se ho effettuato la misura di una grandezza ...?

12 KiB Raw Blame History Unescape Escape

Numero di condizionamento

Probabilità condizionata

Correlazione tra variabili

Distribuzioni di probabilità

Momenti di una distribuzione

Test di ipotesi

Confronto di due datasets

Stima di parametri

Stima di parametri

Stima di intervalli di confidenza

12 KiB

Raw Blame History