lectures: went on writing notes.md

This commit is contained in:
Giù Marcer 2020-05-30 15:56:20 +02:00 committed by rnhmjoj
parent 3a202e84dd
commit 6fd5457426

View File

@ -48,7 +48,7 @@ e il coefficiente di correlazione di Pearson è definito come:
ρ = cov(x, y)/(σx * σy)
ed è compreso tra -1 e 1. Dice quanto le varibili siano correlate: se è nullo,
ed è compreso tra -1 e 1. Dice quanto le variabili siano correlate: se è nullo,
non lo sono per niente; se è positivo, sono inclinate in avanti, altrimenti
sono inclinate in dietro.
Per dei dati è definita la `matrice di covarianza` V (se sono indipendenti,
@ -92,7 +92,7 @@ Abbiamo visto diversi tipi:
È il limite delle prime due distribuzioni per N→∞.
Il `teorema centrale` del limite dice che se una variabile è la somma di N
variabli indipendenti tutte con la stessa pdf con valore medio μi e devstd σi,
variabili indipendenti tutte con la stessa pdf con valore medio μi e devstd σi,
allora tale variabile ha distribuzione Normale con:
μ = Σμi e σ² = Σσ
@ -139,7 +139,7 @@ purezza una volta fissata l'efficienza è il rapporto delle Likelihood:
o comunque il rapporto delle probabilità di ottenere il campione misurato
secondo le due ipotesi.
Nel caso in cui le due pdf siano gaussiane, il discriminante di Fisher porta
allo stesso risultato che si otterrebbe con il rapporto delle likelihood.
allo stesso risultato che si otterrebbe con il rapporto delle Likelihood.
# Confronto di due datasets
@ -147,7 +147,7 @@ Il test di `Kolmogorov-Smirnov` serve per confrontare dati non binnati: o un set
di dati con una funzione attesa, oppure due set di dati tra loro. Siccome
confronta tra loro le cumulative, va bene nel confrontare shifts dei dati o
grandi variazioni ma non piccoli dip nelle pdf. Per farlo in più dimensioni,
esistono varie idee ma non c'è n'è una standard e soprautto la distribuzione
esistono varie idee ma non c'è n'è una standard e soprattutto la distribuzione
della statistica non è nota e va simulata.
Se i dati sono binnati, invece, allora si può usare il `test del χ²`:
@ -195,7 +195,7 @@ guardasse la distribuzione delle medie così ottenute, otterremmo che queste
medie seguono una pdf con questa varianza. Affinché lo stimatore della varianza
sia unbiasato, si deve introdurre la correzione di Bessel.
Un metodo che si può utilizzare è la maximum likelihood. Se lo si applica al
Un metodo che si può utilizzare è la maximum Likelihood. Se lo si applica al
caso di una gaussiana, si trova che gli stimatori della media e della varianza
sono la media e la varianza campionarie. Quest'ultima va però corretta con la
correzione di Bessel.
@ -216,7 +216,7 @@ varianza maggiore, allora anziché usare la varianza campionaria standard,
d_n = - Σi |xi - X|
N
L'`extended maximum likelihood` si usa quando non ho deciso io il numero di
L'`extended maximum Likelihood` si usa quando non ho deciso io il numero di
dati ma è esso stesso una misura sperimentale (come nel caso dei decadimenti):
in questo caso si moltiplica la Likelihood per la probabilità (Poissoniana) di
ottenere quel numero di decadimenti: se la relazione ν(Θ) è nota, ciò permette
@ -230,7 +230,7 @@ Il χ² è il metodo della Maximum Likelihood nel caso in cui:
- ho delle misure yi(xi) affette da un rumore gaussiano,
- i valori medi e le devstd di queste gaussiane sono λi e σi,
- la likelihood sarebbe il prodotto delle gaussiane e quindi il logaritmo è
- la Likelihood sarebbe il prodotto delle gaussiane e quindi il logaritmo è
la somma degli esponenti
- massimizzare questa somma equivale a minimizzare il χ² dove i valori
attesi sono dati dalle λi e gli errori dalle σi.
@ -265,7 +265,7 @@ L'errore è dato dalla propagazione degli errori (che è il solito U = AVA^T).
@6 ----------------------------------------------------------------------------
# Stima di intervalli di confidenza
# Intervalli di confidenza
Un intervallo di confidenza può soddisfare certe caratteristiche:
@ -286,4 +286,146 @@ noti, date le σ.
La `quantile` di 0.5 è la mediana. Il che significa che la quantile è l'inversa
della cumulativa.
Se ho effettuato la misura di una grandezza ...?
Considerando di avere ottenuto lo stimatore Θ del parametro O e di volere dare
un intervallo di confidenza pari a 1 - α - β. Dovrò trovare gli estremi a e b
che corrispondono a tali valori e per farlo dovrò utilizzare la quantile
dell'area che mi serve.
PARTE CHE NON SI CAPISCE UN TUBO
@7 ----------------------------------------------------------------------------
# Minimizzazione
Quando un estremo si trova sul bordo dell'intervallo, non è affatto detto che
la sua derivata prima sia nulla.
Non esiste un metodo che con certezza identifichi il `minimo globale` di una
funzione.
Data la precisione finita dei floating point, non si può cercare un minimo
annullando la derivata prima. Al più si può porre un valore di tolleranza.
Vediamo un po' di metodi.
- `Metodo di bisezione`:
Si può usare quando gli estremi sono a > 0 > b e la funzione è monotona. Si
divide a metà e si guarda se è positivo o negativo e poi si aggiornano gli
estremi in modo da tenere i due vicini a segni opposti.
- Metodo analogo:
Se invece la funzione è di forma pseudoparabolica con estremi a e b, allora
si sceglie un punto a < x < b tale che f(a) > f(x) e f(b) > f(x), perché
questo assicura che il minimo sia compreso nell'intervallo [a, b]. Poi si
sceglie un terzo punto x', per esempio tra a e x: se f(x') > f(x), allora
tengo l'intervallo [x', b], altrimenti tengo [a, x] (cioè devono sempre
esserci tre punti dentro, compresi gli estremi).
- Se si uilizza il `rapporto aureo` (3 - √5)/2, allora la convergenza è
ottimale. È una convergenza lineare, nel senso che il numero di cifre
significative che si ottengno del minimo cresce linearmente col numero
di iterazioni.
- Se la funzione è particolarmente semplice, si può usare il `metodo della
parabola`: si fittano i tre punti con una parabola e si trova il minimo
di quest'ultima. Poi il set dei tre punti è aggiornato tenendo il
vertice e i due punti contigui.
- Il metodo di Brent combina questi due metodi.
Nel caso N-dimensionale diventa più complicato.
- `Metodo del simplesso`:
Si considerano N+1 punti in uno spazio N-dimensionale (per esempio un
triangolo nel piano): questo simplesso può riflettersi, estendersi o
contrarsi. Ad ogni iterazione, il vertice in cui la funzione assume il
valore maggiore viene aggiornato. L'algoritmo termina quando il
simplesso diventa sufficientemente piccolo (perché in corrispondenza
del minimo inizia a contrarsi). Il problema si ha quando c'è un grosso
avvallamento, perché inizia a perdersi. È un procedimento molto lento.
- `Metodo delle direzioni`:
Si può minimizzare la funzione in una direzione e poi dal punto di minimo
scegliere un'altra direzione e minimizzare in quest'altra, ecc ecc. Un
esempio di ricerca delle direzioni è quello delle direzioni coniugate, ma ce
ne sono molti altri.
Per testare se un metodo di minimizzazione funziona bene, sono state inventate
alcune funzioni di test patologiche.
@8 ----------------------------------------------------------------------------
# Tecniche MonteCarlo
Una tecnica MonteCarlo è una qualsiasi tecnica che preveda la generazione di
numeri casuali.
Si possono usare per stimare il valore dell'integrale e la convergenza è
dell'ordine 1/√N. Il vantaggio rispetto alle tecniche numeriche è che la
convergenza resta dello stesso ordine anche nel caso di più dimensioni.
Più precisamente, l'errore è:
V(f)/√N
dove V(f) è la varianza dei punti generati e dipende dal metodo utilizzato.
L'`importance sampling` e lo `stratified sampling` permettono di ridurre V(f).
Un altro metodo è quello delle `variabili antitetiche`: per calcolare la media
di f (perché I = V*<f>), si estrae un campione di punti {xi}, che avrà varianza
σi, e un campione {yi} con punti scelti in modo tale, per esempio, che per ogni
xi:
yi = (a - b)[1 - xi/(b - a)]
In questo modo i due campioni hanno covarianza negativa e quindi la varianza
totale è inferiore. Notare che in questo caso si deve sommare anche la
covarianza perché i punti sono stati generati in modo correlato.
# Numeri casuali e pseudocasuali
Generare numeri veramente casuali è molto più compelsso di generare `numeri
pseudocasuali`. Infatti il computer, per generarli, utilizza una formula ben
precisa che ha lo scopo di rendere dei numeri apparentemente casuali. In
realtà hanno anche un periodo. I generatori attualmente usati sono
principalmente di due tipi:
- congruenti moltiplicativi:
ri = [a*ri-1 (mod m)]
- congruenti misti:
ri = [a*ri-1 +b (mod m)]
il periodo è al massimo m/4 e di solito m = 2^t con t numero di bits di un
intero nella macchina considerata, il che significa che è il più grande intero
rappresentabile.
Un generatore di numeri casuali deve essere sottoposto a test di randomness.
Infatti può sembrare che i punti in 3D si dispongano casualmente ma in realtà,
visti dalla giusta angolazione, può verificarsi che si dispongano in realtà
su dei piani (o su iperpiani in N-dimensioni).
# Numeri casuali secondo pdf generiche
Se si disponde di un generatore di numeri casuali uniformi, esistono tre
metodi per generare numeri secondo una pdf generica:
- Reverse sampling:
Consideriamo la cdf F(x) di una variabile x distribuita secondo f(x) come
una variabile casuale a sua volta. Si può facilmente dimostrare che la pdf
di questa variabile è uniforme.
Si possono quindi pescare numeri uniformemente tra 0 e 1 e poi calcolarne
la quantile (cioè l'inversa della F(x): si ottengono puntidistribuiti come
f(x)).
- Metodo di composizione:
Si suddivide la pdf nella somma di due o più pdf (ognuna delle quali deve
risultare normalizzata e quindi avrà il suo opportuno coefficiente
moltiplicativo). I coefficienti moltiplicativi verranno utilizzati per
decidere quando pescare secondo una o l'altra pdf pescando un primo numero
random. Un secondo numero random verrà poi usato tramite reverse sampling.
- Metodo hit-miss:
Si pescano numeri a caso in un'area che contiene la funzione e poi si
tengono se sono sotto alla funzione e si scartano se sono sopra.
Per generare numeri secondo una Gaussiana, basta usare il CLT. Si pescano
numeri casuali e si considera la distribuzione della somma (riga 94).
Le simulazioni MC sono molto utili per capire se conviene apportare certe
modifiche alle strumentazioni sperimentali oppure no.