lectures: went on writing notes.md
This commit is contained in:
parent
3a202e84dd
commit
6fd5457426
@ -48,7 +48,7 @@ e il coefficiente di correlazione di Pearson è definito come:
|
||||
|
||||
ρ = cov(x, y)/(σx * σy)
|
||||
|
||||
ed è compreso tra -1 e 1. Dice quanto le varibili siano correlate: se è nullo,
|
||||
ed è compreso tra -1 e 1. Dice quanto le variabili siano correlate: se è nullo,
|
||||
non lo sono per niente; se è positivo, sono inclinate in avanti, altrimenti
|
||||
sono inclinate in dietro.
|
||||
Per dei dati è definita la `matrice di covarianza` V (se sono indipendenti,
|
||||
@ -92,7 +92,7 @@ Abbiamo visto diversi tipi:
|
||||
È il limite delle prime due distribuzioni per N→∞.
|
||||
|
||||
Il `teorema centrale` del limite dice che se una variabile è la somma di N
|
||||
variabli indipendenti tutte con la stessa pdf con valore medio μi e devstd σi,
|
||||
variabili indipendenti tutte con la stessa pdf con valore medio μi e devstd σi,
|
||||
allora tale variabile ha distribuzione Normale con:
|
||||
|
||||
μ = Σμi e σ² = Σσi²
|
||||
@ -139,7 +139,7 @@ purezza una volta fissata l'efficienza è il rapporto delle Likelihood:
|
||||
o comunque il rapporto delle probabilità di ottenere il campione misurato
|
||||
secondo le due ipotesi.
|
||||
Nel caso in cui le due pdf siano gaussiane, il discriminante di Fisher porta
|
||||
allo stesso risultato che si otterrebbe con il rapporto delle likelihood.
|
||||
allo stesso risultato che si otterrebbe con il rapporto delle Likelihood.
|
||||
|
||||
# Confronto di due datasets
|
||||
|
||||
@ -147,7 +147,7 @@ Il test di `Kolmogorov-Smirnov` serve per confrontare dati non binnati: o un set
|
||||
di dati con una funzione attesa, oppure due set di dati tra loro. Siccome
|
||||
confronta tra loro le cumulative, va bene nel confrontare shifts dei dati o
|
||||
grandi variazioni ma non piccoli dip nelle pdf. Per farlo in più dimensioni,
|
||||
esistono varie idee ma non c'è n'è una standard e soprautto la distribuzione
|
||||
esistono varie idee ma non c'è n'è una standard e soprattutto la distribuzione
|
||||
della statistica non è nota e va simulata.
|
||||
Se i dati sono binnati, invece, allora si può usare il `test del χ²`:
|
||||
|
||||
@ -195,7 +195,7 @@ guardasse la distribuzione delle medie così ottenute, otterremmo che queste
|
||||
medie seguono una pdf con questa varianza. Affinché lo stimatore della varianza
|
||||
sia unbiasato, si deve introdurre la correzione di Bessel.
|
||||
|
||||
Un metodo che si può utilizzare è la maximum likelihood. Se lo si applica al
|
||||
Un metodo che si può utilizzare è la maximum Likelihood. Se lo si applica al
|
||||
caso di una gaussiana, si trova che gli stimatori della media e della varianza
|
||||
sono la media e la varianza campionarie. Quest'ultima va però corretta con la
|
||||
correzione di Bessel.
|
||||
@ -216,7 +216,7 @@ varianza maggiore, allora anziché usare la varianza campionaria standard,
|
||||
d_n = - Σi |xi - X|
|
||||
N
|
||||
|
||||
L'`extended maximum likelihood` si usa quando non ho deciso io il numero di
|
||||
L'`extended maximum Likelihood` si usa quando non ho deciso io il numero di
|
||||
dati ma è esso stesso una misura sperimentale (come nel caso dei decadimenti):
|
||||
in questo caso si moltiplica la Likelihood per la probabilità (Poissoniana) di
|
||||
ottenere quel numero di decadimenti: se la relazione ν(Θ) è nota, ciò permette
|
||||
@ -230,7 +230,7 @@ Il χ² è il metodo della Maximum Likelihood nel caso in cui:
|
||||
|
||||
- ho delle misure yi(xi) affette da un rumore gaussiano,
|
||||
- i valori medi e le devstd di queste gaussiane sono λi e σi,
|
||||
- la likelihood sarebbe il prodotto delle gaussiane e quindi il logaritmo è
|
||||
- la Likelihood sarebbe il prodotto delle gaussiane e quindi il logaritmo è
|
||||
la somma degli esponenti
|
||||
- massimizzare questa somma equivale a minimizzare il χ² dove i valori
|
||||
attesi sono dati dalle λi e gli errori dalle σi.
|
||||
@ -265,7 +265,7 @@ L'errore è dato dalla propagazione degli errori (che è il solito U = AVA^T).
|
||||
|
||||
@6 ----------------------------------------------------------------------------
|
||||
|
||||
# Stima di intervalli di confidenza
|
||||
# Intervalli di confidenza
|
||||
|
||||
Un intervallo di confidenza può soddisfare certe caratteristiche:
|
||||
|
||||
@ -286,4 +286,146 @@ noti, date le σ.
|
||||
|
||||
La `quantile` di 0.5 è la mediana. Il che significa che la quantile è l'inversa
|
||||
della cumulativa.
|
||||
Se ho effettuato la misura di una grandezza ...?
|
||||
Considerando di avere ottenuto lo stimatore Θ del parametro O e di volere dare
|
||||
un intervallo di confidenza pari a 1 - α - β. Dovrò trovare gli estremi a e b
|
||||
che corrispondono a tali valori e per farlo dovrò utilizzare la quantile
|
||||
dell'area che mi serve.
|
||||
|
||||
PARTE CHE NON SI CAPISCE UN TUBO
|
||||
|
||||
@7 ----------------------------------------------------------------------------
|
||||
|
||||
# Minimizzazione
|
||||
|
||||
Quando un estremo si trova sul bordo dell'intervallo, non è affatto detto che
|
||||
la sua derivata prima sia nulla.
|
||||
Non esiste un metodo che con certezza identifichi il `minimo globale` di una
|
||||
funzione.
|
||||
|
||||
Data la precisione finita dei floating point, non si può cercare un minimo
|
||||
annullando la derivata prima. Al più si può porre un valore di tolleranza.
|
||||
|
||||
Vediamo un po' di metodi.
|
||||
|
||||
- `Metodo di bisezione`:
|
||||
Si può usare quando gli estremi sono a > 0 > b e la funzione è monotona. Si
|
||||
divide a metà e si guarda se è positivo o negativo e poi si aggiornano gli
|
||||
estremi in modo da tenere i due vicini a segni opposti.
|
||||
|
||||
- Metodo analogo:
|
||||
Se invece la funzione è di forma pseudoparabolica con estremi a e b, allora
|
||||
si sceglie un punto a < x < b tale che f(a) > f(x) e f(b) > f(x), perché
|
||||
questo assicura che il minimo sia compreso nell'intervallo [a, b]. Poi si
|
||||
sceglie un terzo punto x', per esempio tra a e x: se f(x') > f(x), allora
|
||||
tengo l'intervallo [x', b], altrimenti tengo [a, x] (cioè devono sempre
|
||||
esserci tre punti dentro, compresi gli estremi).
|
||||
- Se si uilizza il `rapporto aureo` (3 - √5)/2, allora la convergenza è
|
||||
ottimale. È una convergenza lineare, nel senso che il numero di cifre
|
||||
significative che si ottengno del minimo cresce linearmente col numero
|
||||
di iterazioni.
|
||||
- Se la funzione è particolarmente semplice, si può usare il `metodo della
|
||||
parabola`: si fittano i tre punti con una parabola e si trova il minimo
|
||||
di quest'ultima. Poi il set dei tre punti è aggiornato tenendo il
|
||||
vertice e i due punti contigui.
|
||||
- Il metodo di Brent combina questi due metodi.
|
||||
|
||||
Nel caso N-dimensionale diventa più complicato.
|
||||
|
||||
- `Metodo del simplesso`:
|
||||
Si considerano N+1 punti in uno spazio N-dimensionale (per esempio un
|
||||
triangolo nel piano): questo simplesso può riflettersi, estendersi o
|
||||
contrarsi. Ad ogni iterazione, il vertice in cui la funzione assume il
|
||||
valore maggiore viene aggiornato. L'algoritmo termina quando il
|
||||
simplesso diventa sufficientemente piccolo (perché in corrispondenza
|
||||
del minimo inizia a contrarsi). Il problema si ha quando c'è un grosso
|
||||
avvallamento, perché inizia a perdersi. È un procedimento molto lento.
|
||||
|
||||
- `Metodo delle direzioni`:
|
||||
Si può minimizzare la funzione in una direzione e poi dal punto di minimo
|
||||
scegliere un'altra direzione e minimizzare in quest'altra, ecc ecc. Un
|
||||
esempio di ricerca delle direzioni è quello delle direzioni coniugate, ma ce
|
||||
ne sono molti altri.
|
||||
|
||||
Per testare se un metodo di minimizzazione funziona bene, sono state inventate
|
||||
alcune funzioni di test patologiche.
|
||||
|
||||
@8 ----------------------------------------------------------------------------
|
||||
|
||||
# Tecniche MonteCarlo
|
||||
|
||||
Una tecnica MonteCarlo è una qualsiasi tecnica che preveda la generazione di
|
||||
numeri casuali.
|
||||
Si possono usare per stimare il valore dell'integrale e la convergenza è
|
||||
dell'ordine 1/√N. Il vantaggio rispetto alle tecniche numeriche è che la
|
||||
convergenza resta dello stesso ordine anche nel caso di più dimensioni.
|
||||
Più precisamente, l'errore è:
|
||||
|
||||
V(f)/√N
|
||||
|
||||
dove V(f) è la varianza dei punti generati e dipende dal metodo utilizzato.
|
||||
L'`importance sampling` e lo `stratified sampling` permettono di ridurre V(f).
|
||||
Un altro metodo è quello delle `variabili antitetiche`: per calcolare la media
|
||||
di f (perché I = V*<f>), si estrae un campione di punti {xi}, che avrà varianza
|
||||
σi, e un campione {yi} con punti scelti in modo tale, per esempio, che per ogni
|
||||
xi:
|
||||
|
||||
yi = (a - b)[1 - xi/(b - a)]
|
||||
|
||||
In questo modo i due campioni hanno covarianza negativa e quindi la varianza
|
||||
totale è inferiore. Notare che in questo caso si deve sommare anche la
|
||||
covarianza perché i punti sono stati generati in modo correlato.
|
||||
|
||||
# Numeri casuali e pseudocasuali
|
||||
|
||||
Generare numeri veramente casuali è molto più compelsso di generare `numeri
|
||||
pseudocasuali`. Infatti il computer, per generarli, utilizza una formula ben
|
||||
precisa che ha lo scopo di rendere dei numeri apparentemente casuali. In
|
||||
realtà hanno anche un periodo. I generatori attualmente usati sono
|
||||
principalmente di due tipi:
|
||||
|
||||
- congruenti moltiplicativi:
|
||||
|
||||
ri = [a*ri-1 (mod m)]
|
||||
|
||||
- congruenti misti:
|
||||
|
||||
ri = [a*ri-1 +b (mod m)]
|
||||
|
||||
il periodo è al massimo m/4 e di solito m = 2^t con t numero di bits di un
|
||||
intero nella macchina considerata, il che significa che è il più grande intero
|
||||
rappresentabile.
|
||||
|
||||
Un generatore di numeri casuali deve essere sottoposto a test di randomness.
|
||||
Infatti può sembrare che i punti in 3D si dispongano casualmente ma in realtà,
|
||||
visti dalla giusta angolazione, può verificarsi che si dispongano in realtà
|
||||
su dei piani (o su iperpiani in N-dimensioni).
|
||||
|
||||
# Numeri casuali secondo pdf generiche
|
||||
|
||||
Se si disponde di un generatore di numeri casuali uniformi, esistono tre
|
||||
metodi per generare numeri secondo una pdf generica:
|
||||
|
||||
- Reverse sampling:
|
||||
Consideriamo la cdf F(x) di una variabile x distribuita secondo f(x) come
|
||||
una variabile casuale a sua volta. Si può facilmente dimostrare che la pdf
|
||||
di questa variabile è uniforme.
|
||||
Si possono quindi pescare numeri uniformemente tra 0 e 1 e poi calcolarne
|
||||
la quantile (cioè l'inversa della F(x): si ottengono puntidistribuiti come
|
||||
f(x)).
|
||||
|
||||
- Metodo di composizione:
|
||||
Si suddivide la pdf nella somma di due o più pdf (ognuna delle quali deve
|
||||
risultare normalizzata e quindi avrà il suo opportuno coefficiente
|
||||
moltiplicativo). I coefficienti moltiplicativi verranno utilizzati per
|
||||
decidere quando pescare secondo una o l'altra pdf pescando un primo numero
|
||||
random. Un secondo numero random verrà poi usato tramite reverse sampling.
|
||||
|
||||
- Metodo hit-miss:
|
||||
Si pescano numeri a caso in un'area che contiene la funzione e poi si
|
||||
tengono se sono sotto alla funzione e si scartano se sono sopra.
|
||||
|
||||
Per generare numeri secondo una Gaussiana, basta usare il CLT. Si pescano
|
||||
numeri casuali e si considera la distribuzione della somma (riga 94).
|
||||
|
||||
Le simulazioni MC sono molto utili per capire se conviene apportare certe
|
||||
modifiche alle strumentazioni sperimentali oppure no.
|
||||
|
Loading…
Reference in New Issue
Block a user