From 6fd5457426a555a82f0776e0cf9af083f1e8c17f Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?Gi=C3=B9=20Marcer?= Date: Sat, 30 May 2020 15:56:20 +0200 Subject: [PATCH] lectures: went on writing notes.md --- lectures/notes.md | 160 +++++++++++++++++++++++++++++++++++++++++++--- 1 file changed, 151 insertions(+), 9 deletions(-) diff --git a/lectures/notes.md b/lectures/notes.md index 130dab2..5bb051e 100644 --- a/lectures/notes.md +++ b/lectures/notes.md @@ -48,7 +48,7 @@ e il coefficiente di correlazione di Pearson è definito come: ρ = cov(x, y)/(σx * σy) -ed è compreso tra -1 e 1. Dice quanto le varibili siano correlate: se è nullo, +ed è compreso tra -1 e 1. Dice quanto le variabili siano correlate: se è nullo, non lo sono per niente; se è positivo, sono inclinate in avanti, altrimenti sono inclinate in dietro. Per dei dati è definita la `matrice di covarianza` V (se sono indipendenti, @@ -92,7 +92,7 @@ Abbiamo visto diversi tipi: È il limite delle prime due distribuzioni per N→∞. Il `teorema centrale` del limite dice che se una variabile è la somma di N -variabli indipendenti tutte con la stessa pdf con valore medio μi e devstd σi, +variabili indipendenti tutte con la stessa pdf con valore medio μi e devstd σi, allora tale variabile ha distribuzione Normale con: μ = Σμi e σ² = Σσi² @@ -139,7 +139,7 @@ purezza una volta fissata l'efficienza è il rapporto delle Likelihood: o comunque il rapporto delle probabilità di ottenere il campione misurato secondo le due ipotesi. Nel caso in cui le due pdf siano gaussiane, il discriminante di Fisher porta -allo stesso risultato che si otterrebbe con il rapporto delle likelihood. +allo stesso risultato che si otterrebbe con il rapporto delle Likelihood. # Confronto di due datasets @@ -147,7 +147,7 @@ Il test di `Kolmogorov-Smirnov` serve per confrontare dati non binnati: o un set di dati con una funzione attesa, oppure due set di dati tra loro. Siccome confronta tra loro le cumulative, va bene nel confrontare shifts dei dati o grandi variazioni ma non piccoli dip nelle pdf. Per farlo in più dimensioni, -esistono varie idee ma non c'è n'è una standard e soprautto la distribuzione +esistono varie idee ma non c'è n'è una standard e soprattutto la distribuzione della statistica non è nota e va simulata. Se i dati sono binnati, invece, allora si può usare il `test del χ²`: @@ -195,7 +195,7 @@ guardasse la distribuzione delle medie così ottenute, otterremmo che queste medie seguono una pdf con questa varianza. Affinché lo stimatore della varianza sia unbiasato, si deve introdurre la correzione di Bessel. -Un metodo che si può utilizzare è la maximum likelihood. Se lo si applica al +Un metodo che si può utilizzare è la maximum Likelihood. Se lo si applica al caso di una gaussiana, si trova che gli stimatori della media e della varianza sono la media e la varianza campionarie. Quest'ultima va però corretta con la correzione di Bessel. @@ -216,7 +216,7 @@ varianza maggiore, allora anziché usare la varianza campionaria standard, d_n = - Σi |xi - X| N -L'`extended maximum likelihood` si usa quando non ho deciso io il numero di +L'`extended maximum Likelihood` si usa quando non ho deciso io il numero di dati ma è esso stesso una misura sperimentale (come nel caso dei decadimenti): in questo caso si moltiplica la Likelihood per la probabilità (Poissoniana) di ottenere quel numero di decadimenti: se la relazione ν(Θ) è nota, ciò permette @@ -230,7 +230,7 @@ Il χ² è il metodo della Maximum Likelihood nel caso in cui: - ho delle misure yi(xi) affette da un rumore gaussiano, - i valori medi e le devstd di queste gaussiane sono λi e σi, - - la likelihood sarebbe il prodotto delle gaussiane e quindi il logaritmo è + - la Likelihood sarebbe il prodotto delle gaussiane e quindi il logaritmo è la somma degli esponenti - massimizzare questa somma equivale a minimizzare il χ² dove i valori attesi sono dati dalle λi e gli errori dalle σi. @@ -265,7 +265,7 @@ L'errore è dato dalla propagazione degli errori (che è il solito U = AVA^T). @6 ---------------------------------------------------------------------------- -# Stima di intervalli di confidenza +# Intervalli di confidenza Un intervallo di confidenza può soddisfare certe caratteristiche: @@ -286,4 +286,146 @@ noti, date le σ. La `quantile` di 0.5 è la mediana. Il che significa che la quantile è l'inversa della cumulativa. -Se ho effettuato la misura di una grandezza ...? +Considerando di avere ottenuto lo stimatore Θ del parametro O e di volere dare +un intervallo di confidenza pari a 1 - α - β. Dovrò trovare gli estremi a e b +che corrispondono a tali valori e per farlo dovrò utilizzare la quantile +dell'area che mi serve. + +PARTE CHE NON SI CAPISCE UN TUBO + +@7 ---------------------------------------------------------------------------- + +# Minimizzazione + +Quando un estremo si trova sul bordo dell'intervallo, non è affatto detto che +la sua derivata prima sia nulla. +Non esiste un metodo che con certezza identifichi il `minimo globale` di una +funzione. + +Data la precisione finita dei floating point, non si può cercare un minimo +annullando la derivata prima. Al più si può porre un valore di tolleranza. + +Vediamo un po' di metodi. + + - `Metodo di bisezione`: + Si può usare quando gli estremi sono a > 0 > b e la funzione è monotona. Si + divide a metà e si guarda se è positivo o negativo e poi si aggiornano gli + estremi in modo da tenere i due vicini a segni opposti. + + - Metodo analogo: + Se invece la funzione è di forma pseudoparabolica con estremi a e b, allora + si sceglie un punto a < x < b tale che f(a) > f(x) e f(b) > f(x), perché + questo assicura che il minimo sia compreso nell'intervallo [a, b]. Poi si + sceglie un terzo punto x', per esempio tra a e x: se f(x') > f(x), allora + tengo l'intervallo [x', b], altrimenti tengo [a, x] (cioè devono sempre + esserci tre punti dentro, compresi gli estremi). + - Se si uilizza il `rapporto aureo` (3 - √5)/2, allora la convergenza è + ottimale. È una convergenza lineare, nel senso che il numero di cifre + significative che si ottengno del minimo cresce linearmente col numero + di iterazioni. + - Se la funzione è particolarmente semplice, si può usare il `metodo della + parabola`: si fittano i tre punti con una parabola e si trova il minimo + di quest'ultima. Poi il set dei tre punti è aggiornato tenendo il + vertice e i due punti contigui. + - Il metodo di Brent combina questi due metodi. + +Nel caso N-dimensionale diventa più complicato. + + - `Metodo del simplesso`: + Si considerano N+1 punti in uno spazio N-dimensionale (per esempio un + triangolo nel piano): questo simplesso può riflettersi, estendersi o + contrarsi. Ad ogni iterazione, il vertice in cui la funzione assume il + valore maggiore viene aggiornato. L'algoritmo termina quando il + simplesso diventa sufficientemente piccolo (perché in corrispondenza + del minimo inizia a contrarsi). Il problema si ha quando c'è un grosso + avvallamento, perché inizia a perdersi. È un procedimento molto lento. + + - `Metodo delle direzioni`: + Si può minimizzare la funzione in una direzione e poi dal punto di minimo + scegliere un'altra direzione e minimizzare in quest'altra, ecc ecc. Un + esempio di ricerca delle direzioni è quello delle direzioni coniugate, ma ce + ne sono molti altri. + +Per testare se un metodo di minimizzazione funziona bene, sono state inventate +alcune funzioni di test patologiche. + +@8 ---------------------------------------------------------------------------- + +# Tecniche MonteCarlo + +Una tecnica MonteCarlo è una qualsiasi tecnica che preveda la generazione di +numeri casuali. +Si possono usare per stimare il valore dell'integrale e la convergenza è +dell'ordine 1/√N. Il vantaggio rispetto alle tecniche numeriche è che la +convergenza resta dello stesso ordine anche nel caso di più dimensioni. +Più precisamente, l'errore è: + + V(f)/√N + +dove V(f) è la varianza dei punti generati e dipende dal metodo utilizzato. +L'`importance sampling` e lo `stratified sampling` permettono di ridurre V(f). +Un altro metodo è quello delle `variabili antitetiche`: per calcolare la media +di f (perché I = V*), si estrae un campione di punti {xi}, che avrà varianza +σi, e un campione {yi} con punti scelti in modo tale, per esempio, che per ogni +xi: + + yi = (a - b)[1 - xi/(b - a)] + +In questo modo i due campioni hanno covarianza negativa e quindi la varianza +totale è inferiore. Notare che in questo caso si deve sommare anche la +covarianza perché i punti sono stati generati in modo correlato. + +# Numeri casuali e pseudocasuali + +Generare numeri veramente casuali è molto più compelsso di generare `numeri +pseudocasuali`. Infatti il computer, per generarli, utilizza una formula ben +precisa che ha lo scopo di rendere dei numeri apparentemente casuali. In +realtà hanno anche un periodo. I generatori attualmente usati sono +principalmente di due tipi: + + - congruenti moltiplicativi: + + ri = [a*ri-1 (mod m)] + + - congruenti misti: + + ri = [a*ri-1 +b (mod m)] + +il periodo è al massimo m/4 e di solito m = 2^t con t numero di bits di un +intero nella macchina considerata, il che significa che è il più grande intero +rappresentabile. + +Un generatore di numeri casuali deve essere sottoposto a test di randomness. +Infatti può sembrare che i punti in 3D si dispongano casualmente ma in realtà, +visti dalla giusta angolazione, può verificarsi che si dispongano in realtà +su dei piani (o su iperpiani in N-dimensioni). + +# Numeri casuali secondo pdf generiche + +Se si disponde di un generatore di numeri casuali uniformi, esistono tre +metodi per generare numeri secondo una pdf generica: + + - Reverse sampling: + Consideriamo la cdf F(x) di una variabile x distribuita secondo f(x) come + una variabile casuale a sua volta. Si può facilmente dimostrare che la pdf + di questa variabile è uniforme. + Si possono quindi pescare numeri uniformemente tra 0 e 1 e poi calcolarne + la quantile (cioè l'inversa della F(x): si ottengono puntidistribuiti come + f(x)). + + - Metodo di composizione: + Si suddivide la pdf nella somma di due o più pdf (ognuna delle quali deve + risultare normalizzata e quindi avrà il suo opportuno coefficiente + moltiplicativo). I coefficienti moltiplicativi verranno utilizzati per + decidere quando pescare secondo una o l'altra pdf pescando un primo numero + random. Un secondo numero random verrà poi usato tramite reverse sampling. + + - Metodo hit-miss: + Si pescano numeri a caso in un'area che contiene la funzione e poi si + tengono se sono sotto alla funzione e si scartano se sono sopra. + +Per generare numeri secondo una Gaussiana, basta usare il CLT. Si pescano +numeri casuali e si considera la distribuzione della somma (riga 94). + +Le simulazioni MC sono molto utili per capire se conviene apportare certe +modifiche alle strumentazioni sperimentali oppure no.