From 4d7397419006b56e077d0051269a841a3f839e8a Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?Gi=C3=B9=20Marcer?= Date: Sun, 5 Jul 2020 17:51:15 +0200 Subject: [PATCH] lectures: fix something here and there --- lectures/notes.md | 139 +++++++++++++++++++++++++--------------------- 1 file changed, 76 insertions(+), 63 deletions(-) diff --git a/lectures/notes.md b/lectures/notes.md index ca54bf0..9bfd959 100644 --- a/lectures/notes.md +++ b/lectures/notes.md @@ -4,9 +4,9 @@ È il rapporto tra la variazione percentuale del risultato e la variazione percentuale del dato in ingresso. È un parametro utile per controllare se -un problema sia mal o ben condizionato. -Nel caso di una funzione f, questo parametro si riduce ad essere -10.1016/0168-9002(90)91334-8 +un problema è mal o ben condizionato. +Nel caso di una funzione f, questo parametro si riduce ad essere: + x f'(x) / f(x) e il limite per l'incremento dei dati iniziali tendente a zero è detto @@ -36,10 +36,10 @@ da cui si ottiene il `teorema di Bayes`: # Correlazione tra variabili Si può usare per determinare se una teoria sia valida oppure no dato un certo -campione sperimentale (A è la teoria e B sono i dati). P(A ⋂ B) è la joint pdf. +campione sperimentale (A è la teoria e B sono i dati). P(A|B) è la joint pdf. Le `convoluzioni di Mellin e Fourier` servono per trovare la pdf di una variabile che è rispettivamente il prodotto o la somma di altre due variabili -con pdf nota (dimostrazione cartacea). +con pdf nota. La `covarianza` cov(x, y) è definita come: cov(x, y) = E[x * y] - (μx * μy) = E[(x - μx)*(y - μy)] @@ -69,29 +69,29 @@ sommano in quadratura su tutta la matrice di covarianza. Abbiamo visto diversi tipi: - Binomiale / N \ E[n] = N*p - P(n, N, p) = | | p^n (1 + p)^(N - n) con - \ n / V[n] = N*p*(p-1) + P(n, N, p) = | | p^n (1 - p)^(N - n) con + \ n / V[n] = N*p*(1-p) da cui si può poi ricavare la multinomiale. - Poissoniana - ν^n - P(n, ν) = --- e^(-ν) con E[n] = V[n] = ν - n! + ν^n E[n] = ν + P(n, ν) = --- e^(-ν) con + n! V[n] = ν Si ottiene dal caso precedente per N→∞ e p→0 con N*p = ν. - Uniforme 1 E[x] = (a + b)/2 - P(x, b, a) = ----- con - b - a V[x] = (b - a)^2/12 + P(x, a, b) = ----- con + b - a V[x] = (b - a)²/12 - Gaussiana - 1 / (x - μ)^2 \ E[x] = μ - G(x, μ, σ) = -------- e^| - --------- | con - √(2 π) σ \ 2 σ^2 / V[x] = σ^2 + 1 / (x - μ)² \ E[x] = μ + G(x, μ, σ) = -------- e^| - -------- | con + √(2 π) σ \ 2 σ² / V[x] = σ² È il limite delle prime due distribuzioni per N→∞. -Il `teorema centrale` del limite dice che se una variabile è la somma di N +Il `teorema centrale del limite` dice che se una variabile è la somma di N variabili indipendenti tutte con la stessa pdf con valore medio μi e devstd σi, allora tale variabile ha distribuzione Normale con: @@ -108,7 +108,7 @@ kurtosis: γ = E | -------- | k = E | -------- | - 3 | σ³ | | σ⁴ | -dove X è la media campionaria e 3 è la kurtosis della Gaussiana. +dove X e σ sono la media e la varianza e k = 3 - 3 = 0 per la Gaussiana. # Test di ipotesi @@ -128,7 +128,7 @@ Noi abbiamo sempre controllato solo qual è la pdf della statistica di test nel caso in cui l'ipotesi nulla sia vera e abbiamo posto il livello di confidenza al 95%, ovvero α = 5%. La potenza è detta anche purezza perché è la probabilità di scambiare "rumore -per segnale", mentre l'intervallo di confidenza si dice anche efficienza perché +per rumore", mentre l'intervallo di confidenza si dice anche efficienza perché è la probabilità di scambiare "il segnale per segnale". Il `lemma di Neyemann Pearson` dice che la statistica di test che massimizza la @@ -176,29 +176,29 @@ non vuol dire che sia significativo. @4 ---------------------------------------------------------------------------- -# Stima di parametri +# Stima di parametri (1) Consideriamo una variabile casuale x che segue la pdf f(x), la quale ha dei parametri Θ. Se io faccio una misura y di questi, allora otterrò uno stimatore ⊇(y) dei parametri Θ. Anche questo stimatore avrà una sua pdf che dipende dal valore vero. Uno stimatore deve soddisfare alcuni requisiti: - - consistenza: per N→∞, ⊇→Θ; + - consistenza: per N→∞, ⊇→Θ (convergenza in senso statistico); - unbias: E[⊇] = Θ Ovvero: ripetendo tante volte l'esperimento, il valore medio della distribuzione deve essere il valore vero; - deve avere una piccola varianza. -Per esempio, la media campionaria è uno stimatore della media e la sua varianza -è σ²/N, nel senso che se si ripetesse lo stesso esperimento tante volte e si -guardasse la distribuzione delle medie così ottenute, otterremmo che queste -medie seguono una pdf con questa varianza. Affinché lo stimatore della varianza -sia unbiasato, si deve introdurre la correzione di Bessel. +Per esempio, la media campionaria è uno stimatore consistente e unbiased della +media e la sua varianza è σ²/N, nel senso che se si ripetesse lo stesso +esperimento tante volte e si guardasse la distribuzione delle medie così +ottenute, otterremmo che queste medie seguono una pdf con questa varianza. +Affinché lo stimatore della varianza sia unbiased, si deve introdurre la +correzione di Bessel. Un metodo che si può utilizzare è la maximum Likelihood. Se lo si applica al caso di una gaussiana, si trova che gli stimatori della media e della varianza -sono la media e la varianza campionarie. Quest'ultima va però corretta con la -correzione di Bessel. +sono la media e la varianza campionarie. La disuguaglianza di `Cramer-Rao` (detto anche bound RCF) afferma che la matrice di covarianza è >= all'inverso della matrice Hessiana di -L calcolata nel @@ -207,14 +207,6 @@ minimo. Uno `stimatore robusto` è poco sensibile ai valori nelle code della distribuzione. È buono che gli stimatori siano robusti. Un esempio è la media trimmata, in cui nel calcolo si escludono i punti più esterni. -Quando si sta lavorando con una gaussiana contaminata, ovvero che è la somma -di due gaussiane in cui la seconda è, per esempio, il rumore, ed ha una -varianza maggiore, allora anziché usare la varianza campionaria standard, -è meglio usare d_n: - - 1 - d_n = - Σi |xi - X| - N L'`extended maximum Likelihood` si usa quando non ho deciso io il numero di dati ma è esso stesso una misura sperimentale (come nel caso dei decadimenti): @@ -224,7 +216,7 @@ di ottenere degli stimatori con minore varianza. @5 ---------------------------------------------------------------------------- -# Stima di parametri +# Stima di parametri (2) Il χ² è il metodo della Maximum Likelihood nel caso in cui: @@ -244,9 +236,10 @@ Di solito si guarda poi il `χ² ridotto` e il fit è buono se è prossimo a uno IMPORTANTE: Il metodo della Likelihood e quello dei momenti si usano quando si hanno punti distribuiti secondo una pdf e si vogliono stimare i parametri della pdf. NON -si hanno delle y(x). Il metodo del χ², invece, si usa per trovare la funzione -che lega le y alle x. Se lo si vuole usare con dei dati ottenuti da una pdf, -allora bisogna binnarli in modo tale da ottenere le y. +se si hanno delle y(x). Il metodo del χ², invece, si usa per trovare la +funzione che lega le y alle x (che poi abbiamo visto equivalere alla ML). Se +lo si vuole usare con dei dati ottenuti da una pdf, allora bisogna binnarli +in modo tale da ottenere le y. Quando ci sono dei problemi nella minimizzazione del χ², si può provare ad usare il `metodo dei momenti`, anche se generalmente dà risultati con maggiore @@ -263,6 +256,16 @@ trovano col χ² sono infatti quelli con la varianza minima). L'errore è dato dalla propagazione degli errori (che è il solito U = AVA^T). +Il `teorema di Wilks` asserisce che la grandezza: + + / L(μ) \ + t = - 2 * ln | ---------- | + \ L(μ_true)/ + +è distribuita come un χ². È facile dimostrarlo supponendo che i dati siano +attribuiti attorno ai relativi valori veri come Gaussiane centrate nei valori +veri con devstd data da quella campionaria. + @6 ---------------------------------------------------------------------------- # Intervalli di confidenza @@ -277,12 +280,11 @@ Dire che: x = x₀ ± δx CL = 68% -significa che ripetendo N volte l'esperimento, il 68% delle volte si otterrà -che x₀ appartiene a quell'intervallo (non che il valore vero ha il 68% di -probabilità di essere in quell'intervallo, che non ha alcun senso...). -Quando si vuole stimare la media di una distribuzione, per il CLT questa segue -una distribuzione gaussiana per N→∞ e quindi gli intervalli di confidenza sono -noti, date le σ. +significa che ripetendo N volte l'esperimento, il 68% delle volte il valore +vero sarà dentro l'intervallo (non che il valore vero ha il 68% di probabilità +di essere in quell'intervallo, che non ha alcun senso...). Quando si vuole +stimare la media di una distribuzione, per il CLT questa segue una distribuzione +gaussiana per N→∞ e quindi gli intervalli di confidenza sono noti, date le σ. La `quantile` di 0.5 è la mediana. Il che significa che la quantile è l'inversa della cumulativa. @@ -291,8 +293,6 @@ un intervallo di confidenza pari a 1 - α - β. Dovrò trovare gli estremi a e b che corrispondono a tali valori e per farlo dovrò utilizzare la quantile dell'area che mi serve. -PARTE CHE NON SI CAPISCE UN TUBO - @7 ---------------------------------------------------------------------------- # Minimizzazione @@ -302,15 +302,23 @@ la sua derivata prima sia nulla. Non esiste un metodo che con certezza identifichi il `minimo globale` di una funzione. -Data la precisione finita dei floating point, non si può cercare un minimo -annullando la derivata prima. Al più si può porre un valore di tolleranza. +Data la precisione finita dei floating point, non si può trovare esattamente il +minimo: si troverà f(x) = f(x_min) + 1/2 d²f/dx² |x - x_min|. Si può porre un +valore di tolleranza per cui: + +f(x) ~ f(x_min) se f(x_min) >> 1/2 d²f/dx² |x - x_min|² + + 1/2 d²f/dx² |x - x_min|² / 2 ε f(x_min) \ + → ε >> ------------------------ → |x - x_min| << | -------------- |^(1/2) + f(x_min) \ d²f/dx² / Vediamo un po' di metodi. - `Metodo di bisezione`: - Si può usare quando gli estremi sono a > 0 > b e la funzione è monotona. Si - divide a metà e si guarda se è positivo o negativo e poi si aggiornano gli - estremi in modo da tenere i due vicini a segni opposti. + Per trovare la radice di una funzione. Si può usare quando gli estremi sono + f(a) > 0 > f(b) e la funzione è monotona. Si divide a metà e si guarda se è + positivo o negativo e poi si aggiornano gli estremi in modo da tenere i due + vicini a segni opposti. - Metodo analogo: Se invece la funzione è di forma pseudoparabolica con estremi a e b, allora @@ -451,9 +459,12 @@ Esistono diverse tecniche di deconvoluzione dei dati. μj = (νi - βi) Rij^-1 ~ (ni - βi) Rij^-1 Massimizzando la Likelihood, si ottengono stimatori unbias e con varianza - minima n_i = ν_i. Se si fa così, però, non assomigliano affatto a quelli - corretti. Si deve accettare di minimizzare la varianza: `procedura di - unfolding generalizzata`. + minima n_i = ν_i. Se si fa così, però, siccome il problema dell'unfolding + è mal posto, si ottiene che se i dati veri sono lievemente diversi da + quelli misurati, il risultato sarà molto diverso da quello ottenuto. + Ciò si traduce nell'ottenere una varianza enorme sui valori μi. Si deve + accettare di aumentare il bias per poter minimizzare la varianza: + `procedura di unfolding generalizzata`. - `Metodo dei fattori di correzione`: I valori veri vengono stimati come: @@ -472,10 +483,11 @@ Esistono diverse tecniche di deconvoluzione dei dati. Questo metodo funziona bene se non c'è molta migrazione tra bin e bin: è valido per dare una prima idea. - - `Unfolding generalizzato`: + - `Unfolding regolarizzato`: In questo caso si cerca sempre uno stimatore bias con varianza maggiore ma si cerca di ottenere una soluzione più liscia: lo si fa ponendo un limite Δ - alla differenza tra L_max e L(μ) usato: + alla differenza tra le likelihood L_max e L(μ) usata (per non allontanarsi + troppo dalla soluzione ottimale): L(μ) >= Lmax - ΔL @@ -487,7 +499,7 @@ Esistono diverse tecniche di deconvoluzione dei dati. f(μ) = αL(μ) + S(μ) - Per cominciare si fissa α, considerando che: + Per cominciare si fissa α in base al ΔL scelto, considerando che: - per α = 0 si ottiene la soluzione più smooth che però ignora i dati; - per α → ∞ la soluzione non è smooth, perché massimizzare f(μ) equivale semplicemente a scegliere L(μ) = Lmax. @@ -495,7 +507,7 @@ Esistono diverse tecniche di deconvoluzione dei dati. Σi νi = Σij Rij μj = Ntot - E quindi ci ri riduce al metodo dei moltiplicatori di Laplace, ovvero si + E quindi ci ri riduce al metodo dei moltiplicatori di Lagrange, ovvero si deve massimizzare: f(μ) = αL(μ) + S(μ) + λ[Ntot - Σij Rij μj] @@ -508,7 +520,7 @@ Esistono diverse tecniche di deconvoluzione dei dati. tende a 0, più la funzione è liscia. Chiaramente, trattandosi di dati discreti, si fa la derivata numerica tra bin consecutivi. - - `Regolarizzazione col Max Ent`: + - `Regolarizzazione con il Max Ent`: Si usa la definizione di entropia per un set di probabilità pi: H = - Σi pi ln(pi) @@ -519,8 +531,9 @@ Esistono diverse tecniche di deconvoluzione dei dati. pi = μi/Ntot - Per quanto riguarda la scelta di α, in genere lo si sceglie minimizzando - la matrice di covarianza, cioè il χ². + Per quanto riguarda la scelta di α, essa rappresenta un compromesso tra + bias (L(μ)) e varianza (S(μ)). in genere lo si sceglie minimizzando la + matrice di covarianza, cioè il χ². @10 --------------------------------------------------------------------------- @@ -541,7 +554,7 @@ rilevato. In un pc, i dati vengono salvati in formato binario. Mentre per i numeri la conversione è immediata, per il linguaggio alfanumerico sono state inventate delle `codifiche` come per esempio il codice ASCII o l'UTF8. La tabella unicode -contiene tutti codepoint e descrive come eventualmente si fondono. +contiene tutti i codepoint e descrive come eventualmente si fondono. Il `bus` è l'insieme delle linee elettriche che collega vari dispositivi, ognuno dei quali è identificato univocamente da un indirizzo. I dispositivi