lectures: fix something here and there

2020-07-05 17:51:15 +02:00 · 2020-07-05 17:51:15 +02:00 · 4d73974190
commit 4d73974190
parent 6bf30632a0
1 changed files with 76 additions and 63 deletions
--- a/lectures/notes.md
+++ b/lectures/notes.md
@ -4,9 +4,9 @@
 È il rapporto tra la variazione percentuale del risultato e la variazione
 percentuale del dato in ingresso. È un parametro utile per controllare se
-un problema sia mal o ben condizionato.
+un problema è mal o ben condizionato.
-Nel caso di una funzione f, questo parametro si riduce ad essere
+Nel caso di una funzione f, questo parametro si riduce ad essere:
-10.1016/0168-9002(90)91334-8
+
  x f'(x) / f(x)
 e il limite per l'incremento dei dati iniziali tendente a zero è detto
@ -36,10 +36,10 @@ da cui si ottiene il `teorema di Bayes`:
 # Correlazione tra variabili
 Si può usare per determinare se una teoria sia valida oppure no dato un certo
-campione sperimentale (A è la teoria e B sono i dati). P(A ⋂ B) è la joint pdf.
+campione sperimentale (A è la teoria e B sono i dati). P(A|B) è la joint pdf.
 Le `convoluzioni di Mellin e Fourier` servono per trovare la pdf di una
 variabile che è rispettivamente il prodotto o la somma di altre due variabili
-con pdf nota (dimostrazione cartacea).
+con pdf nota.
 La `covarianza` cov(x, y) è definita come:
  cov(x, y) = E[x * y] - (μx * μy) = E[(x - μx)*(y - μy)]
@ -69,29 +69,29 @@ sommano in quadratura su tutta la matrice di covarianza.
 Abbiamo visto diversi tipi:
  - Binomiale
                    / N \                              E[n] = N*p
-      P(n, N, p) = |     | p^n (1 + p)^(N - n)    con
+      P(n, N, p) = |     | p^n (1 - p)^(N - n)    con
-                    \ n /                              V[n] = N*p*(p-1)
+                    \ n /                              V[n] = N*p*(1-p)
    da cui si può poi ricavare la multinomiale.
  - Poissoniana
-                ν^n
+                ν^n                                    E[n] = ν
-      P(n, ν) = --- e^(-ν)                        con  E[n] = V[n] = ν
+      P(n, ν) = --- e^(-ν)                        con  
-                n!
+                n!                                     V[n] = ν
    Si ottiene dal caso precedente per N→∞ e p→0 con N*p = ν.
  - Uniforme
                      1                                E[x] = (a + b)/2
-      P(x, b, a) =  -----                         con
+      P(x, a, b) =  -----                         con
-                    b - a                              V[x] = (b - a)^2/12
+                    b - a                              V[x] = (b - a)²/12
  - Gaussiana
-                      1        /  (x - μ)^2 \          E[x] = μ
+                      1        /  (x - μ)² \          E[x] = μ
-      G(x, μ, σ) = -------- e^| - ---------  |    con 
+      G(x, μ, σ) = -------- e^| - --------  |    con 
-                   √(2 π) σ    \    2 σ^2   /          V[x] = σ^2
+                   √(2 π) σ    \    2 σ²   /          V[x] = σ²
 È il limite delle prime due distribuzioni per N→∞.
-Il `teorema centrale` del limite dice che se una variabile è la somma di N
+Il `teorema centrale del limite` dice che se una variabile è la somma di N
 variabili indipendenti tutte con la stessa pdf con valore medio μi e devstd σi,
 allora tale variabile ha distribuzione Normale con:
@ -108,7 +108,7 @@ kurtosis:
  γ = E | -------- |    k = E | -------- |  - 3
        |    σ³    |          |    σ⁴    |
-dove X è la media campionaria e 3 è la kurtosis della Gaussiana.
+dove X e σ sono la media e la varianza e k = 3 - 3 = 0 per la Gaussiana.
 # Test di ipotesi
@ -128,7 +128,7 @@ Noi abbiamo sempre controllato solo qual è la pdf della statistica di test nel
 caso in cui l'ipotesi nulla sia vera e abbiamo posto il livello di confidenza
 al 95%, ovvero α = 5%.
 La potenza è detta anche purezza perché è la probabilità di scambiare "rumore
-per segnale", mentre l'intervallo di confidenza si dice anche efficienza perché
+per rumore", mentre l'intervallo di confidenza si dice anche efficienza perché
 è la probabilità di scambiare "il segnale per segnale".
 Il `lemma di Neyemann Pearson` dice che la statistica di test che massimizza la
@ -176,29 +176,29 @@ non vuol dire che sia significativo.
@4 ----------------------------------------------------------------------------
-# Stima di parametri
+# Stima di parametri (1)
 Consideriamo una variabile casuale x che segue la pdf f(x), la quale ha dei
 parametri Θ. Se io faccio una misura y di questi, allora otterrò uno stimatore
 ⊇(y) dei parametri Θ. Anche questo stimatore avrà una sua pdf che dipende dal
 valore vero. Uno stimatore deve soddisfare alcuni requisiti:
-  - consistenza: per N→∞, ⊇→Θ;
+  - consistenza: per N→∞, ⊇→Θ (convergenza in senso statistico);
  - unbias: E[⊇] = Θ
    Ovvero: ripetendo tante volte l'esperimento, il valore medio della
    distribuzione deve essere il valore vero;
  - deve avere una piccola varianza.
-Per esempio, la media campionaria è uno stimatore della media e la sua varianza
+Per esempio, la media campionaria è uno stimatore consistente e unbiased della
-è σ²/N, nel senso che se si ripetesse lo stesso esperimento tante volte e si
+media e la sua varianza è σ²/N, nel senso che se si ripetesse lo stesso
-guardasse la distribuzione delle medie così ottenute, otterremmo che queste
+esperimento tante volte e si guardasse la distribuzione delle medie così
-medie seguono una pdf con questa varianza. Affinché lo stimatore della varianza
+ottenute, otterremmo che queste medie seguono una pdf con questa varianza.
-sia unbiasato, si deve introdurre la correzione di Bessel.
+Affinché lo stimatore della varianza sia unbiased, si deve introdurre la
 correzione di Bessel.
 Un metodo che si può utilizzare è la maximum Likelihood. Se lo si applica al
 caso di una gaussiana, si trova che gli stimatori della media e della varianza
-sono la media e la varianza campionarie. Quest'ultima va però corretta con la
+sono la media e la varianza campionarie.
 correzione di Bessel.
 La disuguaglianza di `Cramer-Rao` (detto anche bound RCF) afferma che la matrice
 di covarianza è >= all'inverso della matrice Hessiana di -L calcolata nel
@ -207,14 +207,6 @@ minimo.
 Uno `stimatore robusto` è poco sensibile ai valori nelle code della
 distribuzione. È buono che gli stimatori siano robusti. Un esempio è la media
 trimmata, in cui nel calcolo si escludono i punti più esterni.
 Quando si sta lavorando con una gaussiana contaminata, ovvero che è la somma
 di due gaussiane in cui la seconda è, per esempio, il rumore, ed ha una
 varianza maggiore, allora anziché usare la varianza campionaria standard,
 è meglio usare d_n:
        1
  d_n = - Σi |xi - X|
        N
 L'`extended maximum Likelihood` si usa quando non ho deciso io il numero di
 dati ma è esso stesso una misura sperimentale (come nel caso dei decadimenti):
@ -224,7 +216,7 @@ di ottenere degli stimatori con minore varianza.
@5 ----------------------------------------------------------------------------
-# Stima di parametri
+# Stima di parametri (2)
 Il χ² è il metodo della Maximum Likelihood nel caso in cui:
@ -244,9 +236,10 @@ Di solito si guarda poi il `χ² ridotto` e il fit è buono se è prossimo a uno
 IMPORTANTE:
 Il metodo della Likelihood e quello dei momenti si usano quando si hanno punti
 distribuiti secondo una pdf e si vogliono stimare i parametri della pdf. NON
-si hanno delle y(x). Il metodo del χ², invece, si usa per trovare la funzione
+se si hanno delle y(x). Il metodo del χ², invece, si usa per trovare la
-che lega le y alle x. Se lo si vuole usare con dei dati ottenuti da una pdf,
+funzione che lega le y alle x (che poi abbiamo visto equivalere alla ML). Se
-allora bisogna binnarli in modo tale da ottenere le y.
+lo si vuole usare con dei dati ottenuti da una pdf, allora bisogna binnarli
 in modo tale da ottenere le y.
 Quando ci sono dei problemi nella minimizzazione del χ², si può provare ad
 usare il `metodo dei momenti`, anche se generalmente dà risultati con maggiore
@ -263,6 +256,16 @@ trovano col χ² sono infatti quelli con la varianza minima).
 L'errore è dato dalla propagazione degli errori (che è il solito U = AVA^T).
 Il `teorema di Wilks` asserisce che la grandezza:
                /   L(μ)   \
  t = - 2 * ln | ---------- |
                \ L(μ_true)/
 è distribuita come un χ². È facile dimostrarlo supponendo che i dati siano
 attribuiti attorno ai relativi valori veri come Gaussiane centrate nei valori
 veri con devstd data da quella campionaria.
@6 ----------------------------------------------------------------------------
 # Intervalli di confidenza
@ -277,12 +280,11 @@ Dire che:
  x = x₀ ± δx CL = 68%
-significa che ripetendo N volte l'esperimento, il 68% delle volte si otterrà
+significa che ripetendo N volte l'esperimento, il 68% delle volte il valore
-che x₀ appartiene a quell'intervallo (non che il valore vero ha il 68% di
+vero sarà dentro l'intervallo (non che il valore vero ha il 68% di probabilità
-probabilità di essere in quell'intervallo, che non ha alcun senso...).
+di essere in quell'intervallo, che non ha alcun senso...). Quando si vuole
-Quando si vuole stimare la media di una distribuzione, per il CLT questa segue
+stimare la media di una distribuzione, per il CLT questa segue una distribuzione
-una distribuzione gaussiana per N→∞ e quindi gli intervalli di confidenza sono
+gaussiana per N→∞ e quindi gli intervalli di confidenza sono noti, date le σ.
 noti, date le σ.
 La `quantile` di 0.5 è la mediana. Il che significa che la quantile è l'inversa
 della cumulativa.
@ -291,8 +293,6 @@ un intervallo di confidenza pari a 1 - α - β. Dovrò trovare gli estremi a e b
 che corrispondono a tali valori e per farlo dovrò utilizzare la quantile
 dell'area che mi serve.
 PARTE CHE NON SI CAPISCE UN TUBO
@7 ----------------------------------------------------------------------------
 # Minimizzazione
@ -302,15 +302,23 @@ la sua derivata prima sia nulla.
 Non esiste un metodo che con certezza identifichi il `minimo globale` di una
 funzione.
-Data la precisione finita dei floating point, non si può cercare un minimo
+Data la precisione finita dei floating point, non si può trovare esattamente il
-annullando la derivata prima. Al più si può porre un valore di tolleranza.
+minimo: si troverà f(x) = f(x_min) + 1/2 d²f/dx² |x - x_min|. Si può porre un
 valore di tolleranza per cui:
 f(x) ~ f(x_min) se f(x_min) >> 1/2 d²f/dx² |x - x_min|²
           1/2 d²f/dx² |x - x_min|²                     / 2 ε f(x_min) \
    → ε >> ------------------------  →  |x - x_min| << | -------------- |^(1/2)
                   f(x_min)                             \    d²f/dx²   /
 Vediamo un po' di metodi.
  - `Metodo di bisezione`:
-  Si può usare quando gli estremi sono a > 0 > b e la funzione è monotona. Si
+  Per trovare la radice di una funzione. Si può usare quando gli estremi sono
-  divide a metà e si guarda se è positivo o negativo e poi si aggiornano gli
+  f(a) > 0 > f(b) e la funzione è monotona. Si divide a metà e si guarda se è
-  estremi in modo da tenere i due vicini a segni opposti.
+  positivo o negativo e poi si aggiornano gli estremi in modo da tenere i due
  vicini a segni opposti.
  - Metodo analogo:
  Se invece la funzione è di forma pseudoparabolica con estremi a e b, allora
@ -451,9 +459,12 @@ Esistono diverse tecniche di deconvoluzione dei dati.
      μj = (νi - βi) Rij^-1 ~ (ni - βi) Rij^-1
    Massimizzando la Likelihood, si ottengono stimatori unbias e con varianza
-    minima n_i = ν_i. Se si fa così, però, non assomigliano affatto a quelli
+    minima n_i = ν_i. Se si fa così, però, siccome il problema dell'unfolding
-    corretti. Si deve accettare di minimizzare la varianza: `procedura di
+    è mal posto, si ottiene che se i dati veri sono lievemente diversi da
-    unfolding generalizzata`.
+    quelli misurati, il risultato sarà molto diverso da quello ottenuto.
    Ciò si traduce nell'ottenere una varianza enorme sui valori μi. Si deve
    accettare di aumentare il bias per poter minimizzare la varianza:
    `procedura di unfolding generalizzata`.
  - `Metodo dei fattori di correzione`:
    I valori veri vengono stimati come:
@ -472,10 +483,11 @@ Esistono diverse tecniche di deconvoluzione dei dati.
    Questo metodo funziona bene se non c'è molta migrazione tra bin e bin: è
    valido per dare una prima idea.
-  - `Unfolding generalizzato`:
+  - `Unfolding regolarizzato`:
    In questo caso si cerca sempre uno stimatore bias con varianza maggiore ma
    si cerca di ottenere una soluzione più liscia: lo si fa ponendo un limite Δ
-    alla differenza tra L_max e L(μ) usato:
+    alla differenza tra le likelihood L_max e L(μ) usata (per non allontanarsi
    troppo dalla soluzione ottimale):
      L(μ) >= Lmax - ΔL
@ -487,7 +499,7 @@ Esistono diverse tecniche di deconvoluzione dei dati.
      f(μ) = αL(μ) + S(μ)
-    Per cominciare si fissa α, considerando che:
+    Per cominciare si fissa α in base al ΔL scelto, considerando che:
    - per α = 0 si ottiene la soluzione più smooth che però ignora i dati;
    - per α → ∞ la soluzione non è smooth, perché massimizzare f(μ) equivale
      semplicemente a scegliere L(μ) = Lmax.
@ -495,7 +507,7 @@ Esistono diverse tecniche di deconvoluzione dei dati.
      Σi νi = Σij Rij μj = Ntot
-    E quindi ci ri riduce al metodo dei moltiplicatori di Laplace, ovvero si
+    E quindi ci ri riduce al metodo dei moltiplicatori di Lagrange, ovvero si
    deve massimizzare:
      f(μ) = αL(μ) + S(μ) + λ[Ntot - Σij Rij μj]
@ -508,7 +520,7 @@ Esistono diverse tecniche di deconvoluzione dei dati.
      tende a 0, più la funzione è liscia. Chiaramente, trattandosi di dati
      discreti, si fa la derivata numerica tra bin consecutivi.
-    - `Regolarizzazione col Max Ent`:
+    - `Regolarizzazione con il Max Ent`:
      Si usa la definizione di entropia per un set di probabilità pi:
        H = - Σi pi ln(pi)
@ -519,8 +531,9 @@ Esistono diverse tecniche di deconvoluzione dei dati.
        pi = μi/Ntot
-    Per quanto riguarda la scelta di α, in genere lo si sceglie minimizzando
+    Per quanto riguarda la scelta di α, essa rappresenta un compromesso tra
-    la matrice di covarianza, cioè il χ².
+    bias (L(μ)) e varianza (S(μ)). in genere lo si sceglie minimizzando la
    matrice di covarianza, cioè il χ².
@10 ---------------------------------------------------------------------------
@ -541,7 +554,7 @@ rilevato.
 In un pc, i dati vengono salvati in formato binario. Mentre per i numeri la
 conversione è immediata, per il linguaggio alfanumerico sono state inventate
 delle `codifiche` come per esempio il codice ASCII o l'UTF8. La tabella unicode
-contiene tutti codepoint e descrive come eventualmente si fondono.
+contiene tutti i codepoint e descrive come eventualmente si fondono.
 Il `bus` è l'insieme delle linee elettriche che collega vari dispositivi,
 ognuno dei quali è identificato univocamente da un indirizzo. I dispositivi