lectures: went on writing notes.md

2020-05-30 09:36:59 +02:00 · 2020-05-30 09:36:59 +02:00 · 0898b3cb30
commit 0898b3cb30
parent 180898a6b0
1 changed files with 120 additions and 6 deletions
--- a/lectures/notes.md
+++ b/lectures/notes.md
@ -6,7 +6,7 @@
 percentuale del dato in ingresso. È un parametro utile per controllare se
 un problema sia mal o ben condizionato.
 Nel caso di una funzione f, questo parametro si riduce ad essere
-
+10.1016/0168-9002(90)91334-8
  x f'(x) / f(x)

 e il limite per l'incremento dei dati iniziali tendente a zero è detto
@ -44,7 +44,7 @@ La `covarianza` cov(x, y) è definita come:

  cov(x, y) = E[x * y] - (μx * μy) = E[(x - μx)*(y - μy)]

-e il coefficiente di correlazione è definito come:
+e il coefficiente di correlazione di Pearson è definito come:

  ρ = cov(x, y)/(σx * σy)

@ -116,10 +116,12 @@ Se ho dei dati sperimentali e devo scegliere tra due (o più) ipotesi, devo
 costruire una `statistica di test` che avrà una propria pdf e in questa porre
 un valore di soglia. Anche la pdf della statistica di test avrà una pdf o
 l'altra a seconda di quale delle due ipotesi sia vera.
+
  - Se è vera l'ipotesi nulla, l'area dal cut a +∞ è detta significanza α e
    1 - α è detto livello di confidenza (o efficienza).
  - Se è vera l'ipotesi alternativa, se l'area da -∞ al cut è β, allora 1 - β
    è detta potenza del test (o purezza).
+
 Si chiama errore di prima specie se si scarta l'ipotesi nulla quando invece è
 vera ed errore di seconda specie quando la si accetta e invece è falsa.
 Noi abbiamo sempre controllato solo qual è la pdf della statistica di test nel
@ -159,9 +161,9 @@ Il `p-value` è la probabilità di misurare un valore che si allontani ancora di
 più del valore trovato rispetto alla statistica di test prevista dall'ipotesi
 nulla. Ovvero:

- se H0 dice che il valore medio di t è t0
- ed io ho misurato un valore la cui statistica di test vale tx < t0
- il p-value è dato dall'integrale da -∞ a tx della pdf della statistica di
+  - se H0 dice che il valore medio di t è t0
+  - ed io ho misurato un valore la cui statistica di test vale tx < t0
+  - il p-value è dato dall'integrale da -∞ a tx della pdf della statistica di
    test nel caso in cui l'ipotesi nulla sia vera.

 deve essere grande affinché l'ipotesi nulla possa essere ritenuta vera, dato
@ -173,3 +175,115 @@ minore di α (significanza), se faccio tante prove, prima o poi lo troverò, ma
 non vuol dire che sia significativo.

@4 ----------------------------------------------------------------------------
+
+# Stima di parametri
+
+Consideriamo una variabile casuale x che segue la pdf f(x), la quale ha dei
+parametri Θ. Se io faccio una misura y di questi, allora otterrò uno stimatore
+⊇(y) dei parametri Θ. Anche questo stimatore avrà una sua pdf che dipende dal
+valore vero. Uno stimatore deve soddisfare alcuni requisiti:
+
+  - consistenza: per N→∞, ⊇→Θ;
+  - unbias: E[⊇] = Θ
+    Ovvero: ripetendo tante volte l'esperimento, il valore medio della
+    distribuzione deve essere il valore vero;
+  - deve avere una piccola varianza.
+
+Per esempio, la media campionaria è uno stimatore della media e la sua varianza
+è σ²/N, nel senso che se si ripetesse lo stesso esperimento tante volte e si
+guardasse la distribuzione delle medie così ottenute, otterremmo che queste
+medie seguono una pdf con questa varianza. Affinché lo stimatore della varianza
+sia unbiasato, si deve introdurre la correzione di Bessel.
+
+Un metodo che si può utilizzare è la maximum likelihood. Se lo si applica al
+caso di una gaussiana, si trova che gli stimatori della media e della varianza
+sono la media e la varianza campionarie. Quest'ultima va però corretta con la
+correzione di Bessel.
+
+La disuguaglianza di `Cramer-Rao` (detto anche bound RCF) afferma che la matrice
+di covarianza è >= all'inverso della matrice Hessiana di -L calcolata nel
+minimo.
+
+Uno `stimatore robusto` è poco sensibile ai valori nelle code della
+distribuzione. È buono che gli stimatori siano robusti. Un esempio è la media
+trimmata, in cui nel calcolo si escludono i punti più esterni.
+Quando si sta lavorando con una gaussiana contaminata, ovvero che è la somma
+di due gaussiane in cui la seconda è, per esempio, il rumore, ed ha una
+varianza maggiore, allora anziché usare la varianza campionaria standard,
+è meglio usare d_n:
+
+        1
+  d_n = - Σi |xi - X|
+        N
+
+L'`extended maximum likelihood` si usa quando non ho deciso io il numero di
+dati ma è esso stesso una misura sperimentale (come nel caso dei decadimenti):
+in questo caso si moltiplica la Likelihood per la probabilità (Poissoniana) di
+ottenere quel numero di decadimenti: se la relazione ν(Θ) è nota, ciò permette
+di ottenere degli stimatori con minore varianza.
+
+@5 ----------------------------------------------------------------------------
+
+# Stima di parametri
+
+Il χ² è il metodo della Maximum Likelihood nel caso in cui:
+
+  - ho delle misure yi(xi) affette da un rumore gaussiano,
+  - i valori medi e le devstd di queste gaussiane sono λi e σi,
+  - la likelihood sarebbe il prodotto delle gaussiane e quindi il logaritmo è
+    la somma degli esponenti
+  - massimizzare questa somma equivale a minimizzare il χ² dove i valori
+    attesi sono dati dalle λi e gli errori dalle σi.
+
+Nella pratica i λi si suppone coincidano con il valore atteso della pdf e le
+varianze con le varianze campionarie.
+Nel caso in cui la funzione attesa sia lineare nei parametri, il metodo ha
+soluzione analitica.
+Di solito si guarda poi il `χ² ridotto` e il fit è buono se è prossimo a uno.
+
+IMPORTANTE:
+Il metodo della Likelihood e quello dei momenti si usano quando si hanno punti
+distribuiti secondo una pdf e si vogliono stimare i parametri della pdf. NON
+si hanno delle y(x). Il metodo del χ², invece, si usa per trovare la funzione
+che lega le y alle x. Se lo si vuole usare con dei dati ottenuti da una pdf,
+allora bisogna binnarli in modo tale da ottenere le y.
+
+Quando ci sono dei problemi nella minimizzazione del χ², si può provare ad
+usare il `metodo dei momenti`, anche se generalmente dà risultati con maggiore
+varianza (il teorema di `Gauss Markov` afferma che gli estimatori che si
+trovano col χ² sono infatti quelli con la varianza minima).
+
+  - Ho dei punti xi e voglio trovare i parametri della pdf fΘ(x),
+  - calcolo analiticamente i momenti della funzione come integrali della
+    funzione per x, per x², eccetera. (se i parametri sono n, calcolo i primi
+    n momenti)
+  - calcolo i momenti in modo discreto usando i dati xi
+      (X = Σxi/N, X² = Σx²i(N)
+  - uguaglio quelli analitici con quelli sperimentali e trovo i Θ.
+
+L'errore è dato dalla propagazione degli errori (che è il solito U = AVA^T).
+
+@6 ----------------------------------------------------------------------------
+
+# Stima di intervalli di confidenza
+
+Un intervallo di confidenza può soddisfare certe caratteristiche:
+
+  - simmetrico: i bordi sono equidistanti dal valore centrale;
+  - centrale: la parte di area della pdf lasciata fuori è uguale tra dx e sx;
+  - one side: se uno dei due estremi è ±∞.
+
+Dire che:
+
+  x = x₀ ± δx CL = 68%
+
+significa che ripetendo N volte l'esperimento, il 68% delle volte si otterrà
+che x₀ appartiene a quell'intervallo (non che il valore vero ha il 68% di
+probabilità di essere in quell'intervallo, che non ha alcun senso...).
+Quando si vuole stimare la media di una distribuzione, per il CLT questa segue
+una distribuzione gaussiana per N→∞ e quindi gli intervalli di confidenza sono
+noti, date le σ.
+
+La `quantile` di 0.5 è la mediana. Il che significa che la quantile è l'inversa
+della cumulativa.
+Se ho effettuato la misura di una grandezza ...?