lectures: went on writing notes.md

This commit is contained in:
Giù Marcer 2020-05-30 09:36:59 +02:00 committed by rnhmjoj
parent 180898a6b0
commit 0898b3cb30

View File

@ -6,7 +6,7 @@
percentuale del dato in ingresso. È un parametro utile per controllare se
un problema sia mal o ben condizionato.
Nel caso di una funzione f, questo parametro si riduce ad essere
10.1016/0168-9002(90)91334-8
x f'(x) / f(x)
e il limite per l'incremento dei dati iniziali tendente a zero è detto
@ -44,7 +44,7 @@ La `covarianza` cov(x, y) è definita come:
cov(x, y) = E[x * y] - (μx * μy) = E[(x - μx)*(y - μy)]
e il coefficiente di correlazione è definito come:
e il coefficiente di correlazione di Pearson è definito come:
ρ = cov(x, y)/(σx * σy)
@ -116,10 +116,12 @@ Se ho dei dati sperimentali e devo scegliere tra due (o più) ipotesi, devo
costruire una `statistica di test` che avrà una propria pdf e in questa porre
un valore di soglia. Anche la pdf della statistica di test avrà una pdf o
l'altra a seconda di quale delle due ipotesi sia vera.
- Se è vera l'ipotesi nulla, l'area dal cut a +∞ è detta significanza α e
1 - α è detto livello di confidenza (o efficienza).
- Se è vera l'ipotesi alternativa, se l'area da -∞ al cut è β, allora 1 - β
è detta potenza del test (o purezza).
Si chiama errore di prima specie se si scarta l'ipotesi nulla quando invece è
vera ed errore di seconda specie quando la si accetta e invece è falsa.
Noi abbiamo sempre controllato solo qual è la pdf della statistica di test nel
@ -159,9 +161,9 @@ Il `p-value` è la probabilità di misurare un valore che si allontani ancora di
più del valore trovato rispetto alla statistica di test prevista dall'ipotesi
nulla. Ovvero:
- se H0 dice che il valore medio di t è t0
- ed io ho misurato un valore la cui statistica di test vale tx < t0
- il p-value è dato dall'integrale da -∞ a tx della pdf della statistica di
- se H0 dice che il valore medio di t è t0
- ed io ho misurato un valore la cui statistica di test vale tx < t0
- il p-value è dato dall'integrale da -∞ a tx della pdf della statistica di
test nel caso in cui l'ipotesi nulla sia vera.
deve essere grande affinché l'ipotesi nulla possa essere ritenuta vera, dato
@ -173,3 +175,115 @@ minore di α (significanza), se faccio tante prove, prima o poi lo troverò, ma
non vuol dire che sia significativo.
@4 ----------------------------------------------------------------------------
# Stima di parametri
Consideriamo una variabile casuale x che segue la pdf f(x), la quale ha dei
parametri Θ. Se io faccio una misura y di questi, allora otterrò uno stimatore
⊇(y) dei parametri Θ. Anche questo stimatore avrà una sua pdf che dipende dal
valore vero. Uno stimatore deve soddisfare alcuni requisiti:
- consistenza: per N→∞, ⊇→Θ;
- unbias: E[⊇] = Θ
Ovvero: ripetendo tante volte l'esperimento, il valore medio della
distribuzione deve essere il valore vero;
- deve avere una piccola varianza.
Per esempio, la media campionaria è uno stimatore della media e la sua varianza
è σ²/N, nel senso che se si ripetesse lo stesso esperimento tante volte e si
guardasse la distribuzione delle medie così ottenute, otterremmo che queste
medie seguono una pdf con questa varianza. Affinché lo stimatore della varianza
sia unbiasato, si deve introdurre la correzione di Bessel.
Un metodo che si può utilizzare è la maximum likelihood. Se lo si applica al
caso di una gaussiana, si trova che gli stimatori della media e della varianza
sono la media e la varianza campionarie. Quest'ultima va però corretta con la
correzione di Bessel.
La disuguaglianza di `Cramer-Rao` (detto anche bound RCF) afferma che la matrice
di covarianza è >= all'inverso della matrice Hessiana di -L calcolata nel
minimo.
Uno `stimatore robusto` è poco sensibile ai valori nelle code della
distribuzione. È buono che gli stimatori siano robusti. Un esempio è la media
trimmata, in cui nel calcolo si escludono i punti più esterni.
Quando si sta lavorando con una gaussiana contaminata, ovvero che è la somma
di due gaussiane in cui la seconda è, per esempio, il rumore, ed ha una
varianza maggiore, allora anziché usare la varianza campionaria standard,
è meglio usare d_n:
1
d_n = - Σi |xi - X|
N
L'`extended maximum likelihood` si usa quando non ho deciso io il numero di
dati ma è esso stesso una misura sperimentale (come nel caso dei decadimenti):
in questo caso si moltiplica la Likelihood per la probabilità (Poissoniana) di
ottenere quel numero di decadimenti: se la relazione ν(Θ) è nota, ciò permette
di ottenere degli stimatori con minore varianza.
@5 ----------------------------------------------------------------------------
# Stima di parametri
Il χ² è il metodo della Maximum Likelihood nel caso in cui:
- ho delle misure yi(xi) affette da un rumore gaussiano,
- i valori medi e le devstd di queste gaussiane sono λi e σi,
- la likelihood sarebbe il prodotto delle gaussiane e quindi il logaritmo è
la somma degli esponenti
- massimizzare questa somma equivale a minimizzare il χ² dove i valori
attesi sono dati dalle λi e gli errori dalle σi.
Nella pratica i λi si suppone coincidano con il valore atteso della pdf e le
varianze con le varianze campionarie.
Nel caso in cui la funzione attesa sia lineare nei parametri, il metodo ha
soluzione analitica.
Di solito si guarda poi il `χ² ridotto` e il fit è buono se è prossimo a uno.
IMPORTANTE:
Il metodo della Likelihood e quello dei momenti si usano quando si hanno punti
distribuiti secondo una pdf e si vogliono stimare i parametri della pdf. NON
si hanno delle y(x). Il metodo del χ², invece, si usa per trovare la funzione
che lega le y alle x. Se lo si vuole usare con dei dati ottenuti da una pdf,
allora bisogna binnarli in modo tale da ottenere le y.
Quando ci sono dei problemi nella minimizzazione del χ², si può provare ad
usare il `metodo dei momenti`, anche se generalmente dà risultati con maggiore
varianza (il teorema di `Gauss Markov` afferma che gli estimatori che si
trovano col χ² sono infatti quelli con la varianza minima).
- Ho dei punti xi e voglio trovare i parametri della pdf fΘ(x),
- calcolo analiticamente i momenti della funzione come integrali della
funzione per x, per x², eccetera. (se i parametri sono n, calcolo i primi
n momenti)
- calcolo i momenti in modo discreto usando i dati xi
(X = Σxi/N, X² = Σx²i(N)
- uguaglio quelli analitici con quelli sperimentali e trovo i Θ.
L'errore è dato dalla propagazione degli errori (che è il solito U = AVA^T).
@6 ----------------------------------------------------------------------------
# Stima di intervalli di confidenza
Un intervallo di confidenza può soddisfare certe caratteristiche:
- simmetrico: i bordi sono equidistanti dal valore centrale;
- centrale: la parte di area della pdf lasciata fuori è uguale tra dx e sx;
- one side: se uno dei due estremi è ±∞.
Dire che:
x = x₀ ± δx CL = 68%
significa che ripetendo N volte l'esperimento, il 68% delle volte si otterrà
che x₀ appartiene a quell'intervallo (non che il valore vero ha il 68% di
probabilità di essere in quell'intervallo, che non ha alcun senso...).
Quando si vuole stimare la media di una distribuzione, per il CLT questa segue
una distribuzione gaussiana per N→∞ e quindi gli intervalli di confidenza sono
noti, date le σ.
La `quantile` di 0.5 è la mediana. Il che significa che la quantile è l'inversa
della cumulativa.
Se ho effettuato la misura di una grandezza ...?