diff --git a/lectures/notes.md b/lectures/notes.md index c0fb581..130dab2 100644 --- a/lectures/notes.md +++ b/lectures/notes.md @@ -6,7 +6,7 @@ percentuale del dato in ingresso. È un parametro utile per controllare se un problema sia mal o ben condizionato. Nel caso di una funzione f, questo parametro si riduce ad essere - +10.1016/0168-9002(90)91334-8 x f'(x) / f(x) e il limite per l'incremento dei dati iniziali tendente a zero è detto @@ -44,7 +44,7 @@ La `covarianza` cov(x, y) è definita come: cov(x, y) = E[x * y] - (μx * μy) = E[(x - μx)*(y - μy)] -e il coefficiente di correlazione è definito come: +e il coefficiente di correlazione di Pearson è definito come: ρ = cov(x, y)/(σx * σy) @@ -116,10 +116,12 @@ Se ho dei dati sperimentali e devo scegliere tra due (o più) ipotesi, devo costruire una `statistica di test` che avrà una propria pdf e in questa porre un valore di soglia. Anche la pdf della statistica di test avrà una pdf o l'altra a seconda di quale delle due ipotesi sia vera. + - Se è vera l'ipotesi nulla, l'area dal cut a +∞ è detta significanza α e 1 - α è detto livello di confidenza (o efficienza). - Se è vera l'ipotesi alternativa, se l'area da -∞ al cut è β, allora 1 - β è detta potenza del test (o purezza). + Si chiama errore di prima specie se si scarta l'ipotesi nulla quando invece è vera ed errore di seconda specie quando la si accetta e invece è falsa. Noi abbiamo sempre controllato solo qual è la pdf della statistica di test nel @@ -159,10 +161,10 @@ Il `p-value` è la probabilità di misurare un valore che si allontani ancora di più del valore trovato rispetto alla statistica di test prevista dall'ipotesi nulla. Ovvero: -- se H0 dice che il valore medio di t è t0 -- ed io ho misurato un valore la cui statistica di test vale tx < t0 -- il p-value è dato dall'integrale da -∞ a tx della pdf della statistica di - test nel caso in cui l'ipotesi nulla sia vera. + - se H0 dice che il valore medio di t è t0 + - ed io ho misurato un valore la cui statistica di test vale tx < t0 + - il p-value è dato dall'integrale da -∞ a tx della pdf della statistica di + test nel caso in cui l'ipotesi nulla sia vera. deve essere grande affinché l'ipotesi nulla possa essere ritenuta vera, dato il dato controllato e quindi la significanza α dovrebbe essere grande (invece @@ -173,3 +175,115 @@ minore di α (significanza), se faccio tante prove, prima o poi lo troverò, ma non vuol dire che sia significativo. @4 ---------------------------------------------------------------------------- + +# Stima di parametri + +Consideriamo una variabile casuale x che segue la pdf f(x), la quale ha dei +parametri Θ. Se io faccio una misura y di questi, allora otterrò uno stimatore +⊇(y) dei parametri Θ. Anche questo stimatore avrà una sua pdf che dipende dal +valore vero. Uno stimatore deve soddisfare alcuni requisiti: + + - consistenza: per N→∞, ⊇→Θ; + - unbias: E[⊇] = Θ + Ovvero: ripetendo tante volte l'esperimento, il valore medio della + distribuzione deve essere il valore vero; + - deve avere una piccola varianza. + +Per esempio, la media campionaria è uno stimatore della media e la sua varianza +è σ²/N, nel senso che se si ripetesse lo stesso esperimento tante volte e si +guardasse la distribuzione delle medie così ottenute, otterremmo che queste +medie seguono una pdf con questa varianza. Affinché lo stimatore della varianza +sia unbiasato, si deve introdurre la correzione di Bessel. + +Un metodo che si può utilizzare è la maximum likelihood. Se lo si applica al +caso di una gaussiana, si trova che gli stimatori della media e della varianza +sono la media e la varianza campionarie. Quest'ultima va però corretta con la +correzione di Bessel. + +La disuguaglianza di `Cramer-Rao` (detto anche bound RCF) afferma che la matrice +di covarianza è >= all'inverso della matrice Hessiana di -L calcolata nel +minimo. + +Uno `stimatore robusto` è poco sensibile ai valori nelle code della +distribuzione. È buono che gli stimatori siano robusti. Un esempio è la media +trimmata, in cui nel calcolo si escludono i punti più esterni. +Quando si sta lavorando con una gaussiana contaminata, ovvero che è la somma +di due gaussiane in cui la seconda è, per esempio, il rumore, ed ha una +varianza maggiore, allora anziché usare la varianza campionaria standard, +è meglio usare d_n: + + 1 + d_n = - Σi |xi - X| + N + +L'`extended maximum likelihood` si usa quando non ho deciso io il numero di +dati ma è esso stesso una misura sperimentale (come nel caso dei decadimenti): +in questo caso si moltiplica la Likelihood per la probabilità (Poissoniana) di +ottenere quel numero di decadimenti: se la relazione ν(Θ) è nota, ciò permette +di ottenere degli stimatori con minore varianza. + +@5 ---------------------------------------------------------------------------- + +# Stima di parametri + +Il χ² è il metodo della Maximum Likelihood nel caso in cui: + + - ho delle misure yi(xi) affette da un rumore gaussiano, + - i valori medi e le devstd di queste gaussiane sono λi e σi, + - la likelihood sarebbe il prodotto delle gaussiane e quindi il logaritmo è + la somma degli esponenti + - massimizzare questa somma equivale a minimizzare il χ² dove i valori + attesi sono dati dalle λi e gli errori dalle σi. + +Nella pratica i λi si suppone coincidano con il valore atteso della pdf e le +varianze con le varianze campionarie. +Nel caso in cui la funzione attesa sia lineare nei parametri, il metodo ha +soluzione analitica. +Di solito si guarda poi il `χ² ridotto` e il fit è buono se è prossimo a uno. + +IMPORTANTE: +Il metodo della Likelihood e quello dei momenti si usano quando si hanno punti +distribuiti secondo una pdf e si vogliono stimare i parametri della pdf. NON +si hanno delle y(x). Il metodo del χ², invece, si usa per trovare la funzione +che lega le y alle x. Se lo si vuole usare con dei dati ottenuti da una pdf, +allora bisogna binnarli in modo tale da ottenere le y. + +Quando ci sono dei problemi nella minimizzazione del χ², si può provare ad +usare il `metodo dei momenti`, anche se generalmente dà risultati con maggiore +varianza (il teorema di `Gauss Markov` afferma che gli estimatori che si +trovano col χ² sono infatti quelli con la varianza minima). + + - Ho dei punti xi e voglio trovare i parametri della pdf fΘ(x), + - calcolo analiticamente i momenti della funzione come integrali della + funzione per x, per x², eccetera. (se i parametri sono n, calcolo i primi + n momenti) + - calcolo i momenti in modo discreto usando i dati xi + (X = Σxi/N, X² = Σx²i(N) + - uguaglio quelli analitici con quelli sperimentali e trovo i Θ. + +L'errore è dato dalla propagazione degli errori (che è il solito U = AVA^T). + +@6 ---------------------------------------------------------------------------- + +# Stima di intervalli di confidenza + +Un intervallo di confidenza può soddisfare certe caratteristiche: + + - simmetrico: i bordi sono equidistanti dal valore centrale; + - centrale: la parte di area della pdf lasciata fuori è uguale tra dx e sx; + - one side: se uno dei due estremi è ±∞. + +Dire che: + + x = x₀ ± δx CL = 68% + +significa che ripetendo N volte l'esperimento, il 68% delle volte si otterrà +che x₀ appartiene a quell'intervallo (non che il valore vero ha il 68% di +probabilità di essere in quell'intervallo, che non ha alcun senso...). +Quando si vuole stimare la media di una distribuzione, per il CLT questa segue +una distribuzione gaussiana per N→∞ e quindi gli intervalli di confidenza sono +noti, date le σ. + +La `quantile` di 0.5 è la mediana. Il che significa che la quantile è l'inversa +della cumulativa. +Se ho effettuato la misura di una grandezza ...?