2020-05-27 16:33:48 +02:00
|
|
|
|
@1 ----------------------------------------------------------------------------
|
|
|
|
|
|
|
|
|
|
# Numero di condizionamento
|
|
|
|
|
|
|
|
|
|
È il rapporto tra la variazione percentuale del risultato e la variazione
|
|
|
|
|
percentuale del dato in ingresso. È un parametro utile per controllare se
|
2020-07-05 17:51:15 +02:00
|
|
|
|
un problema è mal o ben condizionato.
|
|
|
|
|
Nel caso di una funzione f, questo parametro si riduce ad essere:
|
|
|
|
|
|
2020-05-27 16:33:48 +02:00
|
|
|
|
x f'(x) / f(x)
|
|
|
|
|
|
|
|
|
|
e il limite per l'incremento dei dati iniziali tendente a zero è detto
|
|
|
|
|
`fattore di amplificazione` e il problema potrebbe essere mal condizionato
|
|
|
|
|
soltanto per determinati valori di x.
|
|
|
|
|
|
|
|
|
|
@2 ----------------------------------------------------------------------------
|
|
|
|
|
|
|
|
|
|
# Probabilità condizionata
|
|
|
|
|
|
|
|
|
|
La seconda uguaglianza è valida se A e B sono eventi indipendenti.
|
|
|
|
|
|
|
|
|
|
P(A ⋂ B) P(A) P(B)
|
|
|
|
|
P(A|B) = -------- = --------- = P(A)
|
|
|
|
|
P(B) P(B)
|
|
|
|
|
|
|
|
|
|
da cui si ottiene il `teorema di Bayes`:
|
|
|
|
|
|
|
|
|
|
P(A ⋂ B) \
|
|
|
|
|
P(A|B) = -------- |
|
|
|
|
|
P(B) | P(B|A) P(A)
|
|
|
|
|
> P(A|B) = -----------
|
|
|
|
|
P(B ⋂ A) | P(B)
|
|
|
|
|
P(B|A) = -------- |
|
|
|
|
|
P(A) /
|
|
|
|
|
|
|
|
|
|
# Correlazione tra variabili
|
|
|
|
|
|
|
|
|
|
Si può usare per determinare se una teoria sia valida oppure no dato un certo
|
2020-07-05 17:51:15 +02:00
|
|
|
|
campione sperimentale (A è la teoria e B sono i dati). P(A|B) è la joint pdf.
|
2020-05-27 16:33:48 +02:00
|
|
|
|
Le `convoluzioni di Mellin e Fourier` servono per trovare la pdf di una
|
|
|
|
|
variabile che è rispettivamente il prodotto o la somma di altre due variabili
|
2020-07-05 17:51:15 +02:00
|
|
|
|
con pdf nota.
|
2020-05-27 16:33:48 +02:00
|
|
|
|
La `covarianza` cov(x, y) è definita come:
|
|
|
|
|
|
|
|
|
|
cov(x, y) = E[x * y] - (μx * μy) = E[(x - μx)*(y - μy)]
|
|
|
|
|
|
2020-05-30 09:36:59 +02:00
|
|
|
|
e il coefficiente di correlazione di Pearson è definito come:
|
2020-05-27 16:33:48 +02:00
|
|
|
|
|
|
|
|
|
ρ = cov(x, y)/(σx * σy)
|
|
|
|
|
|
2020-05-30 15:56:20 +02:00
|
|
|
|
ed è compreso tra -1 e 1. Dice quanto le variabili siano correlate: se è nullo,
|
2020-05-27 16:33:48 +02:00
|
|
|
|
non lo sono per niente; se è positivo, sono inclinate in avanti, altrimenti
|
|
|
|
|
sono inclinate in dietro.
|
|
|
|
|
Per dei dati è definita la `matrice di covarianza` V (se sono indipendenti,
|
|
|
|
|
sarà diagonale, con gli errori quadrati come entrate). Se poi ho delle
|
|
|
|
|
grandezze che dipendono da questi dati, la loro matrice di covarianza U può
|
|
|
|
|
essere calcolata da quella iniziale come:
|
|
|
|
|
|
|
|
|
|
U = AVA^T con Aij = ∂_xi yj
|
|
|
|
|
|
|
|
|
|
dove A è quindi la matrice del cambio di base nel caso di un cambio di
|
|
|
|
|
variabili.
|
|
|
|
|
In teoria questa cosa funziona solo se le y dipendono linearmente dalle x su
|
|
|
|
|
dimensioni comparabili con le σ. Importante: eventuali errori sistematici si
|
|
|
|
|
sommano in quadratura su tutta la matrice di covarianza.
|
|
|
|
|
|
|
|
|
|
# Distribuzioni di probabilità
|
|
|
|
|
|
|
|
|
|
Abbiamo visto diversi tipi:
|
|
|
|
|
- Binomiale
|
|
|
|
|
/ N \ E[n] = N*p
|
2020-07-05 17:51:15 +02:00
|
|
|
|
P(n, N, p) = | | p^n (1 - p)^(N - n) con
|
|
|
|
|
\ n / V[n] = N*p*(1-p)
|
2020-05-27 16:33:48 +02:00
|
|
|
|
|
|
|
|
|
da cui si può poi ricavare la multinomiale.
|
|
|
|
|
- Poissoniana
|
|
|
|
|
|
2020-07-05 17:51:15 +02:00
|
|
|
|
ν^n E[n] = ν
|
|
|
|
|
P(n, ν) = --- e^(-ν) con
|
|
|
|
|
n! V[n] = ν
|
2020-05-27 16:33:48 +02:00
|
|
|
|
|
|
|
|
|
Si ottiene dal caso precedente per N→∞ e p→0 con N*p = ν.
|
|
|
|
|
- Uniforme
|
|
|
|
|
1 E[x] = (a + b)/2
|
2020-07-05 17:51:15 +02:00
|
|
|
|
P(x, a, b) = ----- con
|
|
|
|
|
b - a V[x] = (b - a)²/12
|
2020-05-27 16:33:48 +02:00
|
|
|
|
- Gaussiana
|
2020-07-05 17:51:15 +02:00
|
|
|
|
1 / (x - μ)² \ E[x] = μ
|
|
|
|
|
G(x, μ, σ) = -------- e^| - -------- | con
|
|
|
|
|
√(2 π) σ \ 2 σ² / V[x] = σ²
|
2020-05-27 16:33:48 +02:00
|
|
|
|
|
|
|
|
|
È il limite delle prime due distribuzioni per N→∞.
|
|
|
|
|
|
2020-07-05 17:51:15 +02:00
|
|
|
|
Il `teorema centrale del limite` dice che se una variabile è la somma di N
|
2020-05-30 15:56:20 +02:00
|
|
|
|
variabili indipendenti tutte con la stessa pdf con valore medio μi e devstd σi,
|
2020-05-27 16:33:48 +02:00
|
|
|
|
allora tale variabile ha distribuzione Normale con:
|
|
|
|
|
|
|
|
|
|
μ = Σμi e σ² = Σσi²
|
|
|
|
|
|
|
|
|
|
@3 ----------------------------------------------------------------------------
|
|
|
|
|
|
|
|
|
|
# Momenti di una distribuzione
|
|
|
|
|
|
|
|
|
|
A parte il valore medio e la varianza, solitamente si definiscono skewness e
|
|
|
|
|
kurtosis:
|
|
|
|
|
|
|
|
|
|
| (x - X)³ | | (x - X)⁴ |
|
|
|
|
|
γ = E | -------- | k = E | -------- | - 3
|
|
|
|
|
| σ³ | | σ⁴ |
|
|
|
|
|
|
2020-07-05 17:51:15 +02:00
|
|
|
|
dove X e σ sono la media e la varianza e k = 3 - 3 = 0 per la Gaussiana.
|
2020-05-27 16:33:48 +02:00
|
|
|
|
|
|
|
|
|
# Test di ipotesi
|
|
|
|
|
|
|
|
|
|
Se ho dei dati sperimentali e devo scegliere tra due (o più) ipotesi, devo
|
|
|
|
|
costruire una `statistica di test` che avrà una propria pdf e in questa porre
|
|
|
|
|
un valore di soglia. Anche la pdf della statistica di test avrà una pdf o
|
|
|
|
|
l'altra a seconda di quale delle due ipotesi sia vera.
|
2020-05-30 09:36:59 +02:00
|
|
|
|
|
2020-05-27 16:33:48 +02:00
|
|
|
|
- Se è vera l'ipotesi nulla, l'area dal cut a +∞ è detta significanza α e
|
|
|
|
|
1 - α è detto livello di confidenza (o efficienza).
|
|
|
|
|
- Se è vera l'ipotesi alternativa, se l'area da -∞ al cut è β, allora 1 - β
|
|
|
|
|
è detta potenza del test (o purezza).
|
2020-05-30 09:36:59 +02:00
|
|
|
|
|
2020-05-27 16:33:48 +02:00
|
|
|
|
Si chiama errore di prima specie se si scarta l'ipotesi nulla quando invece è
|
|
|
|
|
vera ed errore di seconda specie quando la si accetta e invece è falsa.
|
|
|
|
|
Noi abbiamo sempre controllato solo qual è la pdf della statistica di test nel
|
|
|
|
|
caso in cui l'ipotesi nulla sia vera e abbiamo posto il livello di confidenza
|
|
|
|
|
al 95%, ovvero α = 5%.
|
|
|
|
|
La potenza è detta anche purezza perché è la probabilità di scambiare "rumore
|
2020-07-05 17:51:15 +02:00
|
|
|
|
per rumore", mentre l'intervallo di confidenza si dice anche efficienza perché
|
2020-05-27 16:33:48 +02:00
|
|
|
|
è la probabilità di scambiare "il segnale per segnale".
|
|
|
|
|
|
|
|
|
|
Il `lemma di Neyemann Pearson` dice che la statistica di test che massimizza la
|
|
|
|
|
purezza una volta fissata l'efficienza è il rapporto delle Likelihood:
|
|
|
|
|
|
|
|
|
|
L(H0)/L(H1).
|
|
|
|
|
|
|
|
|
|
o comunque il rapporto delle probabilità di ottenere il campione misurato
|
|
|
|
|
secondo le due ipotesi.
|
2020-05-28 17:15:44 +02:00
|
|
|
|
Nel caso in cui le due pdf siano gaussiane, il discriminante di Fisher porta
|
2020-05-30 15:56:20 +02:00
|
|
|
|
allo stesso risultato che si otterrebbe con il rapporto delle Likelihood.
|
2020-05-28 17:15:44 +02:00
|
|
|
|
|
|
|
|
|
# Confronto di due datasets
|
|
|
|
|
|
|
|
|
|
Il test di `Kolmogorov-Smirnov` serve per confrontare dati non binnati: o un set
|
|
|
|
|
di dati con una funzione attesa, oppure due set di dati tra loro. Siccome
|
|
|
|
|
confronta tra loro le cumulative, va bene nel confrontare shifts dei dati o
|
|
|
|
|
grandi variazioni ma non piccoli dip nelle pdf. Per farlo in più dimensioni,
|
2020-05-30 15:56:20 +02:00
|
|
|
|
esistono varie idee ma non c'è n'è una standard e soprattutto la distribuzione
|
2020-05-28 17:15:44 +02:00
|
|
|
|
della statistica non è nota e va simulata.
|
|
|
|
|
Se i dati sono binnati, invece, allora si può usare il `test del χ²`:
|
|
|
|
|
|
|
|
|
|
(ni - νi)²
|
|
|
|
|
χ² = Σ ---------
|
|
|
|
|
νi
|
|
|
|
|
|
|
|
|
|
e si guarda qual è il p-value della sua distribuzione, che è nota.
|
|
|
|
|
|
|
|
|
|
Il `p-value` è la probabilità di misurare un valore che si allontani ancora di
|
|
|
|
|
più del valore trovato rispetto alla statistica di test prevista dall'ipotesi
|
|
|
|
|
nulla. Ovvero:
|
|
|
|
|
|
2020-05-30 09:36:59 +02:00
|
|
|
|
- se H0 dice che il valore medio di t è t0
|
|
|
|
|
- ed io ho misurato un valore la cui statistica di test vale tx < t0
|
|
|
|
|
- il p-value è dato dall'integrale da -∞ a tx della pdf della statistica di
|
|
|
|
|
test nel caso in cui l'ipotesi nulla sia vera.
|
2020-05-28 17:15:44 +02:00
|
|
|
|
|
|
|
|
|
deve essere grande affinché l'ipotesi nulla possa essere ritenuta vera, dato
|
|
|
|
|
il dato controllato e quindi la significanza α dovrebbe essere grande (invece
|
|
|
|
|
la si mette sempre a 0.5 perché è standard). Oppure deve essere piccolo se
|
|
|
|
|
voglio confutarla (e quindi metterò una piccola significanza di riferimento).
|
|
|
|
|
Attenzione al `look-elsewhere effect`: se mi sforzo di trovare un p-value
|
|
|
|
|
minore di α (significanza), se faccio tante prove, prima o poi lo troverò, ma
|
|
|
|
|
non vuol dire che sia significativo.
|
|
|
|
|
|
|
|
|
|
@4 ----------------------------------------------------------------------------
|
2020-05-30 09:36:59 +02:00
|
|
|
|
|
2020-07-05 17:51:15 +02:00
|
|
|
|
# Stima di parametri (1)
|
2020-05-30 09:36:59 +02:00
|
|
|
|
|
|
|
|
|
Consideriamo una variabile casuale x che segue la pdf f(x), la quale ha dei
|
|
|
|
|
parametri Θ. Se io faccio una misura y di questi, allora otterrò uno stimatore
|
|
|
|
|
⊇(y) dei parametri Θ. Anche questo stimatore avrà una sua pdf che dipende dal
|
|
|
|
|
valore vero. Uno stimatore deve soddisfare alcuni requisiti:
|
|
|
|
|
|
2020-07-05 17:51:15 +02:00
|
|
|
|
- consistenza: per N→∞, ⊇→Θ (convergenza in senso statistico);
|
2020-05-30 09:36:59 +02:00
|
|
|
|
- unbias: E[⊇] = Θ
|
|
|
|
|
Ovvero: ripetendo tante volte l'esperimento, il valore medio della
|
|
|
|
|
distribuzione deve essere il valore vero;
|
|
|
|
|
- deve avere una piccola varianza.
|
|
|
|
|
|
2020-07-05 17:51:15 +02:00
|
|
|
|
Per esempio, la media campionaria è uno stimatore consistente e unbiased della
|
|
|
|
|
media e la sua varianza è σ²/N, nel senso che se si ripetesse lo stesso
|
|
|
|
|
esperimento tante volte e si guardasse la distribuzione delle medie così
|
|
|
|
|
ottenute, otterremmo che queste medie seguono una pdf con questa varianza.
|
|
|
|
|
Affinché lo stimatore della varianza sia unbiased, si deve introdurre la
|
|
|
|
|
correzione di Bessel.
|
2020-05-30 09:36:59 +02:00
|
|
|
|
|
2020-05-30 15:56:20 +02:00
|
|
|
|
Un metodo che si può utilizzare è la maximum Likelihood. Se lo si applica al
|
2020-05-30 09:36:59 +02:00
|
|
|
|
caso di una gaussiana, si trova che gli stimatori della media e della varianza
|
2020-07-05 17:51:15 +02:00
|
|
|
|
sono la media e la varianza campionarie.
|
2020-05-30 09:36:59 +02:00
|
|
|
|
|
|
|
|
|
La disuguaglianza di `Cramer-Rao` (detto anche bound RCF) afferma che la matrice
|
|
|
|
|
di covarianza è >= all'inverso della matrice Hessiana di -L calcolata nel
|
|
|
|
|
minimo.
|
|
|
|
|
|
|
|
|
|
Uno `stimatore robusto` è poco sensibile ai valori nelle code della
|
|
|
|
|
distribuzione. È buono che gli stimatori siano robusti. Un esempio è la media
|
|
|
|
|
trimmata, in cui nel calcolo si escludono i punti più esterni.
|
|
|
|
|
|
2020-05-30 15:56:20 +02:00
|
|
|
|
L'`extended maximum Likelihood` si usa quando non ho deciso io il numero di
|
2020-05-30 09:36:59 +02:00
|
|
|
|
dati ma è esso stesso una misura sperimentale (come nel caso dei decadimenti):
|
|
|
|
|
in questo caso si moltiplica la Likelihood per la probabilità (Poissoniana) di
|
|
|
|
|
ottenere quel numero di decadimenti: se la relazione ν(Θ) è nota, ciò permette
|
|
|
|
|
di ottenere degli stimatori con minore varianza.
|
|
|
|
|
|
|
|
|
|
@5 ----------------------------------------------------------------------------
|
|
|
|
|
|
2020-07-05 17:51:15 +02:00
|
|
|
|
# Stima di parametri (2)
|
2020-05-30 09:36:59 +02:00
|
|
|
|
|
|
|
|
|
Il χ² è il metodo della Maximum Likelihood nel caso in cui:
|
|
|
|
|
|
|
|
|
|
- ho delle misure yi(xi) affette da un rumore gaussiano,
|
|
|
|
|
- i valori medi e le devstd di queste gaussiane sono λi e σi,
|
2020-05-30 15:56:20 +02:00
|
|
|
|
- la Likelihood sarebbe il prodotto delle gaussiane e quindi il logaritmo è
|
2020-05-30 09:36:59 +02:00
|
|
|
|
la somma degli esponenti
|
|
|
|
|
- massimizzare questa somma equivale a minimizzare il χ² dove i valori
|
|
|
|
|
attesi sono dati dalle λi e gli errori dalle σi.
|
|
|
|
|
|
|
|
|
|
Nella pratica i λi si suppone coincidano con il valore atteso della pdf e le
|
|
|
|
|
varianze con le varianze campionarie.
|
|
|
|
|
Nel caso in cui la funzione attesa sia lineare nei parametri, il metodo ha
|
|
|
|
|
soluzione analitica.
|
|
|
|
|
Di solito si guarda poi il `χ² ridotto` e il fit è buono se è prossimo a uno.
|
|
|
|
|
|
|
|
|
|
IMPORTANTE:
|
|
|
|
|
Il metodo della Likelihood e quello dei momenti si usano quando si hanno punti
|
|
|
|
|
distribuiti secondo una pdf e si vogliono stimare i parametri della pdf. NON
|
2020-07-05 17:51:15 +02:00
|
|
|
|
se si hanno delle y(x). Il metodo del χ², invece, si usa per trovare la
|
|
|
|
|
funzione che lega le y alle x (che poi abbiamo visto equivalere alla ML). Se
|
|
|
|
|
lo si vuole usare con dei dati ottenuti da una pdf, allora bisogna binnarli
|
|
|
|
|
in modo tale da ottenere le y.
|
2020-05-30 09:36:59 +02:00
|
|
|
|
|
|
|
|
|
Quando ci sono dei problemi nella minimizzazione del χ², si può provare ad
|
|
|
|
|
usare il `metodo dei momenti`, anche se generalmente dà risultati con maggiore
|
|
|
|
|
varianza (il teorema di `Gauss Markov` afferma che gli estimatori che si
|
|
|
|
|
trovano col χ² sono infatti quelli con la varianza minima).
|
|
|
|
|
|
|
|
|
|
- Ho dei punti xi e voglio trovare i parametri della pdf fΘ(x),
|
|
|
|
|
- calcolo analiticamente i momenti della funzione come integrali della
|
|
|
|
|
funzione per x, per x², eccetera. (se i parametri sono n, calcolo i primi
|
|
|
|
|
n momenti)
|
|
|
|
|
- calcolo i momenti in modo discreto usando i dati xi
|
|
|
|
|
(X = Σxi/N, X² = Σx²i(N)
|
|
|
|
|
- uguaglio quelli analitici con quelli sperimentali e trovo i Θ.
|
|
|
|
|
|
|
|
|
|
L'errore è dato dalla propagazione degli errori (che è il solito U = AVA^T).
|
|
|
|
|
|
2020-07-05 17:51:15 +02:00
|
|
|
|
Il `teorema di Wilks` asserisce che la grandezza:
|
|
|
|
|
|
|
|
|
|
/ L(μ) \
|
|
|
|
|
t = - 2 * ln | ---------- |
|
|
|
|
|
\ L(μ_true)/
|
|
|
|
|
|
|
|
|
|
è distribuita come un χ². È facile dimostrarlo supponendo che i dati siano
|
|
|
|
|
attribuiti attorno ai relativi valori veri come Gaussiane centrate nei valori
|
|
|
|
|
veri con devstd data da quella campionaria.
|
|
|
|
|
|
2020-05-30 09:36:59 +02:00
|
|
|
|
@6 ----------------------------------------------------------------------------
|
|
|
|
|
|
2020-05-30 15:56:20 +02:00
|
|
|
|
# Intervalli di confidenza
|
2020-05-30 09:36:59 +02:00
|
|
|
|
|
|
|
|
|
Un intervallo di confidenza può soddisfare certe caratteristiche:
|
|
|
|
|
|
|
|
|
|
- simmetrico: i bordi sono equidistanti dal valore centrale;
|
|
|
|
|
- centrale: la parte di area della pdf lasciata fuori è uguale tra dx e sx;
|
|
|
|
|
- one side: se uno dei due estremi è ±∞.
|
|
|
|
|
|
|
|
|
|
Dire che:
|
|
|
|
|
|
|
|
|
|
x = x₀ ± δx CL = 68%
|
|
|
|
|
|
2020-07-05 17:51:15 +02:00
|
|
|
|
significa che ripetendo N volte l'esperimento, il 68% delle volte il valore
|
|
|
|
|
vero sarà dentro l'intervallo (non che il valore vero ha il 68% di probabilità
|
|
|
|
|
di essere in quell'intervallo, che non ha alcun senso...). Quando si vuole
|
|
|
|
|
stimare la media di una distribuzione, per il CLT questa segue una distribuzione
|
|
|
|
|
gaussiana per N→∞ e quindi gli intervalli di confidenza sono noti, date le σ.
|
2020-05-30 09:36:59 +02:00
|
|
|
|
|
|
|
|
|
La `quantile` di 0.5 è la mediana. Il che significa che la quantile è l'inversa
|
|
|
|
|
della cumulativa.
|
2020-05-30 15:56:20 +02:00
|
|
|
|
Considerando di avere ottenuto lo stimatore Θ del parametro O e di volere dare
|
|
|
|
|
un intervallo di confidenza pari a 1 - α - β. Dovrò trovare gli estremi a e b
|
|
|
|
|
che corrispondono a tali valori e per farlo dovrò utilizzare la quantile
|
|
|
|
|
dell'area che mi serve.
|
|
|
|
|
|
|
|
|
|
@7 ----------------------------------------------------------------------------
|
|
|
|
|
|
|
|
|
|
# Minimizzazione
|
|
|
|
|
|
|
|
|
|
Quando un estremo si trova sul bordo dell'intervallo, non è affatto detto che
|
|
|
|
|
la sua derivata prima sia nulla.
|
|
|
|
|
Non esiste un metodo che con certezza identifichi il `minimo globale` di una
|
|
|
|
|
funzione.
|
|
|
|
|
|
2020-07-05 17:51:15 +02:00
|
|
|
|
Data la precisione finita dei floating point, non si può trovare esattamente il
|
|
|
|
|
minimo: si troverà f(x) = f(x_min) + 1/2 d²f/dx² |x - x_min|. Si può porre un
|
|
|
|
|
valore di tolleranza per cui:
|
|
|
|
|
|
|
|
|
|
f(x) ~ f(x_min) se f(x_min) >> 1/2 d²f/dx² |x - x_min|²
|
|
|
|
|
|
|
|
|
|
1/2 d²f/dx² |x - x_min|² / 2 ε f(x_min) \
|
|
|
|
|
→ ε >> ------------------------ → |x - x_min| << | -------------- |^(1/2)
|
|
|
|
|
f(x_min) \ d²f/dx² /
|
2020-05-30 15:56:20 +02:00
|
|
|
|
|
|
|
|
|
Vediamo un po' di metodi.
|
|
|
|
|
|
|
|
|
|
- `Metodo di bisezione`:
|
2020-07-05 17:51:15 +02:00
|
|
|
|
Per trovare la radice di una funzione. Si può usare quando gli estremi sono
|
|
|
|
|
f(a) > 0 > f(b) e la funzione è monotona. Si divide a metà e si guarda se è
|
|
|
|
|
positivo o negativo e poi si aggiornano gli estremi in modo da tenere i due
|
|
|
|
|
vicini a segni opposti.
|
2020-05-30 15:56:20 +02:00
|
|
|
|
|
|
|
|
|
- Metodo analogo:
|
|
|
|
|
Se invece la funzione è di forma pseudoparabolica con estremi a e b, allora
|
|
|
|
|
si sceglie un punto a < x < b tale che f(a) > f(x) e f(b) > f(x), perché
|
|
|
|
|
questo assicura che il minimo sia compreso nell'intervallo [a, b]. Poi si
|
|
|
|
|
sceglie un terzo punto x', per esempio tra a e x: se f(x') > f(x), allora
|
|
|
|
|
tengo l'intervallo [x', b], altrimenti tengo [a, x] (cioè devono sempre
|
|
|
|
|
esserci tre punti dentro, compresi gli estremi).
|
2020-05-31 16:02:52 +02:00
|
|
|
|
- Se si utilizza il `rapporto aureo` (3 - √5)/2, allora la convergenza è
|
2020-05-30 15:56:20 +02:00
|
|
|
|
ottimale. È una convergenza lineare, nel senso che il numero di cifre
|
2020-05-31 16:02:52 +02:00
|
|
|
|
significative che si ottengo del minimo cresce linearmente col numero
|
2020-05-30 15:56:20 +02:00
|
|
|
|
di iterazioni.
|
|
|
|
|
- Se la funzione è particolarmente semplice, si può usare il `metodo della
|
|
|
|
|
parabola`: si fittano i tre punti con una parabola e si trova il minimo
|
|
|
|
|
di quest'ultima. Poi il set dei tre punti è aggiornato tenendo il
|
|
|
|
|
vertice e i due punti contigui.
|
|
|
|
|
- Il metodo di Brent combina questi due metodi.
|
|
|
|
|
|
|
|
|
|
Nel caso N-dimensionale diventa più complicato.
|
|
|
|
|
|
|
|
|
|
- `Metodo del simplesso`:
|
|
|
|
|
Si considerano N+1 punti in uno spazio N-dimensionale (per esempio un
|
|
|
|
|
triangolo nel piano): questo simplesso può riflettersi, estendersi o
|
|
|
|
|
contrarsi. Ad ogni iterazione, il vertice in cui la funzione assume il
|
|
|
|
|
valore maggiore viene aggiornato. L'algoritmo termina quando il
|
|
|
|
|
simplesso diventa sufficientemente piccolo (perché in corrispondenza
|
|
|
|
|
del minimo inizia a contrarsi). Il problema si ha quando c'è un grosso
|
|
|
|
|
avvallamento, perché inizia a perdersi. È un procedimento molto lento.
|
|
|
|
|
|
|
|
|
|
- `Metodo delle direzioni`:
|
|
|
|
|
Si può minimizzare la funzione in una direzione e poi dal punto di minimo
|
|
|
|
|
scegliere un'altra direzione e minimizzare in quest'altra, ecc ecc. Un
|
|
|
|
|
esempio di ricerca delle direzioni è quello delle direzioni coniugate, ma ce
|
|
|
|
|
ne sono molti altri.
|
|
|
|
|
|
|
|
|
|
Per testare se un metodo di minimizzazione funziona bene, sono state inventate
|
|
|
|
|
alcune funzioni di test patologiche.
|
|
|
|
|
|
|
|
|
|
@8 ----------------------------------------------------------------------------
|
|
|
|
|
|
2020-05-31 16:02:52 +02:00
|
|
|
|
# Tecniche Monte Carlo
|
2020-05-30 15:56:20 +02:00
|
|
|
|
|
2020-05-31 16:02:52 +02:00
|
|
|
|
Una tecnica Monte Carlo è una qualsiasi tecnica che preveda la generazione di
|
2020-05-30 15:56:20 +02:00
|
|
|
|
numeri casuali.
|
|
|
|
|
Si possono usare per stimare il valore dell'integrale e la convergenza è
|
|
|
|
|
dell'ordine 1/√N. Il vantaggio rispetto alle tecniche numeriche è che la
|
|
|
|
|
convergenza resta dello stesso ordine anche nel caso di più dimensioni.
|
|
|
|
|
Più precisamente, l'errore è:
|
|
|
|
|
|
|
|
|
|
V(f)/√N
|
|
|
|
|
|
|
|
|
|
dove V(f) è la varianza dei punti generati e dipende dal metodo utilizzato.
|
|
|
|
|
L'`importance sampling` e lo `stratified sampling` permettono di ridurre V(f).
|
|
|
|
|
Un altro metodo è quello delle `variabili antitetiche`: per calcolare la media
|
|
|
|
|
di f (perché I = V*<f>), si estrae un campione di punti {xi}, che avrà varianza
|
|
|
|
|
σi, e un campione {yi} con punti scelti in modo tale, per esempio, che per ogni
|
|
|
|
|
xi:
|
|
|
|
|
|
|
|
|
|
yi = (a - b)[1 - xi/(b - a)]
|
|
|
|
|
|
|
|
|
|
In questo modo i due campioni hanno covarianza negativa e quindi la varianza
|
|
|
|
|
totale è inferiore. Notare che in questo caso si deve sommare anche la
|
|
|
|
|
covarianza perché i punti sono stati generati in modo correlato.
|
|
|
|
|
|
|
|
|
|
# Numeri casuali e pseudocasuali
|
|
|
|
|
|
2020-05-31 16:02:52 +02:00
|
|
|
|
Generare numeri veramente casuali è molto più complesso di generare `numeri
|
2020-05-30 15:56:20 +02:00
|
|
|
|
pseudocasuali`. Infatti il computer, per generarli, utilizza una formula ben
|
|
|
|
|
precisa che ha lo scopo di rendere dei numeri apparentemente casuali. In
|
|
|
|
|
realtà hanno anche un periodo. I generatori attualmente usati sono
|
|
|
|
|
principalmente di due tipi:
|
|
|
|
|
|
|
|
|
|
- congruenti moltiplicativi:
|
|
|
|
|
|
|
|
|
|
ri = [a*ri-1 (mod m)]
|
|
|
|
|
|
|
|
|
|
- congruenti misti:
|
|
|
|
|
|
|
|
|
|
ri = [a*ri-1 +b (mod m)]
|
|
|
|
|
|
|
|
|
|
il periodo è al massimo m/4 e di solito m = 2^t con t numero di bits di un
|
|
|
|
|
intero nella macchina considerata, il che significa che è il più grande intero
|
|
|
|
|
rappresentabile.
|
|
|
|
|
|
|
|
|
|
Un generatore di numeri casuali deve essere sottoposto a test di randomness.
|
|
|
|
|
Infatti può sembrare che i punti in 3D si dispongano casualmente ma in realtà,
|
|
|
|
|
visti dalla giusta angolazione, può verificarsi che si dispongano in realtà
|
|
|
|
|
su dei piani (o su iperpiani in N-dimensioni).
|
|
|
|
|
|
|
|
|
|
# Numeri casuali secondo pdf generiche
|
|
|
|
|
|
2020-05-31 16:02:52 +02:00
|
|
|
|
Se si dispone di un generatore di numeri casuali uniformi, esistono tre
|
2020-05-30 15:56:20 +02:00
|
|
|
|
metodi per generare numeri secondo una pdf generica:
|
|
|
|
|
|
2020-05-31 16:02:52 +02:00
|
|
|
|
- `Reverse sampling`:
|
2020-05-30 15:56:20 +02:00
|
|
|
|
Consideriamo la cdf F(x) di una variabile x distribuita secondo f(x) come
|
|
|
|
|
una variabile casuale a sua volta. Si può facilmente dimostrare che la pdf
|
|
|
|
|
di questa variabile è uniforme.
|
|
|
|
|
Si possono quindi pescare numeri uniformemente tra 0 e 1 e poi calcolarne
|
2020-05-31 16:02:52 +02:00
|
|
|
|
la quantile (cioè l'inversa della F(x): si ottengono punti distribuiti come
|
2020-05-30 15:56:20 +02:00
|
|
|
|
f(x)).
|
|
|
|
|
|
2020-05-31 16:02:52 +02:00
|
|
|
|
- `Metodo di composizione`:
|
2020-05-30 15:56:20 +02:00
|
|
|
|
Si suddivide la pdf nella somma di due o più pdf (ognuna delle quali deve
|
|
|
|
|
risultare normalizzata e quindi avrà il suo opportuno coefficiente
|
|
|
|
|
moltiplicativo). I coefficienti moltiplicativi verranno utilizzati per
|
|
|
|
|
decidere quando pescare secondo una o l'altra pdf pescando un primo numero
|
|
|
|
|
random. Un secondo numero random verrà poi usato tramite reverse sampling.
|
|
|
|
|
|
2020-05-31 16:02:52 +02:00
|
|
|
|
- `Metodo hit-miss`:
|
2020-05-30 15:56:20 +02:00
|
|
|
|
Si pescano numeri a caso in un'area che contiene la funzione e poi si
|
|
|
|
|
tengono se sono sotto alla funzione e si scartano se sono sopra.
|
|
|
|
|
|
|
|
|
|
Per generare numeri secondo una Gaussiana, basta usare il CLT. Si pescano
|
|
|
|
|
numeri casuali e si considera la distribuzione della somma (riga 94).
|
|
|
|
|
|
|
|
|
|
Le simulazioni MC sono molto utili per capire se conviene apportare certe
|
|
|
|
|
modifiche alle strumentazioni sperimentali oppure no.
|
2020-05-30 18:40:39 +02:00
|
|
|
|
|
|
|
|
|
@9 ----------------------------------------------------------------------------
|
|
|
|
|
|
2020-05-31 16:02:52 +02:00
|
|
|
|
# Tecniche di deconvoluzione
|
2020-05-30 18:40:39 +02:00
|
|
|
|
|
2020-05-31 16:02:52 +02:00
|
|
|
|
Esistono diverse tecniche di deconvoluzione dei dati.
|
2020-05-30 18:40:39 +02:00
|
|
|
|
|
2020-05-31 16:02:52 +02:00
|
|
|
|
- `Matrice di correzione`:
|
|
|
|
|
Si suppone che i dati osservati derivino da quelli veri in questo modo:
|
2020-05-30 18:40:39 +02:00
|
|
|
|
|
2020-05-31 16:02:52 +02:00
|
|
|
|
ν = R * μ + β → νi = Rij μj + βi
|
2020-05-30 18:40:39 +02:00
|
|
|
|
|
2020-05-31 16:02:52 +02:00
|
|
|
|
dove β è un eventuale fondo e R è la matrice di correzione.
|
|
|
|
|
Notare che Σj di R_ij dà l'efficienza con cui il segnale μ_j viene
|
|
|
|
|
trasformato in segnale osservato.
|
|
|
|
|
In realtà i segnali osservati sono n_i, ognuno dei quali appartiene ad una
|
|
|
|
|
poissoniana di media ν_i. Si può massimizzare la Likelihood per trovare i
|
|
|
|
|
parametri ν_i e poi invertire la matrice e sottrarre il fondo.
|
2020-05-30 18:40:39 +02:00
|
|
|
|
|
2020-05-31 16:02:52 +02:00
|
|
|
|
μj = (νi - βi) Rij^-1 ~ (ni - βi) Rij^-1
|
2020-05-30 18:40:39 +02:00
|
|
|
|
|
2020-05-31 16:02:52 +02:00
|
|
|
|
Massimizzando la Likelihood, si ottengono stimatori unbias e con varianza
|
2020-07-05 17:51:15 +02:00
|
|
|
|
minima n_i = ν_i. Se si fa così, però, siccome il problema dell'unfolding
|
|
|
|
|
è mal posto, si ottiene che se i dati veri sono lievemente diversi da
|
|
|
|
|
quelli misurati, il risultato sarà molto diverso da quello ottenuto.
|
|
|
|
|
Ciò si traduce nell'ottenere una varianza enorme sui valori μi. Si deve
|
|
|
|
|
accettare di aumentare il bias per poter minimizzare la varianza:
|
|
|
|
|
`procedura di unfolding generalizzata`.
|
2020-05-31 16:02:52 +02:00
|
|
|
|
|
|
|
|
|
- `Metodo dei fattori di correzione`:
|
|
|
|
|
I valori veri vengono stimati come:
|
|
|
|
|
|
|
|
|
|
μi = Ci (ni - βi)
|
|
|
|
|
|
|
|
|
|
dove Ci può essere stimato tramite simulazioni MC come:
|
|
|
|
|
|
|
|
|
|
μi = Ci νi → Ci = μi/νi
|
|
|
|
|
|
|
|
|
|
dove μi e νi sono creati attraverso due simulazioni MC:i primi simulando
|
|
|
|
|
solo la fisica del sistema e i secondi simulando anche la risposta della
|
|
|
|
|
strumentazione utilizzata (ma senza simulare il fondo).
|
|
|
|
|
In pratica, il fattore Ci ci dice quanta parte di quanto osservato nel bin
|
|
|
|
|
i-esimo appartiene effettivamente al bin i-esimo.
|
|
|
|
|
Questo metodo funziona bene se non c'è molta migrazione tra bin e bin: è
|
|
|
|
|
valido per dare una prima idea.
|
|
|
|
|
|
2020-07-05 17:51:15 +02:00
|
|
|
|
- `Unfolding regolarizzato`:
|
2020-05-31 16:02:52 +02:00
|
|
|
|
In questo caso si cerca sempre uno stimatore bias con varianza maggiore ma
|
|
|
|
|
si cerca di ottenere una soluzione più liscia: lo si fa ponendo un limite Δ
|
2020-07-05 17:51:15 +02:00
|
|
|
|
alla differenza tra le likelihood L_max e L(μ) usata (per non allontanarsi
|
|
|
|
|
troppo dalla soluzione ottimale):
|
2020-05-31 16:02:52 +02:00
|
|
|
|
|
|
|
|
|
L(μ) >= Lmax - ΔL
|
|
|
|
|
|
|
|
|
|
Dove L(μ) = Lmax se è soddisfatta la soluzione ML.
|
|
|
|
|
Tra le soluzioni che soddisfano questa equazione, si prende quella con la
|
|
|
|
|
maggiore smoothness. La smoothness è definita tramite una funzione S(μ)
|
|
|
|
|
chiamata funzione di regolarizzazione. Bisogna cioè massimizzare la
|
|
|
|
|
funzione:
|
|
|
|
|
|
|
|
|
|
f(μ) = αL(μ) + S(μ)
|
|
|
|
|
|
2020-07-05 17:51:15 +02:00
|
|
|
|
Per cominciare si fissa α in base al ΔL scelto, considerando che:
|
2020-05-31 16:02:52 +02:00
|
|
|
|
- per α = 0 si ottiene la soluzione più smooth che però ignora i dati;
|
|
|
|
|
- per α → ∞ la soluzione non è smooth, perché massimizzare f(μ) equivale
|
|
|
|
|
semplicemente a scegliere L(μ) = Lmax.
|
|
|
|
|
Poi si massimizza per μ, imponendo anche il constraint:
|
|
|
|
|
|
|
|
|
|
Σi νi = Σij Rij μj = Ntot
|
|
|
|
|
|
2020-07-05 17:51:15 +02:00
|
|
|
|
E quindi ci ri riduce al metodo dei moltiplicatori di Lagrange, ovvero si
|
2020-05-31 16:02:52 +02:00
|
|
|
|
deve massimizzare:
|
|
|
|
|
|
|
|
|
|
f(μ) = αL(μ) + S(μ) + λ[Ntot - Σij Rij μj]
|
|
|
|
|
|
|
|
|
|
Esistono poi diversi metodi per scegliere α e S(μ).
|
|
|
|
|
|
|
|
|
|
- `Regolarizzazione di Tikhonov`:
|
|
|
|
|
Si prende come S(h) l'opposto della rms della derivata k-esima della
|
|
|
|
|
'funzione' μ, dove il segno meno è messo perché così, più la derivata
|
|
|
|
|
tende a 0, più la funzione è liscia. Chiaramente, trattandosi di dati
|
|
|
|
|
discreti, si fa la derivata numerica tra bin consecutivi.
|
|
|
|
|
|
2020-07-05 17:51:15 +02:00
|
|
|
|
- `Regolarizzazione con il Max Ent`:
|
2020-05-31 16:02:52 +02:00
|
|
|
|
Si usa la definizione di entropia per un set di probabilità pi:
|
|
|
|
|
|
|
|
|
|
H = - Σi pi ln(pi)
|
|
|
|
|
|
|
|
|
|
e l'entropia è massima se tutte le probabilità sono uguali ed è minima
|
|
|
|
|
se una è unitaria e le altre sono tutte zero. L'idea è di usare H come
|
|
|
|
|
funzione di regolarizzazione, dove:
|
|
|
|
|
|
|
|
|
|
pi = μi/Ntot
|
|
|
|
|
|
2020-07-05 17:51:15 +02:00
|
|
|
|
Per quanto riguarda la scelta di α, essa rappresenta un compromesso tra
|
|
|
|
|
bias (L(μ)) e varianza (S(μ)). in genere lo si sceglie minimizzando la
|
|
|
|
|
matrice di covarianza, cioè il χ².
|
2020-05-31 16:02:52 +02:00
|
|
|
|
|
|
|
|
|
@10 ---------------------------------------------------------------------------
|
|
|
|
|
|
|
|
|
|
# Catena di acquisizione
|
|
|
|
|
|
|
|
|
|
La grandezza da misurare viene convertita in segnale elettronico da un
|
|
|
|
|
trasduttore (per esempio un fotomoltiplicatore che converte l'energia di un
|
|
|
|
|
fotone in tensione); dopodiché il segnale viene digitalizzato da un ADC
|
|
|
|
|
(Analogical to Digital Converter) ed elaborato (per esempio con filtri e
|
|
|
|
|
amplificatori) e infine i dati vengono acquisiti da un'unità di acquisizione
|
|
|
|
|
dati, il DAQ (DAta acQuisition), e memorizzati.
|
|
|
|
|
Un sistema di acquisizione può influenzare i dati stessi se è implementato
|
|
|
|
|
un sistema di feedback nel circuito di amplificazione.
|
|
|
|
|
L'ADC comincia a registrare i dati dopo un segnale di `triggering`, ovvero
|
|
|
|
|
quando una certa soglia è stata superata, indicando che un segnale è stato
|
|
|
|
|
rilevato.
|
|
|
|
|
|
|
|
|
|
In un pc, i dati vengono salvati in formato binario. Mentre per i numeri la
|
|
|
|
|
conversione è immediata, per il linguaggio alfanumerico sono state inventate
|
|
|
|
|
delle `codifiche` come per esempio il codice ASCII o l'UTF8. La tabella unicode
|
2020-07-05 17:51:15 +02:00
|
|
|
|
contiene tutti i codepoint e descrive come eventualmente si fondono.
|
2020-05-31 16:02:52 +02:00
|
|
|
|
|
|
|
|
|
Il `bus` è l'insieme delle linee elettriche che collega vari dispositivi,
|
|
|
|
|
ognuno dei quali è identificato univocamente da un indirizzo. I dispositivi
|
|
|
|
|
possono essere masters o slaves o entrambe le cose. Gli slaves possono solo
|
|
|
|
|
rispondere, mentre i masters possono decidere di mandare cose a chi vogliano.
|
|
|
|
|
|
|
|
|
|
Gli `ADC` possono essere peak-sensing (digitalizzano il valore di picco del
|
|
|
|
|
segnale) o flesh (campionando la forma del segnale). Alcuni parametri
|
|
|
|
|
caratterizzano un ADC:
|
|
|
|
|
|
|
|
|
|
- risoluzione: quantità di bit a disposizione;
|
|
|
|
|
- tempi di conversione: tempo impiegato a digitalizzare un segnale;
|
|
|
|
|
- precisione di conversione (derive termiche, ecc).
|
|
|
|
|
|
|
|
|
|
Il `trigger` determina che il segnale arrivato sia effettivamente segnale e
|
|
|
|
|
non fondo. È possibile che ci siano diversi parametri che devono essere
|
|
|
|
|
soddisfatti affinché il segnale possa essere ritenuto valido e ci vuole del
|
|
|
|
|
tempo per verificarli tutti. Questi diversi trigger sono dunque affiancati da
|
|
|
|
|
dei buffer che immagazzinano momentaneamente la grande quantità di segnali in
|
|
|
|
|
arrivo.
|
|
|
|
|
Ogni processore, infatti, ha un deadtime, cioè un tempo in cui non è in grado
|
|
|
|
|
di cominciare a processare altri segnali perché sta processando l'ultimo
|
|
|
|
|
arrivato. Quindi anche il processore finale, che è il vero collo di bottiglia,
|
|
|
|
|
ha un buffer.
|
|
|
|
|
|
|
|
|
|
-------------------------------------------------------------------------------
|