Compare commits
2 Commits
6bf30632a0
...
b7e1857862
Author | SHA1 | Date | |
---|---|---|---|
b7e1857862 | |||
4d73974190 |
@ -4,9 +4,9 @@
|
|||||||
|
|
||||||
È il rapporto tra la variazione percentuale del risultato e la variazione
|
È il rapporto tra la variazione percentuale del risultato e la variazione
|
||||||
percentuale del dato in ingresso. È un parametro utile per controllare se
|
percentuale del dato in ingresso. È un parametro utile per controllare se
|
||||||
un problema sia mal o ben condizionato.
|
un problema è mal o ben condizionato.
|
||||||
Nel caso di una funzione f, questo parametro si riduce ad essere
|
Nel caso di una funzione f, questo parametro si riduce ad essere:
|
||||||
10.1016/0168-9002(90)91334-8
|
|
||||||
x f'(x) / f(x)
|
x f'(x) / f(x)
|
||||||
|
|
||||||
e il limite per l'incremento dei dati iniziali tendente a zero è detto
|
e il limite per l'incremento dei dati iniziali tendente a zero è detto
|
||||||
@ -36,10 +36,10 @@ da cui si ottiene il `teorema di Bayes`:
|
|||||||
# Correlazione tra variabili
|
# Correlazione tra variabili
|
||||||
|
|
||||||
Si può usare per determinare se una teoria sia valida oppure no dato un certo
|
Si può usare per determinare se una teoria sia valida oppure no dato un certo
|
||||||
campione sperimentale (A è la teoria e B sono i dati). P(A ⋂ B) è la joint pdf.
|
campione sperimentale (A è la teoria e B sono i dati). P(A|B) è la joint pdf.
|
||||||
Le `convoluzioni di Mellin e Fourier` servono per trovare la pdf di una
|
Le `convoluzioni di Mellin e Fourier` servono per trovare la pdf di una
|
||||||
variabile che è rispettivamente il prodotto o la somma di altre due variabili
|
variabile che è rispettivamente il prodotto o la somma di altre due variabili
|
||||||
con pdf nota (dimostrazione cartacea).
|
con pdf nota.
|
||||||
La `covarianza` cov(x, y) è definita come:
|
La `covarianza` cov(x, y) è definita come:
|
||||||
|
|
||||||
cov(x, y) = E[x * y] - (μx * μy) = E[(x - μx)*(y - μy)]
|
cov(x, y) = E[x * y] - (μx * μy) = E[(x - μx)*(y - μy)]
|
||||||
@ -69,29 +69,29 @@ sommano in quadratura su tutta la matrice di covarianza.
|
|||||||
Abbiamo visto diversi tipi:
|
Abbiamo visto diversi tipi:
|
||||||
- Binomiale
|
- Binomiale
|
||||||
/ N \ E[n] = N*p
|
/ N \ E[n] = N*p
|
||||||
P(n, N, p) = | | p^n (1 + p)^(N - n) con
|
P(n, N, p) = | | p^n (1 - p)^(N - n) con
|
||||||
\ n / V[n] = N*p*(p-1)
|
\ n / V[n] = N*p*(1-p)
|
||||||
|
|
||||||
da cui si può poi ricavare la multinomiale.
|
da cui si può poi ricavare la multinomiale.
|
||||||
- Poissoniana
|
- Poissoniana
|
||||||
|
|
||||||
ν^n
|
ν^n E[n] = ν
|
||||||
P(n, ν) = --- e^(-ν) con E[n] = V[n] = ν
|
P(n, ν) = --- e^(-ν) con
|
||||||
n!
|
n! V[n] = ν
|
||||||
|
|
||||||
Si ottiene dal caso precedente per N→∞ e p→0 con N*p = ν.
|
Si ottiene dal caso precedente per N→∞ e p→0 con N*p = ν.
|
||||||
- Uniforme
|
- Uniforme
|
||||||
1 E[x] = (a + b)/2
|
1 E[x] = (a + b)/2
|
||||||
P(x, b, a) = ----- con
|
P(x, a, b) = ----- con
|
||||||
b - a V[x] = (b - a)^2/12
|
b - a V[x] = (b - a)²/12
|
||||||
- Gaussiana
|
- Gaussiana
|
||||||
1 / (x - μ)^2 \ E[x] = μ
|
1 / (x - μ)² \ E[x] = μ
|
||||||
G(x, μ, σ) = -------- e^| - --------- | con
|
G(x, μ, σ) = -------- e^| - -------- | con
|
||||||
√(2 π) σ \ 2 σ^2 / V[x] = σ^2
|
√(2 π) σ \ 2 σ² / V[x] = σ²
|
||||||
|
|
||||||
È il limite delle prime due distribuzioni per N→∞.
|
È il limite delle prime due distribuzioni per N→∞.
|
||||||
|
|
||||||
Il `teorema centrale` del limite dice che se una variabile è la somma di N
|
Il `teorema centrale del limite` dice che se una variabile è la somma di N
|
||||||
variabili indipendenti tutte con la stessa pdf con valore medio μi e devstd σi,
|
variabili indipendenti tutte con la stessa pdf con valore medio μi e devstd σi,
|
||||||
allora tale variabile ha distribuzione Normale con:
|
allora tale variabile ha distribuzione Normale con:
|
||||||
|
|
||||||
@ -108,7 +108,7 @@ kurtosis:
|
|||||||
γ = E | -------- | k = E | -------- | - 3
|
γ = E | -------- | k = E | -------- | - 3
|
||||||
| σ³ | | σ⁴ |
|
| σ³ | | σ⁴ |
|
||||||
|
|
||||||
dove X è la media campionaria e 3 è la kurtosis della Gaussiana.
|
dove X e σ sono la media e la varianza e k = 3 - 3 = 0 per la Gaussiana.
|
||||||
|
|
||||||
# Test di ipotesi
|
# Test di ipotesi
|
||||||
|
|
||||||
@ -128,7 +128,7 @@ Noi abbiamo sempre controllato solo qual è la pdf della statistica di test nel
|
|||||||
caso in cui l'ipotesi nulla sia vera e abbiamo posto il livello di confidenza
|
caso in cui l'ipotesi nulla sia vera e abbiamo posto il livello di confidenza
|
||||||
al 95%, ovvero α = 5%.
|
al 95%, ovvero α = 5%.
|
||||||
La potenza è detta anche purezza perché è la probabilità di scambiare "rumore
|
La potenza è detta anche purezza perché è la probabilità di scambiare "rumore
|
||||||
per segnale", mentre l'intervallo di confidenza si dice anche efficienza perché
|
per rumore", mentre l'intervallo di confidenza si dice anche efficienza perché
|
||||||
è la probabilità di scambiare "il segnale per segnale".
|
è la probabilità di scambiare "il segnale per segnale".
|
||||||
|
|
||||||
Il `lemma di Neyemann Pearson` dice che la statistica di test che massimizza la
|
Il `lemma di Neyemann Pearson` dice che la statistica di test che massimizza la
|
||||||
@ -176,29 +176,29 @@ non vuol dire che sia significativo.
|
|||||||
|
|
||||||
@4 ----------------------------------------------------------------------------
|
@4 ----------------------------------------------------------------------------
|
||||||
|
|
||||||
# Stima di parametri
|
# Stima di parametri (1)
|
||||||
|
|
||||||
Consideriamo una variabile casuale x che segue la pdf f(x), la quale ha dei
|
Consideriamo una variabile casuale x che segue la pdf f(x), la quale ha dei
|
||||||
parametri Θ. Se io faccio una misura y di questi, allora otterrò uno stimatore
|
parametri Θ. Se io faccio una misura y di questi, allora otterrò uno stimatore
|
||||||
⊇(y) dei parametri Θ. Anche questo stimatore avrà una sua pdf che dipende dal
|
⊇(y) dei parametri Θ. Anche questo stimatore avrà una sua pdf che dipende dal
|
||||||
valore vero. Uno stimatore deve soddisfare alcuni requisiti:
|
valore vero. Uno stimatore deve soddisfare alcuni requisiti:
|
||||||
|
|
||||||
- consistenza: per N→∞, ⊇→Θ;
|
- consistenza: per N→∞, ⊇→Θ (convergenza in senso statistico);
|
||||||
- unbias: E[⊇] = Θ
|
- unbias: E[⊇] = Θ
|
||||||
Ovvero: ripetendo tante volte l'esperimento, il valore medio della
|
Ovvero: ripetendo tante volte l'esperimento, il valore medio della
|
||||||
distribuzione deve essere il valore vero;
|
distribuzione deve essere il valore vero;
|
||||||
- deve avere una piccola varianza.
|
- deve avere una piccola varianza.
|
||||||
|
|
||||||
Per esempio, la media campionaria è uno stimatore della media e la sua varianza
|
Per esempio, la media campionaria è uno stimatore consistente e unbiased della
|
||||||
è σ²/N, nel senso che se si ripetesse lo stesso esperimento tante volte e si
|
media e la sua varianza è σ²/N, nel senso che se si ripetesse lo stesso
|
||||||
guardasse la distribuzione delle medie così ottenute, otterremmo che queste
|
esperimento tante volte e si guardasse la distribuzione delle medie così
|
||||||
medie seguono una pdf con questa varianza. Affinché lo stimatore della varianza
|
ottenute, otterremmo che queste medie seguono una pdf con questa varianza.
|
||||||
sia unbiasato, si deve introdurre la correzione di Bessel.
|
Affinché lo stimatore della varianza sia unbiased, si deve introdurre la
|
||||||
|
correzione di Bessel.
|
||||||
|
|
||||||
Un metodo che si può utilizzare è la maximum Likelihood. Se lo si applica al
|
Un metodo che si può utilizzare è la maximum Likelihood. Se lo si applica al
|
||||||
caso di una gaussiana, si trova che gli stimatori della media e della varianza
|
caso di una gaussiana, si trova che gli stimatori della media e della varianza
|
||||||
sono la media e la varianza campionarie. Quest'ultima va però corretta con la
|
sono la media e la varianza campionarie.
|
||||||
correzione di Bessel.
|
|
||||||
|
|
||||||
La disuguaglianza di `Cramer-Rao` (detto anche bound RCF) afferma che la matrice
|
La disuguaglianza di `Cramer-Rao` (detto anche bound RCF) afferma che la matrice
|
||||||
di covarianza è >= all'inverso della matrice Hessiana di -L calcolata nel
|
di covarianza è >= all'inverso della matrice Hessiana di -L calcolata nel
|
||||||
@ -207,14 +207,6 @@ minimo.
|
|||||||
Uno `stimatore robusto` è poco sensibile ai valori nelle code della
|
Uno `stimatore robusto` è poco sensibile ai valori nelle code della
|
||||||
distribuzione. È buono che gli stimatori siano robusti. Un esempio è la media
|
distribuzione. È buono che gli stimatori siano robusti. Un esempio è la media
|
||||||
trimmata, in cui nel calcolo si escludono i punti più esterni.
|
trimmata, in cui nel calcolo si escludono i punti più esterni.
|
||||||
Quando si sta lavorando con una gaussiana contaminata, ovvero che è la somma
|
|
||||||
di due gaussiane in cui la seconda è, per esempio, il rumore, ed ha una
|
|
||||||
varianza maggiore, allora anziché usare la varianza campionaria standard,
|
|
||||||
è meglio usare d_n:
|
|
||||||
|
|
||||||
1
|
|
||||||
d_n = - Σi |xi - X|
|
|
||||||
N
|
|
||||||
|
|
||||||
L'`extended maximum Likelihood` si usa quando non ho deciso io il numero di
|
L'`extended maximum Likelihood` si usa quando non ho deciso io il numero di
|
||||||
dati ma è esso stesso una misura sperimentale (come nel caso dei decadimenti):
|
dati ma è esso stesso una misura sperimentale (come nel caso dei decadimenti):
|
||||||
@ -224,7 +216,7 @@ di ottenere degli stimatori con minore varianza.
|
|||||||
|
|
||||||
@5 ----------------------------------------------------------------------------
|
@5 ----------------------------------------------------------------------------
|
||||||
|
|
||||||
# Stima di parametri
|
# Stima di parametri (2)
|
||||||
|
|
||||||
Il χ² è il metodo della Maximum Likelihood nel caso in cui:
|
Il χ² è il metodo della Maximum Likelihood nel caso in cui:
|
||||||
|
|
||||||
@ -244,9 +236,10 @@ Di solito si guarda poi il `χ² ridotto` e il fit è buono se è prossimo a uno
|
|||||||
IMPORTANTE:
|
IMPORTANTE:
|
||||||
Il metodo della Likelihood e quello dei momenti si usano quando si hanno punti
|
Il metodo della Likelihood e quello dei momenti si usano quando si hanno punti
|
||||||
distribuiti secondo una pdf e si vogliono stimare i parametri della pdf. NON
|
distribuiti secondo una pdf e si vogliono stimare i parametri della pdf. NON
|
||||||
si hanno delle y(x). Il metodo del χ², invece, si usa per trovare la funzione
|
se si hanno delle y(x). Il metodo del χ², invece, si usa per trovare la
|
||||||
che lega le y alle x. Se lo si vuole usare con dei dati ottenuti da una pdf,
|
funzione che lega le y alle x (che poi abbiamo visto equivalere alla ML). Se
|
||||||
allora bisogna binnarli in modo tale da ottenere le y.
|
lo si vuole usare con dei dati ottenuti da una pdf, allora bisogna binnarli
|
||||||
|
in modo tale da ottenere le y.
|
||||||
|
|
||||||
Quando ci sono dei problemi nella minimizzazione del χ², si può provare ad
|
Quando ci sono dei problemi nella minimizzazione del χ², si può provare ad
|
||||||
usare il `metodo dei momenti`, anche se generalmente dà risultati con maggiore
|
usare il `metodo dei momenti`, anche se generalmente dà risultati con maggiore
|
||||||
@ -263,6 +256,16 @@ trovano col χ² sono infatti quelli con la varianza minima).
|
|||||||
|
|
||||||
L'errore è dato dalla propagazione degli errori (che è il solito U = AVA^T).
|
L'errore è dato dalla propagazione degli errori (che è il solito U = AVA^T).
|
||||||
|
|
||||||
|
Il `teorema di Wilks` asserisce che la grandezza:
|
||||||
|
|
||||||
|
/ L(μ) \
|
||||||
|
t = - 2 * ln | ---------- |
|
||||||
|
\ L(μ_true)/
|
||||||
|
|
||||||
|
è distribuita come un χ². È facile dimostrarlo supponendo che i dati siano
|
||||||
|
attribuiti attorno ai relativi valori veri come Gaussiane centrate nei valori
|
||||||
|
veri con devstd data da quella campionaria.
|
||||||
|
|
||||||
@6 ----------------------------------------------------------------------------
|
@6 ----------------------------------------------------------------------------
|
||||||
|
|
||||||
# Intervalli di confidenza
|
# Intervalli di confidenza
|
||||||
@ -277,12 +280,11 @@ Dire che:
|
|||||||
|
|
||||||
x = x₀ ± δx CL = 68%
|
x = x₀ ± δx CL = 68%
|
||||||
|
|
||||||
significa che ripetendo N volte l'esperimento, il 68% delle volte si otterrà
|
significa che ripetendo N volte l'esperimento, il 68% delle volte il valore
|
||||||
che x₀ appartiene a quell'intervallo (non che il valore vero ha il 68% di
|
vero sarà dentro l'intervallo (non che il valore vero ha il 68% di probabilità
|
||||||
probabilità di essere in quell'intervallo, che non ha alcun senso...).
|
di essere in quell'intervallo, che non ha alcun senso...). Quando si vuole
|
||||||
Quando si vuole stimare la media di una distribuzione, per il CLT questa segue
|
stimare la media di una distribuzione, per il CLT questa segue una distribuzione
|
||||||
una distribuzione gaussiana per N→∞ e quindi gli intervalli di confidenza sono
|
gaussiana per N→∞ e quindi gli intervalli di confidenza sono noti, date le σ.
|
||||||
noti, date le σ.
|
|
||||||
|
|
||||||
La `quantile` di 0.5 è la mediana. Il che significa che la quantile è l'inversa
|
La `quantile` di 0.5 è la mediana. Il che significa che la quantile è l'inversa
|
||||||
della cumulativa.
|
della cumulativa.
|
||||||
@ -291,8 +293,6 @@ un intervallo di confidenza pari a 1 - α - β. Dovrò trovare gli estremi a e b
|
|||||||
che corrispondono a tali valori e per farlo dovrò utilizzare la quantile
|
che corrispondono a tali valori e per farlo dovrò utilizzare la quantile
|
||||||
dell'area che mi serve.
|
dell'area che mi serve.
|
||||||
|
|
||||||
PARTE CHE NON SI CAPISCE UN TUBO
|
|
||||||
|
|
||||||
@7 ----------------------------------------------------------------------------
|
@7 ----------------------------------------------------------------------------
|
||||||
|
|
||||||
# Minimizzazione
|
# Minimizzazione
|
||||||
@ -302,15 +302,23 @@ la sua derivata prima sia nulla.
|
|||||||
Non esiste un metodo che con certezza identifichi il `minimo globale` di una
|
Non esiste un metodo che con certezza identifichi il `minimo globale` di una
|
||||||
funzione.
|
funzione.
|
||||||
|
|
||||||
Data la precisione finita dei floating point, non si può cercare un minimo
|
Data la precisione finita dei floating point, non si può trovare esattamente il
|
||||||
annullando la derivata prima. Al più si può porre un valore di tolleranza.
|
minimo: si troverà f(x) = f(x_min) + 1/2 d²f/dx² |x - x_min|. Si può porre un
|
||||||
|
valore di tolleranza per cui:
|
||||||
|
|
||||||
|
f(x) ~ f(x_min) se f(x_min) >> 1/2 d²f/dx² |x - x_min|²
|
||||||
|
|
||||||
|
1/2 d²f/dx² |x - x_min|² / 2 ε f(x_min) \
|
||||||
|
→ ε >> ------------------------ → |x - x_min| << | -------------- |^(1/2)
|
||||||
|
f(x_min) \ d²f/dx² /
|
||||||
|
|
||||||
Vediamo un po' di metodi.
|
Vediamo un po' di metodi.
|
||||||
|
|
||||||
- `Metodo di bisezione`:
|
- `Metodo di bisezione`:
|
||||||
Si può usare quando gli estremi sono a > 0 > b e la funzione è monotona. Si
|
Per trovare la radice di una funzione. Si può usare quando gli estremi sono
|
||||||
divide a metà e si guarda se è positivo o negativo e poi si aggiornano gli
|
f(a) > 0 > f(b) e la funzione è monotona. Si divide a metà e si guarda se è
|
||||||
estremi in modo da tenere i due vicini a segni opposti.
|
positivo o negativo e poi si aggiornano gli estremi in modo da tenere i due
|
||||||
|
vicini a segni opposti.
|
||||||
|
|
||||||
- Metodo analogo:
|
- Metodo analogo:
|
||||||
Se invece la funzione è di forma pseudoparabolica con estremi a e b, allora
|
Se invece la funzione è di forma pseudoparabolica con estremi a e b, allora
|
||||||
@ -451,9 +459,12 @@ Esistono diverse tecniche di deconvoluzione dei dati.
|
|||||||
μj = (νi - βi) Rij^-1 ~ (ni - βi) Rij^-1
|
μj = (νi - βi) Rij^-1 ~ (ni - βi) Rij^-1
|
||||||
|
|
||||||
Massimizzando la Likelihood, si ottengono stimatori unbias e con varianza
|
Massimizzando la Likelihood, si ottengono stimatori unbias e con varianza
|
||||||
minima n_i = ν_i. Se si fa così, però, non assomigliano affatto a quelli
|
minima n_i = ν_i. Se si fa così, però, siccome il problema dell'unfolding
|
||||||
corretti. Si deve accettare di minimizzare la varianza: `procedura di
|
è mal posto, si ottiene che se i dati veri sono lievemente diversi da
|
||||||
unfolding generalizzata`.
|
quelli misurati, il risultato sarà molto diverso da quello ottenuto.
|
||||||
|
Ciò si traduce nell'ottenere una varianza enorme sui valori μi. Si deve
|
||||||
|
accettare di aumentare il bias per poter minimizzare la varianza:
|
||||||
|
`procedura di unfolding generalizzata`.
|
||||||
|
|
||||||
- `Metodo dei fattori di correzione`:
|
- `Metodo dei fattori di correzione`:
|
||||||
I valori veri vengono stimati come:
|
I valori veri vengono stimati come:
|
||||||
@ -472,10 +483,11 @@ Esistono diverse tecniche di deconvoluzione dei dati.
|
|||||||
Questo metodo funziona bene se non c'è molta migrazione tra bin e bin: è
|
Questo metodo funziona bene se non c'è molta migrazione tra bin e bin: è
|
||||||
valido per dare una prima idea.
|
valido per dare una prima idea.
|
||||||
|
|
||||||
- `Unfolding generalizzato`:
|
- `Unfolding regolarizzato`:
|
||||||
In questo caso si cerca sempre uno stimatore bias con varianza maggiore ma
|
In questo caso si cerca sempre uno stimatore bias con varianza maggiore ma
|
||||||
si cerca di ottenere una soluzione più liscia: lo si fa ponendo un limite Δ
|
si cerca di ottenere una soluzione più liscia: lo si fa ponendo un limite Δ
|
||||||
alla differenza tra L_max e L(μ) usato:
|
alla differenza tra le likelihood L_max e L(μ) usata (per non allontanarsi
|
||||||
|
troppo dalla soluzione ottimale):
|
||||||
|
|
||||||
L(μ) >= Lmax - ΔL
|
L(μ) >= Lmax - ΔL
|
||||||
|
|
||||||
@ -487,7 +499,7 @@ Esistono diverse tecniche di deconvoluzione dei dati.
|
|||||||
|
|
||||||
f(μ) = αL(μ) + S(μ)
|
f(μ) = αL(μ) + S(μ)
|
||||||
|
|
||||||
Per cominciare si fissa α, considerando che:
|
Per cominciare si fissa α in base al ΔL scelto, considerando che:
|
||||||
- per α = 0 si ottiene la soluzione più smooth che però ignora i dati;
|
- per α = 0 si ottiene la soluzione più smooth che però ignora i dati;
|
||||||
- per α → ∞ la soluzione non è smooth, perché massimizzare f(μ) equivale
|
- per α → ∞ la soluzione non è smooth, perché massimizzare f(μ) equivale
|
||||||
semplicemente a scegliere L(μ) = Lmax.
|
semplicemente a scegliere L(μ) = Lmax.
|
||||||
@ -495,7 +507,7 @@ Esistono diverse tecniche di deconvoluzione dei dati.
|
|||||||
|
|
||||||
Σi νi = Σij Rij μj = Ntot
|
Σi νi = Σij Rij μj = Ntot
|
||||||
|
|
||||||
E quindi ci ri riduce al metodo dei moltiplicatori di Laplace, ovvero si
|
E quindi ci ri riduce al metodo dei moltiplicatori di Lagrange, ovvero si
|
||||||
deve massimizzare:
|
deve massimizzare:
|
||||||
|
|
||||||
f(μ) = αL(μ) + S(μ) + λ[Ntot - Σij Rij μj]
|
f(μ) = αL(μ) + S(μ) + λ[Ntot - Σij Rij μj]
|
||||||
@ -508,7 +520,7 @@ Esistono diverse tecniche di deconvoluzione dei dati.
|
|||||||
tende a 0, più la funzione è liscia. Chiaramente, trattandosi di dati
|
tende a 0, più la funzione è liscia. Chiaramente, trattandosi di dati
|
||||||
discreti, si fa la derivata numerica tra bin consecutivi.
|
discreti, si fa la derivata numerica tra bin consecutivi.
|
||||||
|
|
||||||
- `Regolarizzazione col Max Ent`:
|
- `Regolarizzazione con il Max Ent`:
|
||||||
Si usa la definizione di entropia per un set di probabilità pi:
|
Si usa la definizione di entropia per un set di probabilità pi:
|
||||||
|
|
||||||
H = - Σi pi ln(pi)
|
H = - Σi pi ln(pi)
|
||||||
@ -519,8 +531,9 @@ Esistono diverse tecniche di deconvoluzione dei dati.
|
|||||||
|
|
||||||
pi = μi/Ntot
|
pi = μi/Ntot
|
||||||
|
|
||||||
Per quanto riguarda la scelta di α, in genere lo si sceglie minimizzando
|
Per quanto riguarda la scelta di α, essa rappresenta un compromesso tra
|
||||||
la matrice di covarianza, cioè il χ².
|
bias (L(μ)) e varianza (S(μ)). in genere lo si sceglie minimizzando la
|
||||||
|
matrice di covarianza, cioè il χ².
|
||||||
|
|
||||||
@10 ---------------------------------------------------------------------------
|
@10 ---------------------------------------------------------------------------
|
||||||
|
|
||||||
@ -541,7 +554,7 @@ rilevato.
|
|||||||
In un pc, i dati vengono salvati in formato binario. Mentre per i numeri la
|
In un pc, i dati vengono salvati in formato binario. Mentre per i numeri la
|
||||||
conversione è immediata, per il linguaggio alfanumerico sono state inventate
|
conversione è immediata, per il linguaggio alfanumerico sono state inventate
|
||||||
delle `codifiche` come per esempio il codice ASCII o l'UTF8. La tabella unicode
|
delle `codifiche` come per esempio il codice ASCII o l'UTF8. La tabella unicode
|
||||||
contiene tutti codepoint e descrive come eventualmente si fondono.
|
contiene tutti i codepoint e descrive come eventualmente si fondono.
|
||||||
|
|
||||||
Il `bus` è l'insieme delle linee elettriche che collega vari dispositivi,
|
Il `bus` è l'insieme delle linee elettriche che collega vari dispositivi,
|
||||||
ognuno dei quali è identificato univocamente da un indirizzo. I dispositivi
|
ognuno dei quali è identificato univocamente da un indirizzo. I dispositivi
|
||||||
|
@ -149,11 +149,12 @@ To obtain a better estimate of the mode and its error, the above procedure was
|
|||||||
bootstrapped. The original sample was treated as a population and used to build
|
bootstrapped. The original sample was treated as a population and used to build
|
||||||
100 other samples of the same size, by *sampling with replacements*. For each one
|
100 other samples of the same size, by *sampling with replacements*. For each one
|
||||||
of the new samples, the above statistic was computed. By simply taking the
|
of the new samples, the above statistic was computed. By simply taking the
|
||||||
mean of these statistics the following estimate was obtained:
|
mean and standard deviation of these statistics the following estimate was
|
||||||
|
obtained:
|
||||||
$$
|
$$
|
||||||
\text{observed mode: } m_o = \num{-0.29 \pm 0.19}
|
\text{observed mode: } m_o = \num{-0.29 \pm 0.19}
|
||||||
$$
|
$$
|
||||||
In order to compare the values $m_e$ and $m_0$, the following compatibility
|
In order to compare the values $m_e$ and $m_o$, the following compatibility
|
||||||
$t$-test was applied:
|
$t$-test was applied:
|
||||||
$$
|
$$
|
||||||
p = 1 - \text{erf}\left(\frac{t}{\sqrt{2}}\right)\ \with
|
p = 1 - \text{erf}\left(\frac{t}{\sqrt{2}}\right)\ \with
|
||||||
@ -184,7 +185,7 @@ middle elements otherwise.
|
|||||||
|
|
||||||
The expected median was derived from the quantile function (QDF) of the Landau
|
The expected median was derived from the quantile function (QDF) of the Landau
|
||||||
distribution[^1].
|
distribution[^1].
|
||||||
Once this is know, the median is simply given by $\text{QDF}(1/2)$. Since both
|
Once this is known, the median is simply given by $\text{QDF}(1/2)$. Since both
|
||||||
the CDF and QDF have no known closed form, they must be computed numerically.
|
the CDF and QDF have no known closed form, they must be computed numerically.
|
||||||
The cumulative probability was computed by quadrature-based numerical
|
The cumulative probability was computed by quadrature-based numerical
|
||||||
integration of the PDF (`gsl_integration_qagiu()` function in GSL). The function
|
integration of the PDF (`gsl_integration_qagiu()` function in GSL). The function
|
||||||
@ -210,13 +211,13 @@ where the absolute and relative tolerances $\varepsilon_\text{abs}$ and
|
|||||||
$\varepsilon_\text{rel}$ were set to \num{1e-10} and \num{1e-6},
|
$\varepsilon_\text{rel}$ were set to \num{1e-10} and \num{1e-6},
|
||||||
respectively.
|
respectively.
|
||||||
As for the QDF, this was implemented by numerically inverting the CDF. This was
|
As for the QDF, this was implemented by numerically inverting the CDF. This was
|
||||||
done by solving the equation;
|
done by solving the equation for x:
|
||||||
$$
|
$$
|
||||||
p(x) = p_0
|
p(x) = p_0
|
||||||
$$
|
$$
|
||||||
for x, given a probability value $p_0$, where $p(x)$ is the CDF. The (unique)
|
given a probability value $p_0$, where $p(x)$ is the CDF. The (unique) root of
|
||||||
root of this equation was found by a root-finding routine
|
this equation was found by a root-finding routine (`gsl_root_fsolver_brent` in
|
||||||
(`gsl_root_fsolver_brent` in GSL) based on the Brent-Dekker method.
|
GSL) based on the Brent-Dekker method.
|
||||||
The following condition was checked for convergence:
|
The following condition was checked for convergence:
|
||||||
$$
|
$$
|
||||||
|a - b| < \varepsilon_\text{abs} + \varepsilon_\text{rel} \min(|a|, |b|)
|
|a - b| < \varepsilon_\text{abs} + \varepsilon_\text{rel} \min(|a|, |b|)
|
||||||
|
@ -10,7 +10,7 @@ $$
|
|||||||
\sum_{k=1}^{n} \frac{1}{k}
|
\sum_{k=1}^{n} \frac{1}{k}
|
||||||
- \ln(n) \right)
|
- \ln(n) \right)
|
||||||
$$ {#eq:gamma}
|
$$ {#eq:gamma}
|
||||||
and represents the limiting blue area in @fig:gamma. The first 30 digits of
|
and represents the limiting red area in @fig:gamma. The first 30 digits of
|
||||||
$\gamma$ are:
|
$\gamma$ are:
|
||||||
$$
|
$$
|
||||||
\gamma = 0.57721\ 56649\ 01532\ 86060\ 65120\ 90082 \dots
|
\gamma = 0.57721\ 56649\ 01532\ 86060\ 65120\ 90082 \dots
|
||||||
@ -52,7 +52,7 @@ efficiency of the methods lies on how quickly they converge to their limit.
|
|||||||
\draw (7.0,-0.05) -- (7.0,0.05); \node [below, scale=0.7] at (7.0,-0.05) {7};
|
\draw (7.0,-0.05) -- (7.0,0.05); \node [below, scale=0.7] at (7.0,-0.05) {7};
|
||||||
\end{tikzpicture}
|
\end{tikzpicture}
|
||||||
\caption{The area of the red region converges to the Euler–Mascheroni
|
\caption{The area of the red region converges to the Euler–Mascheroni
|
||||||
constant..}\label{fig:gamma}
|
constant.}\label{fig:gamma}
|
||||||
}
|
}
|
||||||
\end{figure}
|
\end{figure}
|
||||||
|
|
||||||
@ -109,10 +109,8 @@ sign, 8 for the exponent and 55 for the mantissa, hence:
|
|||||||
$$
|
$$
|
||||||
2^{55} = 10^{d} \thus d = 55 \cdot \log(2) \sim 16.6
|
2^{55} = 10^{d} \thus d = 55 \cdot \log(2) \sim 16.6
|
||||||
$$
|
$$
|
||||||
Only 10 digits were correctly computed: this means that when the terms of the
|
But only 10 digits were correctly computed. The best result is shown in
|
||||||
series start being smaller than the smallest representable double, the sum of
|
@tbl:naive-res.
|
||||||
all the remaining terms gives a number $\propto 10^{-11}$. The best result is
|
|
||||||
shown in @tbl:naive-res.
|
|
||||||
|
|
||||||
------- --------------------
|
------- --------------------
|
||||||
exact 0.57721 56649 01533
|
exact 0.57721 56649 01533
|
||||||
|
@ -13,7 +13,7 @@ distribution function $F$:
|
|||||||
\end{align*}
|
\end{align*}
|
||||||
where $\theta$ and $\phi$ are, respectively, the polar and azimuthal angles, and
|
where $\theta$ and $\phi$ are, respectively, the polar and azimuthal angles, and
|
||||||
$$
|
$$
|
||||||
\alpha_0 = 0.65 \et \beta_0 = 0.06 \et \gamma_0 = -0.18
|
\alpha = 0.65 \et \beta = 0.06 \et \gamma = -0.18
|
||||||
$$
|
$$
|
||||||
To generate the points, a *hit-miss* method was employed:
|
To generate the points, a *hit-miss* method was employed:
|
||||||
|
|
||||||
|
@ -49,9 +49,9 @@ approximate $I$ as:
|
|||||||
$$
|
$$
|
||||||
I \approx I_N = \frac{V}{N} \sum_{i=1}^N f(x_i) = V \cdot \avg{f}
|
I \approx I_N = \frac{V}{N} \sum_{i=1}^N f(x_i) = V \cdot \avg{f}
|
||||||
$$
|
$$
|
||||||
If $x_i$ are uniformly distributed $I_N \rightarrow I$ for $N \rightarrow +
|
If $x_i$ are uniformly distributed, $I_N \rightarrow I$ for $N \rightarrow +
|
||||||
\infty$ by the law of large numbers, whereas the integral variance can be
|
\infty$ by the law of large numbers, whereas the integral variance $\sigma^2_I$
|
||||||
estimated as:
|
can be estimated as:
|
||||||
$$
|
$$
|
||||||
\sigma^2_f = \frac{1}{N - 1}
|
\sigma^2_f = \frac{1}{N - 1}
|
||||||
\sum_{i = 1}^N \left( f(x_i) - \avg{f} \right)^2
|
\sum_{i = 1}^N \left( f(x_i) - \avg{f} \right)^2
|
||||||
|
@ -123,7 +123,7 @@ where:
|
|||||||
- $(\cdot, \cdot)$ is an inner product.
|
- $(\cdot, \cdot)$ is an inner product.
|
||||||
|
|
||||||
Given a signal $s$ of $n$ elements and a kernel $k$ of $m$ elements,
|
Given a signal $s$ of $n$ elements and a kernel $k$ of $m$ elements,
|
||||||
their convolution is a vector of $n + m + 1$ elements computed
|
their convolution $c$ is a vector of $n + m + 1$ elements computed
|
||||||
by flipping $s$ ($R$ operator) and shifting its indices ($T_i$ operator):
|
by flipping $s$ ($R$ operator) and shifting its indices ($T_i$ operator):
|
||||||
$$
|
$$
|
||||||
c_i = (s, T_i \, R \, k)
|
c_i = (s, T_i \, R \, k)
|
||||||
@ -446,8 +446,8 @@ close as possible. Formally, the following constraints must be satisfied:
|
|||||||
&\text{3.} \hspace{20pt} \sum_{i = 1}^m f_{ij} \le w_{qj}
|
&\text{3.} \hspace{20pt} \sum_{i = 1}^m f_{ij} \le w_{qj}
|
||||||
&1 \le j \le n
|
&1 \le j \le n
|
||||||
\\
|
\\
|
||||||
&\text{4.} \hspace{20pt} \sum_{j = 1}^n f_{ij} \sum_{j = 1}^m f_{ij} \le w_{qj}
|
&\text{4.} \hspace{20pt} \sum_{j = 1}^n \sum_{j = 1}^m f_{ij} \le
|
||||||
= \text{min} \left( \sum_{i = 1}^m w_{pi}, \sum_{j = 1}^n w_{qj} \right)
|
\text{min} \left( \sum_{i = 1}^m w_{pi}, \sum_{j = 1}^n w_{qj} \right)
|
||||||
\end{align*}
|
\end{align*}
|
||||||
The first constraint allows moving dirt from $P$ to $Q$ and not vice versa; the
|
The first constraint allows moving dirt from $P$ to $Q$ and not vice versa; the
|
||||||
second limits the amount of dirt moved by each position in $P$ in order to not
|
second limits the amount of dirt moved by each position in $P$ in order to not
|
||||||
@ -549,9 +549,9 @@ a large kernel, the convergence is very slow, even if the best results are
|
|||||||
close to the one found for $\sigma = 0.5$.
|
close to the one found for $\sigma = 0.5$.
|
||||||
The following $r$s were chosen as the most fitting:
|
The following $r$s were chosen as the most fitting:
|
||||||
\begin{align*}
|
\begin{align*}
|
||||||
\sigma = 0.1 \, \Delta \theta &\thus n^{\text{best}} = 2 \\
|
\sigma = 0.1 \, \Delta \theta &\thus r^{\text{best}} = 2 \\
|
||||||
\sigma = 0.5 \, \Delta \theta &\thus n^{\text{best}} = 10 \\
|
\sigma = 0.5 \, \Delta \theta &\thus r^{\text{best}} = 10 \\
|
||||||
\sigma = 1 \, \Delta \theta &\thus n^{\text{best}} = \num{5e3}
|
\sigma = 1 \, \Delta \theta &\thus r^{\text{best}} = \num{5e3}
|
||||||
\end{align*}
|
\end{align*}
|
||||||
|
|
||||||
Note the difference between @fig:rless-0.1 and the plots resulting from $\sigma =
|
Note the difference between @fig:rless-0.1 and the plots resulting from $\sigma =
|
||||||
|
@ -86,8 +86,8 @@ $$
|
|||||||
\tilde{\mu}_2 − \tilde{\mu}_1 = w^T (\mu_2 − \mu_1)
|
\tilde{\mu}_2 − \tilde{\mu}_1 = w^T (\mu_2 − \mu_1)
|
||||||
$$
|
$$
|
||||||
This expression can be made arbitrarily large simply by increasing the
|
This expression can be made arbitrarily large simply by increasing the
|
||||||
magnitude of $w$, fortunately the problem is easily solved by requiring $w$
|
magnitude of $w$ but, fortunately, the problem is easily solved by requiring
|
||||||
to be normalised: $| w^2 | = 1$. Using a Lagrange multiplier to perform the
|
$w$ to be normalised: $| w^2 | = 1$. Using a Lagrange multiplier to perform the
|
||||||
constrained maximization, it can be found that $w \propto (\mu_2 − \mu_1)$,
|
constrained maximization, it can be found that $w \propto (\mu_2 − \mu_1)$,
|
||||||
meaning that the line onto the points must be projected is the one joining the
|
meaning that the line onto the points must be projected is the one joining the
|
||||||
class means.
|
class means.
|
||||||
@ -334,21 +334,21 @@ To see how it works, consider the four possible situations:
|
|||||||
\quad f(x) = 0 \quad \Longrightarrow \quad \Delta = 0$
|
\quad f(x) = 0 \quad \Longrightarrow \quad \Delta = 0$
|
||||||
the current estimations work properly: $b$ and $w$ do not need to be updated;
|
the current estimations work properly: $b$ and $w$ do not need to be updated;
|
||||||
- $e = 1 \quad \wedge \quad f(x) = 0 \quad \Longrightarrow \quad
|
- $e = 1 \quad \wedge \quad f(x) = 0 \quad \Longrightarrow \quad
|
||||||
\Delta = 1$
|
\Delta \propto 1$
|
||||||
the current $b$ and $w$ underestimate the correct output: they must be
|
the current $b$ and $w$ underestimate the correct output: they must be
|
||||||
increased;
|
increased;
|
||||||
- $e = 0 \quad \wedge \quad f(x) = 1 \quad \Longrightarrow \quad
|
- $e = 0 \quad \wedge \quad f(x) = 1 \quad \Longrightarrow \quad
|
||||||
\Delta = -1$
|
\Delta \propto -1$
|
||||||
the current $b$ and $w$ overestimate the correct output: they must be
|
the current $b$ and $w$ overestimate the correct output: they must be
|
||||||
decreased.
|
decreased.
|
||||||
|
|
||||||
Whilst the $b$ updating is obvious, as regards $w$ the following consideration
|
Whilst the $b$ updating is obvious, as regards $w$ the following consideration
|
||||||
may help clarify. Consider the case with $e = 0 \quad \wedge \quad f(x) = 1
|
may help clarify. Consider the case with $e = 0 \quad \wedge \quad f(x) = 1
|
||||||
\quad \Longrightarrow \quad \Delta = -1$:
|
\quad \Longrightarrow \quad \Delta = -r$:
|
||||||
$$
|
$$
|
||||||
w^T \cdot x \to (w^T + \Delta x^T) \cdot x
|
w^T \cdot x \to (w^T + \Delta x^T) \cdot x
|
||||||
= w^T \cdot x + \Delta |x|^2
|
= w^T \cdot x + \Delta |x|^2
|
||||||
= w^T \cdot x - |x|^2 \leq w^T \cdot x
|
= w^T \cdot x - r|x|^2 \leq w^T \cdot x
|
||||||
$$
|
$$
|
||||||
Similarly for the case with $e = 1$ and $f(x) = 0$.
|
Similarly for the case with $e = 1$ and $f(x) = 0$.
|
||||||
|
|
||||||
@ -399,8 +399,8 @@ $x_n$, the threshold function $f(x_n)$ was computed, then:
|
|||||||
|
|
||||||
and similarly for the positive points.
|
and similarly for the positive points.
|
||||||
Finally, the mean and standard deviation were computed from $N_{fn}$ and
|
Finally, the mean and standard deviation were computed from $N_{fn}$ and
|
||||||
$N_{fp}$ for every sample and used to estimate the purity $\alpha$ and
|
$N_{fp}$ for every sample and used to estimate the significance $\alpha$
|
||||||
efficiency $\beta$ of the classification:
|
and not-purity $\beta$ of the classification:
|
||||||
$$
|
$$
|
||||||
\alpha = 1 - \frac{\text{mean}(N_{fn})}{N_s} \et
|
\alpha = 1 - \frac{\text{mean}(N_{fn})}{N_s} \et
|
||||||
\beta = 1 - \frac{\text{mean}(N_{fp})}{N_n}
|
\beta = 1 - \frac{\text{mean}(N_{fp})}{N_n}
|
||||||
|
Loading…
Reference in New Issue
Block a user