Compare commits

..

No commits in common. "b7e185786206bec340ce37457a3c9f49880d5fa1" and "6bf30632a07e609e291f1a0d1cba950527f6ddf5" have entirely different histories.

7 changed files with 94 additions and 106 deletions

View File

@ -4,9 +4,9 @@
È il rapporto tra la variazione percentuale del risultato e la variazione È il rapporto tra la variazione percentuale del risultato e la variazione
percentuale del dato in ingresso. È un parametro utile per controllare se percentuale del dato in ingresso. È un parametro utile per controllare se
un problema è mal o ben condizionato. un problema sia mal o ben condizionato.
Nel caso di una funzione f, questo parametro si riduce ad essere: Nel caso di una funzione f, questo parametro si riduce ad essere
10.1016/0168-9002(90)91334-8
x f'(x) / f(x) x f'(x) / f(x)
e il limite per l'incremento dei dati iniziali tendente a zero è detto e il limite per l'incremento dei dati iniziali tendente a zero è detto
@ -36,10 +36,10 @@ da cui si ottiene il `teorema di Bayes`:
# Correlazione tra variabili # Correlazione tra variabili
Si può usare per determinare se una teoria sia valida oppure no dato un certo Si può usare per determinare se una teoria sia valida oppure no dato un certo
campione sperimentale (A è la teoria e B sono i dati). P(A|B) è la joint pdf. campione sperimentale (A è la teoria e B sono i dati). P(AB) è la joint pdf.
Le `convoluzioni di Mellin e Fourier` servono per trovare la pdf di una Le `convoluzioni di Mellin e Fourier` servono per trovare la pdf di una
variabile che è rispettivamente il prodotto o la somma di altre due variabili variabile che è rispettivamente il prodotto o la somma di altre due variabili
con pdf nota. con pdf nota (dimostrazione cartacea).
La `covarianza` cov(x, y) è definita come: La `covarianza` cov(x, y) è definita come:
cov(x, y) = E[x * y] - (μx * μy) = E[(x - μx)*(y - μy)] cov(x, y) = E[x * y] - (μx * μy) = E[(x - μx)*(y - μy)]
@ -69,29 +69,29 @@ sommano in quadratura su tutta la matrice di covarianza.
Abbiamo visto diversi tipi: Abbiamo visto diversi tipi:
- Binomiale - Binomiale
/ N \ E[n] = N*p / N \ E[n] = N*p
P(n, N, p) = | | p^n (1 - p)^(N - n) con P(n, N, p) = | | p^n (1 + p)^(N - n) con
\ n / V[n] = N*p*(1-p) \ n / V[n] = N*p*(p-1)
da cui si può poi ricavare la multinomiale. da cui si può poi ricavare la multinomiale.
- Poissoniana - Poissoniana
ν^n E[n] = ν ν^n
P(n, ν) = --- e^(-ν) con P(n, ν) = --- e^(-ν) con E[n] = V[n] = ν
n! V[n] = ν n!
Si ottiene dal caso precedente per N→∞ e p→0 con N*p = ν. Si ottiene dal caso precedente per N→∞ e p→0 con N*p = ν.
- Uniforme - Uniforme
1 E[x] = (a + b)/2 1 E[x] = (a + b)/2
P(x, a, b) = ----- con P(x, b, a) = ----- con
b - a V[x] = (b - a)²/12 b - a V[x] = (b - a)^2/12
- Gaussiana - Gaussiana
1 / (x - μ)² \ E[x] = μ 1 / (x - μ)^2 \ E[x] = μ
G(x, μ, σ) = -------- e^| - -------- | con G(x, μ, σ) = -------- e^| - --------- | con
√(2 π) σ \ 2 σ² / V[x] = σ² √(2 π) σ \ 2 σ^2 / V[x] = σ^2
È il limite delle prime due distribuzioni per N→∞. È il limite delle prime due distribuzioni per N→∞.
Il `teorema centrale del limite` dice che se una variabile è la somma di N Il `teorema centrale` del limite dice che se una variabile è la somma di N
variabili indipendenti tutte con la stessa pdf con valore medio μi e devstd σi, variabili indipendenti tutte con la stessa pdf con valore medio μi e devstd σi,
allora tale variabile ha distribuzione Normale con: allora tale variabile ha distribuzione Normale con:
@ -108,7 +108,7 @@ kurtosis:
γ = E | -------- | k = E | -------- | - 3 γ = E | -------- | k = E | -------- | - 3
| σ³ | | σ⁴ | | σ³ | | σ⁴ |
dove X e σ sono la media e la varianza e k = 3 - 3 = 0 per la Gaussiana. dove X è la media campionaria e 3 è la kurtosis della Gaussiana.
# Test di ipotesi # Test di ipotesi
@ -128,7 +128,7 @@ Noi abbiamo sempre controllato solo qual è la pdf della statistica di test nel
caso in cui l'ipotesi nulla sia vera e abbiamo posto il livello di confidenza caso in cui l'ipotesi nulla sia vera e abbiamo posto il livello di confidenza
al 95%, ovvero α = 5%. al 95%, ovvero α = 5%.
La potenza è detta anche purezza perché è la probabilità di scambiare "rumore La potenza è detta anche purezza perché è la probabilità di scambiare "rumore
per rumore", mentre l'intervallo di confidenza si dice anche efficienza perché per segnale", mentre l'intervallo di confidenza si dice anche efficienza perché
è la probabilità di scambiare "il segnale per segnale". è la probabilità di scambiare "il segnale per segnale".
Il `lemma di Neyemann Pearson` dice che la statistica di test che massimizza la Il `lemma di Neyemann Pearson` dice che la statistica di test che massimizza la
@ -176,29 +176,29 @@ non vuol dire che sia significativo.
@4 ---------------------------------------------------------------------------- @4 ----------------------------------------------------------------------------
# Stima di parametri (1) # Stima di parametri
Consideriamo una variabile casuale x che segue la pdf f(x), la quale ha dei Consideriamo una variabile casuale x che segue la pdf f(x), la quale ha dei
parametri Θ. Se io faccio una misura y di questi, allora otterrò uno stimatore parametri Θ. Se io faccio una misura y di questi, allora otterrò uno stimatore
⊇(y) dei parametri Θ. Anche questo stimatore avrà una sua pdf che dipende dal ⊇(y) dei parametri Θ. Anche questo stimatore avrà una sua pdf che dipende dal
valore vero. Uno stimatore deve soddisfare alcuni requisiti: valore vero. Uno stimatore deve soddisfare alcuni requisiti:
- consistenza: per N→∞, ⊇→Θ (convergenza in senso statistico); - consistenza: per N→∞, ⊇→Θ;
- unbias: E[⊇] = Θ - unbias: E[⊇] = Θ
Ovvero: ripetendo tante volte l'esperimento, il valore medio della Ovvero: ripetendo tante volte l'esperimento, il valore medio della
distribuzione deve essere il valore vero; distribuzione deve essere il valore vero;
- deve avere una piccola varianza. - deve avere una piccola varianza.
Per esempio, la media campionaria è uno stimatore consistente e unbiased della Per esempio, la media campionaria è uno stimatore della media e la sua varianza
media e la sua varianza è σ²/N, nel senso che se si ripetesse lo stesso è σ²/N, nel senso che se si ripetesse lo stesso esperimento tante volte e si
esperimento tante volte e si guardasse la distribuzione delle medie così guardasse la distribuzione delle medie così ottenute, otterremmo che queste
ottenute, otterremmo che queste medie seguono una pdf con questa varianza. medie seguono una pdf con questa varianza. Affinché lo stimatore della varianza
Affinché lo stimatore della varianza sia unbiased, si deve introdurre la sia unbiasato, si deve introdurre la correzione di Bessel.
correzione di Bessel.
Un metodo che si può utilizzare è la maximum Likelihood. Se lo si applica al Un metodo che si può utilizzare è la maximum Likelihood. Se lo si applica al
caso di una gaussiana, si trova che gli stimatori della media e della varianza caso di una gaussiana, si trova che gli stimatori della media e della varianza
sono la media e la varianza campionarie. sono la media e la varianza campionarie. Quest'ultima va però corretta con la
correzione di Bessel.
La disuguaglianza di `Cramer-Rao` (detto anche bound RCF) afferma che la matrice La disuguaglianza di `Cramer-Rao` (detto anche bound RCF) afferma che la matrice
di covarianza è >= all'inverso della matrice Hessiana di -L calcolata nel di covarianza è >= all'inverso della matrice Hessiana di -L calcolata nel
@ -207,6 +207,14 @@ minimo.
Uno `stimatore robusto` è poco sensibile ai valori nelle code della Uno `stimatore robusto` è poco sensibile ai valori nelle code della
distribuzione. È buono che gli stimatori siano robusti. Un esempio è la media distribuzione. È buono che gli stimatori siano robusti. Un esempio è la media
trimmata, in cui nel calcolo si escludono i punti più esterni. trimmata, in cui nel calcolo si escludono i punti più esterni.
Quando si sta lavorando con una gaussiana contaminata, ovvero che è la somma
di due gaussiane in cui la seconda è, per esempio, il rumore, ed ha una
varianza maggiore, allora anziché usare la varianza campionaria standard,
è meglio usare d_n:
1
d_n = - Σi |xi - X|
N
L'`extended maximum Likelihood` si usa quando non ho deciso io il numero di L'`extended maximum Likelihood` si usa quando non ho deciso io il numero di
dati ma è esso stesso una misura sperimentale (come nel caso dei decadimenti): dati ma è esso stesso una misura sperimentale (come nel caso dei decadimenti):
@ -216,7 +224,7 @@ di ottenere degli stimatori con minore varianza.
@5 ---------------------------------------------------------------------------- @5 ----------------------------------------------------------------------------
# Stima di parametri (2) # Stima di parametri
Il χ² è il metodo della Maximum Likelihood nel caso in cui: Il χ² è il metodo della Maximum Likelihood nel caso in cui:
@ -236,10 +244,9 @@ Di solito si guarda poi il `χ² ridotto` e il fit è buono se è prossimo a uno
IMPORTANTE: IMPORTANTE:
Il metodo della Likelihood e quello dei momenti si usano quando si hanno punti Il metodo della Likelihood e quello dei momenti si usano quando si hanno punti
distribuiti secondo una pdf e si vogliono stimare i parametri della pdf. NON distribuiti secondo una pdf e si vogliono stimare i parametri della pdf. NON
se si hanno delle y(x). Il metodo del χ², invece, si usa per trovare la si hanno delle y(x). Il metodo del χ², invece, si usa per trovare la funzione
funzione che lega le y alle x (che poi abbiamo visto equivalere alla ML). Se che lega le y alle x. Se lo si vuole usare con dei dati ottenuti da una pdf,
lo si vuole usare con dei dati ottenuti da una pdf, allora bisogna binnarli allora bisogna binnarli in modo tale da ottenere le y.
in modo tale da ottenere le y.
Quando ci sono dei problemi nella minimizzazione del χ², si può provare ad Quando ci sono dei problemi nella minimizzazione del χ², si può provare ad
usare il `metodo dei momenti`, anche se generalmente dà risultati con maggiore usare il `metodo dei momenti`, anche se generalmente dà risultati con maggiore
@ -256,16 +263,6 @@ trovano col χ² sono infatti quelli con la varianza minima).
L'errore è dato dalla propagazione degli errori (che è il solito U = AVA^T). L'errore è dato dalla propagazione degli errori (che è il solito U = AVA^T).
Il `teorema di Wilks` asserisce che la grandezza:
/ L(μ) \
t = - 2 * ln | ---------- |
\ L(μ_true)/
è distribuita come un χ². È facile dimostrarlo supponendo che i dati siano
attribuiti attorno ai relativi valori veri come Gaussiane centrate nei valori
veri con devstd data da quella campionaria.
@6 ---------------------------------------------------------------------------- @6 ----------------------------------------------------------------------------
# Intervalli di confidenza # Intervalli di confidenza
@ -280,11 +277,12 @@ Dire che:
x = x₀ ± δx CL = 68% x = x₀ ± δx CL = 68%
significa che ripetendo N volte l'esperimento, il 68% delle volte il valore significa che ripetendo N volte l'esperimento, il 68% delle volte si otterrà
vero sarà dentro l'intervallo (non che il valore vero ha il 68% di probabilità che x₀ appartiene a quell'intervallo (non che il valore vero ha il 68% di
di essere in quell'intervallo, che non ha alcun senso...). Quando si vuole probabilità di essere in quell'intervallo, che non ha alcun senso...).
stimare la media di una distribuzione, per il CLT questa segue una distribuzione Quando si vuole stimare la media di una distribuzione, per il CLT questa segue
gaussiana per N→∞ e quindi gli intervalli di confidenza sono noti, date le σ. una distribuzione gaussiana per N→∞ e quindi gli intervalli di confidenza sono
noti, date le σ.
La `quantile` di 0.5 è la mediana. Il che significa che la quantile è l'inversa La `quantile` di 0.5 è la mediana. Il che significa che la quantile è l'inversa
della cumulativa. della cumulativa.
@ -293,6 +291,8 @@ un intervallo di confidenza pari a 1 - α - β. Dovrò trovare gli estremi a e b
che corrispondono a tali valori e per farlo dovrò utilizzare la quantile che corrispondono a tali valori e per farlo dovrò utilizzare la quantile
dell'area che mi serve. dell'area che mi serve.
PARTE CHE NON SI CAPISCE UN TUBO
@7 ---------------------------------------------------------------------------- @7 ----------------------------------------------------------------------------
# Minimizzazione # Minimizzazione
@ -302,23 +302,15 @@ la sua derivata prima sia nulla.
Non esiste un metodo che con certezza identifichi il `minimo globale` di una Non esiste un metodo che con certezza identifichi il `minimo globale` di una
funzione. funzione.
Data la precisione finita dei floating point, non si può trovare esattamente il Data la precisione finita dei floating point, non si può cercare un minimo
minimo: si troverà f(x) = f(x_min) + 1/2 d²f/dx² |x - x_min|. Si può porre un annullando la derivata prima. Al più si può porre un valore di tolleranza.
valore di tolleranza per cui:
f(x) ~ f(x_min) se f(x_min) >> 1/2 d²f/dx² |x - x_min|²
1/2 d²f/dx² |x - x_min|² / 2 ε f(x_min) \
→ ε >> ------------------------ → |x - x_min| << | -------------- |^(1/2)
f(x_min) \ d²f/dx² /
Vediamo un po' di metodi. Vediamo un po' di metodi.
- `Metodo di bisezione`: - `Metodo di bisezione`:
Per trovare la radice di una funzione. Si può usare quando gli estremi sono Si può usare quando gli estremi sono a > 0 > b e la funzione è monotona. Si
f(a) > 0 > f(b) e la funzione è monotona. Si divide a metà e si guarda se è divide a metà e si guarda se è positivo o negativo e poi si aggiornano gli
positivo o negativo e poi si aggiornano gli estremi in modo da tenere i due estremi in modo da tenere i due vicini a segni opposti.
vicini a segni opposti.
- Metodo analogo: - Metodo analogo:
Se invece la funzione è di forma pseudoparabolica con estremi a e b, allora Se invece la funzione è di forma pseudoparabolica con estremi a e b, allora
@ -459,12 +451,9 @@ Esistono diverse tecniche di deconvoluzione dei dati.
μj = (νi - βi) Rij^-1 ~ (ni - βi) Rij^-1 μj = (νi - βi) Rij^-1 ~ (ni - βi) Rij^-1
Massimizzando la Likelihood, si ottengono stimatori unbias e con varianza Massimizzando la Likelihood, si ottengono stimatori unbias e con varianza
minima n_i = ν_i. Se si fa così, però, siccome il problema dell'unfolding minima n_i = ν_i. Se si fa così, però, non assomigliano affatto a quelli
è mal posto, si ottiene che se i dati veri sono lievemente diversi da corretti. Si deve accettare di minimizzare la varianza: `procedura di
quelli misurati, il risultato sarà molto diverso da quello ottenuto. unfolding generalizzata`.
Ciò si traduce nell'ottenere una varianza enorme sui valori μi. Si deve
accettare di aumentare il bias per poter minimizzare la varianza:
`procedura di unfolding generalizzata`.
- `Metodo dei fattori di correzione`: - `Metodo dei fattori di correzione`:
I valori veri vengono stimati come: I valori veri vengono stimati come:
@ -483,11 +472,10 @@ Esistono diverse tecniche di deconvoluzione dei dati.
Questo metodo funziona bene se non c'è molta migrazione tra bin e bin: è Questo metodo funziona bene se non c'è molta migrazione tra bin e bin: è
valido per dare una prima idea. valido per dare una prima idea.
- `Unfolding regolarizzato`: - `Unfolding generalizzato`:
In questo caso si cerca sempre uno stimatore bias con varianza maggiore ma In questo caso si cerca sempre uno stimatore bias con varianza maggiore ma
si cerca di ottenere una soluzione più liscia: lo si fa ponendo un limite Δ si cerca di ottenere una soluzione più liscia: lo si fa ponendo un limite Δ
alla differenza tra le likelihood L_max e L(μ) usata (per non allontanarsi alla differenza tra L_max e L(μ) usato:
troppo dalla soluzione ottimale):
L(μ) >= Lmax - ΔL L(μ) >= Lmax - ΔL
@ -499,7 +487,7 @@ Esistono diverse tecniche di deconvoluzione dei dati.
f(μ) = αL(μ) + S(μ) f(μ) = αL(μ) + S(μ)
Per cominciare si fissa α in base al ΔL scelto, considerando che: Per cominciare si fissa α, considerando che:
- per α = 0 si ottiene la soluzione più smooth che però ignora i dati; - per α = 0 si ottiene la soluzione più smooth che però ignora i dati;
- per α → ∞ la soluzione non è smooth, perché massimizzare f(μ) equivale - per α → ∞ la soluzione non è smooth, perché massimizzare f(μ) equivale
semplicemente a scegliere L(μ) = Lmax. semplicemente a scegliere L(μ) = Lmax.
@ -507,7 +495,7 @@ Esistono diverse tecniche di deconvoluzione dei dati.
Σi νi = Σij Rij μj = Ntot Σi νi = Σij Rij μj = Ntot
E quindi ci ri riduce al metodo dei moltiplicatori di Lagrange, ovvero si E quindi ci ri riduce al metodo dei moltiplicatori di Laplace, ovvero si
deve massimizzare: deve massimizzare:
f(μ) = αL(μ) + S(μ) + λ[Ntot - Σij Rij μj] f(μ) = αL(μ) + S(μ) + λ[Ntot - Σij Rij μj]
@ -520,7 +508,7 @@ Esistono diverse tecniche di deconvoluzione dei dati.
tende a 0, più la funzione è liscia. Chiaramente, trattandosi di dati tende a 0, più la funzione è liscia. Chiaramente, trattandosi di dati
discreti, si fa la derivata numerica tra bin consecutivi. discreti, si fa la derivata numerica tra bin consecutivi.
- `Regolarizzazione con il Max Ent`: - `Regolarizzazione col Max Ent`:
Si usa la definizione di entropia per un set di probabilità pi: Si usa la definizione di entropia per un set di probabilità pi:
H = - Σi pi ln(pi) H = - Σi pi ln(pi)
@ -531,9 +519,8 @@ Esistono diverse tecniche di deconvoluzione dei dati.
pi = μi/Ntot pi = μi/Ntot
Per quanto riguarda la scelta di α, essa rappresenta un compromesso tra Per quanto riguarda la scelta di α, in genere lo si sceglie minimizzando
bias (L(μ)) e varianza (S(μ)). in genere lo si sceglie minimizzando la la matrice di covarianza, cioè il χ².
matrice di covarianza, cioè il χ².
@10 --------------------------------------------------------------------------- @10 ---------------------------------------------------------------------------
@ -554,7 +541,7 @@ rilevato.
In un pc, i dati vengono salvati in formato binario. Mentre per i numeri la In un pc, i dati vengono salvati in formato binario. Mentre per i numeri la
conversione è immediata, per il linguaggio alfanumerico sono state inventate conversione è immediata, per il linguaggio alfanumerico sono state inventate
delle `codifiche` come per esempio il codice ASCII o l'UTF8. La tabella unicode delle `codifiche` come per esempio il codice ASCII o l'UTF8. La tabella unicode
contiene tutti i codepoint e descrive come eventualmente si fondono. contiene tutti codepoint e descrive come eventualmente si fondono.
Il `bus` è l'insieme delle linee elettriche che collega vari dispositivi, Il `bus` è l'insieme delle linee elettriche che collega vari dispositivi,
ognuno dei quali è identificato univocamente da un indirizzo. I dispositivi ognuno dei quali è identificato univocamente da un indirizzo. I dispositivi

View File

@ -149,12 +149,11 @@ To obtain a better estimate of the mode and its error, the above procedure was
bootstrapped. The original sample was treated as a population and used to build bootstrapped. The original sample was treated as a population and used to build
100 other samples of the same size, by *sampling with replacements*. For each one 100 other samples of the same size, by *sampling with replacements*. For each one
of the new samples, the above statistic was computed. By simply taking the of the new samples, the above statistic was computed. By simply taking the
mean and standard deviation of these statistics the following estimate was mean of these statistics the following estimate was obtained:
obtained:
$$ $$
\text{observed mode: } m_o = \num{-0.29 \pm 0.19} \text{observed mode: } m_o = \num{-0.29 \pm 0.19}
$$ $$
In order to compare the values $m_e$ and $m_o$, the following compatibility In order to compare the values $m_e$ and $m_0$, the following compatibility
$t$-test was applied: $t$-test was applied:
$$ $$
p = 1 - \text{erf}\left(\frac{t}{\sqrt{2}}\right)\ \with p = 1 - \text{erf}\left(\frac{t}{\sqrt{2}}\right)\ \with
@ -185,7 +184,7 @@ middle elements otherwise.
The expected median was derived from the quantile function (QDF) of the Landau The expected median was derived from the quantile function (QDF) of the Landau
distribution[^1]. distribution[^1].
Once this is known, the median is simply given by $\text{QDF}(1/2)$. Since both Once this is know, the median is simply given by $\text{QDF}(1/2)$. Since both
the CDF and QDF have no known closed form, they must be computed numerically. the CDF and QDF have no known closed form, they must be computed numerically.
The cumulative probability was computed by quadrature-based numerical The cumulative probability was computed by quadrature-based numerical
integration of the PDF (`gsl_integration_qagiu()` function in GSL). The function integration of the PDF (`gsl_integration_qagiu()` function in GSL). The function
@ -211,13 +210,13 @@ where the absolute and relative tolerances $\varepsilon_\text{abs}$ and
$\varepsilon_\text{rel}$ were set to \num{1e-10} and \num{1e-6}, $\varepsilon_\text{rel}$ were set to \num{1e-10} and \num{1e-6},
respectively. respectively.
As for the QDF, this was implemented by numerically inverting the CDF. This was As for the QDF, this was implemented by numerically inverting the CDF. This was
done by solving the equation for x: done by solving the equation;
$$ $$
p(x) = p_0 p(x) = p_0
$$ $$
given a probability value $p_0$, where $p(x)$ is the CDF. The (unique) root of for x, given a probability value $p_0$, where $p(x)$ is the CDF. The (unique)
this equation was found by a root-finding routine (`gsl_root_fsolver_brent` in root of this equation was found by a root-finding routine
GSL) based on the Brent-Dekker method. (`gsl_root_fsolver_brent` in GSL) based on the Brent-Dekker method.
The following condition was checked for convergence: The following condition was checked for convergence:
$$ $$
|a - b| < \varepsilon_\text{abs} + \varepsilon_\text{rel} \min(|a|, |b|) |a - b| < \varepsilon_\text{abs} + \varepsilon_\text{rel} \min(|a|, |b|)

View File

@ -10,7 +10,7 @@ $$
\sum_{k=1}^{n} \frac{1}{k} \sum_{k=1}^{n} \frac{1}{k}
- \ln(n) \right) - \ln(n) \right)
$$ {#eq:gamma} $$ {#eq:gamma}
and represents the limiting red area in @fig:gamma. The first 30 digits of and represents the limiting blue area in @fig:gamma. The first 30 digits of
$\gamma$ are: $\gamma$ are:
$$ $$
\gamma = 0.57721\ 56649\ 01532\ 86060\ 65120\ 90082 \dots \gamma = 0.57721\ 56649\ 01532\ 86060\ 65120\ 90082 \dots
@ -52,7 +52,7 @@ efficiency of the methods lies on how quickly they converge to their limit.
\draw (7.0,-0.05) -- (7.0,0.05); \node [below, scale=0.7] at (7.0,-0.05) {7}; \draw (7.0,-0.05) -- (7.0,0.05); \node [below, scale=0.7] at (7.0,-0.05) {7};
\end{tikzpicture} \end{tikzpicture}
\caption{The area of the red region converges to the EulerMascheroni \caption{The area of the red region converges to the EulerMascheroni
constant.}\label{fig:gamma} constant..}\label{fig:gamma}
} }
\end{figure} \end{figure}
@ -109,8 +109,10 @@ sign, 8 for the exponent and 55 for the mantissa, hence:
$$ $$
2^{55} = 10^{d} \thus d = 55 \cdot \log(2) \sim 16.6 2^{55} = 10^{d} \thus d = 55 \cdot \log(2) \sim 16.6
$$ $$
But only 10 digits were correctly computed. The best result is shown in Only 10 digits were correctly computed: this means that when the terms of the
@tbl:naive-res. series start being smaller than the smallest representable double, the sum of
all the remaining terms gives a number $\propto 10^{-11}$. The best result is
shown in @tbl:naive-res.
------- -------------------- ------- --------------------
exact 0.57721 56649 01533 exact 0.57721 56649 01533

View File

@ -13,7 +13,7 @@ distribution function $F$:
\end{align*} \end{align*}
where $\theta$ and $\phi$ are, respectively, the polar and azimuthal angles, and where $\theta$ and $\phi$ are, respectively, the polar and azimuthal angles, and
$$ $$
\alpha = 0.65 \et \beta = 0.06 \et \gamma = -0.18 \alpha_0 = 0.65 \et \beta_0 = 0.06 \et \gamma_0 = -0.18
$$ $$
To generate the points, a *hit-miss* method was employed: To generate the points, a *hit-miss* method was employed:

View File

@ -49,9 +49,9 @@ approximate $I$ as:
$$ $$
I \approx I_N = \frac{V}{N} \sum_{i=1}^N f(x_i) = V \cdot \avg{f} I \approx I_N = \frac{V}{N} \sum_{i=1}^N f(x_i) = V \cdot \avg{f}
$$ $$
If $x_i$ are uniformly distributed, $I_N \rightarrow I$ for $N \rightarrow + If $x_i$ are uniformly distributed $I_N \rightarrow I$ for $N \rightarrow +
\infty$ by the law of large numbers, whereas the integral variance $\sigma^2_I$ \infty$ by the law of large numbers, whereas the integral variance can be
can be estimated as: estimated as:
$$ $$
\sigma^2_f = \frac{1}{N - 1} \sigma^2_f = \frac{1}{N - 1}
\sum_{i = 1}^N \left( f(x_i) - \avg{f} \right)^2 \sum_{i = 1}^N \left( f(x_i) - \avg{f} \right)^2

View File

@ -123,7 +123,7 @@ where:
- $(\cdot, \cdot)$ is an inner product. - $(\cdot, \cdot)$ is an inner product.
Given a signal $s$ of $n$ elements and a kernel $k$ of $m$ elements, Given a signal $s$ of $n$ elements and a kernel $k$ of $m$ elements,
their convolution $c$ is a vector of $n + m + 1$ elements computed their convolution is a vector of $n + m + 1$ elements computed
by flipping $s$ ($R$ operator) and shifting its indices ($T_i$ operator): by flipping $s$ ($R$ operator) and shifting its indices ($T_i$ operator):
$$ $$
c_i = (s, T_i \, R \, k) c_i = (s, T_i \, R \, k)
@ -446,8 +446,8 @@ close as possible. Formally, the following constraints must be satisfied:
&\text{3.} \hspace{20pt} \sum_{i = 1}^m f_{ij} \le w_{qj} &\text{3.} \hspace{20pt} \sum_{i = 1}^m f_{ij} \le w_{qj}
&1 \le j \le n &1 \le j \le n
\\ \\
&\text{4.} \hspace{20pt} \sum_{j = 1}^n \sum_{j = 1}^m f_{ij} \le &\text{4.} \hspace{20pt} \sum_{j = 1}^n f_{ij} \sum_{j = 1}^m f_{ij} \le w_{qj}
\text{min} \left( \sum_{i = 1}^m w_{pi}, \sum_{j = 1}^n w_{qj} \right) = \text{min} \left( \sum_{i = 1}^m w_{pi}, \sum_{j = 1}^n w_{qj} \right)
\end{align*} \end{align*}
The first constraint allows moving dirt from $P$ to $Q$ and not vice versa; the The first constraint allows moving dirt from $P$ to $Q$ and not vice versa; the
second limits the amount of dirt moved by each position in $P$ in order to not second limits the amount of dirt moved by each position in $P$ in order to not
@ -549,9 +549,9 @@ a large kernel, the convergence is very slow, even if the best results are
close to the one found for $\sigma = 0.5$. close to the one found for $\sigma = 0.5$.
The following $r$s were chosen as the most fitting: The following $r$s were chosen as the most fitting:
\begin{align*} \begin{align*}
\sigma = 0.1 \, \Delta \theta &\thus r^{\text{best}} = 2 \\ \sigma = 0.1 \, \Delta \theta &\thus n^{\text{best}} = 2 \\
\sigma = 0.5 \, \Delta \theta &\thus r^{\text{best}} = 10 \\ \sigma = 0.5 \, \Delta \theta &\thus n^{\text{best}} = 10 \\
\sigma = 1 \, \Delta \theta &\thus r^{\text{best}} = \num{5e3} \sigma = 1 \, \Delta \theta &\thus n^{\text{best}} = \num{5e3}
\end{align*} \end{align*}
Note the difference between @fig:rless-0.1 and the plots resulting from $\sigma = Note the difference between @fig:rless-0.1 and the plots resulting from $\sigma =

View File

@ -86,8 +86,8 @@ $$
\tilde{\mu}_2 \tilde{\mu}_1 = w^T (\mu_2 \mu_1) \tilde{\mu}_2 \tilde{\mu}_1 = w^T (\mu_2 \mu_1)
$$ $$
This expression can be made arbitrarily large simply by increasing the This expression can be made arbitrarily large simply by increasing the
magnitude of $w$ but, fortunately, the problem is easily solved by requiring magnitude of $w$, fortunately the problem is easily solved by requiring $w$
$w$ to be normalised: $| w^2 | = 1$. Using a Lagrange multiplier to perform the to be normalised: $| w^2 | = 1$. Using a Lagrange multiplier to perform the
constrained maximization, it can be found that $w \propto (\mu_2 \mu_1)$, constrained maximization, it can be found that $w \propto (\mu_2 \mu_1)$,
meaning that the line onto the points must be projected is the one joining the meaning that the line onto the points must be projected is the one joining the
class means. class means.
@ -334,21 +334,21 @@ To see how it works, consider the four possible situations:
\quad f(x) = 0 \quad \Longrightarrow \quad \Delta = 0$ \quad f(x) = 0 \quad \Longrightarrow \quad \Delta = 0$
the current estimations work properly: $b$ and $w$ do not need to be updated; the current estimations work properly: $b$ and $w$ do not need to be updated;
- $e = 1 \quad \wedge \quad f(x) = 0 \quad \Longrightarrow \quad - $e = 1 \quad \wedge \quad f(x) = 0 \quad \Longrightarrow \quad
\Delta \propto 1$ \Delta = 1$
the current $b$ and $w$ underestimate the correct output: they must be the current $b$ and $w$ underestimate the correct output: they must be
increased; increased;
- $e = 0 \quad \wedge \quad f(x) = 1 \quad \Longrightarrow \quad - $e = 0 \quad \wedge \quad f(x) = 1 \quad \Longrightarrow \quad
\Delta \propto -1$ \Delta = -1$
the current $b$ and $w$ overestimate the correct output: they must be the current $b$ and $w$ overestimate the correct output: they must be
decreased. decreased.
Whilst the $b$ updating is obvious, as regards $w$ the following consideration Whilst the $b$ updating is obvious, as regards $w$ the following consideration
may help clarify. Consider the case with $e = 0 \quad \wedge \quad f(x) = 1 may help clarify. Consider the case with $e = 0 \quad \wedge \quad f(x) = 1
\quad \Longrightarrow \quad \Delta = -r$: \quad \Longrightarrow \quad \Delta = -1$:
$$ $$
w^T \cdot x \to (w^T + \Delta x^T) \cdot x w^T \cdot x \to (w^T + \Delta x^T) \cdot x
= w^T \cdot x + \Delta |x|^2 = w^T \cdot x + \Delta |x|^2
= w^T \cdot x - r|x|^2 \leq w^T \cdot x = w^T \cdot x - |x|^2 \leq w^T \cdot x
$$ $$
Similarly for the case with $e = 1$ and $f(x) = 0$. Similarly for the case with $e = 1$ and $f(x) = 0$.
@ -399,8 +399,8 @@ $x_n$, the threshold function $f(x_n)$ was computed, then:
and similarly for the positive points. and similarly for the positive points.
Finally, the mean and standard deviation were computed from $N_{fn}$ and Finally, the mean and standard deviation were computed from $N_{fn}$ and
$N_{fp}$ for every sample and used to estimate the significance $\alpha$ $N_{fp}$ for every sample and used to estimate the purity $\alpha$ and
and not-purity $\beta$ of the classification: efficiency $\beta$ of the classification:
$$ $$
\alpha = 1 - \frac{\text{mean}(N_{fn})}{N_s} \et \alpha = 1 - \frac{\text{mean}(N_{fn})}{N_s} \et
\beta = 1 - \frac{\text{mean}(N_{fp})}{N_n} \beta = 1 - \frac{\text{mean}(N_{fp})}{N_n}