14 KiB
Statistica
Distribuzioni di probabilità
Una funzione di densità di probabilità f
è definita in modo che la probabilità
che una variabile x
sia compresa tra x
e x + dx
sia data da:
P(x \subset [x, x + dx]) = f(x)dx
dunque vale che:
\int\limits_{- \infty}^{+ \infty} dx f(x) = 1
Si definisce funzione cumulante:
F(x) = \int\limits_{- \infty}^x dx' f(x')
e quantile di ordine \alpha
il valore di x
per cui F(x) = \alpha
.
Nel caso multidimensionale in cui si abbiano due o più variabili, si parla di
joint pdf:
f(x, y) \hspace{30pt} \Longrightarrow \hspace{30pt}
\int\limits_{- \infty}^{+ \infty} \int\limits_{- \infty}^{+ \infty}
dx dy f(x, y) = 1
e si definiscono due distribuzioni marginali:
f_x (x) = \int\limits_{- \infty}^{+ \infty} dy f(x, y)
\hspace{50pt}
f_y (y) = \int\limits_{- \infty}^{+ \infty} dx f(y, x)
dunque due variabili x
e y
sono indipendenti se $f(x) = f_x(x) \cdot
f_y(y)$. Ora, se A
è l'evento di probabilità f_x(x)dx
, mentre B
ha
probabilità f_y(y)dy
, allora si possono definire le pdf condizionali come
segue:
P(B|A) = \frac{P (A \cap B)}{P(A)} = \frac{f(x, y)dxdy}{f_x(x)dx}
\hspace{20pt} \Longrightarrow \hspace{20pt} h(y|x) = \frac{f(x, y)}{f_x(x)}
per cui il teorema di Bayes diventa:
g(x|y) = \frac{h(y|x)f_x(x)}{f_y(y)}
\begin{tikzpicture} \draw [thick, pink] (0,0) -- (1,0); \draw [red] (1.5,0) circle [radius=0.1]; \draw [thick, pink] (2,0) -- (3,0); \draw [red] (3.5,0) circle [radius=0.1]; \draw [thick, pink] (4,0) -- (5,0); \draw [red] (5.5,0) circle [radius=0.1]; \draw [thick, pink] (6,0) -- (7,0); \draw [red] (7.5,0) circle [radius=0.1]; \draw [thick, pink] (8,0) -- (9,0); \draw [red] (9.5,0) circle [radius=0.1]; \draw [thick, pink] (10,0) -- (11,0); \draw [red] (11.5,0) circle [radius=0.1]; \draw [thick, pink] (12,0) -- (13,0); \draw [red] (13.5,0) circle [radius=0.1]; \draw [thick, pink] (14,0) -- (15,0); \end{tikzpicture}
Paradosso di Borel-Kolmogorov
Si considerino dei punti distribuiti uniformemente sulla superficie del pianeta
Terra: ci si aspetterebbe che i punti siano uniformemente distribuiti anche
lungo un parallelo o un meridiano... ma consideriamo un meridiano: esso giace
per il 25% a nord del 45'esimo parallelo e quindi, secondo la logica di prima,
anche il 25% dei punti che si trovano su di esso. Però non è vero che il 45%
della superficie terrestre è al di sopra del 45'esimo parallelo!
Il paradosso è risolto perché non ci si può basare su un insieme di misura
nulla quale il meridiano (perché è unidimensionale). Lo si vede chiaramente
adottando la terminologia poc'anzi introdotta:
Se la distribuzione è uniforme, la probabilità di trovare un punto in una
certa superficie è dato dal rapporto tra l'angolo solido descritto da tale
superficie e l'angolo solido totale:
f(\theta, \phi) d\theta d\phi= \frac{d\phi d\theta \cos(\theta)}{4 \pi}
da cui è possibile determinare la due probabilità marginali:
f_{\phi}(\phi) = \int\limits_{0}^{\pi} f(\theta, \phi) d\theta =
\int\limits_{0}^{\pi} \frac{\cos(\theta)}{4 \pi} = \frac{\cos(\theta)}{2}
f_{\theta}(\theta) = \int\limits_{0}^{2 \pi} f(\theta, \phi) d\phi =
\frac{1}{2 \pi}
per cui si tratta di due costanti rispetto alle rispettive variabili. Da ciò si può dunque dedurre che, mentre la densità lungo un parallelo è effettivamente costante, lo stesso non si può dire riguardo a un meridiano.
\begin{tikzpicture} \draw [thick, pink] (0,0) -- (1,0); \draw [red] (1.5,0) circle [radius=0.1]; \draw [thick, pink] (2,0) -- (3,0); \draw [red] (3.5,0) circle [radius=0.1]; \draw [thick, pink] (4,0) -- (5,0); \draw [red] (5.5,0) circle [radius=0.1]; \draw [thick, pink] (6,0) -- (7,0); \draw [red] (7.5,0) circle [radius=0.1]; \draw [thick, pink] (8,0) -- (9,0); \draw [red] (9.5,0) circle [radius=0.1]; \draw [thick, pink] (10,0) -- (11,0); \draw [red] (11.5,0) circle [radius=0.1]; \draw [thick, pink] (12,0) -- (13,0); \draw [red] (13.5,0) circle [radius=0.1]; \draw [thick, pink] (14,0) -- (15,0); \end{tikzpicture}
Una funzione di una variabile casuale è essa stessa una variabile casuale.
Consideriamo la pdf f(x)
e una funzione a(x)
di cui si vuole trovare la pdf
g(a)
. Nel caso in cui l'inversa di a(x)
sia univoca, definita dS
la
regione delle x
per cui a \subset [a, a +da]
:
g(a)da = \int\limits_{dS} dxf(x)
= \left| \int\limits_{x(a)}^{x(a +da)} f(x')dx' \right|
= \int\limits_{x(a) + \left| \frac{dx}{da} \right| da}^{x(a +da)} f(x')dx'
Ovvero:
g(a) = f(x(a)) \left| \frac{dx}{da} \right|
e se x(a)
non è univoca, allora bisogna considerare tutti gli intervalli $dS$
di dx
che corrispondono a da
.
Nel caso di funzioni di N
variabili, siccome vale che:
g(a')da' = \int \dots \int\limits_{dS} f(x_1 \dots x_N) dx_1 \dots dx_N
con dS
regione dello spazio delle x
compreso tra le isosuperfici:
a(\vec{x}) = a' \hspace{10pt} \wedge \hspace{10pt} a(\vec{x}) = a' + da'
Nel caso in cui z = x \cdot y
, si trova la convoluzione di Mellin:
g(z)dz = \int\limits_{dS} dxdy f(x, y)
= \int\limits_{-\infty}^{+\infty} dx
\int\limits_{\frac{z}{x}}^{\frac{z + dz}{x}} dy f(x, y)
\textcolor{red}{Non ho capito questa parte...}
Propagazione degli errori
Consideriamo una variabile x
con pdf f(x)
. Si definisce valore di
aspettazione o media (e lo si indica spesso con \mu
):
E[x] = \int dx f(x) x
Nel caso di una variabile y(x)
con pdf g(x)
, invece:
E[y] = \int dy \cdot y \cdot g(y) = \int dx f(x) g(x)
Mentre si definisce varianza (e la si indica spesso con \sigma^2
, mentre
con deviazione standard si intende \sigma
):
V[x] = E[x - E[x]^2] = E[x^2] - \mu^2
Più in generale si definiscono 'momenti algebrici' E[x^n] =\mu'_n
con
\mu'_1 = \mu
e 'momenti centrali' E[(x -\mu)^n] = \mu_n
con $\mu_2 =
\sigma^2$.
Si definiscono inoltre due grandezze di correlazione. La covarianza:
\text{cov} [x, y] = E[xy] - E[x]E[y] = E[xy] - \mu_x \mu_y
che equivale a:
\begin{align*} \text{cov} [x, y] &= E[(x -\mu_x)(y -\mu_y)] \ &= E[xy -x\mu_y -y\mu_x + \mu_x\mu_Y] \ &= E[xy] -\mu_y E[x] -\mu_x E[y] + \mu_x \mu_y \ &= E[xy] -\mu_y mu_x - \mu_x \mu_y + \mu_x \mu_y \ &= E[xy] - \mu_x \mu_y \end{align*}
Notare che se x
e y
sono indipendenti, allora f(x, y) = f_x(x)f_y(y)
,
perciò:
E[xy] = \int dx \int dy xy f(x, y) = \mu_x \mu_y
\hspace{20pt} \Longrightarrow \hspace{20pt} \text{cov} [x, y] = 0
e il coefficiente di correlazione:
\rho_{xy} = \frac{\text{cov} [xy]}{\sigma_x \sigma_y}
Anche se la f(\vec{x})
non è completamente nota, è comunque possibile stimare
il valore medio e la varianza di una grandezza y(\vec{x})
conoscendo solo le
stime di media e varianza della pdf. Espandiamo attraverso la serie di
Taylor:
y(\vec{x}) = y(\vec{\mu}) + \sum_{i= 1}^N \left[
\frac{\partial y}{\partial x_i} \right]_{\vec{x}
= \vec{\mu}} (x_i - \mu_i)
\Longrightarrow \hspace{20pt} E[y] = y(\vec{\mu})
\Longleftarrow \hspace{20pt} E[x_i] = \mu_i
Mentre per la varianza servono E[y^2]
ed E[y]
. Sempre passando
attraverso uno sviluppo di Taylor attorno al valore medio:
\begin{align*} E[y^2] &= y^2(\vec{\mu}) + 2y(\vec{\mu}) \sum_{i = 1}^{N} \left[ \frac{\partial y} {\partial x_i} \right]{\vec{x} = \vec{\mu}} E[x_i - \mu_i] \ &+ E \left[ \left( \sum{i_1}^N \left[ \frac{\partial y}{\partial x_i} \right]{\vec{x} = \vec{\mu}} (x_i - \mu_i) \right) \left( \sum{j = 1}^N \left[ \frac{\partial y} {\partial x_i} \right]_{\vec{x} = \vec{\mu}} (x_j - \mu_j) \right) \right] \end{align*}
Siccome il secondo termine si annulla sempre perché E[x_i] = \mu_i
, allora
rimane che:
V[y] = E[y^2] - E[y]^2 = \sigma_y^2 = \sum_{i,j = 1}^N \left[
\frac{\partial y}{\partial x_i}
\frac{\partial y}{\partial x_j}\right]_{\vec{x} = \vec{\mu}} V_{ij}
Con V_{ij}
che è la matrice di covarianza, che ha come entrate:
V_{ij} = E[(x_i - \mu_i)(x_j - \mu_j)] = \rho_{ij} \sigma_i \sigma_j
e quindi, nel caso in cui le variabili siano scorrelate, si ottiene che:
V_{ij} = \sigma_i^2 \delta_{ij}
\hspace{20pt} \Longrightarrow \hspace{20pt}
\sigma_y^2 = \sum_{i = 1}^N \left[ \frac{\partial y}{\partial x_i}
\right]_{\vec{x} = \vec{\mu}}^2 \sigma_i^2
Cioè dice quanto cambia la y
al variare del 'dato iniziale' \vec{x}
.
Ma quindi, per quanto visto prima:
\text{cov} [x_i, x_j] = E[(x_i - \mu_i)(x_j - \mu_j)] = V_{ij}
Più in generale, date \vec{y}
variabili dipendenti da \vec{x}
, vale che:
U = AVA^T \hspace{30pt} \text{con} \hspace{30pt} A_{ij} = \left[
\frac{\partial y_i}{\partial x_j} \right]_{\vec{x} = \vec{\mu}}
\hspace{30pt} \text{e con} \hspace{30pt} U_{kl} = \text{cov}[y_k, y_l]
dove U
è detta matrice di covarianza delle y
.
Attenzione: quanto detto fin'ora, che descrive in che modo gli errori di
\vec{x}
influenzano y
, vale solo nel caso in cui y
sia lineare nelle x
.
Quindi, in casi come y(x) = 1/x
, non si può fare questo discorso.
\begin{tikzpicture} \draw [thick, pink] (0,0) -- (1,0); \draw [red] (1.5,0) circle [radius=0.1]; \draw [thick, pink] (2,0) -- (3,0); \draw [red] (3.5,0) circle [radius=0.1]; \draw [thick, pink] (4,0) -- (5,0); \draw [red] (5.5,0) circle [radius=0.1]; \draw [thick, pink] (6,0) -- (7,0); \draw [red] (7.5,0) circle [radius=0.1]; \draw [thick, pink] (8,0) -- (9,0); \draw [red] (9.5,0) circle [radius=0.1]; \draw [thick, pink] (10,0) -- (11,0); \draw [red] (11.5,0) circle [radius=0.1]; \draw [thick, pink] (12,0) -- (13,0); \draw [red] (13.5,0) circle [radius=0.1]; \draw [thick, pink] (14,0) -- (15,0); \end{tikzpicture}
Esempio
Consideriamo:
y = x_1 - x_2
\text{con} \hspace{30pt} \mu_1 = \mu_2 = 10 \hspace{30pt} \wedge
\hspace{30pt} \sigma_1 = \sigma_2 = 1
allora abbiamo che y = y(x_1, x_2)
, quindi:
E[y] = y(\mu_1, \mu_2) = 10 - 10 = 0
V[y] = \sum_{i, j = 1}^2 \left[ \frac{\partial y}{\partial x_i}
\frac{\partial y}{\partial x_j}\right]_{\vec{x} = \vec{\mu}} V_{ij} =
1 \cdot V_{11} + 1 \cdot V_{22} -1 \cdot 2 \cdot V_{12}
Se le correlazioni sono nulle, allora $V_{12} = 0 \Longrightarrow V[y] = 2
\Longrightarrow \sigma_y = 1.4$, se invece x_1
e x_2
sono correlate, nel
caso in cui il coefficiente di correlazione sia unitario si ha che $V[y] =
0$. Quindi la correlazione può cambiare di molto le cose.
\begin{tikzpicture} \draw [thick, pink] (0,0) -- (1,0); \draw [red] (1.5,0) circle [radius=0.1]; \draw [thick, pink] (2,0) -- (3,0); \draw [red] (3.5,0) circle [radius=0.1]; \draw [thick, pink] (4,0) -- (5,0); \draw [red] (5.5,0) circle [radius=0.1]; \draw [thick, pink] (6,0) -- (7,0); \draw [red] (7.5,0) circle [radius=0.1]; \draw [thick, pink] (8,0) -- (9,0); \draw [red] (9.5,0) circle [radius=0.1]; \draw [thick, pink] (10,0) -- (11,0); \draw [red] (11.5,0) circle [radius=0.1]; \draw [thick, pink] (12,0) -- (13,0); \draw [red] (13.5,0) circle [radius=0.1]; \draw [thick, pink] (14,0) -- (15,0); \end{tikzpicture}
Errori sistematici
Consideriamo due grandezze x_1
e x_2
con un errore sistematico in comune
S
:
\begin{align*} &x_1 = x_{1_0} + x_{1_s} \ &x_2 = x_{2_0} + x_{2_s} \end{align*}
si avrà che i termini con pedice 0
sono indipendenti tra loro, mentre gli
altri due saranno correlati. Dato che gli errori si sommano in quadratura, la
matrice di covarianza sarà quindi:
\text{cov}[x_1, x_2] = S^2 \hspace{30pt} \Longrightarrow \hspace{30pt}
V = \begin{pmatrix}
\sigma_1^2 + S^2 & S^2\\
S^2 & \sigma_2^2 + S^2
\end{pmatrix}
perché:
\begin{align*} \text{cov}[x_1, x_2] &= E[x_1 x_2] - E[x_1]E[x_2] = \ &= E[(x_{1_0} + x_{1_s})(x_{2_0} + x_{2_s})] - E[x_{1_0} + x_{1_s}] E[x_{2_0} + x_{2_s}] = \ &= E[x_{1_0}x_{2_0}] + E[x_{1_0}x_{2_s}] + E[x_{1_s}x_{2_0}]
- E[x_{1_s}x_{2_s}] + \ &\hspace{13pt} - E[x_{1_0}]E[x_{2_0}] - E[x_{1_0}]E[x_{2_2}]
- E[x_{1_s}]E[x_{2_0}] - E[x_{1_s}]E[x_{2_s}] = \ &= \mu_1 \mu_2 + \mu_1E[x_{2_s}] + E[x_{1_s}]\mu_2 +E[x_{1_s}x_{2_s}] + \ &\hspace{13pt} - \mu_1 \mu_2 - \mu_1 E[x_{2_s}] - E[x_{1_s}] \mu_2
- E[x_{1_s}] E[x_{2_s}] = \ &= E[x_{1_s} x_{2_s}] - E[x_{1_s}] E[x_{2_s}] = \text{cov}[x_{1_s}, x_{2_s}] \end{align*}
Trasformazione ortogonale
Può tornare utile fare un cambio di variabile che permetta di ottenere una
matrice di covarianza delle y
diagonale.
Consideriamo le solite variabili Y_i
legate linearmente alle x_j
:
y_i = \sum_j = A^i_j x_j
\hspace{30pt} \Longrightarrow \hspace{30pt}
U_{ij} = \sum_{k,l} A_{ik} V_{kl} A^T_{lj}
Si tratta quindi di diagonalizzare la matrice U
: la soluzione è semplice,
la matrice A
è quella formata dagli autovalori di V
. Questo concetto è
utile nel caso della scelta delle coordinate da utilizzare.
Se immaginiamo di star utilizzando le coordinate polari \vec{x} = (x, y)
, la
matrice di covarianza sarà:
V = \begin{pmatrix}
\sigma_1^2 & \rho \sigma_1 \sigma_2 \\
\rho \sigma_1 \sigma_2 & \sigma_2^2
\end{pmatrix}
Diagonaliziamola: prima di tutto troviamo gli autovalori della matrice $V - \lambda I$:
\begin{vmatrix}
\sigma_1^2 - \lambda & \rho \sigma_1 \sigma_2 \\
\rho \sigma_1 \sigma_2 & \sigma_2^2 - \lambda
\end{vmatrix}
= (\sigma_1^2 - \lambda) (\sigma_2^2 - \lambda) - \rho^2 \sigma_1^2
\sigma_2^2 = 0
\begin{align*} &\Longrightarrow \hspace{30pt} \lambda^2 -(\sigma_1^2 + \sigma_2^2) \lambda + \sigma_1^2 \sigma_2^2 (1 - \rho^2) = 0 \ &\Longrightarrow \hspace{30pt} \lambda_{1,2} = \frac{\sigma_1^2 + \sigma_2^2 \pm \sqrt{\sigma_1^4 + \sigma_2^4 +2 \sigma_1^2 \sigma_2^2
- 4 \sigma_1^2 \sigma_2^2 + 4\rho^2 \sigma_1^2 \sigma_2^2}}{2} = \ &\Longrightarrow \hspace{30pt} \lambda_{1,2} = \frac{\sigma_1^2 + \sigma_2^2 \pm \sqrt{(\sigma_1^2 - \sigma_2^2)^2 +4 \rho^2 \sigma_1^2 \sigma_2^2}}{2} \end{align*}
e ora calcoliamo gli autovettori:
(V - \lambda I)\vec{r} = 0
\hspace{30pt} \Longrightarrow \hspace{30pt}
\begin{pmatrix}
\sigma_1^2 - \lambda & \rho \sigma_1 \sigma_2 \\
\rho \sigma_1 \sigma_2 & \sigma_2^2 - \lambda
\end{pmatrix}
\begin{pmatrix}
r_1 \\
r_2
\end{pmatrix}
=
\begin{pmatrix}
r_1 \\
r_2
\end{pmatrix}
\Longrightarrow \hspace{30pt}
\begin{cases}
(\sigma_1^2 - \lambda)r_1 + \rho \sigma_1 \sigma_2 r_2 = r_1 \\
\rho \sigma_1 \sigma_2 r_1 + (\sigma_2^2 - \lambda)r_2 = r_2
\end{cases}
\hspace{30pt} \Longrightarrow \hspace{30pt}
r_1 = \frac{}{} r_2
eccetera eccetera...