# Statistica ## Distribuzioni di probabilità Una funzione di densità di probabilità $f$ è definita in modo che la probabilità che una variabile $x$ sia compresa tra $x$ e $x + dx$ sia data da: $$ P(x \subset [x, x + dx]) = f(x)dx $$ dunque vale che: $$ \int\limits_{- \infty}^{+ \infty} dx f(x) = 1 $$ Si definisce funzione cumulante: $$ F(x) = \int\limits_{- \infty}^x dx' f(x') $$ e quantile di ordine $\alpha$ il valore di $x$ per cui $F(x) = \alpha$. Nel caso multidimensionale in cui si abbiano due o più variabili, si parla di joint pdf: $$ f(x, y) \hspace{30pt} \Longrightarrow \hspace{30pt} \int\limits_{- \infty}^{+ \infty} \int\limits_{- \infty}^{+ \infty} dx dy f(x, y) = 1 $$ e si definiscono due distribuzioni marginali: $$ f_x (x) = \int\limits_{- \infty}^{+ \infty} dy f(x, y) \hspace{50pt} f_y (y) = \int\limits_{- \infty}^{+ \infty} dx f(y, x) $$ dunque due variabili $x$ e $y$ sono indipendenti se $f(x) = f_x(x) \cdot f_y(y)$. Ora, se $A$ è l'evento di probabilità $f_x(x)dx$, mentre $B$ ha probabilità $f_y(y)dy$, allora si possono definire le pdf condizionali come segue: $$ P(B|A) = \frac{P (A \cap B)}{P(A)} = \frac{f(x, y)dxdy}{f_x(x)dx} \hspace{20pt} \Longrightarrow \hspace{20pt} h(y|x) = \frac{f(x, y)}{f_x(x)} $$ per cui il teorema di Bayes diventa: $$ g(x|y) = \frac{h(y|x)f_x(x)}{f_y(y)} $$ \begin{tikzpicture} \draw [thick, pink] (0,0) -- (1,0); \draw [red] (1.5,0) circle [radius=0.1]; \draw [thick, pink] (2,0) -- (3,0); \draw [red] (3.5,0) circle [radius=0.1]; \draw [thick, pink] (4,0) -- (5,0); \draw [red] (5.5,0) circle [radius=0.1]; \draw [thick, pink] (6,0) -- (7,0); \draw [red] (7.5,0) circle [radius=0.1]; \draw [thick, pink] (8,0) -- (9,0); \draw [red] (9.5,0) circle [radius=0.1]; \draw [thick, pink] (10,0) -- (11,0); \draw [red] (11.5,0) circle [radius=0.1]; \draw [thick, pink] (12,0) -- (13,0); \draw [red] (13.5,0) circle [radius=0.1]; \draw [thick, pink] (14,0) -- (15,0); \end{tikzpicture} ### Paradosso di Borel-Kolmogorov Si considerino dei punti distribuiti uniformemente sulla superficie del pianeta Terra: ci si aspetterebbe che i punti siano uniformemente distribuiti anche lungo un parallelo o un meridiano... ma consideriamo un meridiano: esso giace per il 25% a nord del 45'esimo parallelo e quindi, secondo la logica di prima, anche il 25% dei punti che si trovano su di esso. Però non è vero che il 45% della superficie terrestre è al di sopra del 45'esimo parallelo! Il paradosso è risolto perché non ci si può basare su un insieme di misura nulla quale il meridiano (perché è unidimensionale). Lo si vede chiaramente adottando la terminologia poc'anzi introdotta: Se la distribuzione è uniforme, la probabilità di trovare un punto in una certa superficie è dato dal rapporto tra l'angolo solido descritto da tale superficie e l'angolo solido totale: $$ f(\theta, \phi) d\theta d\phi= \frac{d\phi d\theta \cos(\theta)}{4 \pi} $$ da cui è possibile determinare la due probabilità marginali: $$ f_{\phi}(\phi) = \int\limits_{0}^{\pi} f(\theta, \phi) d\theta = \int\limits_{0}^{\pi} \frac{\cos(\theta)}{4 \pi} = \frac{\cos(\theta)}{2} $$ $$ f_{\theta}(\theta) = \int\limits_{0}^{2 \pi} f(\theta, \phi) d\phi = \frac{1}{2 \pi} $$ per cui si tratta di due costanti rispetto alle rispettive variabili. Da ciò si può dunque dedurre che, mentre la densità lungo un parallelo è effettivamente costante, lo stesso non si può dire riguardo a un meridiano. \begin{tikzpicture} \draw [thick, pink] (0,0) -- (1,0); \draw [red] (1.5,0) circle [radius=0.1]; \draw [thick, pink] (2,0) -- (3,0); \draw [red] (3.5,0) circle [radius=0.1]; \draw [thick, pink] (4,0) -- (5,0); \draw [red] (5.5,0) circle [radius=0.1]; \draw [thick, pink] (6,0) -- (7,0); \draw [red] (7.5,0) circle [radius=0.1]; \draw [thick, pink] (8,0) -- (9,0); \draw [red] (9.5,0) circle [radius=0.1]; \draw [thick, pink] (10,0) -- (11,0); \draw [red] (11.5,0) circle [radius=0.1]; \draw [thick, pink] (12,0) -- (13,0); \draw [red] (13.5,0) circle [radius=0.1]; \draw [thick, pink] (14,0) -- (15,0); \end{tikzpicture} Una funzione di una variabile casuale è essa stessa una variabile casuale. Consideriamo la pdf $f(x)$ e una funzione $a(x)$ di cui si vuole trovare la pdf $g(a)$. Nel caso in cui l'inversa di $a(x)$ sia univoca, definita $dS$ la regione delle $x$ per cui $a \subset [a, a +da]$: $$ g(a)da = \int\limits_{dS} dxf(x) = \left| \int\limits_{x(a)}^{x(a +da)} f(x')dx' \right| = \int\limits_{x(a) + \left| \frac{dx}{da} \right| da}^{x(a +da)} f(x')dx' $$ Ovvero: $$ g(a) = f(x(a)) \left| \frac{dx}{da} \right| $$ e se $x(a)$ non è univoca, allora bisogna considerare tutti gli intervalli $dS$ di $dx$ che corrispondono a $da$. Nel caso di funzioni di $N$ variabili, siccome vale che: $$ g(a')da' = \int \dots \int\limits_{dS} f(x_1 \dots x_N) dx_1 \dots dx_N $$ con $dS$ regione dello spazio delle $x$ compreso tra le isosuperfici: $$ a(\vec{x}) = a' \hspace{10pt} \wedge \hspace{10pt} a(\vec{x}) = a' + da' $$ Nel caso in cui $z = x \cdot y$, si trova la convoluzione di Mellin: $$ g(z)dz = \int\limits_{dS} dxdy f(x, y) = \int\limits_{-\infty}^{+\infty} dx \int\limits_{\frac{z}{x}}^{\frac{z + dz}{x}} dy f(x, y) $$ **\textcolor{red}{Non ho capito questa parte...}** ## Propagazione degli errori Consideriamo una variabile $x$ con pdf $f(x)$. Si definisce valore di aspettazione o media (e lo si indica spesso con $\mu$): $$ E[x] = \int dx f(x) x $$ Nel caso di una variabile $y(x)$ con pdf $g(x)$, invece: $$ E[y] = \int dy \cdot y \cdot g(y) = \int dx f(x) g(x) $$ Mentre si definisce varianza (e la si indica spesso con $\sigma^2$, mentre con deviazione standard si intende $\sigma$): $$ V[x] = E[x - E[x]^2] = E[x^2] - \mu^2 $$ Più in generale si definiscono 'momenti algebrici' $E[x^n] =\mu'_n$ con $\mu'_1 = \mu$ e 'momenti centrali' $E[(x -\mu)^n] = \mu_n$ con $\mu_2 = \sigma^2$. Si definiscono inoltre due grandezze di correlazione. La covarianza: $$ \text{cov} [x, y] = E[xy] - E[x]E[y] = E[xy] - \mu_x \mu_y $$ che equivale a: \begin{align*} \text{cov} [x, y] &= E[(x -\mu_x)(y -\mu_y)] \\ &= E[xy -x\mu_y -y\mu_x + \mu_x\mu_Y] \\ &= E[xy] -\mu_y E[x] -\mu_x E[y] + \mu_x \mu_y \\ &= E[xy] -\mu_y mu_x - \mu_x \mu_y + \mu_x \mu_y \\ &= E[xy] - \mu_x \mu_y \end{align*} Notare che se $x$ e $y$ sono indipendenti, allora $f(x, y) = f_x(x)f_y(y)$, perciò: $$ E[xy] = \int dx \int dy xy f(x, y) = \mu_x \mu_y \hspace{20pt} \Longrightarrow \hspace{20pt} \text{cov} [x, y] = 0 $$ e il coefficiente di correlazione: $$ \rho_{xy} = \frac{\text{cov} [xy]}{\sigma_x \sigma_y} $$ ![Esempio di correlazione tra due grandezze.](images/correlazione.png){width=70%} Anche se la $f(\vec{x})$ non è completamente nota, è comunque possibile stimare il valore medio e la varianza di una grandezza $y(\vec{x})$ conoscendo solo le stime di media e varianza della pdf. Espandiamo attraverso la serie di Taylor: $$ y(\vec{x}) = y(\vec{\mu}) + \sum_{i= 1}^N \left[ \frac{\partial y}{\partial x_i} \right]_{\vec{x} = \vec{\mu}} (x_i - \mu_i) $$ $$ \Longrightarrow \hspace{20pt} E[y] = y(\vec{\mu}) \Longleftarrow \hspace{20pt} E[x_i] = \mu_i $$ Mentre per la varianza servono $E[y^2]$ ed $E[y]$. Sempre passando attraverso uno sviluppo di Taylor attorno al valore medio: \begin{align*} E[y^2] &= y^2(\vec{\mu}) + 2y(\vec{\mu}) \sum_{i = 1}^{N} \left[ \frac{\partial y} {\partial x_i} \right]_{\vec{x} = \vec{\mu}} E[x_i - \mu_i] \\ &+ E \left[ \left( \sum_{i_1}^N \left[ \frac{\partial y}{\partial x_i} \right]_{\vec{x} = \vec{\mu}} (x_i - \mu_i) \right) \left( \sum_{j = 1}^N \left[ \frac{\partial y} {\partial x_i} \right]_{\vec{x} = \vec{\mu}} (x_j - \mu_j) \right) \right] \end{align*} Siccome il secondo termine si annulla sempre perché $E[x_i] = \mu_i$, allora rimane che: $$ V[y] = E[y^2] - E[y]^2 = \sigma_y^2 = \sum_{i,j = 1}^N \left[ \frac{\partial y}{\partial x_i} \frac{\partial y}{\partial x_j}\right]_{\vec{x} = \vec{\mu}} V_{ij} $$ Con $V_{ij}$ che è la matrice di covarianza, che ha come entrate: $$ V_{ij} = E[(x_i - \mu_i)(x_j - \mu_j)] = \rho_{ij} \sigma_i \sigma_j $$ e quindi, nel caso in cui le variabili siano scorrelate, si ottiene che: $$ V_{ij} = \sigma_i^2 \delta_{ij} \hspace{20pt} \Longrightarrow \hspace{20pt} \sigma_y^2 = \sum_{i = 1}^N \left[ \frac{\partial y}{\partial x_i} \right]_{\vec{x} = \vec{\mu}}^2 \sigma_i^2 $$ Cioè dice quanto cambia la $y$ al variare del 'dato iniziale' $\vec{x}$. Ma quindi, per quanto visto prima: $$ \text{cov} [x_i, x_j] = E[(x_i - \mu_i)(x_j - \mu_j)] = V_{ij} $$ Più in generale, date $\vec{y}$ variabili dipendenti da $\vec{x}$, vale che: $$ U = AVA^T \hspace{30pt} \text{con} \hspace{30pt} A_{ij} = \left[ \frac{\partial y_i}{\partial x_j} \right]_{\vec{x} = \vec{\mu}} \hspace{30pt} \text{e con} \hspace{30pt} U_{kl} = \text{cov}[y_k, y_l] $$ dove $U$ è detta matrice di covarianza delle $y$. Attenzione: quanto detto fin'ora, che descrive in che modo gli errori di $\vec{x}$ influenzano $y$, vale solo nel caso in cui $y$ sia lineare nelle $x$. Quindi, in casi come $y(x) = 1/x$, non si può fare questo discorso. \begin{tikzpicture} \draw [thick, pink] (0,0) -- (1,0); \draw [red] (1.5,0) circle [radius=0.1]; \draw [thick, pink] (2,0) -- (3,0); \draw [red] (3.5,0) circle [radius=0.1]; \draw [thick, pink] (4,0) -- (5,0); \draw [red] (5.5,0) circle [radius=0.1]; \draw [thick, pink] (6,0) -- (7,0); \draw [red] (7.5,0) circle [radius=0.1]; \draw [thick, pink] (8,0) -- (9,0); \draw [red] (9.5,0) circle [radius=0.1]; \draw [thick, pink] (10,0) -- (11,0); \draw [red] (11.5,0) circle [radius=0.1]; \draw [thick, pink] (12,0) -- (13,0); \draw [red] (13.5,0) circle [radius=0.1]; \draw [thick, pink] (14,0) -- (15,0); \end{tikzpicture} ### Esempio Consideriamo: $$ y = x_1 - x_2 $$ $$ \text{con} \hspace{30pt} \mu_1 = \mu_2 = 10 \hspace{30pt} \wedge \hspace{30pt} \sigma_1 = \sigma_2 = 1 $$ allora abbiamo che $y = y(x_1, x_2)$, quindi: $$ E[y] = y(\mu_1, \mu_2) = 10 - 10 = 0 $$ $$ V[y] = \sum_{i, j = 1}^2 \left[ \frac{\partial y}{\partial x_i} \frac{\partial y}{\partial x_j}\right]_{\vec{x} = \vec{\mu}} V_{ij} = 1 \cdot V_{11} + 1 \cdot V_{22} -1 \cdot 2 \cdot V_{12} $$ Se le correlazioni sono nulle, allora $V_{12} = 0 \Longrightarrow V[y] = 2 \Longrightarrow \sigma_y = 1.4$, se invece $x_1$ e $x_2$ sono correlate, nel caso in cui il coefficiente di correlazione sia unitario si ha che $V[y] = 0$. Quindi la correlazione può cambiare di molto le cose. \begin{tikzpicture} \draw [thick, pink] (0,0) -- (1,0); \draw [red] (1.5,0) circle [radius=0.1]; \draw [thick, pink] (2,0) -- (3,0); \draw [red] (3.5,0) circle [radius=0.1]; \draw [thick, pink] (4,0) -- (5,0); \draw [red] (5.5,0) circle [radius=0.1]; \draw [thick, pink] (6,0) -- (7,0); \draw [red] (7.5,0) circle [radius=0.1]; \draw [thick, pink] (8,0) -- (9,0); \draw [red] (9.5,0) circle [radius=0.1]; \draw [thick, pink] (10,0) -- (11,0); \draw [red] (11.5,0) circle [radius=0.1]; \draw [thick, pink] (12,0) -- (13,0); \draw [red] (13.5,0) circle [radius=0.1]; \draw [thick, pink] (14,0) -- (15,0); \end{tikzpicture} ### Errori sistematici Consideriamo due grandezze $x_1$ e $x_2$ con un errore sistematico in comune $S$: \begin{align*} &x_1 = x_{1_0} + x_{1_s} \\ &x_2 = x_{2_0} + x_{2_s} \end{align*} si avrà che i termini con pedice $0$ sono indipendenti tra loro, mentre gli altri due saranno correlati. Dato che gli errori si sommano in quadratura, la matrice di covarianza sarà quindi: $$ \text{cov}[x_1, x_2] = S^2 \hspace{30pt} \Longrightarrow \hspace{30pt} V = \begin{pmatrix} \sigma_1^2 + S^2 & S^2\\ S^2 & \sigma_2^2 + S^2 \end{pmatrix} $$ perché: \begin{align*} \text{cov}[x_1, x_2] &= E[x_1 x_2] - E[x_1]E[x_2] = \\ &= E[(x_{1_0} + x_{1_s})(x_{2_0} + x_{2_s})] - E[x_{1_0} + x_{1_s}] E[x_{2_0} + x_{2_s}] = \\ &= E[x_{1_0}x_{2_0}] + E[x_{1_0}x_{2_s}] + E[x_{1_s}x_{2_0}] + E[x_{1_s}x_{2_s}] + \\ &\hspace{13pt} - E[x_{1_0}]E[x_{2_0}] - E[x_{1_0}]E[x_{2_2}] - E[x_{1_s}]E[x_{2_0}] - E[x_{1_s}]E[x_{2_s}] = \\ &= \mu_1 \mu_2 + \mu_1E[x_{2_s}] + E[x_{1_s}]\mu_2 +E[x_{1_s}x_{2_s}] + \\ &\hspace{13pt} - \mu_1 \mu_2 - \mu_1 E[x_{2_s}] - E[x_{1_s}] \mu_2 - E[x_{1_s}] E[x_{2_s}] = \\ &= E[x_{1_s} x_{2_s}] - E[x_{1_s}] E[x_{2_s}] = \text{cov}[x_{1_s}, x_{2_s}] \end{align*} ### Trasformazione ortogonale Può tornare utile fare un cambio di variabile che permetta di ottenere una matrice di covarianza delle $y$ diagonale. Consideriamo le solite variabili $Y_i$ legate linearmente alle $x_j$: $$ y_i = \sum_j = A^i_j x_j \hspace{30pt} \Longrightarrow \hspace{30pt} U_{ij} = \sum_{k,l} A_{ik} V_{kl} A^T_{lj} $$ Si tratta quindi di diagonalizzare la matrice $U$: la soluzione è semplice, la matrice $A$ è quella formata dagli autovalori di $V$. Questo concetto è utile nel caso della scelta delle coordinate da utilizzare. Se immaginiamo di star utilizzando le coordinate polari $\vec{x} = (x, y)$, la matrice di covarianza sarà: $$ V = \begin{pmatrix} \sigma_1^2 & \rho \sigma_1 \sigma_2 \\ \rho \sigma_1 \sigma_2 & \sigma_2^2 \end{pmatrix} $$ Diagonaliziamola: prima di tutto troviamo gli autovalori della matrice $V - \lambda I$: $$ \begin{vmatrix} \sigma_1^2 - \lambda & \rho \sigma_1 \sigma_2 \\ \rho \sigma_1 \sigma_2 & \sigma_2^2 - \lambda \end{vmatrix} = (\sigma_1^2 - \lambda) (\sigma_2^2 - \lambda) - \rho^2 \sigma_1^2 \sigma_2^2 = 0 $$ \begin{align*} &\Longrightarrow \hspace{30pt} \lambda^2 -(\sigma_1^2 + \sigma_2^2) \lambda + \sigma_1^2 \sigma_2^2 (1 - \rho^2) = 0 \\ &\Longrightarrow \hspace{30pt} \lambda_{1,2} = \frac{\sigma_1^2 + \sigma_2^2 \pm \sqrt{\sigma_1^4 + \sigma_2^4 +2 \sigma_1^2 \sigma_2^2 - 4 \sigma_1^2 \sigma_2^2 + 4\rho^2 \sigma_1^2 \sigma_2^2}}{2} = \\ &\Longrightarrow \hspace{30pt} \lambda_{1,2} = \frac{\sigma_1^2 + \sigma_2^2 \pm \sqrt{(\sigma_1^2 - \sigma_2^2)^2 +4 \rho^2 \sigma_1^2 \sigma_2^2}}{2} \end{align*} e ora calcoliamo gli autovettori: $$ (V - \lambda I)\vec{r} = 0 \hspace{30pt} \Longrightarrow \hspace{30pt} \begin{pmatrix} \sigma_1^2 - \lambda & \rho \sigma_1 \sigma_2 \\ \rho \sigma_1 \sigma_2 & \sigma_2^2 - \lambda \end{pmatrix} \begin{pmatrix} r_1 \\ r_2 \end{pmatrix} = \begin{pmatrix} r_1 \\ r_2 \end{pmatrix} $$ $$ \Longrightarrow \hspace{30pt} \begin{cases} (\sigma_1^2 - \lambda)r_1 + \rho \sigma_1 \sigma_2 r_2 = r_1 \\ \rho \sigma_1 \sigma_2 r_1 + (\sigma_2^2 - \lambda)r_2 = r_2 \end{cases} \hspace{30pt} \Longrightarrow \hspace{30pt} r_1 = \frac{}{} r_2 $$ eccetera eccetera...