analistica/misc/lessons/sections/modulo-2-2.md
2020-03-06 02:24:32 +01:00

14 KiB

Statistica

Distribuzioni di probabilità

Una funzione di densità di probabilità f è definita in modo che la probabilità che una variabile x sia compresa tra x e x + dx sia data da:


  P(x \subset [x, x + dx]) = f(x)dx

dunque vale che:


  \int\limits_{- \infty}^{+ \infty} dx f(x) = 1

Si definisce funzione cumulante:


  F(x) = \int\limits_{- \infty}^x dx' f(x')

e quantile di ordine \alpha il valore di x per cui F(x) = \alpha.
Nel caso multidimensionale in cui si abbiano due o più variabili, si parla di joint pdf:


  f(x, y) \hspace{30pt} \Longrightarrow \hspace{30pt} 
  \int\limits_{- \infty}^{+ \infty} \int\limits_{- \infty}^{+ \infty}
  dx dy f(x, y) = 1

e si definiscono due distribuzioni marginali:


  f_x (x) = \int\limits_{- \infty}^{+ \infty} dy f(x, y)
  \hspace{50pt}
  f_y (y) = \int\limits_{- \infty}^{+ \infty} dx f(y, x)

dunque due variabili x e y sono indipendenti se $f(x) = f_x(x) \cdot f_y(y)$. Ora, se A è l'evento di probabilità f_x(x)dx, mentre B ha probabilità f_y(y)dy, allora si possono definire le pdf condizionali come segue:


  P(B|A) = \frac{P (A \cap B)}{P(A)} = \frac{f(x, y)dxdy}{f_x(x)dx}
  \hspace{20pt} \Longrightarrow \hspace{20pt} h(y|x) = \frac{f(x, y)}{f_x(x)}

per cui il teorema di Bayes diventa:


  g(x|y) = \frac{h(y|x)f_x(x)}{f_y(y)}

\begin{tikzpicture} \draw [thick, pink] (0,0) -- (1,0); \draw [red] (1.5,0) circle [radius=0.1]; \draw [thick, pink] (2,0) -- (3,0); \draw [red] (3.5,0) circle [radius=0.1]; \draw [thick, pink] (4,0) -- (5,0); \draw [red] (5.5,0) circle [radius=0.1]; \draw [thick, pink] (6,0) -- (7,0); \draw [red] (7.5,0) circle [radius=0.1]; \draw [thick, pink] (8,0) -- (9,0); \draw [red] (9.5,0) circle [radius=0.1]; \draw [thick, pink] (10,0) -- (11,0); \draw [red] (11.5,0) circle [radius=0.1]; \draw [thick, pink] (12,0) -- (13,0); \draw [red] (13.5,0) circle [radius=0.1]; \draw [thick, pink] (14,0) -- (15,0); \end{tikzpicture}

Paradosso di Borel-Kolmogorov

Si considerino dei punti distribuiti uniformemente sulla superficie del pianeta Terra: ci si aspetterebbe che i punti siano uniformemente distribuiti anche lungo un parallelo o un meridiano... ma consideriamo un meridiano: esso giace per il 25% a nord del 45'esimo parallelo e quindi, secondo la logica di prima, anche il 25% dei punti che si trovano su di esso. Però non è vero che il 45% della superficie terrestre è al di sopra del 45'esimo parallelo!
Il paradosso è risolto perché non ci si può basare su un insieme di misura nulla quale il meridiano (perché è unidimensionale). Lo si vede chiaramente adottando la terminologia poc'anzi introdotta:
Se la distribuzione è uniforme, la probabilità di trovare un punto in una certa superficie è dato dal rapporto tra l'angolo solido descritto da tale superficie e l'angolo solido totale:


  f(\theta, \phi) d\theta d\phi= \frac{d\phi d\theta \cos(\theta)}{4 \pi}

da cui è possibile determinare la due probabilità marginali:


  f_{\phi}(\phi) = \int\limits_{0}^{\pi} f(\theta, \phi) d\theta =
  \int\limits_{0}^{\pi} \frac{\cos(\theta)}{4 \pi} = \frac{\cos(\theta)}{2}

  f_{\theta}(\theta) = \int\limits_{0}^{2 \pi} f(\theta, \phi) d\phi =
  \frac{1}{2 \pi}

per cui si tratta di due costanti rispetto alle rispettive variabili. Da ciò si può dunque dedurre che, mentre la densità lungo un parallelo è effettivamente costante, lo stesso non si può dire riguardo a un meridiano.

\begin{tikzpicture} \draw [thick, pink] (0,0) -- (1,0); \draw [red] (1.5,0) circle [radius=0.1]; \draw [thick, pink] (2,0) -- (3,0); \draw [red] (3.5,0) circle [radius=0.1]; \draw [thick, pink] (4,0) -- (5,0); \draw [red] (5.5,0) circle [radius=0.1]; \draw [thick, pink] (6,0) -- (7,0); \draw [red] (7.5,0) circle [radius=0.1]; \draw [thick, pink] (8,0) -- (9,0); \draw [red] (9.5,0) circle [radius=0.1]; \draw [thick, pink] (10,0) -- (11,0); \draw [red] (11.5,0) circle [radius=0.1]; \draw [thick, pink] (12,0) -- (13,0); \draw [red] (13.5,0) circle [radius=0.1]; \draw [thick, pink] (14,0) -- (15,0); \end{tikzpicture}

Una funzione di una variabile casuale è essa stessa una variabile casuale. Consideriamo la pdf f(x) e una funzione a(x) di cui si vuole trovare la pdf g(a). Nel caso in cui l'inversa di a(x) sia univoca, definita dS la regione delle x per cui a \subset [a, a +da]:


  g(a)da = \int\limits_{dS} dxf(x)
  = \left| \int\limits_{x(a)}^{x(a +da)} f(x')dx' \right|
  = \int\limits_{x(a) +  \left| \frac{dx}{da} \right| da}^{x(a +da)} f(x')dx'

Ovvero:


  g(a) = f(x(a)) \left| \frac{dx}{da} \right|

e se x(a) non è univoca, allora bisogna considerare tutti gli intervalli $dS$ di dx che corrispondono a da.
Nel caso di funzioni di N variabili, siccome vale che:


  g(a')da' = \int \dots \int\limits_{dS} f(x_1 \dots x_N) dx_1 \dots dx_N

con dS regione dello spazio delle x compreso tra le isosuperfici:


  a(\vec{x}) = a' \hspace{10pt} \wedge \hspace{10pt} a(\vec{x}) = a' + da'

Nel caso in cui z = x \cdot y, si trova la convoluzione di Mellin:


  g(z)dz = \int\limits_{dS} dxdy f(x, y)
         = \int\limits_{-\infty}^{+\infty} dx
            \int\limits_{\frac{z}{x}}^{\frac{z + dz}{x}} dy f(x, y)

\textcolor{red}{Non ho capito questa parte...}

Propagazione degli errori

Consideriamo una variabile x con pdf f(x). Si definisce valore di aspettazione o media (e lo si indica spesso con \mu):


  E[x] = \int dx f(x) x

Nel caso di una variabile y(x) con pdf g(x), invece:


  E[y] = \int dy \cdot y \cdot g(y) = \int dx f(x) g(x)

Mentre si definisce varianza (e la si indica spesso con \sigma^2, mentre con deviazione standard si intende \sigma):


  V[x] = E[x - E[x]^2] = E[x^2] - \mu^2

Più in generale si definiscono 'momenti algebrici' E[x^n] =\mu'_n con \mu'_1 = \mu e 'momenti centrali' E[(x -\mu)^n] = \mu_n con $\mu_2 = \sigma^2$.
Si definiscono inoltre due grandezze di correlazione. La covarianza:


  \text{cov} [x, y] = E[xy] - E[x]E[y] = E[xy] - \mu_x \mu_y

che equivale a:

\begin{align*} \text{cov} [x, y] &= E[(x -\mu_x)(y -\mu_y)] \ &= E[xy -x\mu_y -y\mu_x + \mu_x\mu_Y] \ &= E[xy] -\mu_y E[x] -\mu_x E[y] + \mu_x \mu_y \ &= E[xy] -\mu_y mu_x - \mu_x \mu_y + \mu_x \mu_y \ &= E[xy] - \mu_x \mu_y \end{align*}

Notare che se x e y sono indipendenti, allora f(x, y) = f_x(x)f_y(y), perciò:


  E[xy] = \int dx \int dy xy f(x, y) = \mu_x \mu_y
  \hspace{20pt} \Longrightarrow \hspace{20pt} \text{cov} [x, y] = 0

e il coefficiente di correlazione:


  \rho_{xy} = \frac{\text{cov} [xy]}{\sigma_x \sigma_y}

Esempio di correlazione tra due
grandezze.{width=70%}

Anche se la f(\vec{x}) non è completamente nota, è comunque possibile stimare il valore medio e la varianza di una grandezza y(\vec{x}) conoscendo solo le stime di media e varianza della pdf. Espandiamo attraverso la serie di Taylor:


  y(\vec{x}) = y(\vec{\mu}) + \sum_{i= 1}^N \left[
  \frac{\partial y}{\partial x_i} \right]_{\vec{x}
  = \vec{\mu}} (x_i - \mu_i)

  \Longrightarrow \hspace{20pt} E[y] = y(\vec{\mu})
  \Longleftarrow \hspace{20pt} E[x_i] = \mu_i

Mentre per la varianza servono E[y^2] ed E[y]. Sempre passando attraverso uno sviluppo di Taylor attorno al valore medio:

\begin{align*} E[y^2] &= y^2(\vec{\mu}) + 2y(\vec{\mu}) \sum_{i = 1}^{N} \left[ \frac{\partial y} {\partial x_i} \right]{\vec{x} = \vec{\mu}} E[x_i - \mu_i] \ &+ E \left[ \left( \sum{i_1}^N \left[ \frac{\partial y}{\partial x_i} \right]{\vec{x} = \vec{\mu}} (x_i - \mu_i) \right) \left( \sum{j = 1}^N \left[ \frac{\partial y} {\partial x_i} \right]_{\vec{x} = \vec{\mu}} (x_j - \mu_j) \right) \right] \end{align*}

Siccome il secondo termine si annulla sempre perché E[x_i] = \mu_i, allora rimane che:


  V[y] = E[y^2] - E[y]^2 =  \sigma_y^2 = \sum_{i,j = 1}^N \left[
  \frac{\partial y}{\partial x_i}
  \frac{\partial y}{\partial x_j}\right]_{\vec{x} = \vec{\mu}} V_{ij}

Con V_{ij} che è la matrice di covarianza, che ha come entrate:


  V_{ij} = E[(x_i - \mu_i)(x_j - \mu_j)] = \rho_{ij} \sigma_i \sigma_j

e quindi, nel caso in cui le variabili siano scorrelate, si ottiene che:


  V_{ij} = \sigma_i^2 \delta_{ij}
  \hspace{20pt} \Longrightarrow \hspace{20pt}
  \sigma_y^2 = \sum_{i = 1}^N \left[ \frac{\partial y}{\partial x_i}
  \right]_{\vec{x} = \vec{\mu}}^2 \sigma_i^2

Cioè dice quanto cambia la y al variare del 'dato iniziale' \vec{x}. Ma quindi, per quanto visto prima:


  \text{cov} [x_i, x_j] = E[(x_i - \mu_i)(x_j - \mu_j)] = V_{ij}

Più in generale, date \vec{y} variabili dipendenti da \vec{x}, vale che:


  U = AVA^T \hspace{30pt} \text{con} \hspace{30pt} A_{ij} = \left[
  \frac{\partial y_i}{\partial x_j} \right]_{\vec{x} = \vec{\mu}}
  \hspace{30pt} \text{e con} \hspace{30pt} U_{kl} = \text{cov}[y_k, y_l]

dove U è detta matrice di covarianza delle y.
Attenzione: quanto detto fin'ora, che descrive in che modo gli errori di \vec{x} influenzano y, vale solo nel caso in cui y sia lineare nelle x. Quindi, in casi come y(x) = 1/x, non si può fare questo discorso.

\begin{tikzpicture} \draw [thick, pink] (0,0) -- (1,0); \draw [red] (1.5,0) circle [radius=0.1]; \draw [thick, pink] (2,0) -- (3,0); \draw [red] (3.5,0) circle [radius=0.1]; \draw [thick, pink] (4,0) -- (5,0); \draw [red] (5.5,0) circle [radius=0.1]; \draw [thick, pink] (6,0) -- (7,0); \draw [red] (7.5,0) circle [radius=0.1]; \draw [thick, pink] (8,0) -- (9,0); \draw [red] (9.5,0) circle [radius=0.1]; \draw [thick, pink] (10,0) -- (11,0); \draw [red] (11.5,0) circle [radius=0.1]; \draw [thick, pink] (12,0) -- (13,0); \draw [red] (13.5,0) circle [radius=0.1]; \draw [thick, pink] (14,0) -- (15,0); \end{tikzpicture}

Esempio

Consideriamo:


  y = x_1 - x_2

 \text{con} \hspace{30pt} \mu_1 = \mu_2 = 10 \hspace{30pt} \wedge
 \hspace{30pt} \sigma_1 = \sigma_2 = 1

allora abbiamo che y = y(x_1, x_2), quindi:


  E[y] = y(\mu_1, \mu_2) = 10 - 10 = 0

  V[y] = \sum_{i, j = 1}^2 \left[ \frac{\partial y}{\partial x_i}
  \frac{\partial y}{\partial x_j}\right]_{\vec{x} = \vec{\mu}} V_{ij} =
  1 \cdot V_{11} + 1 \cdot V_{22} -1 \cdot 2 \cdot V_{12}

Se le correlazioni sono nulle, allora $V_{12} = 0 \Longrightarrow V[y] = 2 \Longrightarrow \sigma_y = 1.4$, se invece x_1 e x_2 sono correlate, nel caso in cui il coefficiente di correlazione sia unitario si ha che $V[y] = 0$. Quindi la correlazione può cambiare di molto le cose.

\begin{tikzpicture} \draw [thick, pink] (0,0) -- (1,0); \draw [red] (1.5,0) circle [radius=0.1]; \draw [thick, pink] (2,0) -- (3,0); \draw [red] (3.5,0) circle [radius=0.1]; \draw [thick, pink] (4,0) -- (5,0); \draw [red] (5.5,0) circle [radius=0.1]; \draw [thick, pink] (6,0) -- (7,0); \draw [red] (7.5,0) circle [radius=0.1]; \draw [thick, pink] (8,0) -- (9,0); \draw [red] (9.5,0) circle [radius=0.1]; \draw [thick, pink] (10,0) -- (11,0); \draw [red] (11.5,0) circle [radius=0.1]; \draw [thick, pink] (12,0) -- (13,0); \draw [red] (13.5,0) circle [radius=0.1]; \draw [thick, pink] (14,0) -- (15,0); \end{tikzpicture}

Errori sistematici

Consideriamo due grandezze x_1 e x_2 con un errore sistematico in comune S:

\begin{align*} &x_1 = x_{1_0} + x_{1_s} \ &x_2 = x_{2_0} + x_{2_s} \end{align*}

si avrà che i termini con pedice 0 sono indipendenti tra loro, mentre gli altri due saranno correlati. Dato che gli errori si sommano in quadratura, la matrice di covarianza sarà quindi:


\text{cov}[x_1, x_2] = S^2 \hspace{30pt} \Longrightarrow \hspace{30pt}
V = \begin{pmatrix}
\sigma_1^2 + S^2 & S^2\\
S^2 & \sigma_2^2 + S^2
\end{pmatrix}

perché:

\begin{align*} \text{cov}[x_1, x_2] &= E[x_1 x_2] - E[x_1]E[x_2] = \ &= E[(x_{1_0} + x_{1_s})(x_{2_0} + x_{2_s})] - E[x_{1_0} + x_{1_s}] E[x_{2_0} + x_{2_s}] = \ &= E[x_{1_0}x_{2_0}] + E[x_{1_0}x_{2_s}] + E[x_{1_s}x_{2_0}]

  • E[x_{1_s}x_{2_s}] + \ &\hspace{13pt} - E[x_{1_0}]E[x_{2_0}] - E[x_{1_0}]E[x_{2_2}]
  • E[x_{1_s}]E[x_{2_0}] - E[x_{1_s}]E[x_{2_s}] = \ &= \mu_1 \mu_2 + \mu_1E[x_{2_s}] + E[x_{1_s}]\mu_2 +E[x_{1_s}x_{2_s}] + \ &\hspace{13pt} - \mu_1 \mu_2 - \mu_1 E[x_{2_s}] - E[x_{1_s}] \mu_2
  • E[x_{1_s}] E[x_{2_s}] = \ &= E[x_{1_s} x_{2_s}] - E[x_{1_s}] E[x_{2_s}] = \text{cov}[x_{1_s}, x_{2_s}] \end{align*}

Trasformazione ortogonale

Può tornare utile fare un cambio di variabile che permetta di ottenere una matrice di covarianza delle y diagonale.
Consideriamo le solite variabili Y_i legate linearmente alle x_j:


  y_i = \sum_j = A^i_j x_j
  \hspace{30pt} \Longrightarrow \hspace{30pt}
  U_{ij} = \sum_{k,l} A_{ik} V_{kl} A^T_{lj}

Si tratta quindi di diagonalizzare la matrice U: la soluzione è semplice, la matrice A è quella formata dagli autovalori di V. Questo concetto è utile nel caso della scelta delle coordinate da utilizzare.
Se immaginiamo di star utilizzando le coordinate polari \vec{x} = (x, y), la matrice di covarianza sarà:


V = \begin{pmatrix}
\sigma_1^2 & \rho \sigma_1 \sigma_2 \\
\rho \sigma_1 \sigma_2 & \sigma_2^2
\end{pmatrix}

Diagonaliziamola: prima di tutto troviamo gli autovalori della matrice $V - \lambda I$:


  \begin{vmatrix}
  \sigma_1^2  - \lambda & \rho \sigma_1 \sigma_2 \\
  \rho \sigma_1 \sigma_2 & \sigma_2^2 - \lambda
  \end{vmatrix}
  = (\sigma_1^2 - \lambda) (\sigma_2^2 - \lambda) - \rho^2 \sigma_1^2
  \sigma_2^2 = 0

\begin{align*} &\Longrightarrow \hspace{30pt} \lambda^2 -(\sigma_1^2 + \sigma_2^2) \lambda + \sigma_1^2 \sigma_2^2 (1 - \rho^2) = 0 \ &\Longrightarrow \hspace{30pt} \lambda_{1,2} = \frac{\sigma_1^2 + \sigma_2^2 \pm \sqrt{\sigma_1^4 + \sigma_2^4 +2 \sigma_1^2 \sigma_2^2

  • 4 \sigma_1^2 \sigma_2^2 + 4\rho^2 \sigma_1^2 \sigma_2^2}}{2} = \ &\Longrightarrow \hspace{30pt} \lambda_{1,2} = \frac{\sigma_1^2 + \sigma_2^2 \pm \sqrt{(\sigma_1^2 - \sigma_2^2)^2 +4 \rho^2 \sigma_1^2 \sigma_2^2}}{2} \end{align*}

e ora calcoliamo gli autovettori:


  (V - \lambda I)\vec{r} = 0
  \hspace{30pt} \Longrightarrow \hspace{30pt}
  \begin{pmatrix}
  \sigma_1^2  - \lambda & \rho \sigma_1 \sigma_2 \\
  \rho \sigma_1 \sigma_2 & \sigma_2^2 - \lambda
  \end{pmatrix}
  \begin{pmatrix}
  r_1 \\
  r_2
  \end{pmatrix}
  = 
  \begin{pmatrix}
  r_1 \\
  r_2
  \end{pmatrix}

  \Longrightarrow \hspace{30pt}
  \begin{cases}
  (\sigma_1^2 - \lambda)r_1 + \rho \sigma_1 \sigma_2 r_2 = r_1 \\
  \rho \sigma_1 \sigma_2 r_1 + (\sigma_2^2 - \lambda)r_2 = r_2
  \end{cases}
  \hspace{30pt} \Longrightarrow \hspace{30pt}
  r_1 = \frac{}{} r_2

eccetera eccetera...