analistica/lectures/notes.md
Giù Marcer 9de7298ff7 lectures: added the file notes.md
It contains a very brief summary of the slides contents.
2020-07-05 11:36:07 +02:00

5.4 KiB
Raw Blame History

@1 ----------------------------------------------------------------------------

Numero di condizionamento

È il rapporto tra la variazione percentuale del risultato e la variazione percentuale del dato in ingresso. È un parametro utile per controllare se un problema sia mal o ben condizionato. Nel caso di una funzione f, questo parametro si riduce ad essere

x f'(x) / f(x)

e il limite per l'incremento dei dati iniziali tendente a zero è detto fattore di amplificazione e il problema potrebbe essere mal condizionato soltanto per determinati valori di x.

@2 ----------------------------------------------------------------------------

Probabilità condizionata

La seconda uguaglianza è valida se A e B sono eventi indipendenti.

       P(A ⋂ B)   P(A) P(B)

P(A|B) = -------- = --------- = P(A) P(B) P(B)

da cui si ottiene il teorema di Bayes:

       P(A ⋂ B) \

P(A|B) = -------- | P(B) | P(B|A) P(A) > P(A|B) = ----------- P(B ⋂ A) | P(B) P(B|A) = -------- | P(A) /

Correlazione tra variabili

Si può usare per determinare se una teoria sia valida oppure no dato un certo campione sperimentale (A è la teoria e B sono i dati). P(A ⋂ B) è la joint pdf. Le convoluzioni di Mellin e Fourier servono per trovare la pdf di una variabile che è rispettivamente il prodotto o la somma di altre due variabili con pdf nota (dimostrazione cartacea). La covarianza cov(x, y) è definita come:

cov(x, y) = E[x * y] - (μx * μy) = E[(x - μx)*(y - μy)]

e il coefficiente di correlazione è definito come:

ρ = cov(x, y)/(σx * σy)

ed è compreso tra -1 e 1. Dice quanto le varibili siano correlate: se è nullo, non lo sono per niente; se è positivo, sono inclinate in avanti, altrimenti sono inclinate in dietro. Per dei dati è definita la matrice di covarianza V (se sono indipendenti, sarà diagonale, con gli errori quadrati come entrate). Se poi ho delle grandezze che dipendono da questi dati, la loro matrice di covarianza U può essere calcolata da quella iniziale come:

U = AVA^T con Aij = ∂_xi yj

dove A è quindi la matrice del cambio di base nel caso di un cambio di variabili. In teoria questa cosa funziona solo se le y dipendono linearmente dalle x su dimensioni comparabili con le σ. Importante: eventuali errori sistematici si sommano in quadratura su tutta la matrice di covarianza.

Distribuzioni di probabilità

Abbiamo visto diversi tipi:

  • Binomiale / N \ E[n] = Np P(n, N, p) = | | p^n (1 + p)^(N - n) con \ n / V[n] = Np*(p-1)

    da cui si può poi ricavare la multinomiale.

  • Poissoniana

            ν^n
    

    P(n, ν) = --- e^(-ν) con E[n] = V[n] = ν n!

    Si ottiene dal caso precedente per N→∞ e p→0 con N*p = ν.

  • Uniforme 1 E[x] = (a + b)/2 P(x, b, a) = ----- con b - a V[x] = (b - a)^2/12

  • Gaussiana 1 / (x - μ)^2 \ E[x] = μ G(x, μ, σ) = -------- e^| - --------- | con √(2 π) σ \ 2 σ^2 / V[x] = σ^2

È il limite delle prime due distribuzioni per N→∞.

Il teorema centrale del limite dice che se una variabile è la somma di N variabli indipendenti tutte con la stessa pdf con valore medio μi e devstd σi, allora tale variabile ha distribuzione Normale con:

μ = Σμi e σ² = Σσ

@3 ----------------------------------------------------------------------------

Momenti di una distribuzione

A parte il valore medio e la varianza, solitamente si definiscono skewness e kurtosis:

    | (x - X)³ |          | (x - X)⁴ |

γ = E | -------- | k = E | -------- | - 3 | σ³ | | σ⁴ |

dove X è la media campionaria e 3 è la kurtosis della Gaussiana.

Test di ipotesi

Se ho dei dati sperimentali e devo scegliere tra due (o più) ipotesi, devo costruire una statistica di test che avrà una propria pdf e in questa porre un valore di soglia. Anche la pdf della statistica di test avrà una pdf o l'altra a seconda di quale delle due ipotesi sia vera.

  • Se è vera l'ipotesi nulla, l'area dal cut a +∞ è detta significanza α e 1 - α è detto livello di confidenza (o efficienza).
  • Se è vera l'ipotesi alternativa, se l'area da -∞ al cut è β, allora 1 - β è detta potenza del test (o purezza). Si chiama errore di prima specie se si scarta l'ipotesi nulla quando invece è vera ed errore di seconda specie quando la si accetta e invece è falsa. Noi abbiamo sempre controllato solo qual è la pdf della statistica di test nel caso in cui l'ipotesi nulla sia vera e abbiamo posto il livello di confidenza al 95%, ovvero α = 5%. La potenza è detta anche purezza perché è la probabilità di scambiare "rumore per segnale", mentre l'intervallo di confidenza si dice anche efficienza perché è la probabilità di scambiare "il segnale per segnale".

Il lemma di Neyemann Pearson dice che la statistica di test che massimizza la purezza una volta fissata l'efficienza è il rapporto delle Likelihood:

L(H0)/L(H1).

o comunque il rapporto delle probabilità di ottenere il campione misurato secondo le due ipotesi.