analistica/lectures/notes.md

@1 ----------------------------------------------------------------------------

# Numero di condizionamento

È il rapporto tra la variazione percentuale del risultato e la variazione
percentuale del dato in ingresso. È un parametro utile per controllare se
un problema è mal o ben condizionato.
Nel caso di una funzione f, questo parametro si riduce ad essere:

  x f'(x) / f(x)

e il limite per l'incremento dei dati iniziali tendente a zero è detto
`fattore di amplificazione` e il problema potrebbe essere mal condizionato
soltanto per determinati valori di x.

@2 ----------------------------------------------------------------------------

# Probabilità condizionata

La seconda uguaglianza è valida se A e B sono eventi indipendenti.

           P(A ⋂ B)   P(A) P(B)
  P(A|B) = -------- = --------- = P(A)
             P(B)       P(B)

da cui si ottiene il `teorema di Bayes`:

           P(A ⋂ B) \
  P(A|B) = --------  |
             P(B)    |            P(B|A) P(A)
                      >  P(A|B) = -----------
           P(B ⋂ A)  |               P(B)
  P(B|A) = --------  |
             P(A)   /

# Correlazione tra variabili

Si può usare per determinare se una teoria sia valida oppure no dato un certo
campione sperimentale (A è la teoria e B sono i dati). P(A|B) è la joint pdf.
Le `convoluzioni di Mellin e Fourier` servono per trovare la pdf di una
variabile che è rispettivamente il prodotto o la somma di altre due variabili
con pdf nota.
La `covarianza` cov(x, y) è definita come:

  cov(x, y) = E[x * y] - (μx * μy) = E[(x - μx)*(y - μy)]

e il coefficiente di correlazione di Pearson è definito come:

  ρ = cov(x, y)/(σx * σy)

ed è compreso tra -1 e 1. Dice quanto le variabili siano correlate: se è nullo,
non lo sono per niente; se è positivo, sono inclinate in avanti, altrimenti
sono inclinate in dietro.
Per dei dati è definita la `matrice di covarianza` V (se sono indipendenti,
sarà diagonale, con gli errori quadrati come entrate). Se poi ho delle
grandezze che dipendono da questi dati, la loro matrice di covarianza U può
essere calcolata da quella iniziale come:

  U = AVA^T   con   Aij = ∂_xi yj

dove A è quindi la matrice del cambio di base nel caso di un cambio di
variabili.
In teoria questa cosa funziona solo se le y dipendono linearmente dalle x su
dimensioni comparabili con le σ. Importante: eventuali errori sistematici si
sommano in quadratura su tutta la matrice di covarianza.

# Distribuzioni di probabilità

Abbiamo visto diversi tipi:
  - Binomiale
                    / N \                              E[n] = N*p
      P(n, N, p) = |     | p^n (1 - p)^(N - n)    con
                    \ n /                              V[n] = N*p*(1-p)

    da cui si può poi ricavare la multinomiale.
  - Poissoniana

                ν^n                                    E[n] = ν
      P(n, ν) = --- e^(-ν)                        con  
                n!                                     V[n] = ν

    Si ottiene dal caso precedente per N→∞ e p→0 con N*p = ν.
  - Uniforme
                      1                                E[x] = (a + b)/2
      P(x, a, b) =  -----                         con
                    b - a                              V[x] = (b - a)²/12
  - Gaussiana
                      1        /  (x - μ)² \          E[x] = μ
      G(x, μ, σ) = -------- e^| - --------  |    con 
                   √(2 π) σ    \    2 σ²   /          V[x] = σ²

È il limite delle prime due distribuzioni per N→∞.

Il `teorema centrale del limite` dice che se una variabile è la somma di N
variabili indipendenti tutte con la stessa pdf con valore medio μi e devstd σi,
allora tale variabile ha distribuzione Normale con:

  μ = Σμi   e   σ² = Σσi²

@3 ----------------------------------------------------------------------------

# Momenti di una distribuzione

A parte il valore medio e la varianza, solitamente si definiscono skewness e
kurtosis:

        | (x - X)³ |          | (x - X)⁴ |
  γ = E | -------- |    k = E | -------- |  - 3
        |    σ³    |          |    σ⁴    |

dove X e σ sono la media e la varianza e k = 3 - 3 = 0 per la Gaussiana.

# Test di ipotesi

Se ho dei dati sperimentali e devo scegliere tra due (o più) ipotesi, devo
costruire una `statistica di test` che avrà una propria pdf e in questa porre
un valore di soglia. Anche la pdf della statistica di test avrà una pdf o
l'altra a seconda di quale delle due ipotesi sia vera.

  - Se è vera l'ipotesi nulla, l'area dal cut a +∞ è detta significanza α e
    1 - α è detto livello di confidenza (o efficienza).
  - Se è vera l'ipotesi alternativa, se l'area da -∞ al cut è β, allora 1 - β
    è detta potenza del test (o purezza).

Si chiama errore di prima specie se si scarta l'ipotesi nulla quando invece è
vera ed errore di seconda specie quando la si accetta e invece è falsa.
Noi abbiamo sempre controllato solo qual è la pdf della statistica di test nel
caso in cui l'ipotesi nulla sia vera e abbiamo posto il livello di confidenza
al 95%, ovvero α = 5%.
La potenza è detta anche purezza perché è la probabilità di scambiare "rumore
per rumore", mentre l'intervallo di confidenza si dice anche efficienza perché
è la probabilità di scambiare "il segnale per segnale".

Il `lemma di Neyemann Pearson` dice che la statistica di test che massimizza la
purezza una volta fissata l'efficienza è il rapporto delle Likelihood:

  L(H0)/L(H1).

o comunque il rapporto delle probabilità di ottenere il campione misurato
secondo le due ipotesi.
Nel caso in cui le due pdf siano gaussiane, il discriminante di Fisher porta
allo stesso risultato che si otterrebbe con il rapporto delle Likelihood.

# Confronto di due datasets

Il test di `Kolmogorov-Smirnov` serve per confrontare dati non binnati: o un set
di dati con una funzione attesa, oppure due set di dati tra loro. Siccome
confronta tra loro le cumulative, va bene nel confrontare shifts dei dati o
grandi variazioni ma non piccoli dip nelle pdf. Per farlo in più dimensioni,
esistono varie idee ma non c'è n'è una standard e soprattutto la distribuzione
della statistica non è nota e va simulata.
Se i dati sono binnati, invece, allora si può usare il `test del χ²`:

         (ni - νi)²
  χ² = Σ ---------
             νi

e si guarda qual è il p-value della sua distribuzione, che è nota.

Il `p-value` è la probabilità di misurare un valore che si allontani ancora di
più del valore trovato rispetto alla statistica di test prevista dall'ipotesi
nulla. Ovvero:

  - se H0 dice che il valore medio di t è t0
  - ed io ho misurato un valore la cui statistica di test vale tx < t0
  - il p-value è dato dall'integrale da -∞ a tx della pdf della statistica di
    test nel caso in cui l'ipotesi nulla sia vera.

deve essere grande affinché l'ipotesi nulla possa essere ritenuta vera, dato
il dato controllato e quindi la significanza α dovrebbe essere grande (invece
la si mette sempre a 0.5 perché è standard). Oppure deve essere piccolo se
voglio confutarla (e quindi metterò una piccola significanza di riferimento).
Attenzione al `look-elsewhere effect`: se mi sforzo di trovare un p-value
minore di α (significanza), se faccio tante prove, prima o poi lo troverò, ma
non vuol dire che sia significativo.

@4 ----------------------------------------------------------------------------

# Stima di parametri (1)

Consideriamo una variabile casuale x che segue la pdf f(x), la quale ha dei
parametri Θ. Se io faccio una misura y di questi, allora otterrò uno stimatore
⊇(y) dei parametri Θ. Anche questo stimatore avrà una sua pdf che dipende dal
valore vero. Uno stimatore deve soddisfare alcuni requisiti:

  - consistenza: per N→∞, ⊇→Θ (convergenza in senso statistico);
  - unbias: E[⊇] = Θ
    Ovvero: ripetendo tante volte l'esperimento, il valore medio della
    distribuzione deve essere il valore vero;
  - deve avere una piccola varianza.

Per esempio, la media campionaria è uno stimatore consistente e unbiased della
media e la sua varianza è σ²/N, nel senso che se si ripetesse lo stesso
esperimento tante volte e si guardasse la distribuzione delle medie così
ottenute, otterremmo che queste medie seguono una pdf con questa varianza.
Affinché lo stimatore della varianza sia unbiased, si deve introdurre la
correzione di Bessel.

Un metodo che si può utilizzare è la maximum Likelihood. Se lo si applica al
caso di una gaussiana, si trova che gli stimatori della media e della varianza
sono la media e la varianza campionarie.

La disuguaglianza di `Cramer-Rao` (detto anche bound RCF) afferma che la matrice
di covarianza è >= all'inverso della matrice Hessiana di -L calcolata nel
minimo.

Uno `stimatore robusto` è poco sensibile ai valori nelle code della
distribuzione. È buono che gli stimatori siano robusti. Un esempio è la media
trimmata, in cui nel calcolo si escludono i punti più esterni.

L'`extended maximum Likelihood` si usa quando non ho deciso io il numero di
dati ma è esso stesso una misura sperimentale (come nel caso dei decadimenti):
in questo caso si moltiplica la Likelihood per la probabilità (Poissoniana) di
ottenere quel numero di decadimenti: se la relazione ν(Θ) è nota, ciò permette
di ottenere degli stimatori con minore varianza.

@5 ----------------------------------------------------------------------------

# Stima di parametri (2)

Il χ² è il metodo della Maximum Likelihood nel caso in cui:

  - ho delle misure yi(xi) affette da un rumore gaussiano,
  - i valori medi e le devstd di queste gaussiane sono λi e σi,
  - la Likelihood sarebbe il prodotto delle gaussiane e quindi il logaritmo è
    la somma degli esponenti
  - massimizzare questa somma equivale a minimizzare il χ² dove i valori
    attesi sono dati dalle λi e gli errori dalle σi.

Nella pratica i λi si suppone coincidano con il valore atteso della pdf e le
varianze con le varianze campionarie.
Nel caso in cui la funzione attesa sia lineare nei parametri, il metodo ha
soluzione analitica.
Di solito si guarda poi il `χ² ridotto` e il fit è buono se è prossimo a uno.

IMPORTANTE:
Il metodo della Likelihood e quello dei momenti si usano quando si hanno punti
distribuiti secondo una pdf e si vogliono stimare i parametri della pdf. NON
se si hanno delle y(x). Il metodo del χ², invece, si usa per trovare la
funzione che lega le y alle x (che poi abbiamo visto equivalere alla ML). Se
lo si vuole usare con dei dati ottenuti da una pdf, allora bisogna binnarli
in modo tale da ottenere le y.

Quando ci sono dei problemi nella minimizzazione del χ², si può provare ad
usare il `metodo dei momenti`, anche se generalmente dà risultati con maggiore
varianza (il teorema di `Gauss Markov` afferma che gli estimatori che si
trovano col χ² sono infatti quelli con la varianza minima).

  - Ho dei punti xi e voglio trovare i parametri della pdf fΘ(x),
  - calcolo analiticamente i momenti della funzione come integrali della
    funzione per x, per x², eccetera. (se i parametri sono n, calcolo i primi
    n momenti)
  - calcolo i momenti in modo discreto usando i dati xi
      (X = Σxi/N, X² = Σx²i(N)
  - uguaglio quelli analitici con quelli sperimentali e trovo i Θ.

L'errore è dato dalla propagazione degli errori (che è il solito U = AVA^T).

Il `teorema di Wilks` asserisce che la grandezza:

                /   L(μ)   \
  t = - 2 * ln | ---------- |
                \ L(μ_true)/

è distribuita come un χ². È facile dimostrarlo supponendo che i dati siano
attribuiti attorno ai relativi valori veri come Gaussiane centrate nei valori
veri con devstd data da quella campionaria.

@6 ----------------------------------------------------------------------------

# Intervalli di confidenza

Un intervallo di confidenza può soddisfare certe caratteristiche:

  - simmetrico: i bordi sono equidistanti dal valore centrale;
  - centrale: la parte di area della pdf lasciata fuori è uguale tra dx e sx;
  - one side: se uno dei due estremi è ±∞.

Dire che:

  x = x₀ ± δx CL = 68%

significa che ripetendo N volte l'esperimento, il 68% delle volte il valore
vero sarà dentro l'intervallo (non che il valore vero ha il 68% di probabilità
di essere in quell'intervallo, che non ha alcun senso...). Quando si vuole
stimare la media di una distribuzione, per il CLT questa segue una distribuzione
gaussiana per N→∞ e quindi gli intervalli di confidenza sono noti, date le σ.

La `quantile` di 0.5 è la mediana. Il che significa che la quantile è l'inversa
della cumulativa.
Considerando di avere ottenuto lo stimatore Θ del parametro O e di volere dare
un intervallo di confidenza pari a 1 - α - β. Dovrò trovare gli estremi a e b
che corrispondono a tali valori e per farlo dovrò utilizzare la quantile
dell'area che mi serve.

@7 ----------------------------------------------------------------------------

# Minimizzazione

Quando un estremo si trova sul bordo dell'intervallo, non è affatto detto che
la sua derivata prima sia nulla.
Non esiste un metodo che con certezza identifichi il `minimo globale` di una
funzione.

Data la precisione finita dei floating point, non si può trovare esattamente il
minimo: si troverà f(x) = f(x_min) + 1/2 d²f/dx² |x - x_min|. Si può porre un
valore di tolleranza per cui:

f(x) ~ f(x_min) se f(x_min) >> 1/2 d²f/dx² |x - x_min|²
    
           1/2 d²f/dx² |x - x_min|²                     / 2 ε f(x_min) \
    → ε >> ------------------------  →  |x - x_min| << | -------------- |^(1/2)
                   f(x_min)                             \    d²f/dx²   /

Vediamo un po' di metodi.

  - `Metodo di bisezione`:
  Per trovare la radice di una funzione. Si può usare quando gli estremi sono
  f(a) > 0 > f(b) e la funzione è monotona. Si divide a metà e si guarda se è
  positivo o negativo e poi si aggiornano gli estremi in modo da tenere i due
  vicini a segni opposti.

  - Metodo analogo:
  Se invece la funzione è di forma pseudoparabolica con estremi a e b, allora
  si sceglie un punto a < x < b tale che f(a) > f(x) e f(b) > f(x), perché
  questo assicura che il minimo sia compreso nell'intervallo [a, b]. Poi si
  sceglie un terzo punto x', per esempio tra a e x: se f(x') > f(x), allora
  tengo l'intervallo [x', b], altrimenti tengo [a, x] (cioè devono sempre
  esserci tre punti dentro, compresi gli estremi).
  - Se si utilizza il `rapporto aureo` (3 - √5)/2, allora la convergenza è
    ottimale. È una convergenza lineare, nel senso che il numero di cifre
    significative che si ottengo del minimo cresce linearmente col numero
    di iterazioni.
  - Se la funzione è particolarmente semplice, si può usare il `metodo della
    parabola`: si fittano i tre punti con una parabola e si trova il minimo
    di quest'ultima. Poi il set dei tre punti è aggiornato tenendo il
    vertice e i due punti contigui.
  - Il metodo di Brent combina questi due metodi.

Nel caso N-dimensionale diventa più complicato.

  - `Metodo del simplesso`:
  Si considerano N+1 punti in uno spazio N-dimensionale (per esempio un
  triangolo nel piano): questo simplesso può riflettersi, estendersi o
  contrarsi. Ad ogni iterazione, il vertice in cui la funzione assume il
  valore maggiore viene aggiornato. L'algoritmo termina quando il
  simplesso diventa sufficientemente piccolo (perché in corrispondenza
  del minimo inizia a contrarsi). Il problema si ha quando c'è un grosso
  avvallamento, perché inizia a perdersi. È un procedimento molto lento.

  - `Metodo delle direzioni`:
  Si può minimizzare la funzione in una direzione e poi dal punto di minimo
  scegliere un'altra direzione e minimizzare in quest'altra, ecc ecc. Un
  esempio di ricerca delle direzioni è quello delle direzioni coniugate, ma ce
  ne sono molti altri.

Per testare se un metodo di minimizzazione funziona bene, sono state inventate
alcune funzioni di test patologiche.

@8 ----------------------------------------------------------------------------

# Tecniche Monte Carlo

Una tecnica Monte Carlo è una qualsiasi tecnica che preveda la generazione di
numeri casuali.
Si possono usare per stimare il valore dell'integrale e la convergenza è
dell'ordine 1/√N. Il vantaggio rispetto alle tecniche numeriche è che la
convergenza resta dello stesso ordine anche nel caso di più dimensioni.
Più precisamente, l'errore è:

  V(f)/√N

dove V(f) è la varianza dei punti generati e dipende dal metodo utilizzato.
L'`importance sampling` e lo `stratified sampling` permettono di ridurre V(f).
Un altro metodo è quello delle `variabili antitetiche`: per calcolare la media
di f (perché I = V*<f>), si estrae un campione di punti {xi}, che avrà varianza
σi, e un campione {yi} con punti scelti in modo tale, per esempio, che per ogni
xi:

  yi = (a - b)[1 - xi/(b - a)]

In questo modo i due campioni hanno covarianza negativa e quindi la varianza
totale è inferiore. Notare che in questo caso si deve sommare anche la
covarianza perché i punti sono stati generati in modo correlato.

# Numeri casuali e pseudocasuali

Generare numeri veramente casuali è molto più complesso di generare `numeri
pseudocasuali`. Infatti il computer, per generarli, utilizza una formula ben
precisa che ha lo scopo di rendere dei numeri apparentemente casuali. In
realtà hanno anche un periodo. I generatori attualmente usati sono
principalmente di due tipi:

  - congruenti moltiplicativi:

      ri = [a*ri-1 (mod m)]

  - congruenti misti:

      ri = [a*ri-1 +b (mod m)]

il periodo è al massimo m/4 e di solito m = 2^t con t numero di bits di un
intero nella macchina considerata, il che significa che è il più grande intero
rappresentabile.

Un generatore di numeri casuali deve essere sottoposto a test di randomness.
Infatti può sembrare che i punti in 3D si dispongano casualmente ma in realtà,
visti dalla giusta angolazione, può verificarsi che si dispongano in realtà
su dei piani (o su iperpiani in N-dimensioni).

# Numeri casuali secondo pdf generiche

Se si dispone di un generatore di numeri casuali uniformi, esistono tre
metodi per generare numeri secondo una pdf generica:

  - `Reverse sampling`:
    Consideriamo la cdf F(x) di una variabile x distribuita secondo f(x) come
    una variabile casuale a sua volta. Si può facilmente dimostrare che la pdf
    di questa variabile è uniforme.
    Si possono quindi pescare numeri uniformemente tra 0 e 1 e poi calcolarne
    la quantile (cioè l'inversa della F(x): si ottengono punti distribuiti come
    f(x)).

  - `Metodo di composizione`:
    Si suddivide la pdf nella somma di due o più pdf (ognuna delle quali deve
    risultare normalizzata e quindi avrà il suo opportuno coefficiente
    moltiplicativo). I coefficienti moltiplicativi verranno utilizzati per
    decidere quando pescare secondo una o l'altra pdf pescando un primo numero
    random. Un secondo numero random verrà poi usato tramite reverse sampling.
   
  - `Metodo hit-miss`:
    Si pescano numeri a caso in un'area che contiene la funzione e poi si
    tengono se sono sotto alla funzione e si scartano se sono sopra.

Per generare numeri secondo una Gaussiana, basta usare il CLT. Si pescano
numeri casuali e si considera la distribuzione della somma (riga 94).

Le simulazioni MC sono molto utili per capire se conviene apportare certe
modifiche alle strumentazioni sperimentali oppure no.

@9 ----------------------------------------------------------------------------

# Tecniche di deconvoluzione

Esistono diverse tecniche di deconvoluzione dei dati.

  - `Matrice di correzione`:
    Si suppone che i dati osservati derivino da quelli veri in questo modo:

      ν = R * μ + β  →  νi = Rij μj + βi

    dove β è un eventuale fondo e R è la matrice di correzione.
    Notare che Σj di R_ij dà l'efficienza con cui il segnale μ_j viene
    trasformato in segnale osservato.
    In realtà i segnali osservati sono n_i, ognuno dei quali appartiene ad una
    poissoniana di media ν_i. Si può massimizzare la Likelihood per trovare i
    parametri ν_i e poi invertire la matrice e sottrarre il fondo.

      μj = (νi - βi) Rij^-1 ~ (ni - βi) Rij^-1

    Massimizzando la Likelihood, si ottengono stimatori unbias e con varianza
    minima n_i = ν_i. Se si fa così, però, siccome il problema dell'unfolding
    è mal posto, si ottiene che se i dati veri sono lievemente diversi da
    quelli misurati, il risultato sarà molto diverso da quello ottenuto.
    Ciò si traduce nell'ottenere una varianza enorme sui valori μi. Si deve
    accettare di aumentare il bias per poter minimizzare la varianza:
    `procedura di unfolding generalizzata`.

  - `Metodo dei fattori di correzione`:
    I valori veri vengono stimati come:

      μi = Ci (ni - βi)

    dove Ci può essere stimato tramite simulazioni MC come:

      μi = Ci νi  →  Ci = μi/νi

    dove μi e νi sono creati attraverso due simulazioni MC:i primi simulando
    solo la fisica del sistema e i secondi simulando anche la risposta della
    strumentazione utilizzata (ma senza simulare il fondo).
    In pratica, il fattore Ci ci dice quanta parte di quanto osservato nel bin
    i-esimo appartiene effettivamente al bin i-esimo.
    Questo metodo funziona bene se non c'è molta migrazione tra bin e bin: è
    valido per dare una prima idea.

  - `Unfolding regolarizzato`:
    In questo caso si cerca sempre uno stimatore bias con varianza maggiore ma
    si cerca di ottenere una soluzione più liscia: lo si fa ponendo un limite Δ
    alla differenza tra le likelihood L_max e L(μ) usata (per non allontanarsi
    troppo dalla soluzione ottimale):

      L(μ) >= Lmax - ΔL

    Dove L(μ) = Lmax se è soddisfatta la soluzione ML.
    Tra le soluzioni che soddisfano questa equazione, si prende quella con la
    maggiore smoothness. La smoothness è definita tramite una funzione S(μ)
    chiamata funzione di regolarizzazione. Bisogna cioè massimizzare la
    funzione:

      f(μ) = αL(μ) + S(μ)

    Per cominciare si fissa α in base al ΔL scelto, considerando che:
    - per α = 0 si ottiene la soluzione più smooth che però ignora i dati;
    - per α → ∞ la soluzione non è smooth, perché massimizzare f(μ) equivale
      semplicemente a scegliere L(μ) = Lmax.
    Poi si massimizza per μ, imponendo anche il constraint:

      Σi νi = Σij Rij μj = Ntot

    E quindi ci ri riduce al metodo dei moltiplicatori di Lagrange, ovvero si
    deve massimizzare:

      f(μ) = αL(μ) + S(μ) + λ[Ntot - Σij Rij μj]

    Esistono poi diversi metodi per scegliere α e S(μ).

    - `Regolarizzazione di Tikhonov`:
      Si prende come S(h) l'opposto della rms della derivata k-esima della
      'funzione' μ, dove il segno meno è messo perché così, più la derivata
      tende a 0, più la funzione è liscia. Chiaramente, trattandosi di dati
      discreti, si fa la derivata numerica tra bin consecutivi.
      
    - `Regolarizzazione con il Max Ent`:
      Si usa la definizione di entropia per un set di probabilità pi:

        H = - Σi pi ln(pi)

      e l'entropia è massima se tutte le probabilità sono uguali ed è minima
      se una è unitaria e le altre sono tutte zero. L'idea è di usare H come
      funzione di regolarizzazione, dove:

        pi = μi/Ntot

    Per quanto riguarda la scelta di α, essa rappresenta un compromesso tra
    bias (L(μ)) e varianza (S(μ)). in genere lo si sceglie minimizzando la
    matrice di covarianza, cioè il χ².

@10 ---------------------------------------------------------------------------

# Catena di acquisizione

La grandezza da misurare viene convertita in segnale elettronico da un
trasduttore (per esempio un fotomoltiplicatore che converte l'energia di un
fotone in tensione); dopodiché il segnale viene digitalizzato da un ADC
(Analogical to Digital Converter) ed elaborato (per esempio con filtri e
amplificatori) e infine i dati vengono acquisiti da un'unità di acquisizione
dati, il DAQ (DAta acQuisition), e memorizzati.
Un sistema di acquisizione può influenzare i dati stessi se è implementato
un sistema di feedback nel circuito di amplificazione.
L'ADC comincia a registrare i dati dopo un segnale di `triggering`, ovvero
quando una certa soglia è stata superata, indicando che un segnale è stato
rilevato.

In un pc, i dati vengono salvati in formato binario. Mentre per i numeri la
conversione è immediata, per il linguaggio alfanumerico sono state inventate
delle `codifiche` come per esempio il codice ASCII o l'UTF8. La tabella unicode
contiene tutti i codepoint e descrive come eventualmente si fondono.

Il `bus` è l'insieme delle linee elettriche che collega vari dispositivi,
ognuno dei quali è identificato univocamente da un indirizzo. I dispositivi
possono essere masters o slaves o entrambe le cose. Gli slaves possono solo
rispondere, mentre i masters possono decidere di mandare cose a chi vogliano.

Gli `ADC` possono essere peak-sensing (digitalizzano il valore di picco del
segnale) o flesh (campionando la forma del segnale). Alcuni parametri
caratterizzano un ADC:

  - risoluzione: quantità di bit a disposizione;
  - tempi di conversione: tempo impiegato a digitalizzare un segnale;
  - precisione di conversione (derive termiche, ecc).

Il `trigger` determina che il segnale arrivato sia effettivamente segnale e
non fondo. È possibile che ci siano diversi parametri che devono essere
soddisfatti affinché il segnale possa essere ritenuto valido e ci vuole del
tempo per verificarli tutti. Questi diversi trigger sono dunque affiancati da
dei buffer che immagazzinano momentaneamente la grande quantità di segnali in
arrivo.
Ogni processore, infatti, ha un deadtime, cioè un tempo in cui non è in grado
di cominciare a processare altri segnali perché sta processando l'ultimo
arrivato. Quindi anche il processore finale, che è il vero collo di bottiglia,
ha un buffer.

-------------------------------------------------------------------------------