Il suono è una vibrazione dell'aria che permette il susseguirsi di sovrappressioni e di depressioni dell'aria data dalla pressione atmosferica su una media matematica. Infatti, per convincersene, basta mettere un oggetto rumoroso (una sveglia ad esempio) in una campana vuota per accorgersi che l'oggetto inizialmente rumoroso non emette più alcun suono dal momento in cui non è più circondato d'aria. Il modo più semplice per riprodurre un suono è quello di far vibrare un oggetto. Un violino emette un suono quando l'archetto fa vibrare le sue corde, un piano emette una nota quando si tocca un tasto e un martello percuote una corda e la fa vibrare.
Per riprodurre dei suoni, si utilizzano generalmente degli altoparlanti. Si tratta in effetti di una membrana collegata ad un'elettrocalamita che, seguendo le sollecitazioni di una scarica elettrica, si muove avanti e indietro rapidamente, provocando una vibrazione dell'aria intorno, e da qui il suono:
In questo modo si producono delle onde sonore che possono essere rappresentate in un grafico come variazioni della pressione dell'aria (oppure dell'elettricità nell'elettrocalamita) rispetto al tempo. Si ottiene la rappresentazione seguente:
Questa rappresentazione del suono è detta spettro della modulazione d'ampiezza (modulazione d'ampiezza di un suono in funzione del tempo). Il sonogramma rappresenta invece la variazione delle frequenze sonore rispetto al tempo. Si può notare che un sonogramma presenta una frequenza principale, alla quale si sovrappongono delle frequenze più alte, dette armoniche:
Questo permette di distinguere diversi sorgenti sonore: i suoni gravi avranno delle frequenze basse, e i suoni acuti delle frequenze alte.
Per poter rappresentare un suono in un computer, bisogna riuscire a convertirlo in valori numerici, dato che è l'unico tipo di valori riconosciuti da un computer. Si tratta quindi di rilevare dei piccoli campioni di suono (differenze di pressione) ad intervalli di tempo precisi. Questa azione è detta campionamento o digitalizzazione del suono. L'intervallo di tempo fra i due campioni è chiamata tasso di campionamento.
Dato che per arrivare a restituire un suono che sembra continuo all'orecchio umano si ha bisogno di un campione ogni 100 000esimo di secondo, è più pratico ragionare sul numero di campioni al secondo, espresso in Hertz (Hz). Ecco qualche esempio di tasso di campionamento e di qualità di suono associate:
Tasso di campionamento | Qualità del suono |
---|---|
44 100 Hz | qualità CD |
22 000 Hz | qualità radio |
8 000 Hz | qualità telefono |
Il valore del tasso di campionamento, per un CD audio ad esempio, non è arbitrario, e dipende in realtà dal teorema di Shannon. La frequenza di campionamento deve essere sufficientemente grande, per preservare la forma del segnale. Il teorema di Nyquisit - Shannon enuncia che la frequenza di campionamento deve essere uguale o superiore al doppio della frequenza massima contenuta nel segnale. Il nostro orecchio percepisce i suoni fino a circa 20 000 Hz, quindi serve una frequenza di campionamento almeno dell'ordine di 40 000 Hz per ottenere una qualità soddisfacente. Esiste un certo numero di frequenze di campionamento normalizzate:
32 kHz per la radio FM in digitale (banda passante limitata a 15 kHz);
44.1 kHz per l'audio professionale e i CD;
48 kHz : per i registratori digitali multitraccia professionali e la registrazione grande pubblico (DAT, MiniDisc, ecc.).
Ad ogni campione (corrispondente ad un intervallo di tempo) è associato un valore che determina il valore della pressione dell'aria in quel momento, dunque il suono non è più rappresentato come una curva continua con variazioni ma come un susseguirsi di valori per ogni intervallo di tempo:
Il computer lavora con dei bit, bisogna quindi determinare il numero dei valori che il campione può prendere, cioè fissare il numero di bit sul quale si codificano i valori dei campioni:
Con una codifica su 8 bit, si hanno 28 possibilità di valori, cioè 256 valori possibili;
Con una codifica su 16 bit, si hanno 216 possibilità di valori, cioè 65536 valori possibili.
Con la seconda rappresentazione, si avrà ovviamente una migliore qualità di suono, ma anche un bisogno di memoria più importante. Infine, la stereofonia necessita due canali sui quali si registra individualmente un suono che sarà fornito all'altoparlante sinistro, nonché un suono che sarà diffuso su quello destro. Un suono è quindi rappresentato (informaticamente) da più parametri:
La frequenza di campionamento;
Il numero di bit di un campione;
Il numero di canali (uno solo corrisponde al mono, due allo stereo, e quattro alla quadrifonia).
È facile calcolare la dimensione di una sequenza sonora non compressa. In effetti, conoscendo il numero dei bit sul quale un campione è codificato, si conosce la dimensione di quest'ultimo (la dimensione di un campione è il numero dei bit, ecc.). Per conoscere la dimensione di un canale, basta conoscere il tasso di campionamento, che ci permetterà di sapere il numero di campioni al secondo, quindi la dimensione che occupa un secondo di musica. Questa vale:
Tasso di campionamento x numero di bit.
Così, per sapere lo spazio di memoria consumato da un estratto sonoro di qualche secondo, basta moltiplicare il valore precedente per il numero di secondi: Tasso di campionamento x numero di bit x numero di secondi. Infine, la dimensione finale dell'estratto è da moltiplicare per il numero di canali (sarà quindi due volte più grande in stereo che in mono, ecc.).
Nota Bene: tasso di campionamento per numero di bit per numero di secondi x numero di canali.
Foto: © Pixabay.