File audio: I formati utilizzati nel Recording Studio

File Audio: I formati utilizzati nel Recording Studio

Chi produce e ascolta musica è abituato ad avere a che fare con file audio di diversa natura.

Formati audio digitali compressi come l’Mp3, ormai sono alla portata di tutti.

Questo, grazie alla diffusione dei player portatili dalle dimensioni e dai costi relativamente contenuti.

I file audio in formati Wave o Aiff sono più cari a chi la musica la produce, anziché all’ascoltatore.

A discapito di una dimensione anche dieci volte superiore rispetto ai file audio compressi, i formati audio non compressi consentono di ottenere la massima qualità offerta dall’audio digitale.

File Audio: Cos’è il Formato Wave?

I file audio con estensione Wav, tipicamente indicati con il termine Wave (da WAVEform audio format), nascono all’inizio degli anni Novanta nei laboratori Microsoft ed IBM.

Lo scopo era quello di sopperire alla mancanza di un formato, in grado di consentire la memorizzazione digitale di un flusso audio sui Personal Computer Intel-compatibili.

I formati Wave o Wav, comparvero per la prima volta con Windows 3.x, anche se piattaforme alternative come Amiga ed Apple offrivano già formati audio analoghi (Aiff).

Tuttavia il formato non compresso Aiff risultava incompatibile con i PC.

Struttura e Codec del Formato Wave

Il formato Wave definisce solamente la struttura del file, delegando a un codec la gestione del flusso audio.

A differenza di quanto avviene con altri file audio, il codec utilizzato dal formato Wav non prevede nessun tipo di compressione dei dati.

Il codec in questione è il PCM, e si limita soltanto ad offrire una rappresentazione digitale di un segnale analogico, lasciando inalterata la qualità del flusso audio originariamente acquisito tramite interfaccia A/D.

Essendo un formato lossless (senza perdita di informazioni), Wav si posiziona un gradino sopra rispetto ai formati audio compressi (Mp3, Wma e Ogg), tuttavia, a discapito delle dimensioni del file audio.

Indicativamente un file Wav occupa circa dieci volte più spazio su disco della controparte compressa.

Questa caratteristica ha frenato la diffusione sulle reti P2P, mentre rappresenta il formato standard per la manipolazione delle tracce audio nel Recording Studio.

La frequenza di campionamento

Per capire il funzionamento dei file audio compressi e non, è necessario comprendere il processo che consente di trasformare un segnale da analogico a digitale.

Nel processo di registrazione digitale, il segnale viene “campionato” numerose volte nell’arco di un secondo.

La quantità di rilevazioni nel tempo determina la frequenza di campionamento e si misura in Hertz: più alto è questo valore, più grande sarà la quantità di samples (campioni), al secondo.

Impostando la registrazione alla frequenza di 44.1 kHz (qualità CD) il segnale viene digitalizzato 44.100 volte nell’arco di un secondo (circa un campione ogni 22,7 microsecondi).

In base al teorema di Nyquist-Shannon, una tale sample rate consente di rappresentare correttamente le frequenze, fino alla soglia massima udibile dall’orecchio umano (circa 20.000 Hz).

La risoluzione e il numero di bit

La risoluzione di campionamento, determina il numero di bit adoperato per la rilevazione dei livelli di tensione del segnale in ingresso, relative alle escursioni d’ampiezza delle onde.

Più è alta e la risoluzione, tanto più accurata sarà l’ampiezza del segnale campionato.

Tasformare un suono in un file audio Wave a qualità CD (44.1 kHz/16 bit), significa che un secondo del file dovrà contenere 44.100 campioni da 16 bit, moltiplicato per 2 (segnale stereo).

Il file wav, dunque, occupa uno spazio di 44.100x16x2 bit (ossia 1.411.200 bit) per ogni secondo, e sono necessari 1.411 kbps (kilo bit per secondo) per poterlo riprodurre.

Un brano musicale della durata di 4 minuti, per essere memorizzato su hard disck, necessiterà di uno spazio equivalente a 1.411.200×240 bit (circa 40 megabyte).

Differenze tra formati Wave
Cos’è Valori comuni Note
Frequenza di campionamento Numero di volte che il segnale audio viene misurato (campionato) in un arco temporale. 11 kHz, 22 kHz, 44.1 kHz (CD Audio), 48 kHz, 96 kHz Maggiore è la frequenza di campionamento, maggiore è la qualità del suono.
Profondità campionamento Determina l’accuratezza con la quale è effettuato ciascun campionamento. 8 bit, 16 bit (CD Audio), 24 bit Ad un valore maggiore corrisponde un campione di qualità migliore.

Formato Wave e CDA

I formati Wave hanno molte caratteristiche in comune con le tracce presenti sui CD Audio, ma nonostante questo, non sono uguali.

Condividono il flusso codificato in PCM, ma le tracce dei CD sono sprovviste di alcune informazioni specifiche (header) presenti nei Wave, non interpretabili dai comuni impianti stereo.

La conversione dal formato Wav a CDA viene effettuata proprio rimuovendo queste informazioni.

Al contrario, uno dei programmi più diffusi che consente di estrarre da un CD tracce audio in formato Wav è Exact Audio Copy.

Formati audio compressi

I formati audio compressi, oggi, rappresentano lo standard di riferimento nella fruizione e nella produzione musicale.

Il vantaggio che si ottiene nel convertire un file Wave in Mp3 è straordinario: anziché avere in un CD meno di una ventina di canzoni (in 80 minuti), è possibile arrivare ad un centinaio.

Tuttavia, le compressioni audio di questo tipo sono definite lossy.

La compressione lossy fa perdere definitivamente alcune informazioni contenute nel file audio, degradando la qualità sonora.

Perdita che in certe circostanze risulta del tutto insignificante.

Formati audio compressi a confronto

Il formato ADPCM

Uno dei primi formati compressi ad essere progettato, per la codifica di molti segnali digitali, e non solo per l’audio, fu l’ADPCM.

Si basa sulla codifica dell’errore, anziché del segnale: in pratica, l’algoritmo effettua una previsione del campione a partire da un numero di sample che lo hanno preceduto.

A questo punto, valuta l’errore rispetto a quello reale e memorizza quest’informazione.

Se il primo campione, ad esempio, ha un valore di 100, il secondo 80 ed il terzo 75 (numeri arbitrari), una codifica che tiene conto solo del sample precedente potrebbe essere questa: 0, -20 e -5 (in pratica si “prevede” che il nuovo campione sia uguale al precedente e si conserva solo l’errore).

In questo modo si può usare un minor numero di bit per la codifica.

Gli standard Vox e Microsoft, infatti, prevedono 4 bit contro i 16 del formato PCM.

Applicato ai file audio, però, il risultato non è soddisfacente.

Il formato Wma

Il formato Wma (o ASF), è un standard proposto da Microsoft in risposta all’Mp3.

Non ha avuto lo stesso successo del suo antagonista, infatti, a parte il Windows Media Player, almeno in partenza, solo pochi software e lettori hardware lo hanno supportato, benché, a parità di bitrate, abbia una qualità leggermente superiore a quella dell’Mp3.

Il formato Ogg Vorbis

L’Ogg Vorbis, si propone come lo standard di compressione audio di alta qualità per i bitrate elevati, mentre per i bitrate bassi (sotto i 128 Kbps) non si rivela altrettanto efficace.

PCM ADPCM WMA OGG VORBIS MP3 MP3 X 5
GRANDEZZA FILE (KB) 6021 1505 568 576 546 545
CODIFICA (KBPS) 1411 353 128 128 128 128
QUALITA’
(1 – 10)
10 6 8+ 8 4

Il formato audio Mp3

La compressione audio si basa sulle teorie della psicoacustica, della percezione uditiva dell’uomo, sul mascheramento delle frequenze e la soglia di udibilità.

Il software che si occupa della compressione del file, compie le seguenti operazioni:

  • analizza lo spettro in frequenza
  • lo divide in sottobande
  • rimuove tutte quelle frequenze che stanno al di sotto della Soglia di udibilità (che in teoria non dovrebbero essere percepite)
  • trasforma in mono la gamma delle frequenze più basse dello spettro (sotto gli 80 Hz), ed in base alla potenza di ogni sottobanda, ne assegna un certo numero di bit per la codifica.

Rapporti di compressione del formato Mp3

Molti encoder (programmi che effettuano la compressione), offrono all’utente la scelta di svariati rapporti di compressione, indicati con delle proporzioni: 11.0:1, 8.8:1, 4.4:1 e cosi via.

Un minuto di audio non compresso occupa circa 10,1 MB, se viene compresso con un rapporto di 11.0:1, significa che avrà dimensioni pari ad un undicesimo del file originale, nel nostro caso si traduce in 930 Kb circa.

Bitrate CBR e VBR

Viste le tante possibilità offerte dai codec, sorge spontaneo interrogarsi su qua­le sia il giusto compromesso tra qualità e dimensione di un file audio compresso di tipo Mp3: se usare un bitrate costante (CBR) o variabile (VBR).

Nel primo caso, il codec assegna la stessa quantità di bit a ogni secondo di file, indipendentemente dal contenuto.

In questo caso è meglio non scendere mai al di sotto dei 128 kpbs.

Con un bitrate variabile (VBR), invece, il codec è sensi­bile al contenuto del brano: utilizza un numero maggiore di bit solo dove il brano lo richiede.

Per “contenuto”, s’intende la presenza di materiale sonoro più o meno complesso: il silenzio, ad esempio, è un file audio dal contenuto sonoro nullo.

So­litamente, nella creazione di un Mp3 con bitrare variabile (VBR), è necessario impostare soltanto un parametro di qualità (altissima, alta, media, bassa, bassissima), in base al quale il codec decide quanti bit assegnare a ciascun secondo di file.

Da Mp3 a WAVE

Possiamo anche compiere il percorso inverso, ossia riportare un file audio Mp3 alla codifica PCM, per ottenere un file Wav.

Nonostante ciò, non restituiremo al file le informazioni che gli sono state tolte.

Peggio ancora se il nuovo file audio Wave è soggetto ad editing, magari per aggiungere un effetto o intervenire sui volumi, fade, normalizzazione etc.

Salvandolo nuovamente su hard disk e scegliendo di comprimerlo, così com’era in origine, non faremo altro che applicare il doppio dei filtri, danneggiandolo irrimediabilmente.

La causa di tutto ciò è da ricercare nella proprietà delle sottobande ormai cambiate.

L’algoritmo di codifica individuerà altre frequenze nascoste, o con minore potenza, le quali saranno eliminate o private di qualche bit per la codifica.

Riassumendo, la compressione riduce le dimensione del file audio, conservando una discreta resa sonora.

Tuttavia, è consigliabile non comprimere il file più di una volta.

Soglia di udibilità e mascheramento

Gli algoritmi di codifica dei formati compressi prendono spunto dallo studio della percezione uditiva (psicoacustica).

Il primo parametro considerato è la Soglia d’udibilità: l’orecchio umano percepisce le frequenze da 20 Hz a 20.000 Hz (circa), ma risul­ta più sensibile alla gamma media (600-6.000 Hz).

Nella figu­ra A, in grigio è mostrata la sensibilità media dell’orecchio uma­no.

Soglia d'udibilità

Figura A – Soglia d’udibilità

Nota, come la Soglia d’udibilità (ampiezza in decibel – asse Y), varia a seconda della frequenza (asse Z).

Il secondo parametro è il Mascheramento (figura B).

In caso di sovrapposizione di suoni “deboli” e “forti” può accadere che gli ultimi nascondano i primi.

Mascheramento

Figura B – Mascheramento

Consideriamo un singolo tono (1 kHz) con volume di 40 dB.

Se gliene affian­chiamo uno a 1,2 kHz a 5 dB, i due toni non vengono distinti dal no­stro orecchio: il primo, con maggior volume, “maschera” l’altro.

Il mascheramento può avvenire anche nel tempo, vista la risposta non istantanea del nostro orecchio.

Considerando i due toni prece­denti, se il più alto termina dopo 2 secondi e il più basso dopo 2 se­condi e un decimo, generalmente non riusciremo a sentirlo.

Tutti i moderni formati di compressione audio, utilizzano questa tecnica che permette, nella codifica, il taglio dei toni “mascherati” e di con­seguenza una notevole diminuzione del numero di bit necessari.

Conclusioni

Abbiamo dunque visto, a grandi linee, la differenza tra alcuni formati audio compressi e non compressi.

L’argomento non si esaurisce in queste poche righe e richiede uno studio più approfondito in materia di acustica e psicoacustica.

Tuttavia le informazioni riportate costituiscono un punto di partenza per chi intende iniziare a produrre musica in Home Recording, e cominciare a distinguere le varie tipologie di file e formati audio con i quali “si avrà a che fare” in una produzione musicale.