La psicoacustica è lo studio della percezione soggettiva umana dei suoni.
Oggi viene utilizzata dall'ingegneria informatica, dall'ingegneria acustica, nell'educazione, nella medicina, nel marketing e naturalmente trova applicazione nella musica.
I musicisti cercano di creare nuove atmosfere acustiche sganciandosi dalla reale percezione sonora mentre gli scienziati e gli ingegneri si concentrano sulle caratteristiche della percezione uditiva e sulle componenti realmente udibili per l'analisi e la progettazione di strumenti e apparecchiature acustiche.
Il suono è composto da onde di pressione che si propagano attraverso l'aria, ma queste onde come vengono recepite e convertite in pensieri all'interno del nostro cervello?
Ciò che sentiamo, infatti, non dipende unicamente dalle caratteristiche fisiologiche legate alla conformazione del nostro orecchio, ma comporta anche implicazioni psicologiche.
Nel modello psicoacustico la ridondanza e l'irrilevanza sono i due concetti “chiave” che descrivono i motivi per cui una determinata quantità di dati audio viene considerata ininfluente, cioè può essere eliminata senza compromettere sensibilmente la qualità del suono.
Esiste una soglia al di là della quale le frequenze sonore non vengono percepite dall’orecchio umano, i suoni che si trovano al di là di questa soglia creano l’effetto di ridondanza. Ovviamente, un orecchio esercitato avrà tendenza a percepire suoni più complessi e frequenze più elevate. Questo rende la soglia di ridondanza un dato soggettivo entro certi limiti, ciò implica che per assicurare un suono di qualità sarà necessario mantenere un determinato effetto di ridondanza che è, quindi, una presenza inevitabile dell'informazione digitale. Una volta stabilita una soglia di ridondanza di qualità elevata è possibile rimuovere le frequenze e onde sonore che si trovano al di là di questa soglia e la percezione sonora non se ne troverà modificata.
Mentre nella ridondanza un certo numero di elementi sonori mantengono un’importanza nella restituzione della complessità sonora e sono utili alla percezione e alla qualità, l’irrilevanza è un criterio più radicale riguardante unità sonore del tutto impercettibili e, dunque, inutili e interamente eliminabili. A livello pratico ciò permette di semplificare il processo di registrazione e memorizzazione sonora.
La compressione audio di tipo lossy si basa sui criteri di ridondanza e d’irrilevanza e permette, quindi, di eliminare buona parte dei segnali audio senza che la qualità sonora venga compromessa.
Il principio su cui si basa la compressione lossy è il fatto che a seconda dei contesti sonori uno stesso elemento sonoro può acquisire grande rilevanza o essere completamente ignorato.
Ad esempio, se un cellulare squilla in chiesa durante un silenzioso tempo di preghiera, il suono sarà chiaramente percepito dai presenti, mentre, in una discoteca lo stesso suono si confonderà con il contesto sonoro sottostante.
L’analisi psicoacustica permette, dunque, drastiche riduzioni dei file High Quality (10 o 12 volte più piccoli) e dunque compressioni che comportano una perdita poco significativa di qualità. Tali riduzioni sono tipiche degli MP3.
Il modello psicoacustico dimostra, quindi, che le onde di bassa frequenza in contesti di onde ad alta frequenza non sono percepibili poiché vengono coperte da quelle di maggiore intensità. Questo effetto, chiamato mascheramento (masking), è la tendenza a concentrarsi maggiormente su determinati suoni a seconda del contesto e si basa sulla capacità dell’orecchio ad adattarsi ai rumori di sottofondo.
Inoltre, esiste uno specifico mascheramento legato al tempo di ricezione dei suoni a bassa ed alta frequenza.
Nonostante un suono di bassa frequenza venga recepito, se esso è immediatamente seguito da un suono ad alta frequenza, il primo suono verrà cancellato dal secondo, ecco perché tale effetto si chiama backward masking (mascheramento all'indietro).
Inversamente il forward masking (mascheramento in avanti) è caratterizzato dalla cancellazione di un suono a bassa frequenza che segue un suono ad alta frequenza.
Proprio su questi due effetti di masking si basa la differenza tra i primi due formati MPEG (Moving Picture Esperts Group: Comitato Internazionale che si occupa della codificazione audio e video di qualità) e il formato MP3. Infatti, i primi formati MPEG prendevano in considerazione solo il mascheramento di frequenza (layer audio 1 e layer audio 2), mentre, l’MP3 considera anche il terzo livello di mascheramento forward e backward (layer audio 3).
La particolarità del modello MP3 è quella di essere il metodo di rimozione sonora più completo. Partendo da una registrazione iniziale esso differenzia suoni e frequenze discriminando tonalità e tempistiche allo scopo di eliminare il superfluo. Tale discriminazione avviene dividendo il suono in 32 sottobande uguali, a cui vengono attribuite diverse priorità determinandone così codifica ed eliminazione.
Inizialmente, la codifica avviene in seguito alla digitalizzazione fedele del formato originale del brano con la divisione dello stesso in 32 sottobande uguali corrispondenti alle frequenze percepibili dall’orecchio umano.
In un secondo momento, le sottobande vengono analizzate e confrontate per individuare i fenomeni di masking.
In seguito, viene individuato il numero di bit necessari per mantenere le parti essenziali alla rappresentazione delle frequenze parzialmente mascherate.
Infine, tutte le informazioni verranno elaborate ed integrate per formare il bitstream, ossia, il formato Mp3.