AF Focus Featured home In evidenza Insider

Prof. Sarti #2: il surround Wearable

surround wearable

Con il crescente interesse del mercato verso le modalità d’ascolto “Wearable” facciamo il punto su ciò che ricerca e tecnologia offrono in ambito surround.

articolo pubblicato su AF Digitale – Gennaio 2011

C’è un certo fervore in questo periodo intorno ai player portatili e alle cuffie di qualità. Questo fervore è in parte motivato dalle mode correnti e in parte fomentato da ragioni tecnologiche e di mercato più articolate. Da un lato, infatti, i player portatili diventano più capienti e dotati di maggiore potenza; dall’altro crescono le aspettative di qualità e di immersività dell’esperienza di ascolto.

I player si fanno la guerra a suon di applicazioni avanzate di elaborazione dei segnali o promettono conversioni analogico-digitali di qualità mirabolante. Tornano quindi in auge le cuffie a padiglioni di dimensioni non proprio trascurabili, magari a colori sgargianti.


Cosa offrono i formati di codifica e compressione oggi e fino a che punto ha senso spingersi?

Visto che i prezzi e le aspettative cominciano a salire, forse è il caso di fermarsi qualche minuto a meditare sulla situazione. Cosa possiamo aspettarci in prospettiva da un sistema di ascolto di tipo “wearable”?

Il Fraunhofer Institute for Integrated Circuits (IIS) tedesco, inventore del formato di compressione Mp3, sta oggi cercando di recuperare il terreno perso negli ultimi anni nell’offensiva di AAC (il formato di iPod, per intenderci), rilanciando un Mp3 vestito a festa, in grado di supportare il suono surround a 5.1 canali.

L’obiettivo, ovviamente, è il vastissimo mercato delle applicazioni Web, delle radio digitali, delle applicazioni di gaming, dei prodotti consumer, e del settore automobilistico. Il formato Mp3 Surround supporta il suono multicanale di alta qualità a bit rate comparabili a quelli oggi usati per codificare un audio stereo in formato Mp3, producendo file di dimensione pari a circa la metà dei comuni formati surround compressi. Ma l’aspetto forse più interessante del formato sta nella “compatibilità all’indietro” del formato verso qualunque player Mp3 sia esso software che hardware.

Fraunhofer IIS

Cos’è l’Mp3?

MP3 è un’abbreviazione per la sigla MPEG-1/MPEG-2 Layer 3. Si tratta di un formato di codifica audio basato su tecniche di compressione “con perdita” su base “percettiva”, ovvero che eliminano in modo controllato informazioni che risultano poco percepibili all’udito. Si tratta di un formato oggi utilizzato per quasi tutte le applicazioni di trasporto e memorizzazione di contenuti audio digitali. Si stima, infatti, che ogni mese vengano scaricati o trasferiti via Internet oltre un miliardo di tracce musicali codificate in Mp3.

Come dice il nome, lo sviluppo di Mp3 è legato al Moving Pictures Expert Group (MPEG), un gruppo di lavoro istituito nei primi anni ‘80 dall’International Organization for Standardization (ISO) e dalla commissione elettrotecnica internazionale (IEC) per sviluppare uno standard di codifica e compressione di flussi video. L’inizio dei lavori di standardizzazione dell’audio, d’altro canto, cominciarono ufficialmente solo nel 1988 a seguito di una riunione del gruppo MPEG, che costituì un sottocomitato preposto allo sviluppo di uno standard di compressione audio. Emerse subito il gruppo di ricerca del professor Karlheinz Brandenburg dell’istituto Fraunhofer IIS di Ilmenau, in Baviera.

Il professore faceva ricerca su questo tema già dal 1977, e quando MPEG avviò la sottocommissione audio, stava lavorando a un progetto Europeo EUREKA (EU147) dedicato al Digital Audio Broadcasting (DAB). Collaborando con il professor Dieter Seitzer, dell’Università di Erlangen-Norinberga, che si occupava di trasmissione di musica su linee telefoniche, Brandenburg si lanciò nella corsa allo sviluppo di un formato di codifica standard per l’audio. Fu una scelta vincente che portò al deposito di un brevetto per Mp3 nel 1989. Ma la strada per il successo era ancora lunga, perché occorreva ancora la benedizione di MPEG per sancirne l’importanza.

Karlheinz Brandeburg
Dr. Karlheinz Brandeburg

La redazione di AF Digitale ha avuto occasione di incontrare Brandenburg a settembre dell’anno scorso…

Esatto, quando venne in visita al Politecnico di Milano (sede di Como) per partecipare a una conferenza scientifica da me organizzata (Digital Audio Effects 2009). In quell’ occasione mi raccontò che il progetto di sviluppo e standardizzazione di Mp3 ebbe non poche vicissitudini e difficoltà, al punto di rischiare la cancellazione delle sue attività nel 1991 a causa di un dimostratore non funzionante. Ciò nonostante, nel 1992 l’Mp3 fu finalmente integrato in MPEG, tra il 1993 e l’anno seguente furono pubblicati i documenti di standardizzazione relativi.

Ultimo passo importante fu L’estensione del brevetto negli USA nel 1996. Da questo momento in poi il personale legale del Fraunhofer IIS si decuplicò per proteggere il brevetto e garantirne l’applicazione. Tutti gli sviluppatori di codificatori e player Mp3 (hardware o software) dovettero quindi iniziare a pagare i costi di licenza al Fraunhofer. Nel 1999 cominciarono a comparire sul mercato i primi player Mp3 portatili e alcune case discografiche cominciarono a produrre musica direttamente in formato Mp3.

Cominciò così la fortuna del Fraunhofer, che oggi conta un’armata di oltre 100 ricercatori nel settore audio. In totale, il formato Mp3 è costato circa 20 anni di lavoro, di cui poco più della metà per svilupparlo e implementarlo, e il resto per portarlo sul mercato. Lo sforzo per sviluppare l’Mp3, comunque, non si limita allo stesso formato di compressione, ma ha il merito di aver portato allo sviluppo di una nuova classe di algoritmi di compressione percettivi, da cui sono stati derivati gli altri formati di compressione in uso oggi, incluso l’AAC.

mp3 surround

Mp3 Surround

Il formato Mp3 Surround è un’evoluzione dello standard Mp3 , in grado di supportare i 5.1 canali audio dell’home theater. Si tratta di un nuovo parto travagliato del Fraunhofer, a cui si è giunti nel dicembre del 2004 grazie a una collaborazione fra IIS e Agere Systems. Dopo aver prodotto Mp3, il Fraunhofer ha investito moltissimo per creare un formato che consentisse la fruizione di contenuti multicanali e, nel contempo, conservasse la compatibilità con l’ormai diffusissimo standard Mp3.

Questo significa che un file Mp3 surround può essere ascoltato in stereo con qualunque player Mp3 classico. Questa estensione di formato è stata possibile sfruttando il fatto che esiste una fortissima similitudine fra i 5 canali che compongono un segnale surround. È quindi possibile compattare l’informazione che serve per estendere i classici due canali stereo ai 5 canali del surround in un flusso aggiuntivo di 16 kbit/s. Questo significa che la dimensione di un file Mp3 surround supera di poco quella di un file standard Mp3 (circa il 10% in più). A oltre 10 anni dall’uscita dell’estensione surround di Mp3, i progressi sono stati lenti ma significativi: diverse aziende come DivX e Magix già supportano il codec Mp3 surround. Anche DivX, in particolare, ha rilasciato il suo codec con support per MP3 Surround.

Questo però era solo il primo passo, che si inseriva in una fascia di mercato non perfettamente allineata con quella precedentemente aggredita da Fraunhofer, ovvero quella dell’home theater. Per rientrare in carreggiata e tornare a occuparsi di player portatili, nel gennaio 2006 Thomson e Fraunhofer IIS hanno rilasciato due applicazioni di importanza cruciale: Ensonido, che consente di ascoltare il format MP3 Surround 5.1 in cuffia, e MP3 SX, che consente di fare un upscaling da audio stereo Mp3 standard, in audio multicanale codificato in Mp3 surround. Nella fascia PC, Nullsoft Winamp ha poi iniziato a supportare il formato MP3 Surround format nel decoder MPEG integrato verso la fine del 2007. Infine, a metà del 2008, anche la PlayStation 3 ha incluso il formato fra quelli supportati.

La visita ai laboratori di Fraunhofer IIS

Andai a Ilmenau a visitare i laboratori di Fraunhofer IIS nel giugno scorso, come parte delle attività del progetto Europeo “Scenic” da me coordinato. Fu una visita interessante, perchè mostrava un volto modernizzato di un’Europa che, almeno in un settore, aveva avuto occasione di far valere la sua ricerca. Grazie all’iniezione di denari apportata da Mp3, l’IIS si presenta oggi come un istituto moderno, dotato di facilities di lusso, dove l’importanza della ricerca è unicamente decisa sulla base del potenziale commerciale.

La “stanza dei dimostratori” in realtà è un’enorme camera a bassa riverberazione nella quale sono poste numerose casse acustiche high-end attorno a una piccola platea. Come in tutte le dimostrazioni commerciali che si rispettino, c’era una hostess di bell’aspetto pronta ad accompagnarci nel breve viaggio dimostrativo nel mondo del multicanale compresso.

FhG IIS Erlangen, Schalllabor

La sessione d’ascolto: un successo e un buco nell’acqua

L’esperienza surround si rivelò sorprendentemente buona. Nonostante l’elevato livello di compressione, l’immagine acustica era abbastanza nitida e convincente. Ovviamente il target dello standard non sono i puristi e gli audiofili, ma vi è un’ampia fascia di applicazioni che vanno dall’audio streaming all’ home theater broadcast, fino alle applicazioni di gaming immersivo distribuito sulla rete, che vedono in questo formato una possibilità molto interessante.

Quello che però mi premeva testare era l’audio surround in cuffia, dove le criticità sono maggiori. Il risultato, in effetti, è stato un vero e proprio buco nell’acqua. Per convertire il surround in cuffia il Fraunhofer usa una tecnica chiamata “binaural cue coding”, che tenta di convertire l’immagine acustica del surround in un flusso binaurale. La differenza fra un audio surround in cuffia e lo stesso audio riprodotto semplicemente in stereo era impercettibile.

mp3 surround

La percezione acustica 3D

La nostra percezione spaziale della scena acustica è normalmente tridimensionale, il che significa che con due soli sensori (orecchie) siamo in grado di riconoscere la posizione di una sorgente acustica nello spazio. Questo è molto più che un riconoscimento della direzione di arrivo del suono: siamo in grado di stimare la distanza e l’elevazione di molte sorgenti. Addirittura siamo in grado di ricavare informazioni fisiche e posizionali sui riflettori acustici (ad esempio muri) presenti nell’ambiente.

Questa capacità è particolarmente sviluppata nei non vedenti, che sopperiscono con l’udito al loro handicap fisico in modo sorprendente. La nostra capacità di estrarre informazioni 3D sulla scena acustica deriva dal fatto che il campo acustico in cui siamo immersi interagisce col nostro corpo (busto, testa e, in particolare, i nostri padiglioni auricolari) prima di raggiungere il canale uditivo e quindi l’orecchio interno. In pratica, i padiglioni auricolari e il corpo convertono le informazioni spaziali in filtraggi direzionali, che ci fanno percepire i suoni in modo diverso a seconda della posizione della sorgente acustica.

Il filtraggio operato dal nostro corpo è noto col nome di “Head-Related Transfer Function” (HRTF) ed è una vera e propria caratteristica biometrica, una sorta di firma acustica. Questo significa che il nostro corpo elabora le informazioni acustiche spaziali in modo diverso da tutti gli altri.

HRTF

L’audio binaurale

L’audio binaurale consiste nell’iniettare due flussi audio direttamente nei canali uditivi facendo uso di speciali cuffie di alta qualità. Se questi flussi audio corrispondono a quelli che sentiremmo se fossimo effettivamente immersi nel campo acustico, l’esperienza di ascolto simulata diventa indistinguibile da quella reale. Il problema, però, è che questi flussi vanno personalizzati per simulare l’interazione del nostro stesso corpo (HRTF) con il campo acustico che vorremmo percepire.

Per riprodurre correttamente questa sensazione, è necessario che la HRTF sia esattamente quella delle nostre stesse orecchie e del nostro corpo. Usarne un’altra non funzionerebbe. Infatti il nostro cervello impara nell’età evolutiva a interpretare correttamente la risposta in frequenza del nostro corpo e dei nostri lobi auricolari agli stimoli acustici spaziali. Usare la HRTF di qualcun’altro o una artificiale, quindi, significherebbe mandare in tilt i nostri stessi “tracciati percettivi”.

In pratica, “indossare” virtualmente il corpo di qualcun altro ci renderebbe acusticamente menomati. La misura della nostra HRTF è un processo molto complesso che richiede di mettere dei piccoli microfoni di misura nei nostri condotti auricolari, entrare in una camera anecoica e registrare la risposta in frequenza del nostro corpo a stimoli acustici provenienti da tutte le possibili direzioni di interesse.

Sviluppi futuri: un problema di tempi e costi

Si tratta quindi di un processo lungo e costoso, che nessuno di noi si può permettere. Per questa ragione l’audio binaurale è sempre stato relegato sullo scaffale delle curiosità. Il simulatore binaurale proposto dal Fraunhofer IIS, Ensonido, cerca di superare il problema della personalizzazione della HRTF proponendone 4 diverse fra cui scegliere. Ovviamente, le ho provate tutte e 4 e, come mi aspettavo, nessuna somigliava minimamente alla mia, quindi l’impatto spaziale era praticamente nullo.

In questo momento non si intravvedono soluzioni al problema della personalizzazione dell’HRTF. Sono stati tentati metodi molto “variopinti” per semplificare la procedura di stima della HRTF personale, ma nessuno sembra promettere una soluzione a breve termine. Occorre quindi un approccio radicalmente diverso al problema, un metodo che non richieda all’utente di sottoporsi a lunghe sessioni di misura ma che impari a costruire la HRTF da informazioni diverse.

“Prospettive acustiche”

Pochi hanno avuto la fortuna di provare un’esperienza di audio binaurale personalizzata (cioè resa facendo uso della propria HRTF), ma chi ha potuto farlo ne apprezza sicuramente l’impatto percettivo, che è assolutamente formidabile. Superato lo scoglio della misura dell’HRTF, i vantaggi sono moltissimi. Oltre alla qualità dell’esperienza acustica, c’è la possibilità di creare “prospettive acustiche” particolari.

Immaginate di ascoltare un brano musicale (ad esempio un concerto) da un punto di ascolto privilegiato (ad esempio dal leggio del direttore d’orchestra). Se poi si avesse a disposizione un sistema di “rendering” acustico binaurale interattivo, sarebbe possibile sfruttarlo in applicazioni di gaming. Così come è possibile osservare la scena 3D dal punto di vista del personaggio principale del gioco, sarebbe anche possibile percepire l’acustica dal punto di osservazione dello stesso personaggio.

La situazione, per certi versi, è paradossale. L’audio 3D è un universo sconosciuto ai più, proprio perchè i sistemi di resa acustica olofonica sono rarissimi e operano in condizioni molto complesse da riprodurre, mentre i sistemi binaurali funzionano solo a valle di una misura costosa della propria HRTF. Vi è quindi pochissima pressione da parte del mercato per promuovere sistemi di rendering di questo tipo.

© 2018, MBEditore – TPFF srl. Riproduzione riservata.

Vuoi saperne di più? Di' la tua!

SCRIVICI


    MBEditore network

    Loading RSS Feed


     

     

     

     

     

    Pin It on Pinterest