Brauchen wir Spatial Audio für Microsoft Teams Rooms?
von Harald Steindl, Artikel aus dem Archiv vom
Die starke Präsenz der UC-Industrie auf der ISE im Februar 2023 war unübersehbar. Kein Wunder, wo doch in den letzten beiden Jahren Dienste wie Microsoft Teams oder Zoom spektakuläre Zuwachsraten verzeichnen konnten. Umso interessanter, wenn es dann doch einmal Kooperationen gibt, bei denen sich die UC- und die AV-Welt annähern. Daher sorgte eine Meldung dann für großes Interesse: Microsoft präsentierte gemeinsam mit QSC, einem der führenden Anbieter von professioneller Audiotechnik, Spatial Audio für Microsoft Teams Rooms. Aber was ist das? Brauchen wir das, und wollen wir das?
Der Begriff „spatial“ kommt aus dem Lateinischen „spatium“ und bedeutet Raum oder Strecke. Er bezieht sich auf die räumliche Dimension oder die Position von Objekten im Raum. In der AV-Technik wird der Begriff „spatial“ verwendet, um die Fähigkeit von Geräten oder Systemen zu beschreiben, den Klang oder das Bild räumlich zu positionieren und zu lokalisieren, für ein natürlicheres und immersiveres Erlebnis für den Benutzer.
Obwohl unsere Augen und Ohren vollkommen unabhängig arbeiten, kombiniert sie unser Gehirn zu einem gesamten Sinneseindruck der Lokalisierung, also WO sich unsere Gesprächspartner befinden. Im normalen Leben hören wir unseren Gesprächspartner aus der gleichen Richtung, wie wir die Person sehen. Dies ist „richtig“ bzw. „normal“.
Was aber, wenn das Ohr meint, der Sprecher stehe links,
das Auge ihn aber klar rechts im Blick hat? Ist in einem Meetingraum das große Display geradeaus vor uns, der Lautsprecher aber seitlich montiert, dann kommt es genau zu solch einer Situation. Was wird wohl passieren, wenn wir in einem Experiment den Zuhörer ersuchen, jeweils genau dorthin zu zeigen, wo er den Sprecher lokalisiert?
Fall 1. Wir sehen, können aber nicht hören, z.B. der Lautsprecher ist stumm geschaltet: Dann zeigen wir auf den Screen, weil unsere Augen den Sprecher dort sehen. Niemand würde auf den Lautsprecher zeigen.
Fall 2. Wir hören, können aber nicht sehen: Wir verbinden unserer Testperson die Augen, schalten das Video aus oder bitten darum, kurz aus dem Fenster zu schauen anstatt auf den Screen. Dann wird auf den Lautsprecher gezeigt, weil das Ohr den Ton von dort hört! Vom Auge kommt ja im Moment keine ortungsrelevante Information.
Fall 3. Der Normalfall, wir sehen UND hören die Remote-Teilnehmer: Unser Sehsinn ist bekanntlich dominant, unsere Testperson wird folglich den Sprecher analog zur Position auf dem Screen verorten. Trotzdem melden unsere Ohren die Quelle aus der Richtung, welche sich aufgrund der Lautsprecher-Situation (Pegel, Laufzeit etc.) ergibt. Unser Gehirn nimmt diese gänzlich andere Ortung sehr wohl wahr, gibt aber dem Auge den Vorzug. Verschwindet der Sichtkontakt, so springt die Lokalisierung auf die des Gehörs. Geht der Blick nun wieder zurück zum Sprecher, wird das Ohr wieder vom Auge überstimmt, das Image springt nochmals.
Solche Vorgänge sind verwirrend und anstrengend für unser Gehirn, auch wenn es uns nicht bewusst auffällt. Wir ermüden schneller, und unsere Konzentration nimmt signifikant ab. Es macht uns Menschen auch ein wenig nervös, wenn sich ein Sprecher ausgerechnet dann zu bewegen scheint (aufgrund der wechselnden Ortung), wenn wir kurz nicht hinschauen. Oft kann man daher beobachten, dass Konferenzteilnehmer bewusst nicht auf das Videobild des Remote-Teilnehmers blicken, um sich so der Doppel-Lokalisierung zu entziehen.
Unsere Sinne sind bei Videokonferenzen besonders gefordert. Die Bild- und Tonübertragung ist selten perfekt und die Tatsache, dass wir mit einer Person kommunizieren sollen, die sich gar nicht im gleichen Raum befindet, ist für unser Gehirn verwirrend genug. Umso wichtiger ist es, dass wir es möglichst wenig „falsch“ machen.
Sehen wir uns nun einen typischen modernen Microsoft Enhanced Teams Room an. Die relative Bildschirmbreite ist dank Front-Row-Layout sehr groß, die einzelnen Teilnehmer verteilen sich über einen sehr großen horizontalen Winkel. 21:9- oder sogar 32:9-Bilder sind bei Front Row üblich.
Wir sehen Teilnehmer A genau in der Mitte, Person B ganz links außen und Person C halb rechts. Aber aus welcher Richtung hören wir sie? Auf der Audioseite gibt es nun mehrere Lösungsansätze. Diese sind naturgemäß abhängig vom Aufwand, den man treiben will und dem vorhandenen Budget. Eines ist in diesem Zusammenhang jedoch sehr relevant. Der wahrscheinlich fundamentalste Unterschied zwischen AV und UC ist die komplett unterschiedliche Herangehensweise. Während sich die AV-Welt (zu Recht?) dafür auf die Schulter klopft, jeden Raum individuell zu betrachten und die entsprechend optimale Lösung finden will, steht bei den IT-lastigen UC-Projekten die Skalierung im Vordergrund. Nach Möglichkeit sollten alle Meetingräume identisch ausgestattet werden. Während dem gestandenen Medientechniker ob dieses Ansinnens die Haare zu Berge stehen, verweist der IT-Fachmann stolz darauf, dass alle 5.000 PCs des Unternehmens das gleiche Windows-Image haben.
Lösungsansatz A: ein Center-Lautsprecher in der Mitte des Screens
Dann kommen alle Höreindrücke von direkt vorne. Und zwar unabhängig von der Sitzposition der lokalen Teilnehmer. Egal wo diese sitzen, sie werden alle Remote-Teilnehmer aus der Bildschirmmitte hören. Je nachdem, welcher Remote-Teilnehmer spricht und wo dieser im Bild zu sehen ist, stimmt die Ortung mehr oder weniger überein. Person B, welche ganz links außen im Bild zu sehen ist, wird trotzdem aus der Mitte gehört. Da dies für alle Remote-Teilnehmer gleich ist, tritt ein gewisser Gewöhnungseffekt auf.
Lösungsansatz B: zwei Lautsprecher links und rechts vom Screen, aber Mono-Übertragung
Dabei kommen alle Remote-Teilnehmer aus allen Lautsprechern. Die Profis unter Ihnen wissen schon, was jetzt kommt. Hören wir den gleichen Sound aus mehreren Quellen, so lokalisieren wir den Klang beim Lautsprecher mit der geringsten Entfernung! (Präzedenz-Effekt) Die links sitzenden lokalen Teilnehmer werden folglich die Remote-Teilnehmer alle im linken Lautsprecher (außerhalb des Screens!) lokalisieren, und auf der rechten Seite des Tisches passiert das gleiche.
Nur die Menschen exakt in der Mitte (meist nur eine oder zwei Personen) werden die Teilnehmer in der sogenannten „Phantom-Mitte“ lokalisieren. Genau dort ist zwar kein Lautsprecher, aber weil die Entfernung zu den beiden seitlichen Speakern gleich groß ist, erfindet unser Gehirn einen virtuellen Lautsprecher in der Mitte.
Lösungsansatz C: Lautsprecher links und rechts vom Screen, aber Stereo-Übertragung
Bekanntlich werden bei Stereo zwei Audiosignale übertragen, eines für links und eines für rechts. Die erste Ausbaustufe von Spatial Audio für Microsoft Teams Rooms sieht nun Folgendes vor: Beim Front-Row-Layout werden die Remote-Teilnehmer am unteren Bildschirmrand (bei richtiger Montage des Screens in Augenhöhe!) in einzelnen Videokacheln nebeneinander aufgereiht. So weit, so gut. Das mit großen Fanfaren angekündigte Spatial Audio für Microsoft Teams Rooms verteilt nun analog dazu die einzelnen Audiofeeds ebenfalls entlang des Stereo-Panoramas. Das Ziel ist es also, dass Teilnehmer B, der ganz links zu sehen ist, auch von dort zu hören ist, Teilnehmerin B aus der Mitte etc.
Bei näherer Betrachtung eine überschaubar revolutionäre Funktion. Der Audiotechniker merkt sofort: So richtig perfekt ist es trotzdem nur für jene, die genau in der Mitte sitzen. Bekanntlich funktioniert das mit dem korrekten Stereobild eben nicht für jede Hörposition. Da war doch etwas mit Stereo-Dreieck und so, oder?
Ist es überhaupt möglich, tolles Spatial Audio für Microsoft Teams Rooms zu machen? Ganz ehrlich: Diese Frage ist viel größer und mit Sicherheit nicht auf UC-Räume beschränkt. Die gesamte professionelle Audiowelt beschäftigt sich seit Jahrzehnten mit diesem Thema, egal ob für Live-Konzerte oder im Kino. Es gibt Für und Wider für alle Varianten, sei es Mono, Stereo, Surround oder auch objektbasiertes Audio (wie z.B. Dolby Atmos). Eines ist jedoch sicher: Damit das Upgrade von Mono zu Spatial Audio für Microsoft Teams Rooms auch einen echten Nutzen für die User bringt, braucht es Audio-Expertise. Variablen wie Raumakustik, Platzierung und Auswahl der Lautsprecher müssen berücksichtigt und ein ordentliches Systemdesign muss erstellt werden.
Microsoft ist nicht direkt verantwortlich, wenn es nicht klappt
Genauso wie der Produzent einer CD oder DVD kann die UC-Plattform nur ein bestmögliches Signal anliefern. Es liegt dann am System im eigenen Raum, das angelieferte Audiosignal so im Raum optimal zu verteilen, dass alle Teilnehmer einen bestmöglichen Eindruck bekommen. Durch die richtige Auswahl und Positionierung geeigneter Lautsprecher, für die Positionierung der Stühle etc.
Spatial Audio für Microsoft Teams Rooms wirkt wie ein Verstärker
Gute und richtig konzipierte Räume werden durch Spatial Audio für Microsoft Teams Rooms nochmals massiv besser werden. Das Meetingerlebnis wird signifikant besser, weil es weniger unnatürlich ist. Gleichzeitig werden aber Räume mit schlechtem Audio ziemlich sicher noch schlechter werden.
Der Grund ist einfach: Mono-Audio ist vielleicht nicht perfekt, aber „einfach“ zu hören. Der Ton kommt nur aus einer Richtung und wird nur einmal gehört. Die Richtung stimmt vielleicht nicht ganz, aber der Fehler ist zumindest konstant. Das Ohr kann sich, wenn auch mit Aufwand, auf diese Situation anpassen. Ein Stereosignal ist ungleich komplexer.
Mit diesem vergleichsweise einfachen Beispiel ist nur die ERSTE Ausbaustufe in Sachen Spatial Audio für Microsoft Teams Rooms erreicht. Es betrifft nur die Wiedergabe-Seite des Meetings. Über nachfolgende Erweiterungen ist noch nicht viel bekannt bzw. darf aus Verschwiegenheitsgründen nicht viel gesprochen werden. Die Möglichkeiten für eine möglichst realistische Audio-Umgebung in Collaboration-Räumen sind mit diesem ersten Schritt noch lange nicht erschöpft.
Audio und Videotechnik ist nicht trivial: Raumakustik ist ebenfalls ein komplexes Thema. Genauso wenig, wie jemand, der ein paar Geräte mit dem Heim-Router verbindet, damit zum Netzwerk-Profi wird, werden IT-Spezialisten durch Teams Rooms Systeme automatisch zu AV-Ingenieuren.
Spatial Audio für Microsoft Teams Rooms ist eine tolle Erweiterung für diese marktführende Plattform. Damit diese auch in der Praxis gut funktioniert, ist ein gewisser Aufwand und Know-how nötig, ganz egal, was uns die Marketingspezialisten in der Theorie versprechen. Für die UC-Welt mag korrekte Stereo-Wiedergabe vielleicht neu sein, Tontechniker beschäftigt das Thema schon seit Erfindung des Tonfilms vor vielen Jahrzehnten.