von Michael von Aichberger, Artikel aus dem Archiv vom
PTZ(Pan-Tilt-Zoom)-Kameras sind feststehende Kameras mit der Möglichkeit zu schwenken (pan), vertikal zu neigen (tilt) sowie den Bildausschnitt zu verändern (zoom). Entweder werden sie von einem Kameramann ferngesteuert oder automatisch per „Autopilot“ gesteuert. Dazu bedarf es eines zuverlässigen Tracking-Systems. Wie das arbeitet, schauen wir uns in diesem Artikel etwas genauer an.
Das „Tracking“ erfolgt automatisch per Software und meist mithilfe künstlicher Intelligenz, die ein Motiv erkennt und den Bildausschnitt der Kamera auf dieses Motiv ausrichtet. Bei einem Setup mit mehreren Kameras ist die Aufgabe noch anspruchsvoller: Hier muss zuerst die für das Motiv am besten positionierte Kamera ausgewählt werden.
Damit eine Software die Aufgaben eines Kameramanns übernehmen kann, muss sie in der Lage sein, ein Motiv zu erkennen. Wie macht es denn der Mensch? Er nutzt dazu hauptsächlich die Wahrnehmung seiner Augen und manchmal auch seiner Ohren.
Bleiben wir für einen Moment bei den Augen: Was für das menschliche Auge das Abbild auf der Netzhaut ist, ist für eine Software das Kamerabild. Um ein Motiv zu erkennen, muss die Software erstmal wissen, was ein Motiv ist. Motiverkennung ist nicht nur für PTZ-Kameras relevant, sondern auch für Kameras, die in der normalen Fotografie verwendet werden, also z. B. spiegellose Systemkameras und Kameras von Smartphones. In einer Szene, in der ein Mensch neben einem Baum steht, ist in der Regel der Mensch das Motiv. Steht der Mensch neben einem Hund, ist auch der Mensch das Motiv. Steht der Hund neben einem Baum, ist es der Hund. Fährt ein Rennwagen an einem Baum vorbei, ist es der Rennwagen. Steht der Baum auf einer Wiese, ist es der Baum. Die automatische Motivauswahl ist meistens richtig, kann aber natürlich auch falsch sein. Einige Kameras bieten dem Fotografen die Möglichkeit, eine Priorisierung einzugeben. Ein Wildlife-Fotograf sagt der Kamera, er möchte den Fokus eher auf die Augen von Tieren richten statt auf Menschen.
PTZ-Kameras sind in der Regel stationär. Ihr Motiv sind praktisch immer Menschen – Dozenten oder Teilnehmer von Videokonferenzen. Von daher spielt Gesichtserkennung hier eine wichtige Rolle. Steht zum Beispiel ein Dozent in einem Hörsaal neben einer Türe, ist eigentlich klar, dass er und nicht die Türe ins Bild genommen werden soll und dass sein Gesicht wichtiger ist als seine Schuhe. Doch was, wenn mehrere Personen im Bild sind? Was, wenn eine Tafel oder ein Whiteboard im Bild ist, auf der relevante Informationen stehen? Und soll das Gesicht immer groß ins Bild genommen werden oder auch mal eine Totale? Alle diese Entscheidungen trifft ein menschlicher Kameramann intuitiv. Eine Programmautomatik hingegen braucht entsprechende Vorgaben. Sind mehrere Gesichter in einer Szene, muss z. B. entschieden werden, welches vorzugsweise aufgenommen werden soll. Womit wir beim Thema Gesichtserkennung wären.
Führend im Bereich der Gesichtserkennung ist das Fraunhofer-Institut für Integrierte Schaltungen IIS in Erlangen. Bereits seit 2005 forscht man an diesem Thema. Ursprünglich ging es um die Zutrittskontrolle für Gebäude. Dafür musste ein Gesicht in einem definierten Rahmen aufgenommen werden. Die Aufgabe, die das Fraunhofer IIS sich gestellt hatte, ging jedoch darüber hinaus. Gesichter sollten auch als Gesichter erkannt werden, wenn sie an beliebiger Stelle und aus beliebiger Perspektive in einem Kamerabild auftauchen. Und es sollten beliebig viele Gesichter erkannt werden können.
Der Begriff „Gesichtserkennung“ im Deutschen ist allerdings etwas schwammig. Im Englischen unterscheidet man zwischen Face Detection und Face Recognition. Gesichtserkennung kann tatsächlich zweierlei bedeuten: Entweder man erkennt, dass man ein Gesicht vor sich hat – das entspräche dem engl. Begriff „face detection“. Oder aber man erkennt, welches Gesicht man vor sich hat, das wäre dann „face recognition“.
In der Regel reicht es aus, in einer Szene die menschlichen Gesichter zu erkennen. Einige PTZ-Systeme erlauben es, Gesichter von Rednern in einer Datenbank zu hinterlegen. Aus dieser kann dann eine „Hauptperson“ definiert werden, an dessen Fersen, oder besser an dessen Gesicht, sich die Kamera mit Priorität hängen soll, falls mehrere Gesichter im Bild erkannt werden. Aus Datenschutzgründen ist hierfür natürlich die Zustimmung der Personen, deren Gesichter hinterlegt werden, zwingend erforderlich.
Die Technologie des Fraunhofer IIS heißt SHORE® (“Sophisticated High-Speed Object Recognition Engine“). Um Datenschutzstandards einhalten zu können, verzichtet die Software auf die Identifikation von Personen. Stattdessen erkennt sie deren Emotionen, kann Alter und Geschlecht schätzen, den Wachheitsgrad und sogar Vitalparameter eines Probanden erkennen. Für die Erkennung eines Gesichts reicht ein Bildausschnitt von 32 × 32 Pixeln, und die Software kann je nach Hardware über 600 Bilder in der Sekunde analysieren, also mehr als die 30, max. 60 Bilder pro Sekunde der meisten Kamerasysteme.
Die Technologie erlaubt es, Reaktionen von Probanden z. B. auf einen Werbespot automatisiert auszuwerten und so dessen Wirkung zu messen. Auch Telemedizin ist ein Anwendungsgebiet … So kann SHORE® mit einer Genauigkeit von ±3 Schlägen pro Minute die Herzfrequenz eines Probanden ermitteln. Für die Aufnahme reichen herkömmliche Webcams. Der Herzschlag lässt sich buchstäblich an der Nase ablesen: Während frisches Blut durch unsere Adern gepumpt wird, verändert sich kurzzeitig die Farbe der Haut …
Für uns interessant ist aber die Anwendung in Auto-Tracking-Systemen von PTZ-Kameras. Die SHORE®-Software des Fraunhofer IIS läuft auf den verschiedensten Plattformen und ist auch in die der Steuerelektronik vieler Geräte namhafter Kamerahersteller verbaut.
Gesichtserkennung alleine ist noch kein Tracking. Tracking bedeutet ja, den Bildausschnitt dem Motiv nachzuführen. Die Nachführung sollte auch dann noch funktionieren, wenn der Redner der Kamera kurzzeitig den Rücken zuwendet. Es muss also nicht nur ein Gesicht, sondern auch der dazugehörige Körper erkannt werden. Verfolgt die Kamera eine Person, so soll sie Personen, die zufällig durchs Bild laufen, ignorieren.
Auch Personen mit Gesichtsmasken sollten zuverlässig getrackt werden.
Um Bildzittern und ruckelige Bewegungen zu vermeiden, müssen Latenzen eingebaut werden. Die Kamera folgt dem Motiv mit einer gewissen Verzögerung. Die Kamerabewegung muss weich anlaufen und ggf. weich abbremsen. Die Reaktivität der Kamera auf Bewegungsänderungen sollte einstellbar sein. Ein Fußballspieler benötigt andere Reaktivitätseinstellungen als ein Vortragsredner. Diese und weitere Parameter müssen berücksichtigt werden und sind meist konfigurierbar. Ein automatisiertes Tracking sollte vom Dozenten gestartet und beendet werden können.
Weiterhin soll ein Motiv nicht nur „irgendwie“ verfolgt werden, sondern es soll automatisch auch ein gefälliger, der Situation angepasster Bildausschnitt bestimmt werden. Die KI muss entscheiden: Gehe ich groß auf das Gesicht, oder nehme ich mehr vom Körper mit? Nehme ich eine zweite Person oder eine Tafel mit ins Bild? Oder gehe ich auf die Totale des Raums?
Zonen sind vorab definierte Motivbereiche. Kommen diese ins Bild, können verschiedene Aktionen ausgelöst werden. Man könnte zum Beispiel eine Tafel als Zone definieren. Bewegt sich die Kamera in diese Zone, stellt sie sicher, dass sie die ganze Tafel ins Bild holt, nicht nur einen Ausschnitt.
Ein weiterer Anwendungsbereich von Zonen ist das bewusste Ausschließen von bestimmten Bereichen. In Hochschulen zum Beispiel ist es oft erwünscht, nur den Dozenten und die Tafel zu zeigen, nicht aber die Studenten.
Presets sind vom User vordefinierte Einstellungen, ähnlich wie vorstehend erwähnte Zonen. Presets können meist auch vom Redner über eine Mediensteuerung angewählt werden. Er kann dadurch auf den Bildausschnitt Einfluss nehmen, wenn er das für nötig erachtet. Presets sind auch praktisch als Start-Einstellung oder Standard-Einstellung, wenn der Redner den Raum verlässt. Sinnvoll ist in diesem Fall eine Totale, damit die Kamera einen Redner, der die Bühne betritt, schnell erkennen kann. Denn alles, was die Kamera nicht im Bild hat, kann nicht analysiert werden.
Auch Standard-Portrait-Einstellungen eignen sich als Presets: Soll die Person in Nahaufnahme des Kopfes, als Brustbild oder der ganze Körper aufgenommen werden?
Einige Systeme sind in der Lage, mehrere Kameras automatisch zu steuern. Beispiel Polycom Ultrasonic Camera Tracking: In der AV-Leiste Poly Studio X70 sind zwei 4K-Kameras verbaut. Eine Kamera verfolgt den Redner, die andere liefert eine Totale des Raums. Wenn niemand spricht, wird die Totale genommen. Beginnt jemand zu sprechen, richtet sich die Rednerkamera auf die Person aus. Dann schaltet das System auf den Sprecher um. Bei zwei Sprechern wird ein Bildausschnitt gewählt, der beide erfasst.
Ein ähnliches Verhalten zeigt Avonics „Cam Director AI Processing Unit“. Die Steuerungslogik befindet sich hierbei in einem externen Gerät, an das zwei Avonic PTZ-Kameras angeschlossen werden. Auch hier bestimmt die künstliche Intelligenz, welche Kamera auf welches Motiv gerichtet wird und welches der beiden Bilder auf den Master Output gelegt wird.
Motiverkennung und -verfolgung findet meist in der Kamera selbst statt. Entweder ist die Steuerung auf einem Chip fest in die Elektronik der Kamera integriert, oder aber die Funktionalität kann mithilfe von Apps in die Kamera geladen werden. Beispiel hierfür ist Canons Auto Tracking App RA AT001 für die Canon CR-N700.
Auch wenn die Steuerung hardwaremäßig in der Kamera selbst stattfindet, so existiert meistens ein Web- Interface, womit Einstellungen vorgenommen wird. Kameras, die über keine eingebaute Auto-Tracking- Funktion verfügen, können dennoch automatisch gesteuert werden. In diesem Fall wird das Kamerabild über das Netzwerk auf einen Server übertragen, wo die Bilder analysiert und die Steuerbefehle für die Nachführung berechnet werden. Diese werden dann über dasselbe Netzwerk wieder an die Kamera übertragen, zum Beispiel über das geläufige NDI-Protokoll. Die Kamera führt dann die Bewegungen aus, die ihr „aus der Cloud“ zugeflüstert wurden. Läuft die Tracking- Software extern, ist es prinzipiell auch möglich, mehrere PTZ-Kameras gleichzeitig zu steuern.
Beispiel Panasonic AW-SF200 Auto-Tracking Server Software: Die Software kann vier Kameras pro Server gleichzeitig steuern. Sie unterstützt Presets, also vordefinierte Bildeinstellungen. Auch können Gesichter registriert werden (indem man sie mit einer der angeschlossenen PTZ-Kameras fotografiert). Aus der Galerie der gespeicherten Gesichter kann dann eines ausgewählt werden, dem die Kameras mit Priorität folgen sollen. Mit entsprechenden Voreinstellungen kann das System einen Livestream mit bis zu vier Kameras und komplett automatisierter Bildregie produzieren. Durch Hinzunahme weiterer Server können auch mehr als vier Kameras gesteuert werden.
KI aus der Blackbox: Sony REA-C1000 Edge Analytics Appliance
Dieses Sony-Gerät ist einfach ein schwarzer Kasten, der angeschlossene PTZ-Kameras steuert und deren Funktionsumfang erweitert, z. B. durch Handschrifterkennung (z. B. auf Tafel oder Whiteboard), Gestensteuerung der Kamera und Ausstanzen der Redner ohne Chromakey (also ohne einen einfarbigen Hintergrund). Die Box bietet aber auch intelligentes Auto-Tracking mit verschiedenen Einstellungsmöglichkeiten. Es können zwei Kameras gleichzeitig gesteuert werden.
PTZ-Kameras mit einem Objektiv können mit dem Tracking erst beginnen, wenn ein Mensch in ihr Blickfeld wandert. Steht ein Redner außerhalb des Sichtbereichs der Kamera, kann diese ohne weitere Hilfssysteme nicht auf ihn reagieren.
Einige Hersteller bieten daher Kameras mit zwei Objektiven an. Beispiel: Lumens VC-TR40/N PTZ Auto-Tracking- Kamera. Neben dem beweglichen Aufnahmeobjektiv ist im Gehäuse der Kamera ein feststehendes Superweitwinkelobjektiv verbaut, welches einen größeren Bereich der Szene erfasst. Mithilfe der damit erfassten Daten steuert die Kamera die Positionierung des Aufnahmeobjektivs. Auch ist das System in der Lage, die Zahl der Personen in der Szene zu ermitteln. Personen können durch Winken mit dem Arm den Bildausschnitt der Kamera auf sich lenken.
Mit der VC-TR70 hat Lumens sogar eine dreiäugige Kamera in der Pipeline. Die Kamera wird neben dem Aufnahmeobjektiv sogar zwei weitere Weitwinkelobjektive zur Motivortung verbaut haben. Während die meisten Tracking-Kameras Motive in einer Entfernung von bis zu 8 m verfolgen können, erhöht sich diese Distanz bei der VC-TR70 auf 30 m. Das Gerät befindet sich allerdings noch in der Pre-Launch-Phase.
Für die Ortsbestimmung eines Redners können auch Audiosignale verwendet werden, die mit mehreren Mikrofonen aufgenommen wurden. Auch der Mensch hat zwei Ohren, um die Herkunft einer Tonquelle zu orten. Besonders sinnvoll ist eine Verknüpfung von Audio- bzw. Voice-Tracking und Face-Tracking. Audio-Tracking sorgt dafür, dass die sprechende Person ins Blickfeld der Kamera gelangt, die dann den Sprecher per Gesichtserkennung verfolgen kann. Mikrofone können in sogenannten AV-Bars verbaut sein, die auch die Kamera enthalten. Diese kommen hauptsächlich bei Videokonferenzen in einem kleineren Kreis zu Einsatz.
Für größere Räume kommen Deckenmikrofone bzw. Arrays von Mikrofonen zum Einsatz. Mikrofon-Arrays erlauben die Ortung von Schallquellen durch Auswertung der Laufzeitunterschiede der von mehreren Mikrofonen aufgenommenen Tonsignale. Ist die Tonquelle einmal im Raum geortet, kann diese durch gezielte Verstärkung derselben und Dämpfung (Noise Cancelling) aller anderen Geräusche hervorgehoben werden. Gerade so, als hätte ein Tonassistent dem Sprecher mit einer Tonangel ein Mikrofon unter die Nase gehalten. Man spricht auch von Beamforming.
Ein Beispiel für ein modernes Decken-Mikrofonarray ist das Shure Microflex® Advance™ MXA920, erhältlich in quadratischer oder runder Ausführung. Die quadratische Ausführung weist eine Seitenlänge von 60 cm auf, während der Durchmesser der runden Ausführung etwas größer ausfällt. Das aus über 100 Mikrofonkapseln bestehende MXA920 deckt einen Sitzbereich von 9×9m ab. Über die Shure Designer Software können Abnahmebereiche definiert werden, um nur bestimmte Sprecher zu erfassen und Hintergrundgeräusche auszublenden. Es können Positionsdaten von bis zu acht Sprechern gleichzeitig erfasst werden. Die Daten werden als Command-Strings an geeignete Steuerungssysteme wie z. B. Crestron oder Seervision weitergegeben, die ihrerseits angeschlossene PTZ-Kameras steuern.
Die Firma Sennheiser verknüpft ihr TCC2 Mikrofon-Array mit der Automate VX-Lösung von 1 Beyond (jetzt Crestron). Auch Canons Audio Tracking Software „hört“ auf Sennheisers TCC2 und steuert damit Canons PTZ-Kameras „nach Gehör“.
AVer PTZ Link ermöglicht die Integration von Mikrofonarrays in das Tracking von AVer-PTZ-Kameras.
Die Voice-Tracking der Parlé Videokonferenzleiste von Biamp verwendet ein Array aus 27 Mikrofonen und kann nicht nur die Richtung, aus der ein Ton kommt, ermitteln, sondern auch seine vertikale Position im Raum.
Einige Systeme erlauben nicht nur die Steuerung einer PTZ-Kamera, sondern das automatische Umschalten zwischen mehreren Kameras. Das System sucht automatisch die Kamera aus, die den georteten Sprecher am besten aufnehmen kann.
Die Firma Nureva bietet mit ihrer patentierten Microphone-Mist-Technologie ein System an, das über die Reichweite herkömmlicher Mikrofon-Arrays hinausgeht und mit sogenannten „virtuellen Mikrofonen“ Tonsignale an jeder beliebigen Stelle im Raum aufnehmen kann. Möglich wird das, indem in das Sound Masking Signal (das der Dämpfung unerwünschter Geräusche dient) weitere Informationen eingebunden werden, was eine „Impulse-Response“-Messung für Mikrofon und Lautsprecher in Echtzeit ermöglicht. Als Hardware dient eine unter der Zimmerdecke montierte Mikrofon- und Lautsprecherleiste, z. B. HDL 300 mit 12 omnidirektionalen Mikrofonen. Durch Echtzeit-Signalverarbeitung definiert das System 8192 virtuelle Mikrofone im Raum. Sprecher müssen nicht in Richtung der Sound-Leiste sprechen. Für größere Räume können mehrere DHL-300 gleichzeitig eingesetzt werden. Das System kann selbständig unerwünschte Schallquellen, wie z.B. das Geräusch von Klimaanlagen identifizieren und unterdrücken. Es ist kompatibel mit den meisten PTZ-Kameras und Videokonferenzsystemen.
EagleEye Director von Poly ist ein Videokonferenzsystem, dessen Tracking optische Gesichts- und auditive Stimmenerkennung miteinander verbindet. Darüber hinaus benutzt das Trackingsystem von Poly zur Motivortung zusätzlich Ultraschallsignale. Lautsprecher erzeugen für Menschen nicht hörbare Töne zwischen 24 und 40 kHz. Mikrofone analysieren diese von Objekten im Raum reflektierten Töne und können so die ungefähre Position von Objekten im Raum errechnen. Fledermäuse kennen das Verfahren.
Eine vergleichsweise simple Lösung, einen Redner im Raum zu verfolgen, besteht darin, ihm einen Infrarotsender um den Hals zu hängen. Ein Beispiel für diese Lösung ist das RoboTRAK Presenter Tracking System von Vaddio. Allerdings beeinflussen Lichtverhältnisse und die Größe und Geometrie der Räume die Zuverlässigkeit dieser Lösung.
Die meisten der bisher beschriebenen Auto-Tracking-Systeme basieren entweder auf Gesichtserkennung und/oder Spracherkennung. Gesichtserkennung hat den Nachteil, dass ein Mensch erst in das Blickfeld der Kamera kommen muss, um verfolgt werden zu können. Audio-Tracking kann dem unter Umständen abhelfen, aber nur, wenn die Person auch etwas sagt.
Einen anderen, innovativen Weg der Verfolgung von Personen geht die VST GmbH aus Thüringen mit ihrem Produkt TrackingMaster: Sie verwendet LIDAR-Sensoren (LIDAR = Light Detection And Ranging), die z. B. auch in der Robotik oder Automobiltechnik verwendet werden. Es handelt sich um ein Verfahren zur Abstandsmessung durch einen rotierenden Laserstrahl. Das Verfahren ist im Prinzip dasselbe wie bei einem RADAR (Radiowave Detection and Ranging), nur dass statt Radiowellen Laserlicht verwendet wird. Aus dem Zeitversatz zwischen dem Senden eines Laserimpulses und dem Empfangen des an einem Objekt reflektierten Lichts kann die Entfernung zum Objekt bestimmt werden. TrackingMaster verwendet LIDAR-Sensoren (meist zwei), um Objekte in der Tiefe des Raums zu orten, wobei KI zuverlässig zwischen Menschen und Gegenständen unterscheidet. Die Positionsdaten werden genutzt um – über die jeweiligen Herstellerprotokolle – PTZ-Kameras verschiedener Hersteller zu steuern. Vorteile dieses Verfahrens: Menschen können überall im Raum erkannt werden, nicht nur dort, wo das Kamerabild der PTZ-Kamera gerade „hinschaut“. Lichtverhältnisse spielen keine Rolle.
Hohe Betriebssicherheit: Menschen werden in jeder Position erkannt, auch wenn das Gesicht nicht zur Kamera zeigt. Auch dunkelhäutige Menschen vor dunklen Hintergründen werden sicher erkannt, was bei optischen Verfahren nicht immer der Fall ist. Tracking mit Laserstrahlen ist datenschutzrechtlich unbedenklich.
Die Positionsdaten können auch an Mediensteuersysteme weitergegeben werden. Dadurch ist es zum Beispiel möglich, bestimmte Geräte wie einen Visualizer oder Mikrofone automatisch anzuschalten, wenn der Redner sich ihnen nähert, oder sogar den aufgezeichneten Stream von PTZ-Kamera auf das Visualizer-Bild umzuschalten.
Es gibt verschiedene Formen der Motiverkennung/-ortung: Auswertung des Kamerabildes, Auswertung von Tonsignalen, Ultraschall, Infrarot-Tracker und Laser. Software in PTZ-Kameras, auf externen Geräten oder Servern gibt auf Basis der Ortsdaten die Steuerbefehle zur Nachverfolgung.
Künstliche Intelligenz hilft beim Bestimmen des Bildausschnitts oder im Fall von mehreren Kameras bei der Bildregie.