Steuerungen von AV-Medientechnik werden zukünftig kaum noch ohne den Einsatz von Künstlicher Intelligenz auskommen. Doch was steckt hinter KI und Algorithmen?
Weibliche Bewerber hatten es schwer bei Amazon. Eigentlich sollte der Einstellungsprozess für neue Mitarbeiter streng neutral und unbeeinflusst von Bevorzugungen jeder Art vonstatten gehen. Um dies hehre Ziel zu erreichen, setzte das Online-Kaufhaus ab 2014 einen Algorithmus ein. Der wurde mit den Datensätzen angenommener Bewerber aus den vergangenen zehn Jahren gefüttert. Daraus sollte die Künstliche Intelligenz (KI) die Kriterien herausdestillieren, die für oder gegen die Beschäftigung aktueller Jobaspiranten sprachen. Das Rekrutierungs-Tool sortierte die Kandidaten dabei nach Punktzahlen von ein bis fünf Sternen ein, ganz ähnlich den Produktbewertungen durch Amazon-Kunden. Noch problematischer war ein anderer Aspekt. Die KI mochte keine Frauen. Stattdessen bevorzugte sie systematisch männliche Bewerber. Der Grund war so naheliegend, dass die Programmierer ihn völlig übersehen hatten. Die meisten Bewerberlebensläufe, aus denen Amazons Computermodelle Muster generieren sollten, stammten von Männern, was die faktische männliche Dominanz in der Tech-Industrie widerspiegelt. Daraus zog die Amazon-KI den Schluss, männliche Kandidaten seien zu bevorzugen. Sobald in einem Bewerbungsschreiben Begriffe wie „Frau“, „weiblich“ usw., auftauchten, führte das zur Rückstufung des Kandidatenprofils.
Zwar versuchten die Programmierer, diesen Fehler buchstäblich zu neutralisieren, aber am Ende blieb trotzdem ein ungutes Gefühl. Wenn die KI schon dermaßen einseitige Geschlechterbevorzugungen an den Tag legte, welche Gruppen würde sie sonst noch begünstigen oder benachteiligen? Der ursprüngliche Plan, den Auswahlprozess vollständig von der Software erledigen zu lassen, wurde bald verworfen. Schließlich wurde das Projekt Anfang 2017 eingestellt. Die verheißungsvolle KI als allwissende Hilfskraft hatte ihre Herren enttäuscht.
Algorithmen entdecken in den analysierten Datenbergen Zusammenhänge und Querbeziehungen, die einem menschlichen Beobachter wahrscheinlich nie aufgefallen wären. Insofern stellen die Analyseabläufe zumal bei selbstlernenden Programmen selbst für ihre Entwickler nach kurzer Zeit eine Black Box dar. Die in USA forschende Techniksoziologin Zeynep Tüfekçi: „Wir begreifen nicht mehr wirklich, wie diese komplexen Algorithmen arbeiten und wie sie Kategorisierungen durchführen. Sie bestehen aus riesigen mathematischen Tabellen; aus Tausenden, vielleicht Millionen von Zeilen und Spalten. Kein Programmierer und niemand, der sie sich ansieht, versteht mehr, wie sie genau funktionieren, selbst wenn alle Daten vorhanden sind.“
In der Debatte um Sinn und Unsinn der Verwendung von Algorithmen ist es sinnvoll, sich an die alte Informatikerweisheit „Müll rein – Müll raus“ zu erinnern. Dahinter verbirgt sich die Erkenntnis, dass ein Computer sehr wahrscheinlich fehlerhafte, ungültige Ergebnisse produziert, wenn die Eingabedaten fehlerhaft waren. Denn von sich aus ist ein Rechner nicht in der Lage, korrekte von falschen Daten zu unterscheiden. Neben funktionierenden Algorithmen spielt also eine möglichst einwandfreie Datenbasis eine große Rolle. Ist die gegeben, können Algorithmen selbständig sehr effizient arbeiten und dem Menschen eine Vielzahl von Routineaufgaben abnehmen.
Was ist überhaupt ein Algorithmus?
Ein Algorithmus ist eine Schritt-für-Schritt-Methode zur Lösung eines Problems. Mit einer detaillierten Reihe von Anweisungen werden Operation durchgeführt oder bestimmte Aufgabenstellungen gelöst. Er wird häufig für die Datenverarbeitung, Berechnung, Suche und Sortierung und andere damit verbundene computergestützte und mathematische Operationen verwendet. Um beispielsweise den Gehaltsscheck eines Mitarbeiters zu berechnen, verwendet der Computer einen Algorithmus.
Jeder kennt Algorithmen auch aus seinem nichttechnischen Umfeld für alltägliche Aufgaben. Ein Rezept zum Kuchenbacken oder eine Bastelanleitung aus einem Do-it-yourself-Handbuch ist nichts anderes als ein Algorithmus.
Komplexere Systeme verwenden für selbständiges Arbeiten das Konzept des Deep Learning. Deep Learning stellt eine Unterkategorie des maschinellen Lernens dar, bei der künstliche neuronale Netze, vom menschlichen Gehirn inspirierte Algorithmen, aus großen Datenmengen lernen. Ähnlich wie wir aus der Erfahrung lernen, führt der Deep-Learning-Algorithmus eine Aufgabe wiederholt aus, wobei er sie jedes Mal ein wenig optimiert, um das Ergebnis zu verbessern. Es heißt “Deep Learning”, da die neuronalen Netze verschiedene (tiefe) Schichten haben.
Im AV-Bereich geht es auch um den effizienten Umgang mit Bild- und Videodaten. Die KI-basierte automatische Inhaltserschließung von Bild- und Videodaten bietet für die inhaltsbezogene Arbeit deutliche Effizienzsteigerungen. Für Texte beinhaltet dies die Erkennung von Personen, Objekten und Orten des Geschehens, von denen im Text die Rede ist („entity extraction“). Dies ermöglicht es, dem Text passende verwandte Artikel, Bilder und/oder Werbung zuordnen zu können. Dieser Service wurde und wird von den großen Suchmaschinen schon seit einer Dekade zu hohen Preisen angeboten und erforderte einen hohen Pflegeaufwand.
KI schafft virtuelle Einkaufsmöglichkeiten, indem sie dem Verbraucher personalisierte Empfehlungen liefert und bei der Auswahl von Kaufoptionen interaktiv unterstützt. Auch das Waren- bzw. Bestandsmanagement und das Flächenlayout lassen sich mit KI verbessern.
KI kann die von vernetzten Geräten in Fabriken übertragenen IoT-Daten analysieren, um durch rückgekoppelte neuronale Netze, spezielle Deep-Learning-Netze, die mit Sequenzdaten arbeiten, Auslastung und Nachfrage zu prognostizieren.
IT-Abteilungen von Unternehmen gehören zu den wichtigsten KI-Nutzern. Mit Hilfe der Algorithmen wird die Sicherheit der IT-Systeme überwacht, potenzielle Hackerangriffe sollen rechtzeitig entdeckt und abgewehrt werden. KI-Lösungen analysieren rund um die Uhr automatisch und in Echtzeit Verhaltensmuster und lernen zugleich aus dem erfassten Datenmaterial. Werden verdächtige Vorgänge und mögliche Bedrohungen erkannt, gibt das System Alarmhinweise. IT-Administratoren können dann Gegenmaßnahmen einleiten. Fortgeschrittene Sicherheitsanbieter setzen zudem auf Deep Learning, um auch bisher unbekannte Malware und Cyberangriffe abzuwehren. Sie werden von staatlichen Verwaltungen, Unternehmen im Medizinbereich oder Finanzdienstleistern eingesetzt, die besonders hohe Anforderungen an die Sicherheit ihrer IT-Systeme stellen. Die Aufgabe der Mitarbeiter besteht in der möglichst optimalen Datenpflege der Behandlung von Fehlalarmen.
KI wird inzwischen auch zur Echtzeit-Erkennung von Handlungen und Aktionen in Videostreams eingesetzt und nimmt Mitarbeitern mühsame Überwachungsarbeit ab. Derartige Analysen können z. B. bei der Videoüberwachung von Räumlichkeiten und Arealen oder der Überprüfung hochgeladener Videos eine Rolle spielen. Die deutsch-kanadische Twenty Billion Neurons GmbH hat sich auf den Bereich Videoanalyse spezialisiert. Dabei verfolgt das Unternehmen das Ziel, Maschinen mit der Hilfe von KI-Methoden mit „menschenähnlicher“ Wahrnehmung und visuellem „Denkvermögen“ auszustatten. Konkret geht es darum, bestimmte kontextbezogene, menschliche Handlungen (etwa „Person kommt zur Tür herein“, „Person ergreift Gegenstand“, „Person gibt einer anderen Person die Hand“) in einem Video-Stream in Echtzeit zu erkennen. Um diese Fähigkeiten zu erreichen, muss das System eine große Zahl von Beispielvideos verarbeiten, analysieren und mittels Mustererkennung die wesentlichen Elemente herausfiltern.
Herkömmliche Videoanalysesysteme basieren auf aufwendig programmierten Ansätzen, die in der Regel dennoch keine zuverlässige automatische Erkennung von Bewegungsmustern von Menschen in Alltagssituationen ermöglichen. Herkömmliche Systeme sind sehr anwendungsspezifisch (z. B. die Verfolgung der Augenbewegungen in einem hochauflösenden Video eines Gesichtes) und entsprechend teuer in der Herstellung. Schon bei leicht veränderten Szenarien (z. B. künstliche Beleuchtung statt Tageslicht) kommen sie schnell an die Grenzen ihrer Anwendbarkeit. Die automatische Interpretation von menschlichen Handlungen ist zudem ein noch weitenteils unerschlossenes Feld.
Beim Deep Learning arbeitet nun eine KI auf der Basis eines Systems, das aus vielen Beispielvideos selbstständig lernt, auf welche Handlungsmuster es achten soll. Der Entwicklungsaufwand für eine spezifische Ausgabe verschiebt sich so von der komplizierten Programmierung hin zur vergleichsweise einfachen Beschaffung von Beispielvideos. Anstatt für jedes Szenario jeweils eine spezifische Programmierung vorzunehmen, können unterschiedliche Videosequenzen von ein und demselben KI-System verarbeitet werden. Je mehr Trainingsdurchläufe das System auf verschiedene Anwendungen vollzieht, umso genauer und robuster wird es in seinen Analysenergebnissen. Das ist ganz ähnlich wie bei Lebewesen, die ihre Erfahrungen auf gänzlich neue Situationen übertragen können. So bietet TwentyBN zum Beispiel die beiden Komponenten, die zur Realisierung eines auf Deep Learning basierten Videoanalysesystems benötigt werden: zum einen die Soft- und Hardwareinfrastruktur für den Aufbau und Betrieb des Systems, zum anderen die Aufzeichnung und Beschaffung der erforderlichen Beispielvideos. Dazu gehört eine Datenplattform namens Crowd Acting, mit deren Hilfe TwentyBN und seine Kunden Beispielvideos zum Training des KI-Systems aufzuzeichnen. Dafür wird ein sogenannter Crowdworking-Ansatz genutzt, der die Aufzeichnung von Daten auf Tausende von Mini-Jobber verteilt. Das soll die ausreichende Menge an Videos und visueller Diversität für eine belastbar funktionierende Lösung gewährleisten.
Auf derartigen KI-Techniken basierende Videoanalysesysteme versprechen erhebliche Fortschritte in Bezug auf die Qualität der Ergebnisse und die Vielzahl der Aufgaben. Nur mit Hilfe solcher Systeme kann die ständig ansteigende Flut an Videomaterial künftig überhaupt noch bewältigt und nutzbar gemacht werden. Videostreams in selbststeuernden Autos, bei der Kontrolle von Produktionsabläufen, auf Internet-Plattformen wie YouTube, Facebook oder SnapChat oder Live-Feeds zur Überwachung von öffentlichen oder privaten Orten können längst nicht mehr allein von Menschen kontrolliert werden. Diese Lücke füllen KI-Systeme aus, die automatisch entscheiden, ob z. B. das Auto bremsen, ein hochgeladenes Video als unangemessen ausgefiltert oder ein Warnmeldung ausgegeben werden soll.
(Bild: Pixabay)In Kombination mit schnellen, iterativen Berechnungen und intelligenten Algorithmen ermöglichen große Datenmengen der Software das automatische Lernen anhand von in den Daten verborgenen Mustern oder Merkmalen. KI ist ein breites Forschungsfeld und umfasst viele Theorien, Methoden und Technologien. Einige wichtige Teilbereiche:
Maschinelles Lernen automatisiert die Erstellung analytischer Modelle. Mit Methoden aus neuronalen Netzen, Statistik, Operations Research und Physik werden in Daten enthaltene Muster gesucht, ohne dass in den Systemen explizit programmiert ist, wo gesucht oder welche Schlüsse gezogen werden sollen.
Ein neuronales Netz ist eine Art des maschinellen Lernens. Diese Netze bestehen aus miteinander verbundenen Knoten (Neuronen), die zur Verarbeitung von Informationen auf externe Eingangsdaten reagieren und Informationen zwischen den einzelnen Knoten weitergeben. Dieser Prozess erfordert mehrere Datendurchläufe, um Verbindungen zu finden und undefinierte Daten zu gewichten.
Deep Learning nutzt große neuronale Netze mit vielen Schichten von Verarbeitungsknoten. Fortschritte in der Rechenleistung und verbesserte Trainingsverfahren ermöglichen dabei das Erlernen komplexer Muster in großen Datenmengen. Dieses Verfahren wird üblicherweise für die Bild- und Spracherkennung eingesetzt.
Cognitive Computing ist ein Teilbereich der KI, der eine natürliche, möglichst menschliche Interaktion mit Maschinen anstrebt. Mithilfe von KI und Cognitive Computing soll letztlich eine Maschine entstehen, die Bilder und Sprache interpretiert, menschliche Denkprozesse simuliert – und schlüssig antworten kann.
Computer Vision nutzt Mustererkennung und Deep Learning zur Erkennung der Inhalte von Bildern oder Videos. Wenn Maschinen Bilder verarbeiten, analysieren und verstehen können, können sie Bilder oder Videos in Echtzeit erfassen und deren Umfeld interpretieren.
Natürliche Sprachverarbeitung (NLP) bezeichnet die Fähigkeit von Computern, menschliche Sprache, und zwar auch die gesprochene, zu analysieren, zu verstehen und zu erzeugen. Die nächste Stufe in der natürlichen Sprachverarbeitung ist die Interaktion in natürlicher Sprache, damit Menschen in ganz alltäglicher Sprache mit Computern kommunizieren und ihnen Anweisungen erteilen können.
Im Bereich der algorithmengestützten Sprachsteuerung gibt es neben dem großen, von Produkten wie Amazons Alexa, Google Home oder Appels Siri geprägten Segment im Consumerbereich auch einige Anwendungen für den professionellen Sektor.
So demonstrierte die Beckhoff Automation GmbH auf der ISE 2019 die Integration zentraler Anwendungen der Medien- und Gebäudetechnik auf einer Steuerungsplattform. Dazu gehört die Spracherkennungssoftware TwinCAT Speech, mit der die Steuerung auch Sprachsignale verarbeiten kann. Mehr noch, das System soll die Interaktion zwischen Mensch und Steuerung insbesondere bei Anwendungen in der Medien- und Gebäudetechnik deutlich verbessern.
Für Teamarbeit ist dagegen das Windows Collaboration Display (WCD) konzipiert, das der Elektronikkonzern Sharp gemeinsam mit Microsoft entwickelt hat. Der interaktive 70-Zoll-Schirm mit 4K-Auflösung enthält neben Sharps Touch-Technologie IoT-Sensoren, die auf das Raumambiente reagieren und mit Microsoft Azure Digital Twins kompatibel sind. Die Sensoren übermitteln Informationen aus dem Meetingumfeld an die Digital-Twins-Plattform; dazu zählen Luftfeuchtigkeit und -qualität, Beleuchtung, Temperatur und generelle Informationen zur Raumbelegung. Dies soll Facility Managern ermöglichen, besser auf Abweichungen von optimalen Arbeitsbedingungen zu reagieren und diese gegebenenfalls zu korrigieren.