Table of Contents
Ein kleiner Roboter, der aus wenig mehr als zwei Rädern und vier Kabeln besteht, wird auf einen Tisch gestellt. Er passiert die am Tisch sitzenden Personen, bleibt vor einer lächelnden Person stehen und sagt mit seiner metallischen Stimme: „Du siehst glücklich aus. Erzähl mir, warum du so glücklich bist!“ Wenn die Person hingegen verdrießlich schaut, fragt der Roboter: „Du siehst traurig aus. Möchtest du umarmt werden?“
Wie kann ein so einfaches Gerät einen menschlichen Gemütszustand erkennen? Wo versteckt er die leistungsstarken Prozessoren und die riesigen Datenbanken, die für eine solche Aufgabe nötig sind?
Die Macht der Cloud
In Wirklichkeit befindet sich diese enorme Rechenkraft nicht in dem Gerät selbst. Sie kommt aus der Google Cloud, der Gesamtheit aus Remote-Computern von Usern und Entwicklern, die das Unternehmen zur Verfügung stellt.
Der einfühlsame Roboter nutzt die Leistung der Cloud, um die Gesichtsausdrücke zu erkennen. Dies wird durch eine der innovativsten Applikationen des Technologiegiganten aus Mountain View ermöglicht: Google Cloud Vision.
Dieses Produkt erlaubt Programmierern und Hackern, die Macht der Algorithmen von Google Bilder für ihre Projekte zu nutzen. Das Auge von Google bietet unbegrenzte Möglichkeiten: Es kann beispielsweise die Rasse eines Hundes erraten und die Personen auf einem Klassenfoto zählen; außerdem kann es einen Kürbis von einem Ball unterscheiden und bestimmen, wo auf der Erde sich der auf einem alten Foto verewigte See befindet.
Bewegte Bilder
Obwohl es Google Cloud Vision erst seit einem Jahr gibt, präsentierte Google am 9. März bereits seine neueste Entwicklung: Google Cloud Video Intelligence. Dieses System wendet einige der Funktionen von Vision auf bewegte Bilder an. Dadurch steigen die Möglichkeiten der Recherche von audiovisuellen Inhalten enorm an.
Es ist kein Zufall, dass eines der ersten Unternehmen, das sich für Google Cloud Vision interessierte, AeroSense war. Der Drohnenhersteller zeichnet bei einem einzigen Flug Tausende von Bildern auf. Diese Bilder im Nachhinein mit eigenen Augen durchzugehen, um die fotografierten Objekte zu identifizieren, ist verboten. Und genau in solchen Situationen kann das automatisierte Auge von Google unentbehrlich sein.
Algorithmen, die aus Daten lernen
Das Geheimnis von Google Cloud Vision liegt in den Algorithmen des „Machine Learning“, die für den Erfolg der Suchmaschinen verantwortlich sind. Google nutzt die ihm verfügbaren, gewaltigen Datenmengen, um seine Algorithmen zu trainieren.
Wenn wir nach dem Wort „Hund“ suchen, liefert uns Google Millionen von Bildern von Hunden. Dies geschieht nicht, weil der Algorithmus die platonische Vorstellung eines Hundes kennt, sondern weil er gelernt hat, dieses Tier durch den Vergleich riesiger Mengen an Bilder zu erkennen.
Das Unternehmen stellte seinen Usern einen Simulator zur Verfügung, der es ihnen ermöglicht, seine Galaxie aus Bildern zu erkunden und die Funktionsweise von Google Cloud Vision zu verstehen. Das Unternehmen aus Mountain View ist nicht als einziges auf diesen Zug aufgesprungen. Auch Amazon brachte beispielsweise ein Produkt auf demselben Markt heraus: Amazon Rekognition.
Text und Bilder
Die Applikationen des maschinellen Sehens (Computer Vision) können sehr überraschend sein. Im folgenden Video nutzt ein mit Rasperry Pi realisierter Computer Google Cloud Vision, um die Halloween-Süßigkeiten als lecker und weniger lecker zu klassifizieren. Die Software ist in der Lage, mittels ihres Algorithmus die Marke der Süßigkeiten zu erkennen, der die Texte aus den Bildern extrahiert.
Google Cloud Vision kann Bilder auf unterschiedliche Weise interpretieren:
- Erkennung von Objekten: Die Software erkennt Blumen, Tiere, Transportmittel und Tausende andere Kategorien, die häufig auf Bildern dargestellt werden.
- Erkennung von Orten, Personen und Marken: Das Programm greift auf seine Datenbank zu, um bekannte (geografische und monumentale) Orte zu erkennen, wie zum Beispiel Gebirge oder Gebäude. Mit demselben Mechanismus können auch berühmte Personen oder Unternehmensmarken erkannt werden.
- Unangemessene Inhalte: Nicht jugendfreie Inhalte oder Inhalte, die Gewaltszenen zeigen, können von Google Cloud Vision abgefangen werden. Mit dessen Hilfe kann somit eine großflächig angelegte Zurückhaltung von visuellen Inhalten realisiert werden.
- Gesichtserkennung: Dies ist wohl die spektakulärste Anwendung von Google Cloud Vision. Es ist in der Lage, auf einem Bild einen oder mehrere menschliche Gesichter zu erkennen. Darüber hinaus kann es 8 verschiedene Gesichtsausdrücke (fröhlich, traurig, wütend, etc.) unterscheiden. Das System erkennt in einem Bild dargestellte Gesichter, doch es wurde nicht programmiert, um systematisch zu identifizieren, um wen es sich dabei handelt.
Für Hacker und Forscher
Google Cloud Vision eröffnet unerwartete Möglichkeiten für Hacker. So kann man beispielsweise in Kombination mit Google Übersetzer lernen, was „Glas“ auf Chinesisch heißt, einfach indem man mit seinem Smartphone ein Glas fotografiert.
Wenn man die Software stattdessen mit zahlreichen Modeexperten zusammenbringt, erhält man ein System, das automatisch erkennt, wenn ein Passant ein exzentrisches Aussehen hat und um was für eine Person es sich dabei handelt.
Disney nutzte das Programm für eine Augmented-Reality-App , die den Drachen aus dem neuesten Disney-Film bei Ihnen zu Hause auf dem Sofa erscheinen lässt. Der Forscher Kalev Leetaru nutzte es hingegen, um die meist verwendeten Situationen in Wahlspots oder die von der internationalen Presse am häufigsten fotografierten Orte zu analysieren.
Vielleicht entwickeln schon bald Sie selbst Ihre eigene Anwendung. Denn das Auge von Google verspricht, auch Ihre Sichtweise auf die Welt zu verändern.