Google sieht etwas, was du nicht siehst

Die Verwendung bekannter Suchmaschinen mit Hilfe der eigenen Stimme ist ja praktisch schon ein alter Hut. Man ist regelrecht daran gewöhnt, in sein Smartphone zu sprechen und darauf zu warten, dass Siri die passende Antwort für einen parat hält. Auch ist auf Alexa im Eigenheim eigentlich immer Verlass.

Doch wäre das Internet nur halb so spannend, wenn es nicht täglich Neuerungen und Möglichkeiten geben würde, die nach und nach von der Allgemeinheit adaptiert würden. So ist es auch mit der Visual Search. Hier wird das gesuchte Objekt nicht mehr via Keyword in den Suchmaschinen abgefragt, sondern es wird direkt fotografisch erfasst. Beispielsweise über Apps wie Google Lens oder die Bing Visual Search. Dies funktioniert sowohl mit digital vorliegenden Fotos als auch mit Livebildern.

Zwar ist die Visual Search noch keine vollkommen ausgereifte Alternative zu anderen Arten der online Suche, jedoch verfügt sie über einiges an Potenzial und man sollte ihre Fähigkeiten unbedingt im Auge behalten.

Die Technologie der fotografisch angelegten Suche basiert auf Machine Learnings sowie künstlichen und neuronalen Netzen. Ähnlich wie bei einem Chatbot erhält man die zuverlässigsten Ergebnisse, wenn es viele Fotos eines bestimmten Objektes gibt, die im Netz zu finden sind (der Chatbot lernt schließlich auch von jeder neuen Frage bzw. Art der Fragestellung immer wieder dazu).

Um die Visual Search im großen Stil zu nutzen, fehlt es aber definitiv noch an Referenz-Bildern im Netz. Häufig fotografierte Objekte werden demnach leichter gefunden als ältere - Solche, die für das Zeitgeschehen nicht mehr so relevant und demnach auch weniger häufig fotografiert werden. Doch wie bereits erwähnt: die künstliche Intelligenz lernt jeden Tag aufs Neue dazu.

Schön und gut – Aber wie funktioniert die Visual Search denn nun?

Wie schon erwähnt, funktioniert Visual Search mit Hilfe von Deep Learning Mechanismen und einem, dem menschlichen Gehirn nachempfundenen neuronalen Netz. Dort kommen zwischen den Eingangs- und den Ausgangsneuronen mehrere Schichten mit Zwischenneuronen zum Einsatz, welche dafür sorgen, dass die KI sich immer weiter entwickeln kann.

Mit dieser Technik und mit Hilfe bereits vorhandener Daten aus dem Netz, können Maschinen komplexe Zusammenhänge erkennen, verstehen und Bezüge herstellen.  Dafür greifen sie auf riesige Datenmengen zurück und sind so in der Lage, immer wieder Neues zu erlernen.

Ablauf der Visual Search
  1. Zuerst muss die Suchmaschine die fotografische Suche aufnehmen und inhaltlich verstehen können

  2. Mit Hilfe innovativer Bilderkennungstechnologien kann/muss das gesuchte Objekt nun erst einmal identifiziert werden können

  3. Wenn die KI nun die Inhalte des Bildes versteht, kann diese Bezüge zu möglichen Textabfragen herstellen, welche der visuellen Suche entsprechen könnten

  4. Die Suchmaschine fragt sich nun, welche textuelle Keyword-Abfrage zu diesem Bild passen könnte. Beispiel: Bei einem Foto von einem Sofa könnte das Keyword „Sofa“ oder auch „Couch“ etc. sein

  5. Analog zur textuellen Suchabfrage muss nun die Suchabsicht ermittelt werden → So sucht man nach einem Sofa meist mit einer konkreten Kaufabsicht; die Keyword-Abfrage wäre hier also dementsprechend „Sofa kaufen“. Alles in allem kann man sagen, dass kommerzielle Ereignisse bei der Visual Search (aktuell) relevanter sind, als die reine Information

  6. Nun werden Übereinstimmungen ermittelt und anhand von erkannten Merkmalsvektoren kann ein Ranking der Ereignisse ausgespielt werden
Gut zu wissen

Das kognitive Vermögen des Menschen fehlt einer visuellen Suchmaschine (noch). Aus diesem Grund bleibt der Vorgang des Deep Learnings erst einmal ein vorsichtiger Annäherungsprozess an die menschlichen Fähigkeiten des Bild-Erkennens.

Ein gut gepflegter Datenstamm ist auch bei der Visual Search sehr wichtig und muss für viele Objekte erst erschaffen werden.

Die Suchmaschine muss nicht nur den Gegenstand im Ganzen, sondern auch einzelne Merkmale erkennen können. Noch komplizierter wird es, wenn die Suchabsicht ins Spiel kommt: möchte der User sich nur informieren oder hat er auch eine Kaufabsicht?
Zum aktuellen Zeitpunkt gibt es bereits einige Apps, welche verhältnismäßig bereits eine gute Suchleistung aufweisen. Dies lässt sich (wie bei Google Lens) auf die riesigen Datenmassen des Marktführers zurückführen.
Die Dateigrößen der Bilder sollten möglichst klein gehalten werden.
Schlecht aufgelöste Bilder kann man für die Visual Search nicht gebrauchen, da sie zu schlechte Ergebnisse bei der Ergebnis-Aussteuerung liefern würden.
Eine gut strukturierte und gefüllte Sitemap macht es Suchmaschinen einfacher, Abbildungen zu finden und auch zu verstehen.
Deshalb geht auch automatisch mit einher, dass strukturierte Daten es den Suchmaschinen um ein Vielfaches erleichtern, Ergebnisse auszuspielen.
Das Potenzial ist da und wird mit Sicherheit auch bestehen bleiben und ausgebaut werden.
Wird jetzt alles anders?

Erst einmal nicht. Klassische SEO-Maßnahmen, die man aber hoffentlich sowieso schon immer bei der Benamung von Fotos beachtet hat, nehmen noch einmal eine andere Bedeutung für die visuelle Suche an. So sind Markups und Metadaten bei dieser Art der Suche die einzigen textuellen Anhaltspunkte für Google, um die Abbildungen einordnen und Zusammenhänge herstellen zu können.

Aktuell bleibt aber die altbekannte und auf Keywords basierende Bildersuche so wichtig wie eh und je. Davon abgesehen muss man sich natürlich auch noch einige kritische Fragen zum Thema Visual Search stellen, um einordnen zu können, ob sich diese Art der Suche überhaupt in der Allgemeinheit durchsetzen wird. Das Potenzial ist da und wird mit Sicherheit auch bestehen bleiben und ausgebaut werden. Die Visual Search bildet also neben der Voice Search einen besonders relevanten Suchmaschinen-Trend – Ist allerdings in ihrer Technologie noch lange nicht so ausgereift, wie die sprachbasierte online Suche.