So funktioniert Google – ein Blick hinter die Kulissen

Wir alle nutzen sie – sogar manchmal mehrfach am Tag. Die Rede ist von Suchmaschinen. Sie sind aus unserem Alltag nicht mehr wegzudenken. Man hat eine Frage oder ist auf der Suche nach einer Information, die Suchmaschine hat in den meisten Fällen die passende Antwort parat. Binnen Sekunden. Es ist schon erstaunlich was dieses Wunderwerk alles kann, doch wie es genau funktioniert und wie Fragen und Antworten zusammenfinden, wissen die Wenigsten. Daher werfen wir heute mal einen Blick hinter die Kulissen einer Suchmaschine. Und zwar nicht irgendeiner Suchmaschine, sondern hinter DIE Suchmaschine schlechthin.

Die grundlegende Funktionsweise von Suchmaschinen

Was im Hintergrund abläuft, wenn wir eine Suchanfrage bei Google oder einer anderen Suchmaschine eingeben, ist komplex. Deswegen beschränken wir uns auf eine recht vereinfachte Erklärung ihrer Funktionsweise. Bis wir die Suchergebnisse zum Beispiel bei Google sehen können, laufen im Hintergrund verschiedene Prozesse ab.
Ganz am Anfang stehen die Crawler, auch Bots genannt. Das sind Computerprogramme, die automatisch durch das Internet bzw. genauer gesagt durch das World Wide Web (WWW) schwirren. Das WWW stellt einen riesengroßen Informationspool dar und beinhaltet Billionen von Webseiten und anderen Dateien, die wir dort publiziert haben. Diese Crawler durchsuchen nun das WWW nach Webseiten bzw. Dokumenten und legen von jedem Dokument eine Art Kopie an, die sie an die Suchmaschine übermitteln.
Als nächstes müssen die Webseiten in Informationshäppchen untergliedert werden. Hier kommt der sogenannte Algorithmus ins Spiel. Auch dabei handelt es sich wieder um ein Computerprogramm. Wie es im Detail funktioniert, behalten die Suchmaschinen für sich. Wir wissen aber, dass der Algorithmus jede Webseite mit einer einzigen bestimmten Nummer versieht, einer ID und die Webseite in einzelne Stichwörter zerteilt. Aus den Stichwörtern legt der Algorithmus ein alphabetisch geordnetes Verzeichnis an. Dieses Verzeichnis kann man sich nun als eine Sammlung von Karteikarten vorstellen. Jede Karteikarte besteht aus dem Stichwort und den zugehörenden Webseiten-IDs. Somit weiß die Suchmaschine, auf welcher Webseite über welches Stichwort Informationen zu finden sind.
Tippen wir nun bei einer Suchmaschine den Begriff „Eisbär“ ein, erhalten wir alle Webseiten und Dokumente aufgeführt, die es im WWW gibt und die die Crawler zuvor gefunden haben. In welcher Reihenfolge und Gewichtung die Suchmaschine die Webseiten aufführt, ist ein ganz anderes Thema und würde den Rahmen des Beitrags sprengen. Bei einer Suchanfrage zieht die Suchmaschine also quasi ihre Karteikarte heraus und sieht auf einen Blick welche Webseiten zum Thema Eisbär passen. Diese Karteikarte wird im Fachjargon auch als Index bezeichnet. Auf diese Weise ist es Suchmaschinen möglich, uns innerhalb kürzester Zeit mit den gesuchten Informationen und Antworten zu versorgen.
Dieses System funktioniert bei einfachen Suchbegriffen recht zuverlässig, doch Google & Co. stoßen auch schnell an ihre Grenzen. Es gibt viele Begriffe, die mehrdeutig sind wie „Jaguar“ oder „Fliege“. Woher weiß die Suchmaschine, welcher Begriff nun gemeint ist? Besonders Google war sich dieser Problematik bewusst und hat schon früh daran gearbeitet seinen Algorithmus zu verbessern. Herausgekommen sind im Laufe der Jahre immer wieder Updates und Anpassungen an seinem Algorithmus. Heute kann Google erstaunlich gut mit der Mehrdeutigkeit von Begriffen und auch komplexen Suchanfragen umgehen, die über Ein-Wort-Suchen (short-term keywords) deutlich hinausgehen. Doch wie ist das möglich?

Googles Knowledge Graph

Seit 2013 kann Google Suchanfragen auch semantisch interpretieren. Semantisch bedeutet in diesem Fall, dass Google den Wörtern und Sätzen eine Bedeutung zuordnen kann. Bei der Interpretation stützt sich Google einerseits auf seine klassischen Karteikarten, andererseits auf seinen sogenannten Knowledge Graph. Dieser beinhaltet Entitäten sowie deren Attribute und Beziehungen untereinander. Als Entität versteht man das Wesen eines konkreten und abstrakten Begriffs, der genau identifizierbar und einzigartig ist. Entitäten können dabei konkrete Dinge oder Personen sein (z.B. Eisbär, Sonnenblume, Königin Elizabeth II.) aber auch abstrakte Konzepte (z.B. Kreativität, Freude, Energie). Sie sind durch bestimmte Eigenschaften definiert und treten mit anderen Entitäten in Beziehung. Dadurch können sie zu anderen Entitäten eindeutig abgegrenzt werden. Google denkt also nicht mehr länger in Stichwörtern, sondern in Entitäten.
Da Entitäten im Gegensatz zu Stichwörtern eindeutig und einmalig sind, kann Google die Mehrdeutigkeit von Suchbegriffen erkennen und richtig interpretieren. Bei der Suchanfrage „wie Fliege binden“ spielt Google also Treffer aus, die Tipps und Anleitungen zeigen, wie man eine Fliege richtig bindet. Google wird keinen Treffer ausspielen, der sich mit der Fliege als Insekt beschäftigt. Wie funktioniert das genau?
Google ist bestrebt, dem Suchenden die bestmögliche Antwort auf seine Frage zu liefern. Dazu ist es unerlässlich, dass Google zum einen die Absicht hinter einer Suchanfrage und zum anderen die Bedeutung versteht. Dazu bezieht Google den unmittelbaren Kontext sowohl des Suchenden (Standort, Suchhistorie, Endgerät, etc.) als auch des Suchbegriffs/der Suchbegriffe ein. Bleiben wir beim Beispiel „wie fliege binden?“. Im Zentrum steht der Begriff „Fliege“, der einmal Kleidungsstück, einmal Insekt bedeuten kann. In Googles Knowledge Graph sind für diese Begriff zwei Entitäten angelegt mit unterschiedlichen Eigenschaften. Auf der einen Seite steht Fliege in Beziehung zum Oberbegriff „Kleidungsstück“, hat das Attribut „festlich“ und steht mit „verschiedenen Bindetechniken“ in Verbindung. Auf der anderen Seite hat Fliege den Oberbegriff „Insekt“, das Attribut „kann fliegen und summen“ sowie die Verbindung zu der „Farbe schwarz“. Da Google bei der Beantwortung der Suchanfrage auf sein Wissen über die beiden verschiedenen Entitäten zurückgreift, kann die Suchmaschine hier einfach entscheiden, welche Entität der Nutzer meint und dementsprechend die richtigen Webseiten zuordnen.
Herzstück von Googles Intelligenz ist also sein Knowledge Graph, einer semantischen Datenbank, die Entitäten in Beziehung zueinander stellt, sie mit Attributen und mit einer eindeutigen Bedeutung versieht. Auf diese Weise lassen sich auch mehrdeutige Begriffe durch ihren Kontext einer einzigen Bedeutung zuordnen.

Und dann kam BERT

Obwohl Google Suchanfragen bereits in den meisten Fällen schon gut und richtig interpretiert, schleichen sich immer noch Fehler bei der Beantwortung von Suchanfragen ein. Bisher hat sich Google bei der Interpretation von Suchanfragen überwiegend auf Nomen und Verben fokussiert. Präpositionen wurden weitestgehend außer Acht gelassen. In den meisten Fällen funktioniert dieses Vorgehen ganz gut, aber unsere Suchanfragen werden mit der Zeit immer umfangreicher und komplexer. Daher hat Google im Oktober 2019 ein weiteres Update herausgebracht, das BERT genannt wird und noch besser mit komplexen Suchanfragen umgehen kann, indem auch Präpositionen berücksichtigt und richtig gedeutet werden.
An folgendem Beispiel wird deutlich, warum das aktuelle Update des Google Algorithmus‘ ein weiterer wichtiger Schritt in Richtung semantisches Verständnis einer Suchanfrage ist. Tippte man die Suchanfrage “Parking on a hill with no curb“ (zu deutsch: Parken an einem Berg ohne Bordstein) bei Google ein, erhielt man bis dato eine Erklärung wie man an einem Berg MIT Bordstein parkt. Google lieferte also eine falsche Antwort auf die Suchanfrage aus, da die Suchmaschine Präpositionen (wie in diesem Fall „no“) ignorierte. Seitdem BERT ausgerollt wurde, berücksichtigt Google Präpositionen und liefert im oben genannten Beispiel die richtige Antwort.
Durch BERT kann Google nicht nur mit Präpositionen umgehen, sondern auch ein Wort in Beziehung zu allen anderen Wörtern einer Suchanfrage setzen. Google interpretiert also nicht mehr nur die reine Bedeutung einzelner Wörter, sondern auch ihren Kontext und berücksichtigt ihre Position im Satz.
Bis jetzt wurde BERT nur für die englische Sprache ausgerollt. Dort soll davon aber jede zehnte Suchanfrage betroffen sein. Für Deutschland ist BERT noch nicht aktiv, es soll aber für Deutschland und weitere Länder in der Zukunft ausgerollt werden. Auch wenn BERT hierzulande noch nicht aktiv ist, zeigt es deutlich, dass Google bestrebt ist, unsere menschliche Sprache immer besser zu verstehen und noch bessere Antworten zu liefern. Die Entwicklungen der letzten Jahre zeigen außerdem, dass man in der Suchmaschinenoptimierung und bei der Content-Erstellung vermehrt in Entitäten denken sollte anstelle von Keywords. Denn für Google wird das gesamtheitliche Bild eines Wortes immer wichtiger.

Quellen:
Sendung mit der Maus Sachgeschichte: Suchmaschine
Kopp, Olaf: Entitäten-basierte Suche: so funktioniert der Google Knowledge Graph, in: Website Boosting (2019), Nr. 57, S.36 – 55.
https://blog.searchmetrics.com/de/google-bert-update/
https://www.seonative.de/google-bert-update/