Kostenlose Erstberatung
+49 (0)30 69 20 6347

Information Retrieval und Ranking

Das Hauptziel des Ranking-Prozesses ist es, die besten Ergebnisse für den Benutzer basierend auf seiner zugrunde liegenden Absicht zu erzielen. Das bedeutet letztlich, dass Suchmaschinen versuchen, das Problem zu lösen, das der Benutzer zu lösen versucht. Sie geben nicht nur eine Reihe von Dokumenten zurück, die für die Suchanfrage relevant sind, wie das bei herkömmlichen Datenbanken der Fall ist, wo man üblicherweise nicht angezeigt bekommt, welche Relevanz die ausgelieferten Dokumente für die jeweilige Suchanfrage haben. Die Vorgehensweisen dahinter werden als Information Retrieval (auf Deutsch: Informationsgewinnung oder Informations-Rückgewinnung) bezeichnet

Implizite Signale und Benutzerabsicht

Suchmaschinen nutzen alle verfügbaren Informationen, um die tatsächliche Intention des Nutzers und den Grund für seine Suche zu ermitteln. Welche Absicht kann dem Nutzer sinnvollerweise unterstellt werden?

Dabei wird für das Information Retrieval auf folgende implizite Indizien zurückgegriffen:

  • Suchhistorie: Wonach hat der Benutzer zuvor gesucht?
    Wenn Susi Sorglos sich die Rezensionen von MP3-Playern angeschaut hat und jetzt nach einem bestimmtem Modell von MP3-Playern sucht, ist es wahrscheinlich, dass Susi einen Kauf tätigen will, so dass eine Liste von E-Commerce-Shops, die dieses Modell vorrätig haben, in diesem Szenario angemessen ist. Das funktioniert auch, wenn die Suchanfrage lediglich einen unspezifischen Markenbegriff verwendete, der nicht direkt MP3-Playern zuzuordnen ist.
  • Standort und Einwahl-Netzwerk und weitere Hinweis zum Umfeld des Nutzers: Wo sich der Benutzer befindet, welches Gerät er verwendet und in welchem Einwahl-Netzwerk er sich befindet sind Schlüsselsignale für seine Absichten. Ein Benutzer mit einem Mobiltelefon, der nach Pizza sucht, sucht vielleicht nach dem nächstgelegenen Pizzarestaurant, während ein Benutzer, der die gleiche Anfrage von einem PC stellt, nach einer Rezepten zur Eigenproduktion von Pizza verlangen könnte.

Diese impliziten Signale nehmen an Bedeutung zu und verleiten immer mehr Nutzer, unspezifische Abfragen zu verwenden. Bei den obigen Beispielen wäre der Nutzer mit einfachen Verben wie kaufen oder machen ebenfalls zu seinem Suchergebnis gekommen. Bei letzteren handelt es sich um explizite Signale.

Explizite Signale sind also direkt ablesbare Indizien der Abfrage. Sie bilden nach wie vor die hauptsächliche Basis des Rankings und Nutzer, die gut diese expliziten Signale setzen können, haben mehr Erfolg im Suchprozess.

Explizite Signale werden angereichert

Suchmaschinen extrahieren aus einer Suchanfrage allerdings oft mehr Bedeutung als nur die verwendeten Wörter; Synonyme und semantische Konzepte werden dann eingesetzt, wenn die direkte Verwendung der Begriffe nicht ausreichend spezifisch ist. In einem früheren Blogbeitrag habe ich dies als Anreicherung beschrieben.

Auswahl ist der erste Schritt

Sobald die Suchmaschine die zugrundeliegende Absicht des Nutzers vorhergesagt hat, besteht ihre erste Aufgabe darin, einen Pool von Dokumenten abzurufen, die für die jeweilige Absicht relevant sind. Dieser Prozess ist sehr kompliziert und erstreckt sich typischerweise über viele verschiedene Server und Indizes. Eine grundlegende Methode, dies zu tun, ist das Abrufen einer Liste aller existierenden Dokumente, die die Wörter enthalten oder mit dem Kernkonzept der Suchanfrage übereinstimmen.

Ranking ist der zweite Schritt

In der Rangliste verwenden Suchmaschinen einen Algorithmus, der viele unterschiedliche Faktoren berücksichtigt, um den Pool der in Frage kommenden Dokumente zu reduzieren und ihre Reihenfolge festzulegen. Es ist zu beachten, dass nicht alle Signale gleich sind und nicht alle von allen Suchmaschinen verwendet werden – zum Beispiel wissen wir recht zuverlässig, dass Google soziale Signale (Verbindungen, Likes und Shares in sozialen Netzwerken) derzeit nicht in seinem Ranking-Algorithmus verwendet, einige (insbesondere die Suchmaschinen von sozialen Netzwerken selbst) ihr Information Retrieval bevorzugt auf Basis solcher Signale bestimmen.

Verlinkungen sind die wichtigste Basis für den Information Retrieval

Suchmaschinen wie Google pflegen eine Datenbank, die versucht, jeden direkten oder indirekten Link zwischen Dokumenten im Internet zu erfassen. Ein indirekter Link kann sich beispielsweise durch ein Zitat ohne explizite Verlinkung ergeben. Numerische Werte für Vertrauen, Relevanz oder Autorität können mittels spezifischer Rechenverfahren dem Link zugeordnet werden. Der PageRank von Google ist ein Verfahren, um eine solche Zuordnung vorzunehmen. Er wird nach wie vor angewandt, obwohl viele Laien und manche Experten dessen Irrelevanz schon seit vielen Jahren behaupten. Ein Dokument über eine Bundeskanzlerin, die fast nur Verknüpfungen innerhalb von spezifischen Echokammern sozialer Netzwerke hat, wird beispielsweise mit geringerer Wahrscheinlichkeit einen hohen Rang einnehmen als ein Dokument, das von seriösen Quellen (z.B. Wikipedia) oder breit verlinkten Mainstream-Medien verlinkt wird.

Der letzte Schritt vor dem endgültig Ranking beim Information Retrieval: auf Alternativen prüfen

Sobald ein Satz von Dokumenten definiert und geordnet wurde, besteht der letzte Schritt im Prozess darin, festzustellen, ob es noch Alternativen zu jedem Dokument gibt, die noch besser für den jeweiligen Benutzer sein könnten. So ist es beispielsweise zweckmäßiger, einen Benutzer auf einem mobilen Endgerät die gerätespezifische Version einer Webseite zu senden, als ihn mit der Desktop-Seite zu überlasten. Deshalb ist es auch für Webmaster kein Fehler, für jede eigene Webseite eine AMP-Variante als anzubieten.

Eine weitere Situation, in der Alternativen zurückgegeben werden können, ist dann beim Information Retrieval zu unterstellen, wenn es eine bessere geografische Version einer Webseite gibt: Wenn also eine Webseite, die sich an Benutzer in Deutschland richtet, gerankt werden soll, aber der Benutzer sich geografisch in Österreich befindet, werden Suchmaschinen versuchen, die österreichische spezifische Alternative zurückzugeben, wenn eine entsprechende Möglichkeit vorliegen sollte.

Schreibe einen Kommentar

zwei + 7 =

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre mehr darüber, wie deine Kommentardaten verarbeitet werden.