Wie funktioniert die Indexierung?

Mithilfe des durch das Crawling erstellten Datensatzes kann eine Suchmaschine noch keine Suchergebnisse effizient ausliefern. Dafür gibt es einen weiteren Prozessabschnitt, den der sogenannten Indexierung.

Nachdem eine Seite gecrawlt wurde, werden die geladenen Dokumente so zerlegt und aufbereitet, dass sie später in der Suche effizient verarbeitet werden können. Dazu gehört die Verarbeitung von Text-, Bild- und Videoinhalten sowie die Analyse von Metatags (wie Meta-Title, Meta-Description, Keyword-Tag, Language-Tag etc.) und Attributen wie ALT-Attribute. Während des Prozesses ermittelt Google außerdem, ob eine Seite ein Duplikat einer anderen Seite im Internet oder kanonisch ist.

Das System zur Syntaxanalyse (parsing module) teilt die gefundenen Inhalte in indexierbare Einheiten (einzelne Wörter, Wortstämme oder N-Gramme) und notiert deren Existenz innerhalb des untersuchten Dokuments. Dabei wird ein invertierter Index erstellt, der vermerkt, welche indexierte Einheit in welchen Dokumenten vorkommt. Seiten mit ähnlichen Inhalten werden dabei in einem Cluster gruppiert.

Um bei der Verarbeitung von Suchanfragen einen effizienten Prozess zu gewährleisten (vgl. Abschnitt), werden bestimmte Faktoren geprüft und im Index vermerkt. Welche Faktoren berücksichtigt werden, ist unbekannt, jedoch ist es wahrscheinlich, dass textspezifische Faktoren wie die Anzahl verschiedener Wörter sowie deren Position im Dokument im Index eingetragen werden. Begriffe, die auf Lokalität schließen lassen, wie Städte- oder Ländernamen, werden vermutlich auch vermerkt. Ebenfalls ist es sinnvoll, die Aktualität des Dokuments und den Zeitpunkt der letzten Änderung sowie die Popularität, also die externen Verweise auf diese Seite, im Index einzutragen.

Ein weiterer Bereich, den Google berücksichtigt, sind technische Faktoren wie die Web Core Vitals. Dazu zählt die Ladezeit des größten Inhalts (engl. Largest Contentful Paint), die Eingabeverzögerung (engl. First Input Delay) und die Layoutverschiebungen (engl. Cumulative Layout Shift). Diese Messungen werden jedoch nicht auf den Servern von Google durchgeführt, sondern durch den Chrome-Browser auf den Endgeräten der Nutzer. Die Messdaten werden in der Sessionanalyse im Bericht zur Nutzererfahrung in Chrome (CrUX-Bericht) zusammengefasst und die dort enthaltenen Ergebnisse während der Indexierung im Index vermerkt.

Der erstellte Index besitzt dabei eine invertierte Struktur. Diese ermöglicht der Suchmaschine, von einzelnen Wörtern zu den jeweiligen Dokumenten zu gelangen. Der Index besteht aus Einträgen zu allen bekannten Wörtern der Suchmaschine und verweist auf die gespeicherten Dokumente, in welchen das jeweilige Wort vorkommt. Solch ein invertierter Index ermöglicht einen schnellen Zugriff, da nicht alle existierenden Dokumente durchsucht werden müssen, sondern nur die Dokumente, welche den Suchbegriff enthalten. Damit bei einer Suchanfrage nicht das vollständige Dokument durchsucht werden muss, wird während der Indexierung aus dem Dokument ein Index erstellt, welcher das Dokument repräsentiert. Somit werden bei einer Suchanfrage nicht die Dokumentinhalte untersucht, sondern deren jeweiliger repräsentativer Index.

Da eine Suchmaschine nicht mit dem eigentlichen Dokument, sondern mit einer selbst erstellten Repräsentation arbeitet, muss auch die Indexierung der jeweiligen Seiten in regelmäßigen Abständen durchgeführt werden. Nur so können aktualisierte oder gelöschte Inhalte berücksichtigt werden.

Wie funktioniert die Indexierung?

Recent Posts

Recent Comments

Green Web Project

Links

Allgemein

Rechtliches