Für das Betreiben einer KI-basierten Websuchmaschine sind mehrere Arbeitsschritte notwendig, die im Folgenden beschrieben werden, um die Funktionsweise und den Energieverbrauch genauer zu analysieren.

URL-Discovery

Bevor eine KI-basierte Websuchmaschine Ergebnisse liefern kann, muss sie zunächst erkennen, welche Seiten im Web existieren. Daher muss wie bei Index-basierten Suchmaschinen ein eigenes Verzeichnis bekannter Seiten erstellt, aktualisiert und erweitert werden. Deshalb ist davon auszugehen, dass ebenfalls neue URLs durch die Analyse von Sitemaps und das Crawling gefunden werden.

Die URL-Discovery bei KI-basierten Suchmaschinen unterscheidet sich nicht von der URL-Discovery bei Index-basierten Suchmaschinen, die in Abschnitt „URL-Discover“ beschrieben wurde. Außerdem sollten die Angaben des Seiteninhabers mithilfe der robots.txt und des no-index Metatags von KI-basierten Suchmaschinen ebenfalls berücksichtigt werden.

Crawling

Für das Betreiben einer KI-basierten Suchmaschine ist es ebenfalls notwendig, die Inhalte der gefundenen Seiten in regelmäßigen Abständen zu laden und zu interpretieren. Um das KI-Modell mit diesen Daten trainieren zu können, müssen zunächst automatisierte Crawler die Webseiten laden und speichern.

Das Crawling funktioniert dabei genau so wie bei einer Index-basierten Suchmaschine. Neben den HTML-Inhalten ist es auch sinnvoll, Inhalte, für die JavaScript notwendig ist, ebenfalls zu rendern. Grundsätzlich sollte sich der Prozess nicht von den in Abschnitt „Crawling“ beschriebenen Abläufen des Googlebots unterscheiden.

Einbezug der Webinhalte

Um die im Internet enthaltenen Webseiten und Inhalte verarbeiten zu können, müssen die gecrawlten Seiten ebenfalls in das KI-Modell eingespeist werden. Da sich das Internet, die dort verfügbaren Seiten und deren Inhalte ständig verändern, muss eine KI-basierte Suchmaschine jedoch in regelmäßigen Abständen diese Änderungen berücksichtigen. Neue Seiten und Inhalte können veröffentlicht werden, während andere geändert oder gelöscht werden.

Das stellt beim Betreiben einer KI-basierten Suchmaschine ein Problem dar: Wenn die Webinhalte im Grundtraining eingespeist werden, müsste das KI-Modell nach einer gewissen Zeit komplett neu trainiert werden. Zur Lösung dieses Problems gibt es mehrere Ansätze mit unterschiedlichen Vor- und Nachteilen. Die beiden untersuchen KI-basierten Suchmaschinen nutzen unterschiedliche Ansätze.

Wie die beiden möglichen Prozesse des Einbezugs der Webinhalte funktionieren, wird in den Teilabschnitten „Anbindung Index“ und „Aktualisierungstraining“ untersucht.