Die Generierung einer natürlichen, textbasierten Antwort gehört zu den Hauptmerkmalen einer KI-basierten Suchmaschine. Während dieses Prozesses wird die Antwort speziell für die Anfrage des Nutzers generiert. Der Energieverbrauch der Generierung hängt dabei maßgeblich von der dafür benötigten Rechenleistung, des Antwortumfangs sowie der Anzahl der Nutzeranfragen ab.

Wie das Experiment aus Abschnitt „Versuch-KI“ gezeigt hat, generiert GPT-4, auf welchem Bing Chat basiert, durchschnittlich 31,23 Zeichen pro Minute. Geht man davon aus, dass 1000 Zeichen in etwa 160 Wörtern entsprechen, generiert GPT-4 ca. 5 Wörter pro Sekunde.

Um mit GPT-3, welches 175 Milliarden Parameter besitzt, 20 Wörter pro Sekunde generieren zu können, wird ein Server mit 8 A100 GPUs benötigt. Vergleicht man die benötigte Rechenleistung mit dem GPT4 KI-Modell, welches zwischen 20 Billionen und 100 Billionen Parameter besitzt, zeigt sich, dass GPT-4 eine deutlich größere Rechenleistung benötigt.

Um die gleiche Geschwindigkeit von 20 Wörter pro Sekunde zu erreichen, wird für eine Verzehnfachung der Parameter auch die zehnfache Rechenleistung benötigt. Somit ist eine 114-fache Rechenleistung für 20 Billionen Parameter und eine 571-fache Rechenleistung für 100 Billionen Parameter notwendig. Dabei ist jedoch anzumerken, dass das GPT-4 Modell wahrscheinlich effizienter arbeitet als das GPT-3 Modell. Da hierzu jedoch keine öffentlichen Angaben vorliegen, kann dies in der folgenden Betrachtung nicht berücksichtigt werden.

Da GPT-4 jedoch eine geringere Antwortgeschwindigkeit von ca. 5 Wörtern pro Sekunde besitzt, wird nur ein Viertel der Rechenleistung benötigt. Dennoch führt die höhere Parameteranzahl zu deutlich mehr benötigten GPUs. Um bei 20 Billionen Parametern 5 Wörter pro Sekunde zu generieren, werden ca. 229 GPUs benötigt. Bei 100 Billionen Parametern sind 1144 GPUs erforderlich.

Die durchschnittliche Antwortlänge von Bing Chat beträgt 202,25 Zeichen, was ca. 31 Wörtern entspricht. Bei 5 Wörtern pro Sekunde benötigt Bing Chat 6,2 Sekunden für eine Antwort. Dies ist vergleichbar mit den 5,2 Sekunden, die Bing Chat durchschnittlich benötigt, wenn keine Suchanfragen durchgeführt werden. Den Unterschied von einer Sekunde lässt sich durch die unterdurchschnittliche Antwortlänge bei einfacheren Antworten erklären, da hierbei Prozesse vor der tatsächlichen Generierung stärker ins Gewicht fallen.