Der Energieverbrauch des Crawlings für Inhalte des Grundtrainings hängt maßgeblich von der Anzahl der zu crawlenden Seiten ab. Für das Training von GPT-3 wurden 3 Milliarden Token von Wikipedia, 410 Milliarden durch gefiltertes Crawling sowie 19 Milliarden Token aus einem spezifischen Datensatz aus Webtexten eingespeist. Um die Anzahl gecrawlter Webseiten zu erhalten, ist es erforderlich zu berechnen, wie viele Token eine Webseite durchschnittlich besitzt.

Nach eigenen Angaben umfasst am 05.07.2023 Wikipedia 6.679.061 englischsprachige Artikel. Wird dieser Umfang mit den 8 Millionen Artikeln verglichen, die für das Training von GPT-2 genutzt wurden, ist davon auszugehen, dass auch anderssprachige Wikipedia-Artikel genutzt wurden.

Wenn für das Training von GPT-3 der gleiche Wikipedia-Datensatz genutzt wurde, lässt sich daraus die Anzahl von 375 Token pro Wikipedia-Artikel berechnen. Wendet man durchschnittlich 375 Token pro Seite auf die weiteren Datensätze an, ergeben sich neben den 8 Millionen Wikipedia-Artikeln 1093 Millionen Webseiten durch gefiltertes Crawling und 50,7 Millionen Seiten aus dem spezifischen Datensatz aus Webtexten. Daraus resultiert eine gesamte Seitenzahl von 1151,7 Millionen Webseiten. Wird diese Angabe mit den 40 bis 80 Milliarden Einträgen verglichen, zeigt sich, dass für das Grundtraining zwischen 1,4% und 2,9% des Google bekannten Internets gecrawlt wurde.

Unter Berücksichtigung, dass ein Crawler ca. 864.000 Seiten pro Tag verarbeiten kann (siehe Abs. Energie-Crawling bei Index-basierter Suchmaschine), würde er für diese Menge an Webseiten ca. 1333 Tage benötigen. In der Realität werden jedoch mehrere Crawler gleichzeitig verwendet. Da dies keinen Einfluss auf den Gesamtenergieverbrauch hat, kann die Dauer des Crawlings für weitere Berechnungen genutzt werden.

Bei einem Energieverbrauch von 2880 Wh pro Tag, einer Crawlinglaufzeit von 1333 Tagen und unter der Berücksichtigung eines PUE Faktors von 1,10 ergibt sich ein Energieverbrauch von 4,22 MWh durch den Crawler.

Während des Crawlings wird nicht nur durch den Server des Betreibers Energie verbraucht, auch der verursachte Datentransfer ist führt zu einem externen Energieverbrauch. Da für das Grundtraining nur die Textinhalte benötigt werden, ist es wahrscheinlich, dass beim Crawling ausschließlich das HTML-Dokument geladen wird.

Berücksichtigt man den Energieverbrauch von 0,0003402 Wh/kB durch den Datentransfer sowie die Tatsache, dass im Jahr 2022 ein HTML-Dokument durchschnittlich 29,4 kB groß war, ergibt sich daraus ein Energieverbrauch von ca. 0,01 Wh pro Seite.

Unter Einbezug sämtlicher gecrawlten Webseiten ergibt sich daraus ein Gesamtenergieverbrauch von 11,5 MWh durch den Datentransfer.

Rechnet man den serverseitigen Energieverbrauch des Crawlers mit dem externen entstandenen Energieverbrauch zusammen, ergibt sich daraus ein verursachter Gesamtverbrauch von 15,72 MWh.