Da KI-basierte Suchmaschinen wie Bing Chat auf eine natürliche Dialoginteraktion setzen und ein GPT Large Language Modell nutzen, muss die KI zunächst so trainiert werden, dass die Eingabe des Nutzers verstanden und sinnvolle Antworten zurückgegeben werden können.

Bing Chat nutzt dabei kein eigenes KI-Modell, sondern GPT-4 von OpenAI als Grundlage. GPT-4 ist ein Large Language Modell, das Deep-Learning, Language Processing und Natural Language Generation nutzt. Alle GPT Modelle nutzen die Transformer Architektur. Das bedeutet, dass die Sequenzverarbeitung durch den Encoder, welche die Eingabe verarbeitet, und den Decoder, welcher die Ausgabe generiert, stark zeitlich parallelisiert werden können. Das ermöglicht eine schnellere Verarbeitung durch das KI-Modell. Für den Trainingsprozess werden zahlreiche Daten mithilfe von verschiedenen Prozessen verarbeitet, die im Folgenden erklärt werden sollen.

Die genannten Encoder und Decoder besitzen einen integrierten Self-Attention-Mechanismus, der es ermöglicht, Bestandteile der Phrasen unterschiedlich zu gewichten. Dies wiederum ermöglicht dem KI-Modell Zusammenhänge, Bedeutungen und den Kontext in der Verarbeitung zu berücksichtigen. Dabei wird zunächst die Teilwort-Tokenisierung (engl.: Subword-Tokenization) angewandt, bei der die Eingabe in ihre Bestandteile zerlegt wird. Dabei werden Sätze nicht in Wörter aufgeteilt, sondern in die Grundbestandteile der Wörter wie Wortstamm, Präfix und Suffix getrennt. Diese werden mithilfe eines vordefinierten Vokabulars in Bytes übersetzt, die von den Algorithmen der KI effizienter verarbeitet werden können.

Nachdem die Architektur des Modells festgelegt und die definierten Gewichte mit zufälligen Zahlen gefüllt wurden, wird mithilfe des Lernprozesses versucht, diese Gewichte richtig zu verteilen. Dafür wird eine Eingabe an das System geschickt, die vom Modell verarbeitet wird. Anschließend generiert das KI-Modell eine Antwort, welche mit der erwarteten Lösung abgeglichen wird. Wie genau dieser Prozess funktioniert, wird im Abschnitt „Grundtraining“ untersucht.