Damit ein KI-Modell auf Nutzeranfragen sinnvoll antworten kann und unangebrachte Antworten vermieden werden, ist ein weiterer Prozess notwendig. Mithilfe des Fine-Tunings wird der KI beigebracht, auf gewisse Anfragen bestimmte Formulierungsmuster anzuwenden.

Dafür werden zunächst gewünschte Anfragen und anschließend passende Antworten formuliert, welche die gewünschte Struktur vorgeben. So könnte beispielsweise für die Eingabe „Erstelle eine Liste von … “ eine Listenstruktur definiert werden. Im Training des KI-Modells werden die vordefinierten Prompts eingespeist und die erzielten Ausgaben mit den gewünschten Ausgaben verglichen. Bei Abweichungen wird das KI-Modell wie im Grundtraining so angepasst, bis das gewünschte Resultat erzielt wird.

Des Weiteren wird im Finetuning dafür gesorgt, dass die KI bevorzugt qualitativ hochwertige und relevante Antworten generiert. Hierfür wird ein Belohnungssystem (engl.: reward model) entwickelt. Die Antworten des KI-Modells werden nach ihrer Qualität geordnet. Anschließend wird mithilfe dieses Rankings das KI-Model so trainiert, dass hauptsächlich Ergebnisse mit hoher Qualität generiert werden.

Da die KI-Modelle auch unerwünschte Antworten liefern können, muss dafür gesorgt werden, dass diese entweder gar nicht oder nur selten generiert werden. Ein häufiges Problem stellen Antworten dar, die Vorurteile zugunsten oder gegen eine Person, Gruppe oder Sache enthalten. Sie werden als Bias bezeichnet. Im Hinblick darauf wird ein Policy-System entwickelt, welches dafür sorgen soll, derartige Ergebnisse des KI-Modells zu vermeiden.

Grundsätzlich gibt es drei Zeitpunkte, an denen ein Policy-System eingreifen kann: vor, während oder nach dem Lernprozess. Vor dem Lernprozess können die für das Training genutzten Daten überprüft, während des Lernprozesses unerwünschte Antworten über ein Reward Model abgestraft und nach dem Lernprozess Bias gefiltert werden. Um sicherzugehen, dass keine Antworten, die Bias enthalten, an den Nutzer gesendet werden, sollte das Policy-System zu allen drei Zeitpunkten integriert sein.