Glossar · KI & LLMs
RLHF — Reinforcement Learning from Human Feedback
Trainings-Phase, in der Menschen Antworten bewerten und das Modell darauf optimiert wird, hilfreich-und-harmlos zu antworten. Grund, warum ChatGPT brauchbarer wirkt als ein rohes GPT-Base-Modell. Anthropics Variante heißt Constitutional AI.
Mehr aus diesem Bereich
KI & LLMs
Grundbegriffe rund um Sprachmodelle und Künstliche Intelligenz.