CHRISTIAN OHLE

Glossar · KI & LLMs

RLHF — Reinforcement Learning from Human Feedback

Trainings-Phase, in der Menschen Antworten bewerten und das Modell darauf optimiert wird, hilfreich-und-harmlos zu antworten. Grund, warum ChatGPT brauchbarer wirkt als ein rohes GPT-Base-Modell. Anthropics Variante heißt Constitutional AI.

Mehr aus diesem Bereich

KI & LLMs

Grundbegriffe rund um Sprachmodelle und Künstliche Intelligenz.

← Zurück zum vollständigen Glossar