Glossar · KI & LLMs

Multimodal

Modell, das mehrere Eingabe-Typen versteht — meist Text + Bild, neuerdings auch Audio und Video. Claude Sonnet 4.6, GPT-4o, Gemini Pro sind multimodal. Praktisch für Screenshots analysieren, Diagramme erklären, Bilder beschreiben.

Mehr aus diesem Bereich

KI & LLMs

Grundbegriffe rund um Sprachmodelle und Künstliche Intelligenz.

← Zurück zum vollständigen Glossar