Zurück zum Glossar

Methodik

Evals (LLM-Evaluation)

Systematisches Testen von KI-Outputs gegen definierte Qualitäts-Kriterien.

Anders als klassische Software-Tests sind LLM-Outputs nicht deterministisch. Evals definieren Test-Sets mit erwartetem Verhalten (Genauigkeit, Format-Konformität, Toxizität, Halluzinations-Rate) und messen jede Modell- oder Prompt-Änderung dagegen. Tools: OpenAI Evals, Promptfoo, LangSmith, Braintrust, Ragas (für RAG). Ohne Evals ist KI-Ops Blindflug — jede Prompt-Änderung kann andere Use-Cases verschlechtern.

Verwandte Begriffe

Evals (LLM-Evaluation) im eigenen Unternehmen einsetzen?

Wir matchen Sie mit einem Senior-Berater, der genau das schon produktiv gebaut hat.

Projekt starten