University · Artificial Intelligence · Generative AI and Large Language Models

LLM Evaluation, Benchmarking, and Red-Teaming

4 Abschnitte

Intrinsic vs extrinsic evaluation, benchmark taxonomy (MMLU, BIG-Bench, HELM, HumanEval, TruthfulQA), evaluation pitfalls (contamination, benchmark saturation), red-teaming methodologies, safety evaluation frameworks, and human evaluation design for LLMs.

Inhaltsübersicht

Intrinsic vs Extrinsic Evaluation and Core Benchmark Categories
HELM, Holistic Evaluation, and Benchmark Contamination
Red-Teaming LLMs: Methodology and Failure Mode Taxonomy
Safety Evaluation Frameworks and Human Evaluation Design

health, evaluation, nurse, nurse, nurse, nurse, nurse, nurse — Pixabay – Pixabay License

📚 Vollständiges Lernmaterial mit 4 Abschnitten, Karteikarten und Quizzen verfügbar nach Anmeldung.

Jetzt kostenlos lernen →

Interaktiv lernen mit Karteikarten & Quizzen

Melde dich an und lerne Generative AI and Large Language Models mit intelligenten Wiederholungen, Quizzen und KI-Lernhilfen. 7 Tage kostenlos.

Kostenlos testen

Inhaltsübersicht

Related Topics

Interaktiv lernen mit Karteikarten & Quizzen