University · Artificial Intelligence · Generative AI and Large Language Models
LLM Evaluation, Benchmarking, and Red-Teaming
4 Abschnitte
Intrinsic vs extrinsic evaluation, benchmark taxonomy (MMLU, BIG-Bench, HELM, HumanEval, TruthfulQA), evaluation pitfalls (contamination, benchmark saturation), red-teaming methodologies, safety evaluation frameworks, and human evaluation design for LLMs.
Inhaltsübersicht
- Intrinsic vs Extrinsic Evaluation and Core Benchmark Categories
- HELM, Holistic Evaluation, and Benchmark Contamination
- Red-Teaming LLMs: Methodology and Failure Mode Taxonomy
- Safety Evaluation Frameworks and Human Evaluation Design
📚 Vollständiges Lernmaterial mit 4 Abschnitten, Karteikarten und Quizzen verfügbar nach Anmeldung.
Jetzt kostenlos lernen →Related Topics
Interaktiv lernen mit Karteikarten & Quizzen
Melde dich an und lerne Generative AI and Large Language Models mit intelligenten Wiederholungen, Quizzen und KI-Lernhilfen. 7 Tage kostenlos.
Kostenlos testen