University · Artificial Intelligence · Generative AI and Large Language Models

LLM Evaluation, Benchmarking, and Red-Teaming

4 Abschnitte

Intrinsic vs extrinsic evaluation, benchmark taxonomy (MMLU, BIG-Bench, HELM, HumanEval, TruthfulQA), evaluation pitfalls (contamination, benchmark saturation), red-teaming methodologies, safety evaluation frameworks, and human evaluation design for LLMs.

Inhaltsübersicht

  • Intrinsic vs Extrinsic Evaluation and Core Benchmark Categories
  • HELM, Holistic Evaluation, and Benchmark Contamination
  • Red-Teaming LLMs: Methodology and Failure Mode Taxonomy
  • Safety Evaluation Frameworks and Human Evaluation Design

📚 Vollständiges Lernmaterial mit 4 Abschnitten, Karteikarten und Quizzen verfügbar nach Anmeldung.

Jetzt kostenlos lernen →

Related Topics

Interaktiv lernen mit Karteikarten & Quizzen

Melde dich an und lerne Generative AI and Large Language Models mit intelligenten Wiederholungen, Quizzen und KI-Lernhilfen. 7 Tage kostenlos.

Kostenlos testen
Learn LLM Evaluation, Benchmarking, and Red-Teaming — Generative AI and Large Language Models Artificial Intelligence | Summary, Flashcards & Quiz