University · Artificial Intelligence · AI Research Methods and Capstone

Benchmarking, Competition Datasets, and Leaderboard Culture in AI

4 Abschnitte

The role of benchmarks in AI progress: ImageNet, GLUE/SuperGLUE, SQuAD, MMLU, and BigBench. Dataset construction principles, train/validation/test splits and data contamination, leaderboard saturation and Goodhart's Law, responsible benchmark design, and the Sculley et al. hidden technical debt perspective on benchmarking.

Inhaltsübersicht

  • The Role of Benchmarks in Driving AI Progress
  • Dataset Construction: Splits, Contamination, and Evaluation Integrity
  • Leaderboard Saturation, Goodhart's Law, and the Benchmarking Crisis
  • Responsible Benchmark Design and Competition Datasets

📚 Vollständiges Lernmaterial mit 4 Abschnitten, Karteikarten und Quizzen verfügbar nach Anmeldung.

Jetzt kostenlos lernen →

Related Topics

Interaktiv lernen mit Karteikarten & Quizzen

Melde dich an und lerne AI Research Methods and Capstone mit intelligenten Wiederholungen, Quizzen und KI-Lernhilfen. 7 Tage kostenlos.

Kostenlos testen