University · Artificial Intelligence · AI Research Methods and Capstone
Benchmarking, Competition Datasets, and Leaderboard Culture in AI
4 Abschnitte
The role of benchmarks in AI progress: ImageNet, GLUE/SuperGLUE, SQuAD, MMLU, and BigBench. Dataset construction principles, train/validation/test splits and data contamination, leaderboard saturation and Goodhart's Law, responsible benchmark design, and the Sculley et al. hidden technical debt perspective on benchmarking.
Inhaltsübersicht
- The Role of Benchmarks in Driving AI Progress
- Dataset Construction: Splits, Contamination, and Evaluation Integrity
- Leaderboard Saturation, Goodhart's Law, and the Benchmarking Crisis
- Responsible Benchmark Design and Competition Datasets
📚 Vollständiges Lernmaterial mit 4 Abschnitten, Karteikarten und Quizzen verfügbar nach Anmeldung.
Jetzt kostenlos lernen →Related Topics
Interaktiv lernen mit Karteikarten & Quizzen
Melde dich an und lerne AI Research Methods and Capstone mit intelligenten Wiederholungen, Quizzen und KI-Lernhilfen. 7 Tage kostenlos.
Kostenlos testen