University · Artificial Intelligence · Generative AI and Large Language Models
Multimodal Foundation Models: Vision–Language and Audio–Language Models
4 Abschnitte
Contrastive vision-language pretraining (CLIP, ALIGN), generative VLMs (Flamingo, LLaVA, GPT-4V), image–text alignment, visual instruction tuning, audio-language models (Whisper, AudioPaLM), cross-modal generation, and evaluation of multimodal understanding.
Inhaltsübersicht
- From Unimodal to Multimodal: Contrastive Pretraining with CLIP
- Generative Vision–Language Models: Flamingo, LLaVA, and GPT-4V
- Audio–Language Models and Cross-Modal Generation
- Image–Text Alignment, Visual Instruction Tuning, and Frontier Challenges
📚 Vollständiges Lernmaterial mit 4 Abschnitten, Karteikarten und Quizzen verfügbar nach Anmeldung.
Jetzt kostenlos lernen →Related Topics
Interaktiv lernen mit Karteikarten & Quizzen
Melde dich an und lerne Generative AI and Large Language Models mit intelligenten Wiederholungen, Quizzen und KI-Lernhilfen. 7 Tage kostenlos.
Kostenlos testen