University · Artificial Intelligence · Generative AI and Large Language Models

Multimodal Foundation Models: Vision–Language and Audio–Language Models

4 Abschnitte

Contrastive vision-language pretraining (CLIP, ALIGN), generative VLMs (Flamingo, LLaVA, GPT-4V), image–text alignment, visual instruction tuning, audio-language models (Whisper, AudioPaLM), cross-modal generation, and evaluation of multimodal understanding.

Inhaltsübersicht

  • From Unimodal to Multimodal: Contrastive Pretraining with CLIP
  • Generative Vision–Language Models: Flamingo, LLaVA, and GPT-4V
  • Audio–Language Models and Cross-Modal Generation
  • Image–Text Alignment, Visual Instruction Tuning, and Frontier Challenges

📚 Vollständiges Lernmaterial mit 4 Abschnitten, Karteikarten und Quizzen verfügbar nach Anmeldung.

Jetzt kostenlos lernen →

Related Topics

Interaktiv lernen mit Karteikarten & Quizzen

Melde dich an und lerne Generative AI and Large Language Models mit intelligenten Wiederholungen, Quizzen und KI-Lernhilfen. 7 Tage kostenlos.

Kostenlos testen
Learn Multimodal Foundation Models: Vision–Language and Audio–Language Models — Generative AI and Large Language Models Artificial Intelligence | Summary, Flashcards & Quiz