University · Artificial Intelligence · Generative AI and Large Language Models

Multimodal Foundation Models: Vision–Language and Audio–Language Models

4 Abschnitte

Contrastive vision-language pretraining (CLIP, ALIGN), generative VLMs (Flamingo, LLaVA, GPT-4V), image–text alignment, visual instruction tuning, audio-language models (Whisper, AudioPaLM), cross-modal generation, and evaluation of multimodal understanding.

Inhaltsübersicht

From Unimodal to Multimodal: Contrastive Pretraining with CLIP
Generative Vision–Language Models: Flamingo, LLaVA, and GPT-4V
Audio–Language Models and Cross-Modal Generation
Image–Text Alignment, Visual Instruction Tuning, and Frontier Challenges

arches, architecture, bridge, columns, nature, construction, curve, engineering, foundation, outdoors, steel, travel, water — Pixabay – Pixabay License

📚 Vollständiges Lernmaterial mit 4 Abschnitten, Karteikarten und Quizzen verfügbar nach Anmeldung.

Jetzt kostenlos lernen →

Interaktiv lernen mit Karteikarten & Quizzen

Melde dich an und lerne Generative AI and Large Language Models mit intelligenten Wiederholungen, Quizzen und KI-Lernhilfen. 7 Tage kostenlos.

Kostenlos testen

Inhaltsübersicht

Related Topics

Interaktiv lernen mit Karteikarten & Quizzen