Stell dir vor, eine KI kann nicht nur Text verstehen und generieren, sondern gleichzeitig auch Bilder, Töne, Videos oder andere Arten von Daten verarbeiten – so wie wir Menschen es tun, wenn wir mit mehreren Sinnen gleichzeitig unsere Umwelt wahrnehmen. Genau das ist die Idee hinter multimodaler KI. „Multimodal“ bedeutet, dass die KI mit verschiedenen „Modi“ oder „Modalitäten“ (also unterschiedlichen Arten von Informationen) umgehen kann. Sie kann beispielsweise ein Bild analysieren und dazu eine passende Beschreibung in Textform liefern, oder umgekehrt aus einer Textbeschreibung ein Bild erstellen. Dr. Fei-Fei Li, eine Pionierin der KI-Forschung, sagte einmal (sinngemäß): „Wenn wir wirklich intelligente Maschinen bauen wollen, müssen sie die Welt in ihrer ganzen multimodalen Pracht verstehen können.“
Multimodale KI
« Back to Glossary Index