
Kurz & Knapp
Google will mit Gemini einen „universellen KI-Assistenten“ schaffen, der Text, Bild, Ton und Video versteht und verarbeitet – ein echtes multimodales KI-Modell. Doch was kann Gemini 2.5 Pro und Flash wirklich? Wir schauen uns die neuesten Ankündigungen an: von natürlicheren Interaktionen mit Gemini Live über neue Kreativ-Tools wie Imagen 4 zur Bilderzeugung und Veo 3 für Videos mit passendem Sound bis hin zu KI-Agenten, die komplexe Aufgaben erledigen sollen. Erfahre, wie Google die KI-Zukunft gestalten will und welche Rolle Sicherheit und Verantwortung dabei spielen (sollen).
Die Entwicklung im Bereich der künstlichen Intelligenz schreitet rasant voran, und Google positioniert sich weiterhin als einer der treibenden Akteure. Mit einer Reihe von Ankündigungen rund um sein KI-Modell Gemini, die auf der Entwicklerkonferenz I/O und in Blogbeiträgen vom 20. Mai 2025 vorgestellt wurden, unterstreicht der Technologiekonzern seine Ambitionen deutlich. Im Mittelpunkt steht die Vision, Gemini zu einem „universellen KI-Assistenten“ auszubauen. Doch was verbirgt sich hinter diesen Plänen und welche technologischen Neuerungen wurden präsentiert?
Was steckt hinter Googles Vision vom „Universalmodell“?
Google zielt darauf ab, sein multimodales Foundation-Modell, Gemini 2.5 Pro, zu einem sogenannten „Universalmodell“ auszubauen. Ein multimodales Modell ist eine KI, die verschiedene Arten von Informationen – wie Text, Bilder, Töne und Videos – verarbeiten und verstehen kann. Die Ambition ist, dass dieses Universalmodell „durch Simulation von unterschiedlichen Aspekten der Welt eigenständig Pläne entwickeln, neue Erlebnisse verstehen und simulieren – ganz so, wie es das menschliche Gehirn tut“.
Demis Hassabis, CEO von Google DeepMind, sieht darin einen Schritt auf dem Weg zur allgemeinen künstlichen Intelligenz (Artificial General Intelligence, AGI) – einer KI mit menschenähnlichen kognitiven Fähigkeiten. Diese Entwicklung baut auf früheren Forschungen auf, etwa im Bereich von KI-Agentensystemen wie AlphaGo, das komplexe Spiele meisterte. Ein KI-Agent ist dabei ein System, das Ziele verstehen, Pläne schmieden und selbstständig Aktionen ausführen kann. Das Endziel ist ein „universeller KI-Assistent“, der intelligent ist, Kontext versteht und geräteübergreifend Aufgaben plant und erledigt.
Die Schlüsseltechnologien und ihre (angekündigten) Neuerungen
Um diese Vision Realität werden zu lassen, hat Google eine Vielzahl von Updates und neuen Funktionen vorgestellt:
Gemini Live und Project Astra für natürlichere Interaktion:
- Die Funktionen aus dem Forschungsprototyp Project Astra, wie das Verstehen von Videoinhalten und das Erinnern an geteilte Bildschirminformationen, werden in Gemini Live integriert.
- Nutzer*innen können kostenlos per Kamera und Bildschirmfreigabe mit Gemini Live interagieren, was laut Google zu deutlich längeren und wertvolleren Unterhaltungen führt.
- Geplant ist eine Integration mit Google Apps wie Kalender, Maps, Tasks und Notizen, wobei Nutzer*innen die Kontrolle über den Datenzugriff behalten sollen.
Neue Werkzeuge für die Medienerstellung: Imagen, Veo und Lyria
- Imagen 4, ein neues Modell zur Bildgenerierung, soll hohe Bildqualität und eine bessere Textdarstellung liefern und ist in den USA bereits in verschiedenen Google-Diensten verfügbar.
- Veo 3 ist ein Videogenerierungsmodell, das erstmals auch nativ passende Soundeffekte, Hintergrundgeräusche und Dialoge erstellen kann. Es wird zunächst in den USA über das Google AI Ultra-Abo zugänglich sein. Auch das Vorgängermodell Veo 2 erhält neue Funktionen wie Kamerasteuerung und Objektbearbeitung.
- Flow, ein KI-Tool für die Filmproduktion, das auf Veo, Imagen und Gemini basiert, wurde ebenfalls für den US-Markt vorgestellt.
- Lyria 2, ein Modell zur Musikgenerierung, wird breiter verfügbar gemacht, unter anderem für YouTube Shorts und über die Entwicklerplattform Vertex AI.
Fortschritte bei KI-Modellen und Entwicklerwerkzeugen
- Gemini 2.5 Pro soll laut Google führend in verschiedenen Benchmarks sein und verfügt über ein großes Kontextfenster von 1 Million Tokens, was der verarbeitbaren Informationsmenge entspricht. Der experimentelle Modus Deep Think soll das logische Schlussfolgern bei hochkomplexen Aufgaben verbessern.
- Gemini 2.5 Flash, ein effizienteres und schnelleres Modell, ist nun das Standardmodell in Gemini und wurde in Bereichen wie Reasoning (logisches Schlussfolgern) und Multimodalität verbessert.
- Für Entwickler*innen gibt es neue Funktionen wie „Thought Summaries“ (Darstellung der Denkprozesse des Modells) und „Denkbudgets“ zur Kostenkontrolle.
- Project Mariner treibt die Entwicklung von KI-Agenten voran, die bis zu zehn Aufgaben gleichzeitig erledigen können sollen, wie Recherchen oder Reservierungen. Teile davon sollen in die Gemini API und andere Google-Produkte integriert werden.
KI in der Google Suche und im Browser
- Die Funktion „Übersicht mit KI“, die direkte Antworten auf komplexe Fragen liefert, ist nun auch in Deutschland verfügbar und führt laut Google zu einer häufigeren Nutzung der Suche.
- In den USA wird ein KI-Modus in der Suche ausgerollt, der verbesserte Fähigkeiten zum logischen Schlussfolgern und Multimodalität bieten soll. Zukünftig sollen hier auch Deep Search für tiefgehende Recherchen und Live-Funktionen für Echtzeit-Interaktion per Kamera integriert werden.
- Sogenannte agentische KI-Funktionen sollen den KI-Modus befähigen, Aufgaben wie den Ticketkauf zu übernehmen.
- Gemini wird auch schrittweise in den Chrome-Browser integriert, zunächst für Abonnent*innen in den USA.
Neue Abo-Modelle für erweiterten Zugriff
- Google führt zwei neue kostenpflichtige Abonnements ein: Google AI Pro (21,99 Euro/Monat) und Google AI Ultra (249,99 Euro/Monat, mit Einführungspreis). Diese bieten Zugang zu leistungsfähigeren Modellen, höheren Nutzungslimits und teilweise früheren Zugriff auf neue Funktionen. Das Ultra-Abo ist zunächst nur in den USA verfügbar.
Verantwortung und Sicherheit – Googles Antwort auf KI-Risiken?
Angesichts der rasanten Entwicklung betont Google, dass Sicherheit und Verantwortlichkeit zentrale Leitlinien seien. Man habe sich in Forschungsprojekten mit den ethischen Fragen moderner KI-Assistenten beschäftigt. Konkret wurden Schutzmaßnahmen gegen sogenannte indirekte Prompt-Injections (Manipulationsversuche über externe Datenquellen) verbessert.
Um KI-generierte Inhalte transparenter zu machen, setzt Google auf SynthID, ein digitales Wasserzeichen. Laut Google wurden damit seit 2023 über 10 Milliarden Medieninhalte markiert. Auch die Inhalte der neuen Modelle Veo 3, Imagen 4 und Lyria 2 sollen entsprechend gekennzeichnet werden. Ein SynthID Detector soll zudem helfen, solche Wasserzeichen zu erkennen.
Chancen und offene Fragen
Die von Google vorgestellten Entwicklungen deuten auf eine Zukunft hin, in der KI-Systeme noch stärker in unseren Alltag und unsere Arbeitsprozesse eingebunden sind. Die Vision eines „universellen KI-Assistenten“ verspricht eine proaktivere und leistungsfähigere Unterstützung in vielen Lebensbereichen. Google selbst spricht davon, ein „neues goldenes Zeitalter voller Entdeckungen und Wunder ein[zu]läuten“.
Die Bandbreite der angekündigten Funktionen ist groß – von der natürlicheren Interaktion über Gemini Live bis hin zu komplexen Recherche- und Kreativwerkzeugen. Es wird sich zeigen müssen, wie gut sich diese Werkzeuge im Alltag bewähren, wie schnell sie über den US-Markt hinaus und auch ohne kostenpflichtige Abonnements breiter verfügbar gemacht werden und wie die Nutzer*innen sie annehmen. Der deklarierte Fokus auf Sicherheit und verantwortungsvolle Entwicklung wird dabei ein wichtiger Aspekt sein, um das Vertrauen in diese mächtigen Technologien zu gewährleisten. Diese „Zukunftsdinge“ könnten unseren Umgang mit Informationen und unsere kreativen Möglichkeiten durchaus verändern, doch wie bei allen technologischen Sprüngen werden die tatsächlichen Auswirkungen erst mit der Zeit und der breiten Anwendung sichtbar.
Schreibe einen Kommentar