Gemini Omni von Google kann „alles aus jeder Eingabe“ generieren, angefangen beim Video

Google hat bei seiner letzten Gemini-Ankündigungsrunde auf der Google I/O auch die KI-Entwickler nicht vergessen. Laut Google hat das Unternehmen gerade Gemini Omni offiziell vorgestellt, ein neues Modell, das laut Google „aus jeder Eingabe alles erstellen kann, angefangen bei Videos“. Das erste Modell namens Gemini Omni Flash wird heute für die Gemini-App, Google Flow und YouTube Shorts eingeführt.

Google nannte Gemini Omni den „nächsten Schritt“ von Nano Banana und vermutlich seinem aktuellen Videogenerator Veo 3.1. Laut dem Technologieriesen können Sie damit „Bilder, Audio-, Video- und Texteingaben kombinieren und hochwertige Videos basierend auf den realen Erkenntnissen von Gemini erstellen“. Sie können diese Videos dann durch natürliche Konversation bearbeiten, wobei jede Anweisung auf der anderen aufbaut, um die Konsistenz der Charaktere und anderer Elemente zu gewährleisten.

Während Veo 3.1 auf die Videoerstellung über Eingabeaufforderungen und Bilder beschränkt war, akzeptiert Gemini Omni eine größere Auswahl an Eingaben und kann noch viel mehr. Sie können beispielsweise ein Video aufnehmen und Omni dann einfach bitten, das Geschehen zu ändern. „Ihr Video wird zum Ausgangspunkt für etwas, das Sie selbst nie hätten filmen können“, erklärte Google. „Ändern Sie die Aktion, fügen Sie neue Charaktere oder Objekte hinzu oder verwandeln Sie einen Moment in etwas Unerwartetes. Ändern Sie die Umgebung, den Blickwinkel, den Stil oder sogar bestimmte Details.“

Omni versteht außerdem physikalische Kräfte wie Schwerkraft, kinetische Energie und Fluiddynamik besser, sodass Szenen realistischer aussehen. Er kombiniert dies mit Geminis „Wissen über Geschichte, Wissenschaft und kulturellen Kontext und schließt so die Lücke zwischen Fotorealismus und bedeutungsvollem Geschichtenerzählen.“ Die App soll überzeugende Erklärungen aus kurzen Eingabeaufforderungen erstellen, um visuelle Darstellungen zu generieren, die komplexere Ideen aufschlüsseln. Es werden jedoch nur Sprachreferenzen zum Starten der Audioausgabe unterstützt.

Wenn Sie Videos erstellen möchten, in denen Sie der Star sind, können Sie mit Omni mit Ihrer eigenen Stimme einen digitalen Avatar erstellen, der wie Sie aussieht. Auch wenn dies wie ein potenzieller Datenschutz-Albtraum klingt, gibt Google an, dass es „klare Richtlinien zum Schutz der Nutzer vor Schaden und zur Regelung der Nutzung unserer KI-Tools“ gibt. Was die Bearbeitung von Videos zur Änderung von Ton und Sprache betrifft, testet das Unternehmen diese Funktion noch, um sie den Benutzern auf „verantwortungsvolle“ Weise zur Verfügung zu stellen. Alle Videos verwenden außerdem das nicht wahrnehmbare digitale Wasserzeichen SynthID von Google, um zu bestätigen, dass die Videos mit Gemini Omni erstellt wurden.

Das klingt alles großartig, aber das Hauptproblem bei Veo 3.1 und anderen Anwendungen zur Videogenerierung besteht darin, dass das Video wie ein „unheimliches Tal“ aussieht und von Endbenutzern oft gehasst wird. In diesem Sinne wird es interessant sein zu sehen, ob die Ausgabequalität den atemlosen Behauptungen von Google entspricht. Wir werden es bald erfahren, denn Gemini Omni Flash ist jetzt für alle Google AI Plus-, Pro- und Ultra-Abonnenten weltweit verfügbar und wird ab dieser Woche für Nutzer von YouTube Shorts und der YouTube Create-App verfügbar sein.