In der KI-Szene hat Google mit Gemini 3 Pro vergangene Woche international für Furore gesorgt. In den wichtigsten Benchmarks wie LM Arena rückte das Modell auf Anhieb auf Platz 1, ebenso bei „Humanity’s Last Exam“ (die letzte Prüfung der Menschheit). Die gilt als härteste akademische Prüfung mit rund 2500 extrem herausfordernden Fragen aus Mathematik, Geistes- und Sozialwissenschaften. Visuelle Darstellung statt Textwüsten Fernab wissenschaftlicher Lösungen für Probleme überboten sich in den vergangenen Tagen Enthusiasten mit Beispielen besonders kluger und vor allem schön gestalteter Lösungen aus der KI. Das Paradigma reiner Textantworten fällt. Shopify-Gründer Tobias Lütke fütterte die KI mit einem Transkript einer älteren Rede vor der Belegschaft, die KI erschuf daraus ein beeindruckendes Plakat über die Firmenphilosophie. Google-CEO Sundar Pichai verwandelte eine Anekdote über ein Hamburger-Emoji in ein Schaubild über die richtige Platzierung einer Scheibe Käse. Ein anderer Nutzer garnierte Fotos von Wahrzeichen der Welt vom Eiffelturm bis zur Freiheitsstatue mit technischen Diagrammen und Daten, wie sie in einer Broschüre erscheinen könnten. Angepasst an hiesige Sehenswürdigkeiten, lautet der Prompt: „Erstelle eine Infografik vom Deutschen Eck, indem Du ein Foto des Wahrzeichens mit technischen Anmerkungen und Diagrammen im Bauplanstil kombinierst. Füge den Titel ,Deutsches Eck‘ in einem handgezeichneten Kasten in der Ecke hinzu. Ergänze die Grafik mit Skizzen im Kreidestil, die wichtige Strukturdaten, Maße, Materialmengen, Innendiagramme, Lastflussdiagramme, Querschnitte, Grundrisse und markante architektonische oder ingenieurtechnische Merkmale zeigen. Stil: Bauplanästhetik mit weißen Linienzeichnungen auf dem Foto, technischer/architektonischer Anmerkungsstil, informativer Infografik-Charakter, wobei die reale Umgebung hinter den Anmerkungen sichtbar ist.“ Das erste Ergebnis enthielt viele englische Begriffe und falsch gezeichnete Reiterstatuen. Mit einer entsprechenden Verwarnung bekam die KI das besser in den Griff. In den Details muss man weiterhin aufmerksam bleiben. Der „Thinking“-Modus im Praxistest Wer Ähnliches einmal unter gemini.google.com ausprobieren möchte: Der folgende Prompt erstellt ein Lehrposter für Schüler über jüngste Entdeckungen auf dem Mars. Wichtig ist, den „Thinking“-Modus dafür unten rechts auf der Gemini-Seite auszuwählen. Das dauert zwar länger, liefert aber bessere Ergebnisse. „Finde die neuesten NASA-Daten zu den Mars-Rover-Entdeckungen dieses Monats und erstelle ein Lehrposter für Schüler der Mittelstufe.“ Das Ergebnis zeigt die zwei Roboter Perseverance und Curiosity in Zeichnungen auf dem Mars sowie deren Entdeckungen eines besonderen Gesteins und von Hinweisen auf unterirdisches Wasser. Unfallfrei entstand dieses Poster nicht: Im ersten Entwurf tauchte eine Formulierung „Einen Mars Orbiters nur gegelen“ auf. Darauf angesprochen, räumte Gemini freimütig ein, das sei Kauderwelsch, eine KI-generierte Halluzination. Die Maschine schlug vor, das durch eine Zeile „Von einem Mars-Orbiter beobachtet“ zu ersetzen. „Mach das Poster entsprechend korrigiert neu“, prompteten wir zurück – und erhielten ein ansprechendes Ergebnis. Den langen Beitrag auf Wikipedia zum Thema Weltbevölkerung kann Gemini in eine anschauliche Übersicht mit vier Grafiken übersetzen. Der Prompt: „Nimm diesen Artikel https://de.wikipedia.org/wiki/Weltbev%C3%B6lkerung und mach daraus ein großes Poster im Querformat mit vier Abschnitten, alles auf Deutsch.“ In dem Beispiel galt es anschließend, die Maschine per Folgeprompt zu ermuntern, alles zu einem großen Poster zusammenzufassen. Vom 2D-Grundriss zum 3D-Rendering Architekten und Bauherren können dank Gemini nun zweidimensionale Baupläne in 3D-Darstellungen umwandeln. Der Prompt: „Erstelle ein fotorealistisches 3D-Rendering des gesamten Grundrisses aus der Ferne und von der Seite, inklusive Miniaturmodell. Vollfarbiges Rendering inklusive Möbeln. Die Räume sollen an ihrem ursprünglichen Standort und mit der entsprechenden Ausstattung bleiben, der Text soll jedoch aus dem finalen Bild entfernt werden. Hohe Auflösung, professionelle Qualität.“ Man wird so zwar keine millimetergenaue Darstellung erzeugen, wie sie in professionellen CAD-Programmen möglich ist, für einen ersten Eindruck aber reicht es. Für die Videoverarbeitung kann Gemini Streams in Echtzeit analysieren. Bisher las die KI Untertitel und Transkripte. Jetzt „sieht“ und „hört“ das Modell das Video direkt, ähnlich wie ein Mensch, aber auf Basis von Daten-Tokens. Dazu wird das Video in eine Sequenz von Bildern zerlegt und in die Sprache des Modells übersetzt. Parallel dazu wird die Tonspur in menschliche Sprache und Umgebungsgeräusche getrennt. So versteht das Modell Nachfragen wie: „Wie verändert sich der Gesichtsausdruck bei diesem Satz?“ In der Gemini-App kann man so die Kamera auf eine Szene richten. Die App übermittelt ungefähr ein Bild pro Sekunde sowie den Ton und erlaubt deren Analysen. Tiefe Integration in das Google-Ökosystem Google hat Gemini 3 Pro an diversen Stellen in sein Ökosystem eingebaut. Neben Gemini.google.com ist die KI auch unter notebooklm.google.com hinterlegt. NotebookLM bietet erweiterte Funktionen zur Erstellung von Präsentationsfolien, Infografiken, einer Videoübersicht und einer Audiozusammenfassung an. Zugrunde gelegt werden dafür eigene hochgeladene oder verlinkte Quellen. Außerdem ist Gemini 3 Pro in der klassischen Google-Suche nutzbar, im KI-Modus, der allerdings ein kostenpflichtiges Abo erfordert. Und das Modell ist Teil der Gemini-App für das Smartphone. Eine erweiterte Darstellung bei Gemini ist zudem eine „generative Oberfläche“. „Mach daraus eine zeitschriftenartige Darstellung“, lautete ein Prompt, versehen mit dem Link zum Wikipedia-Artikel über die Weltbevölkerung. Eingeschaltet hatten wir dafür den Modus „Canvas“. Die KI erzeugte eine Website mit interaktiven Schaltern, einer live dargestellten Schätzung der Zahl der lebenden Menschen und einem Szenarien-Simulator für das Jahr 2100. Die KI erfand dafür den Zeitschriftennamen „Nexus – Demografie & Zukunft“. Nano Banana Pro: Neue Möglichkeiten der Bildgenerierung Des Weiteren hat Google eine neue Version der Bilder-KI Nano Banana vorgestellt. „Erzeuge ein Diagramm eines zweischichtigen neuronalen Netzwerks im Stil von Stephen Biesty.“ Der britische Illustrator hat besonders detailreiche Bilder und Querschnitte von Objekten und Bauwerken gezeichnet, die KI kann den Stil kopieren. Auch beim Zusammenfügen verschiedener Bilder kann Nano Banana Pro helfen, zum Beispiel aus bis zu 14 hochgeladenen Einzelbildern eine neue Komposition erfinden. Bei öffentlichen Personen legt Gemini jedoch eine neue Zurückhaltung an den Tag. Viele Prominente sind für die Bildgenerierung gesperrt. Verbessert ist bei Nano Banana Pro die Produktion von Texten in Bildern. Auch auf Deutsch. In Postern lassen sich detailliertere Texte mit einer größeren Auswahl an Texturen, Schriften und Kalligraphie erstellen. Außerdem können Szenen mit neuen Wetterkonditionen versehen werden oder in nächtliches Licht getaucht werden. Auch das Bildformat lässt sich intelligent anpassen, um aus einem Querformat ein Hochformat zu machen. Deep Thinking: „Ein Quantensprung im Verstehen“ Die Google-Macher halten es selbst für erstaunlich, wie sich ihre KI in nur zwei Jahren von einem Modell, das nur Texte und Bilder lesen konnte, zu einer Technologie entwickelt hat, die „zwischen den Zeilen“ lesen kann – sei es, um subtile Hinweise in einer kreativen Idee zu erkennen oder die sich überschneidenden Ebenen eines schwierigen Problems zu durchdringen. „Der Deep-Think-Modus von Gemini 3 verschiebt die Grenzen der KI noch weiter und bietet einen Quantensprung bei den Schlussfolgerungs- und multimodalen Verständnisfunktionen von Gemini 3, sodass ihr noch komplexere Probleme lösen könnt“, wirbt das Unternehmen in einem Blogpost. Google startet zudem eine neue Plattform für die Entwicklung von Agenten. Auf Antigravity sollen Programmierer auf einer höheren, aufgabenorientierten Ebene arbeiten können. Die KI-Agenten bekommen dort Zugriff auf den Editor und den Browser des Anwenders. Dort kann der Agent gewisse Aufgaben im Rahmen vorgesehener Leitplanken erledigen. Wenn die KI die Kontrolle übernimmt, taucht sie das Browserfenster in einen blauen Rahmen. Vor sensiblen Transaktionen fragt die KI nach, ob sie fortfahren soll. Der Entwickler kann mit KI-Hilfe einzelne Abschnitte seines KI-Agenten überarbeiten lassen. In einem Beispielvideo zeigt Google, wie eine App für die Reiseplanung ein Flugticket darstellt und Gemini dazu Vorschläge für eine schickere Gestaltung macht. Google baut Führung bei Vergleichsportalen aus Unterm Strich scheint Google mit Gemini 3 Pro und der Bilder-KI Nano Banana Pro ein großer Wurf gelungen. Im Vergleich zu Open AI mit seiner jüngsten Version GPT-5.1 hebt sich Gemini ab und punktet besonders mit der grafischen Darstellung von Themen. Bereits mit dem Vorläufer Gemini 2.5 Pro hatte Google seit einem halben Jahr die Führung in der Gunst der Anwender zumindest beim Vergleichsportal LM Arena übernommen. Mit Gemini 3 Pro weitet Google den Vorsprung aus. Nicht erhoben werden hier allerdings die Nutzungen der API-Schnittstellen der Dienste. Die sind besonders für Unternehmen wichtig. Open AI, Google und Konkurrenten wie Anthropic und xAI veröffentlichen zurzeit keine Zahlen zur Auslastung ihrer API-Dienste.
