Gemini 3.5: Die Ära der agentenbasierten KI ist angebrochen

Hero

In den letzten Jahren war die Softwareentwicklungs-Community fast ausschließlich auf die Generierung von Inhalten fixiert. Wir haben komplexe Pipelines gebaut, um LLMs dazu zu bringen, Code zu schreiben, Texte zu generieren und Logs zusammenzufassen. Aber jeder Senior Engineer, der sich schon einmal mit komplexen LangChain-Implementierungen oder fehleranfälligen, selbstgeschriebenen Ausführungsschleifen herumgeschlagen hat, wird Ihnen bestätigen: Text zu generieren ist nicht dasselbe, wie Dinge wirklich zu erledigen.

Heute hat Google diese Lücke mit der Ankündigung von Gemini 3.5: frontier intelligence with action effektiv geschlossen. Bei diesem Release handelt es sich nicht einfach nur um eine weitere Erhöhung der Parameteranzahl oder eine geringfügige Erweiterung des Context Windows; es ist ein grundlegender architektonischer Wendepunkt hin zu nativem, agentenbasiertem Verhalten.

Hier bei Ichiban Tools verbringen wir unsere Zeit damit, Werkzeuge zu entwickeln, die Entwicklern Zeit sparen. Wir haben LLMs tief in unsere Workflows integriert. Mit Gemini 3.5 verschiebt sich das Paradigma: Anstatt dass wir die KI orchestrieren, orchestriert die KI nun den Workflow.

#Was ist passiert?

Google hat die Gemini-3.5-Familie vorgestellt und dabei den Schwerpunkt auf "Intelligenz mit Handlungsfähigkeit" ("intelligence with action") gelegt. Während frühere Iterationen von Gemini (wie 1.5 Pro) riesige Context Windows und unglaubliche multimodale Fähigkeiten einführten, verließen sie sich bei der Verwaltung des Ausführungszustands (Execution State) immer noch größtenteils auf den Entwickler. Wenn das Modell eine Datenbank durchsuchen, eine Datei lesen und eine Entscheidung treffen musste, war es die Aufgabe Ihres Anwendungscodes, jeden einzelnen Funktionsaufruf abzuwickeln, das JSON zu parsen und den Kontext iterativ an das Modell zurückzugeben.

Gemini 3.5 führt eine integrierte Ausführungs-Engine (Execution Engine) ein. Das Modell ist nun in der Lage, langfristig zu planen und Tools autonom zu nutzen. Zu den wichtigsten Merkmalen der Ankündigung gehören:

Native mehrstufige Tool-Orchestrierung: Das Modell kann ein Tool aufrufen, das Ergebnis auswerten und den nächsten Schritt bestimmen, ohne zwischen jedem einzelnen Schritt die Kontrolle an die Host-Anwendung zurückgeben zu müssen.
Handlungsorientiertes Context Caching: Der Zustand (State) wird während einer "Action Loop" intern beibehalten. Dies reduziert die Latenz und den Token-Overhead bei komplexen, mehrstufigen agentenbasierten Workflows drastisch.
Verbesserte Fehlerbehebung (Failure Recovery): Wenn der Aufruf eines Tools fehlschlägt (z. B. wenn eine API einen 404-Fehler zurückgibt oder ein Shell-Befehl einen Syntaxfehler auslöst), ist Gemini 3.5 darauf trainiert, die Fehlermeldung autonom zu lesen, seine Parameter anzupassen und es erneut zu versuchen – ganz so, wie es ein menschlicher Entwickler tun würde.

#Warum das wichtig ist

Wenn Sie Entwicklertools oder interne Plattformen bauen, kennen Sie die Problematik fehleranfälliger KI-Workflows. Sie fordern ein Modell auf, eine Aufgabe auszuführen, stellen ihm eine Reihe von Funktionen zur Verfügung und hoffen inständig, dass es keine erforderlichen Parameter halluziniert oder in einer Endlosschleife fehlgeschlagener API-Aufrufe stecken bleibt.

Gemini 3.5 verändert die Wirtschaftlichkeit bei der Entwicklung von agentenbasierter Software. Indem die "ReAct"-Schleife (Reasoning and Acting) direkt in die nativen Fähigkeiten des Modells verlagert wird, können Entwickler tausende Zeilen an Orchestrierungscode einsparen.

Das bedeutet eine höhere Zuverlässigkeit, geringere Latenzen und weniger Entwicklungszeit, die für das Überwachen von KI-Schleifen aufgewendet werden muss. Zum ersten Mal können wir guten Gewissens ein übergeordnetes Ziel vorgeben ("Führe ein Refactoring dieses Verzeichnisses durch, um die neue Logging-Bibliothek zu verwenden") und darauf vertrauen, dass das Modell die Mikrostückelungen selbst verwaltet: das Finden der Dateien, das Vornehmen der Änderungen, das Ausführen des Linters und das Beheben der daraus resultierenden Syntaxfehler.

#Technische Auswirkungen

Aus architektonischer Sicht erfordert die Einführung von Gemini 3.5 ein Umdenken bei der Interaktion mit der API. Werfen wir einen Blick auf einige technische Veränderungen, die Sie berücksichtigen müssen.

#1. Deklarative Fähigkeiten auf hoher Ebene

Anstatt Mikrofunktionen für jede mögliche atomare Aktion zu definieren, können Sie Gemini 3.5 nun mit umfassenderen Fähigkeiten ausstatten. Die API führt nativ unterstützte Umgebungen ein (wie Dateisystemzugriff oder Shell-Ausführung), die Sie sicher in einer Sandbox isolieren können.

import { GoogleGenAI } from '@google/genai';

const ai = new GoogleGenAI({ apiKey: process.env.GEMINI_API_KEY });

// The new agentic paradigm
const response = await ai.models.executeTask({
  model: 'gemini-3.5-pro',
  objective: 'Migrate the legacy CSS files in /styles to Tailwind classes in the React components.',
  sandbox: {
    type: 'local_container',
    permissions: ['read_write_workspace', 'run_tests']
  },
  config: {
    maxAutonomousTurns: 15,
    onRequiresApproval: (plan) => console.log("Approval needed for:", plan)
  }
});

// The response contains the full trail of actions taken, not just text.
console.table(response.actionTrail);

#2. Drastische Reduzierung der Token-Roundtrips

Bisher erforderte eine 5-stufige Aktion 5 separate HTTP-Anfragen an den Inference-Endpoint, wobei jedes Mal das gewaltige, angesammelte Context Window übergeben werden musste. Die zustandsbehaftete Ausführung (stateful execution) von Gemini 3.5 bedeutet, dass Sie nur noch eine einzige Anfrage stellen. Das Modell verarbeitet die dazwischenliegenden Denkschritte (Reasoning Steps) intern und gibt nur das Endergebnis zurück (oder pausiert, wenn es eine Freigabegrenze erreicht). Dies ist ein massiver Gewinn hinsichtlich Kosten und Latenz.

#3. Deterministische Fallbacks

Eine der beeindruckendsten technischen Errungenschaften, die in dem Release beschrieben werden, ist die Fähigkeit des Modells, nahtlos auf deterministische Fallbacks zurückzugreifen. Wenn ein Ziel zu mehrdeutig ist, generiert Gemini 3.5 automatisch eine gezielte Verständnisfrage, anstatt zu raten und so den Ausführungszustand zu gefährden.

#Wie es bei Ichiban Tools weitergeht

Wir experimentieren bereits mit den Early-Access-Endpoints. Sie können davon ausgehen, dass Gemini 3.5 schon sehr bald tief in das gesamte Ökosystem von Ichiban Tools integriert sein wird:

CLI-Verbesserungen: Unsere CLI-Tools werden sich von Single-Turn-Assistenten hin zu autonomen Agenten wandeln. Sie werden die CLI bitten können, "den Webpack-Build-Fehler zu diagnostizieren und zu beheben", und sie wird die Logs untersuchen, Konfigurationen anpassen und den Fix völlig eigenständig überprüfen.
Intelligentere Editoren: Unsere PDF-, Audio- und Video-Workflows werden Makro-Befehle unterstützen. Anstatt manuell 10 verschiedene Filter oder Bearbeitungen anzuwenden, können Sie übergeordnete Anweisungen geben ("Normalisiere das Audio, schneide Stille heraus und generiere Kapitelmarkierungen") und bei der automatischen Ausführung zusehen.

#Fazit

Die Veröffentlichung von Gemini 3.5 ist der Startschuss für die agentenbasierte Ära. Wir lassen die Phase hinter uns, in der KI eine konversationelle Neuheit oder eine einfache Autovervollständigungs-Engine war. KI ist nun ein aktiver Teilnehmer im Entwicklungszyklus – ein System, das in der Lage ist, Maßnahmen zu ergreifen, sich von Fehlern zu erholen und Aufgaben selbstständig zum Abschluss zu bringen.

Es ist an der Zeit, das Schreiben von standardisierten KI-Orchestratoren einzustellen und stattdessen mit dem Bau echter Werkzeuge zu beginnen. Das Neuland liegt offen vor uns. Packen wir es an.