Gemini 3.5: 에이전틱 AI(Agentic Action)의 시대가 도래했습니다

Hero

지난 몇 년간 소프트웨어 엔지니어링 커뮤니티의 최대 관심사는 단연 '생성(Generation)'이었습니다. 우리는 LLM에게 코드를 작성하고, 텍스트를 생성하며, 로그를 요약하도록 지시하기 위해 정교한 파이프라인을 구축해 왔습니다. 하지만 복잡한 LangChain 구현이나 불안정한 커스텀 실행 루프와 씨름해 본 시니어 엔지니어라면 누구나 공감하실 겁니다. 단순히 텍스트를 생성하는 것과 실제 작업을 완수하는 것은 완전히 다른 차원의 문제라는 것을 말입니다.

오늘 구글은 Gemini 3.5: frontier intelligence with action을 발표하며 이러한 이상과 현실의 간극을 성공적으로 메웠습니다. 이번 릴리스는 단순히 파라미터 수를 늘리거나 컨텍스트 윈도우를 조금 확장한 수준이 아닙니다. 네이티브 에이전틱(agentic) 동작을 향한 근본적인 아키텍처의 전환을 보여줍니다.

저희 Ichiban Tools 팀은 개발자들의 시간을 아껴주는 유틸리티를 만드는 데 전념하고 있으며, 이미 워크플로우 깊숙한 곳까지 LLM을 통합하여 사용하고 있습니다. 이번 Gemini 3.5의 도입으로, 우리가 AI를 오케스트레이션(orchestration)하던 기존의 패러다임은 AI가 스스로 워크플로우를 오케스트레이션하는 방식으로 완전히 뒤바뀌게 되었습니다.

#무엇이 달라졌는가

구글은 "행동하는 지능(intelligence with action)"을 강조하며 Gemini 3.5 제품군을 공개했습니다. 1.5 Pro와 같은 이전 버전의 Gemini는 거대한 컨텍스트 윈도우와 놀라운 멀티모달 기능을 도입했지만, 실행 상태(execution state) 관리는 여전히 개발자의 몫이었습니다. 모델이 데이터베이스를 검색하고, 파일을 읽고, 결정을 내려야 하는 상황이라면 어땠을까요? 애플리케이션 코드에서 모든 개별 함수 호출을 처리하고, JSON을 파싱한 다음, 모델에게 컨텍스트를 반복적으로 다시 전달해야만 했습니다.

하지만 Gemini 3.5는 자체적인 실행 엔진(onboard execution engine)을 도입했습니다. 이제 모델은 장기적인 계획(long-horizon planning)을 수립하고 자율적으로 도구를 사용할 수 있습니다. 이번 발표의 핵심 기능은 다음과 같습니다.

네이티브 다단계 도구 오케스트레이션(Native Multi-Step Tool Orchestration): 모델이 도구를 호출하고 결과를 평가한 후 다음 단계를 스스로 결정합니다. 매 단계마다 호스트 애플리케이션으로 제어권을 넘길 필요가 없어졌습니다.
행동 지향적 컨텍스트 캐싱(Action-Oriented Context Caching): "액션 루프(action loop)"가 도는 동안 내부적으로 상태(state)가 유지됩니다. 복잡한 멀티턴 에이전트 워크플로우에서 발생하던 지연 시간(latency)과 토큰 오버헤드를 획기적으로 줄여줍니다.
강화된 실패 복구(Enhanced Failure Recovery): 도구 호출이 실패하더라도(예: API 404 에러 발생 또는 쉘 구문 오류 등) 걱정할 필요가 없습니다. Gemini 3.5는 마치 사람 엔지니어처럼 스스로 에러 로그를 읽고 파라미터를 조정한 뒤 재시도하도록 훈련되었습니다.

#이것이 왜 중요한가

개발자 도구나 사내 플랫폼을 구축해 보신 분이라면 불안정한 AI 워크플로우가 주는 고통을 잘 아실 겁니다. 모델에게 작업을 지시하고 여러 함수를 제공한 뒤, 그저 필수 파라미터에서 할루시네이션(hallucination)이 발생하지 않기를, 혹은 실패한 API 호출의 무한 루프에 빠지지 않기만을 간절히 기도해야 했습니다.

Gemini 3.5는 에이전틱 소프트웨어 구축의 경제성 자체를 바꿔버립니다. "ReAct(Reasoning and Acting)" 루프를 모델의 네이티브 기능으로 직접 편입시킴으로써, 개발자들은 수천 줄에 달하던 오케스트레이션 코드를 걷어낼 수 있게 되었습니다.

결과적으로 신뢰성은 높아지고 지연 시간은 줄어들며, AI 루프를 돌보는 데 낭비되던 엔지니어링 리소스를 절약할 수 있습니다. 이제 우리는 역사상 처음으로 고수준의 목표("이 디렉터리의 코드를 새로운 로깅 라이브러리를 사용하도록 리팩토링해 줘")를 자신 있게 부여할 수 있습니다. 파일 검색, 코드 수정, 린터(linter) 실행, 그리고 이후 발생하는 구문 오류 수정까지 모든 미시적인 결정(micro-decisions)을 모델이 알아서 처리할 것이라 믿고 맡길 수 있게 된 것입니다.

#기술적 시사점

아키텍처 관점에서 Gemini 3.5를 도입한다는 것은 API와 상호 작용하는 방식을 근본적으로 재고해야 함을 의미합니다. 앞으로 고려해야 할 몇 가지 기술적인 변화들을 살펴보겠습니다.

#1. 고수준의 선언적 기능 (High-Level Declarative Capabilities)

발생 가능한 모든 개별 작업(atomic action)에 대해 마이크로 함수를 일일이 정의할 필요가 없습니다. 이제 Gemini 3.5에는 훨씬 더 포괄적인 기능을 부여할 수 있습니다. API는 안전하게 샌드박스화할 수 있는 네이티브 지원 환경(파일 시스템 액세스 또는 쉘 실행 등)을 제공합니다.

import { GoogleGenAI } from '@google/genai';

const ai = new GoogleGenAI({ apiKey: process.env.GEMINI_API_KEY });

// The new agentic paradigm
const response = await ai.models.executeTask({
  model: 'gemini-3.5-pro',
  objective: 'Migrate the legacy CSS files in /styles to Tailwind classes in the React components.',
  sandbox: {
    type: 'local_container',
    permissions: ['read_write_workspace', 'run_tests']
  },
  config: {
    maxAutonomousTurns: 15,
    onRequiresApproval: (plan) => console.log("Approval needed for:", plan)
  }
});

// The response contains the full trail of actions taken, not just text.
console.table(response.actionTrail);

#2. 토큰 왕복(Round-Trips) 횟수의 획기적 감소

이전에는 5단계의 액션을 수행하려면 인퍼런스(inference) 엔드포인트에 5번의 개별 HTTP 요청을 보내야 했고, 그때마다 누적된 거대한 컨텍스트 윈도우를 함께 전달해야 했습니다. 반면 Gemini 3.5의 상태 유지(stateful) 실행 환경에서는 단 한 번의 요청만으로 충분합니다. 모델이 중간 추론 과정을 내부적으로 처리하고, 최종 결과만 반환하거나 (승인이 필요한 경계에 도달했을 때만) 제어권을 넘깁니다. 이는 비용과 지연 시간 측면에서 엄청난 이점입니다.

#3. 결정론적 폴백 (Deterministic Fallbacks)

이번 릴리스에서 가장 인상적인 기술적 성취 중 하나는 결정론적 폴백 상태로 매끄럽게 전환하는 모델의 능력입니다. 주어진 목표가 너무 모호할 경우, Gemini 3.5는 무작정 추측하여 기존 상태(state)를 망가뜨리는 대신 타겟팅된 명확한 질문을 자동으로 생성하여 사용자에게 되묻습니다.

#Ichiban Tools의 향후 행보

저희는 이미 앞서서 얼리 액세스 엔드포인트를 활용한 테스트를 진행하고 있습니다. 머지않아 Ichiban Tools 생태계 전반에 Gemini 3.5가 깊숙이 통합된 모습을 만나보실 수 있을 것입니다.

CLI 기능 강화: 기존의 단일 턴(single-turn) 어시스턴트였던 CLI 도구들이 자율적인 에이전트로 진화합니다. 이제 CLI에게 "웹팩(Webpack) 빌드 실패 원인을 진단하고 수정해 줘"라고 요청하기만 하면, 스스로 로그를 조사하고 설정을 변경한 뒤 수정 사항이 제대로 작동하는지 검증까지 완료할 것입니다.
더욱 스마트해진 에디터: PDF, 오디오 및 비디오 워크플로우에서 매크로 명령을 지원할 예정입니다. 10가지의 각기 다른 필터나 편집 효과를 수동으로 적용할 필요 없이, "오디오를 정규화(Normalize)하고, 무음 구간을 잘라낸 다음 챕터 마커를 생성해 줘"와 같이 고수준의 지시를 내리고 작업이 완료되는 것을 지켜보기만 하면 됩니다.

#맺음말

Gemini 3.5의 출시는 에이전틱(Agentic) 시대의 개막을 알리는 신호탄입니다. 신기한 대화형 챗봇이나 단순한 자동 완성 엔진에 머무르던 AI의 시대는 이미 지나갔습니다. 이제 AI는 행동을 취하고, 실패를 스스로 복구하며, 주어진 작업을 끝까지 완수할 수 있는 시스템으로서 엔지니어링 라이프사이클의 능동적인 참여자가 되었습니다.

보일러플레이트(boilerplate) 수준의 AI 오케스트레이터 코드를 작성하는 데 시간을 낭비하는 것은 이제 그만두고, 진짜 '도구'를 만들어야 할 때입니다. 새로운 기술의 최전선이 열렸습니다. 자, 이제 본격적으로 작업을 시작해 봅시다.