Mercury 2: 디퓨전 기반의 가장 빠른 추론 LLM

#서론
지난 10년의 대부분 동안 인공지능 분야는 자기회귀(autoregressive) Transformer라는 단일하고 거대한 아키텍처가 지배해 왔습니다. GPT-2부터 OpenAI의 o3와 같은 최신 추론 모델에 이르기까지, 기본적인 생성 메커니즘은 거의 동일하게 유지되었습니다. 즉, 한 번에 하나의 개별적인 단계로 다음 토큰을 예측하는 방식입니다. 이 방식이 강력하다는 것은 부인할 수 없지만, 좌에서 우로 진행되는 순차적 생성 과정은 필연적으로 지연 시간(latency) 병목 현상을 일으킵니다. 특히 복잡한 Chain-of-Thought (CoT) 추론을 수행할 때 더욱 그렇습니다.
오늘, 그 패러다임이 바뀝니다. Inception Labs는 전적으로 디퓨전 모델로 구동되는 세계에서 가장 빠른 추론 LLM인 Mercury 2를 발표하며 현재의 판도를 뒤흔들었습니다. 이는 모델이 '생각'하고 텍스트를 생성하는 방식에 있어서 엄청난 도약입니다.
#무슨 일이 일어났는가
오늘 아침에 발표되어 Hacker News의 최상단으로 빠르게 올라간 Mercury 2는 표준 토큰 생성 방식에서 완전히 벗어난 새로운 접근법을 제시합니다. Inception Labs는 Midjourney나 Stable Diffusion과 같은 이미지 생성기의 기반이 되는 수학적 원리인 연속 디퓨전 프로세스(continuous diffusion process)를 자연어 추론이라는 이산적(discrete) 영역에 성공적으로 적용했습니다.
이전 단어를 기반으로 다음 단어를 예측하는 대신, Mercury 2는 토큰을 연속적인 잠재 공간(continuous latent space)에 임베딩합니다. 그런 다음 전체 시퀀스에 동시에 노이즈 제거(denoising) 프로세스를 적용합니다. 즉, 사고 과정을 단어 단위로 써 내려가는 것이 아닙니다. 전체 논리 구조를 한 번에 평가하여, 노이즈 블록을 일관성 있고 매우 정확한 추론 경로와 최종 답변으로 다듬습니다. 이 과정은 기존 모델이 걸리는 시간의 아주 작은 일부만을 차지합니다.
#왜 중요한가
지연 시간, 사용자 경험, 그리고 애플리케이션 개발에 미치는 영향은 실로 엄청납니다.
기존의 자기회귀 모델에서는 50토큰의 답변을 출력하기 전에 프롬프트가 2,000토큰의 내부 추론을 요구한다면, 사용자(또는 시스템)는 2,000토큰이 순차적으로 생성될 때까지 기다려야만 합니다. 메모리 대역폭과 연산량은 시퀀스 길이에 비례하여 선형적으로 증가합니다.
Mercury 2는 이 공식을 근본적으로 바꿉니다. 병렬 반복 정제(parallel iterative refinement)를 활용함으로써, 모델은 요구되는 논리의 깊이와 무관하게 거의 일정한 수의 디퓨전 스텝만으로 최종 추론 결과에 수렴합니다.
이는 Time-to-First-Token (TTFT)과 전체 생성 지연 시간의 엄청난 감소를 의미합니다. 음성 에이전트, 실시간 코드 리뷰 도구, 또는 동적 UI 생성기와 같은 실시간 애플리케이션을 구축하는 개발자들에게, 이는 지긋지긋한 "생각 중..." 스피너를 없애줍니다. 이전에는 대규모 CoT 모델을 배포하는 것이 불가능하거나 경제적으로 타당하지 않았던 지연 시간에 민감한 환경에서도 이제 깊은 추론 능력을 활용할 수 있게 되었습니다.
#기술적 의미
Mercury 2의 이면에 있는 엔지니어링을 제대로 이해하려면, 디퓨전이 텍스트를 어떻게 처리하는지 내부를 들여다보아야 합니다.
#1. 연속적인 잠재 공간 투영 (Continuous Latent Projections)
표준 언어 모델은 이산적인(discrete) 어휘 집합 위에서 작동합니다. 단어를 나타내는 이산적인 정수에 단순하게 "디퓨전"을 적용할 수는 없습니다. Mercury 2는 이산적인 토큰을 고차원의 연속적인 잠재 공간으로 투영(projecting)하여 이 문제를 해결합니다. 노이즈를 추가하고 이를 되돌리도록 신경망을 훈련시키는 디퓨전 프로세스는, 최종 잠재 벡터를 사람이 읽을 수 있는 텍스트로 다시 투영하기 전까지 이 연속적인 영역 내에서만 온전히 수행됩니다.
#2. 병렬 노이즈 제거 vs. 순차적 디코딩 (Parallel Denoising vs. Sequential Decoding)
이러한 아키텍처의 변화는 핵심 생성 루프를 살펴보면 가장 잘 이해할 수 있습니다.
# Pseudo-code comparison of generation logic
# Traditional Autoregressive (Slow, O(N))
def generate_autoregressive(prompt, max_tokens):
context = prompt
for _ in range(max_tokens):
next_token = model.forward(context)
context += next_token
return context
# Mercury 2 Diffusion (Fast, O(Steps) where Steps << N)
def generate_diffusion(prompt, steps=20):
latent_sequence = generate_pure_noise()
for step in reversed(range(steps)):
latent_sequence = model.denoise(latent_sequence, prompt, step)
return project_to_text(latent_sequence)
그림에서 볼 수 있듯이, 자기회귀 생성 루프는 토큰의 수($N$)에 의해 제한됩니다. 반면 Mercury 2의 루프는 노이즈 제거 스텝 수에 의해 제한되며, 이는 출력 시퀀스의 길이와 완전히 분리되어 있습니다.
#3. 잠재적 Chain-of-Thought (Latent CoT)
아마도 가장 흥미로운 기술적 돌파구는 "잠재적 CoT (Latent CoT)"일 것입니다. Mercury 2는 연속적인 공간에서 작동하기 때문에, 중간 추론 단계가 사람이 읽을 수 있는 영어 토큰에 매핑될 필요가 없습니다. 최종 투영 단계에 도달하기 전까지는 문법, 구문, 또는 서식에 연산량을 낭비하지 않고 추상적인 개념 벡터를 조작하여 최적의 논리적 경로를 찾을 수 있습니다.
| 아키텍처 | 생성 전략 | 시간 복잡도 | 추론 매체 |
|---|---|---|---|
| 자기회귀 (예: o3) | 순차적, 좌에서 우로 | $O(N)$ 토큰 | 명시적 토큰 CoT |
| 디퓨전 (Mercury 2) | 병렬적, 반복적 노이즈 제거 | $O(K)$ 스텝 ($K \ll N$) | 연속적 잠재 CoT |
#향후 전망
Mercury 2의 출시는 AI 커뮤니티에 있어 분수령이 되는 순간입니다. 이는 고도화된 추론을 향한 길에 자기회귀 Transformer만이 유일하고 실현 가능한 방법은 아님을 증명하며, 주요 AI 연구소들 사이에서 경쟁적인 디퓨전 기반 텍스트 모델을 개발하기 위한 군비 경쟁을 촉발할 것이 틀림없습니다.
저희 Ichiban Tools에서는 Mercury급 모델을 개발자 유틸리티에 어떻게 통합할 수 있을지 이미 탐구하고 있습니다. 몇 분이 아니라 단 몇 밀리초 만에, 깊이 있게 추론된 아키텍처 제안과 풀 리퀘스트 리뷰를 즉시 받아본다고 상상해 보십시오. 또한 저희는 오픈소스 커뮤니티가 이 아키텍처를 빠르게 복제하려 시도할 것으로 예상하며, 이는 소비자용 하드웨어에서도 효율적으로 실행되는 작고 엄청나게 빠른 로컬 추론 모델의 등장으로 이어질 가능성이 높습니다.
#결론
Mercury 2는 단순한 또 다른 모델의 출시를 넘어, 근본적인 아키텍처의 전환을 의미합니다. 현대 LLM의 깊은 추론 능력과 디퓨전 모델의 병렬 생성 속도를 결합함으로써, Inception Labs는 우리에게 차세대 인공지능의 단면을 보여주었습니다. 모델이 토큰 단위로 천천히 생각을 타이핑하는 것을 기다려야만 했던 시대는 저물고 있습니다. 즉각적이고 전체적인 추론의 시대가 마침내 도래했습니다.