OpenAI가 대규모 저지연 음성 AI를 제공하는 방법

Hero

#소개

실시간 음성 상호작용은 빠르게 대화형 AI의 새로운 개척지가 되고 있습니다. 텍스트 기반 채팅에서는 사용자가 화면에 토큰이 스트리밍되는 것을 지켜보는데 익숙하지만, 음성 통신은 완전히 다른 기술적 패러다임이 필요합니다. 인간의 대화는 엄청나게 엄격한 지연 시간(latency) 허용 범위 내에서 이루어집니다. 단 몇백 밀리초의 지연만으로도 상호작용이 부자연스럽게 느껴질 수 있으며, 이는 어색한 끊김이나 매끄럽지 못한 턴 테이킹(turn-taking)으로 이어집니다.

최근 OpenAI는 주간 활성 사용자 9억 명이라는 엄청난 규모에 저지연 음성 AI를 어떻게 제공하는지 자세히 설명하는, 큰 기대를 모았던 엔지니어링 업데이트를 발표했습니다. 이 정도 규모에서 실시간 미디어를 서비스하는 것은 거대한 인프라 도전 과제입니다. 이번 게시물에서 그들은 기존 미디어 서버 아키텍처에서 벗어나 WebRTC 프로토콜 위에 구축된 고도로 최적화된 맞춤형 설정으로 놀라운 변화를 시도했음을 밝혔습니다.

실시간 AI 애플리케이션을 구축하는 엔지니어들에게 그들의 접근 방식은 기존의 기본 가정에 도전하고 특정 사용 사례에 맞게 네트워크 토폴로지를 최적화하는 훌륭한 모범 사례입니다. 그들이 무엇을 구축했고, 왜 구축했으며, 업계 전반에 어떤 기술적 시사점을 주는지 자세히 살펴보겠습니다.

#어떤 일이 있었는가

엔지니어링 팀이 1초 미만의 실시간 오디오 및 비디오를 인터넷을 통해 전송해야 할 때, WebRTC는 의심할 여지 없는 표준입니다. 이 기술은 NAT 트래버설(traversal), 패킷 손실 은닉(packet loss concealment), 혼잡 제어(congestion control) 및 보안 전송과 같이 공용 인터넷의 복잡한 현실적인 문제들을 기본적으로 처리해 줍니다.

하지만 WebRTC를 확장하는 기본적인 방법은 SFU(Selective Forwarding Unit)를 사용하는 것입니다. SFU는 주로 다자간 회의(Zoom이나 Google Meet 등을 생각해보세요)를 위해 설계되었습니다. 이 장치는 한 참가자로부터 미디어 스트림을 받아 다른 여러 참가자에게 선택적으로 전달합니다.

OpenAI는 그들의 워크로드가 근본적으로 다르다는 것을 깨달았습니다. AI 음성 상호작용은 엄격하게 1:1, 즉 한 명의 사용자가 하나의 모델과 대화하는 구조입니다. 1:1 아키텍처에서 SFU에 의존하는 것은 불필요한 연산 및 라우팅 오버헤드를 발생시킵니다. 게다가 규모를 확장함에 따라 OpenAI는 기존 WebRTC 종료(termination) 방식에서 세 가지 중요한 제약에 직면했습니다:

포트 관리: 표준 WebRTC 구현에서는 세션당 하나 이상의 UDP 포트가 필요한 경우가 많습니다. 9억 명의 사용자 규모로 운영할 때, 엣지(edge) 서버의 포트 고갈은 심각한 인프라 병목 현상이 됩니다.
세션 안정성: WebRTC는 NAT 트래버설을 위한 ICE(Interactive Connectivity Establishment)와 암호화를 위한 DTLS(Datagram Transport Layer Security)와 같은 상태 저장(stateful) 핸드셰이크에 의존합니다. 이러한 프로토콜은 세션 상태를 소유한 특정 노드와의 매우 안정적인 연결을 필요로 합니다.
글로벌 라우팅: 사람과 대화하는 것과 같은 지연 시간을 달성하려면 사용자의 전화기에서 OpenAI 네트워크로 연결되는 "첫 번째 홉(first hop)"을 최소화해야 합니다. 이를 위해서는 트래픽을 공용 인터넷을 통해 중앙 데이터 센터로 백홀(backhaul)하는 대신, 전 세계 엣지 접속 지점(points of presence)에서 연결을 종료해야 합니다.

#왜 중요한가

이러한 거대한 규모의 제약을 해결하기 위해, OpenAI는 추론 백엔드에서 무거운 WebRTC 로직을 걷어내고 네트워크 엣지에 특화된 레이어를 도입하기로 결정했습니다. 그들은 이를 스플릿 릴레이 및 트랜시버(split relay plus transceiver) 아키텍처라고 부릅니다.

백엔드의 Python이나 C++ 추론 서버가 복잡한 ICE 및 DTLS 상태 머신을 관리하도록 요구하는 완전히 규격을 준수하는 WebRTC 피어(peer)처럼 동작하게 만드는 대신, OpenAI는 네트워크 엣지에 특화된 릴레이 노드를 배치했습니다.

이 가벼운(thin) 엣지 노드는 클라이언트가 요구하는 모든 복잡한 프로토콜 시맨틱을 처리합니다. 사용자의 모바일 앱 입장에서 보면 표준 WebRTC 엔드포인트와 통신하는 것처럼 보입니다. 그러나 내부적으로 이 엣지 노드는 고효율 패킷 라우터 역할을 합니다. WebRTC 페이로드에서 미디어 포장을 풀고, 최적화되고 결정론적(deterministic)인 내부 프로토콜을 사용하여 백엔드 추론 서버로 전달합니다.

이러한 아키텍처의 분리는 두 가지 이유에서 매우 중요합니다. 첫째, 추론 서버는 이미 거대한 신경망을 실행하는 연산 집약적인 작업을 수행하고 있으므로, 미디어 전송 로직을 오프로딩(offloading)하면 배포와 확장이 단순해집니다. 둘째, 이 엣지 레이어를 통해 OpenAI는 트래픽을 적극적으로 다중화(multiplexing)하여 수백만 개의 동시 세션을 서비스하면서도 공개적으로 노출되는 UDP 포트의 수를 크게 줄일 수 있습니다.

#기술적 시사점

이 새로운 아키텍처의 핵심에는 Go 언어로 작성된 고도로 모듈화된 오픈소스 WebRTC 구현체인 Pion이 있습니다. Pion은 개발자를 획일화된 SFU의 틀에 가두지 않기 때문에 WebRTC 커뮤니티의 총아로 떠올랐습니다. 그 구성 가능한(composable) 특성 덕분에 엔지니어링 팀은 필요한 특정 구성 요소만 가져와서 고도로 맞춤화된 전송 레이어를 구축할 수 있습니다.

OpenAI는 맞춤형 트랜시버를 구축하기 위해 Pion을 활용했습니다. 이들의 접근 방식이 기존 미디어 서버 설정과 어떻게 비교되는지 살펴보겠습니다:

특징	기존 SFU 아키텍처	OpenAI 스플릿 릴레이 아키텍처
주요 워크로드	다자간 회의 (N:M)	인간과 AI의 상호작용 (1:1)
종료 지점	중앙 집중형 미디어 서버	분산된 엣지 노드
백엔드의 역할	AI 추론 + WebRTC 상태 관리	원시/최적화된 미디어에 대한 순수 추론
공개 포트 사용량	높음 (스트림/세션당 보통 1개)	낮음 (엣지에서의 적극적인 다중화)
트래픽 라우팅	페이로드 검사가 필요한 경우가 많음	프로토콜 네이티브 메타데이터를 통한 결정론적 라우팅

이 아키텍처의 눈에 띄는 특징은 **결정론적 라우팅 (deterministic routing)**입니다. 표준 프로토콜 네이티브 필드에 라우팅 메타데이터를 인코딩함으로써, 새로운 세션의 아주 첫 번째 패킷은 어떤 백엔드 추론 클러스터를 타겟으로 해야 하는지 즉시 알 수 있습니다. 이는 사실상 연결 설정 지연 시간을 0으로 줄여주며, 사용자가 UI에 연결이 표시되는 순간 바로 말하기를 시작할 수 있게 해줍니다. 또한 엣지 레이어에서 고도로 안정적인 미디어 왕복 시간(RTT)을 유지하고 지터를 최소화함으로써, AI와의 대화 턴 테이킹이 놀랍도록 선명하고 자연스럽게 느껴집니다.

#다음은 무엇인가

OpenAI의 아키텍처 공개는 업계에 중요한 전환점이 될 것입니다. 광범위한 기술 생태계가 텍스트 기반 LLM을 넘어 멀티모달, 실시간 음성 에이전트 구축을 시작함에 따라, 기존의 네트워크 인프라 패턴은 진화해야만 합니다.

이러한 변화로부터 다음과 같은 몇 가지 트렌드가 나타날 것으로 예상해 볼 수 있습니다:

엣지 종료형 미디어 서비스: 클라우드 인프라 제공업체들은 스타트업의 진입 장벽을 낮추기 위해 1:1 AI 워크로드에 특별히 설계된 관리형 WebRTC 종료 레이어를 제공하기 시작할 것입니다.
Pion의 지속적인 성장: Go 언어와 Pion 생태계가 가진 유연성은 현대적이고 맞춤화된 네트워크 프로그래밍을 위한 기본 선택지가 되게 합니다. OpenAI의 트랜시버 모델을 모방하는 수많은 오픈소스 프레임워크가 유입될 것으로 예상됩니다.
프로토콜 진화: 더 빠른 세션 재개를 위한 핸드셰이크 최적화 등, AI 워크로드에 특별히 맞춰진 WebRTC 확장을 요구하는 움직임이 일어날 수 있습니다.

#결론

거의 10억 명에 달하는 사용자에게 저지연, 실시간 음성 AI를 제공하는 것은 전례 없는 엔지니어링 업적입니다. 기존의 다자간 미디어 서버에서 벗어나 Go 기반의 맞춤형 스플릿 릴레이 아키텍처를 도입함으로써, OpenAI는 AI 네트워킹의 새로운 표준을 확립했습니다.

그들의 엔지니어링 결정은 시스템 설계에 있어서 중요한 교훈을 보여줍니다. 애플리케이션의 워크로드가 근본적으로 바뀔 때, 기본 인프라도 재구상되어야 한다는 것입니다. 화상 회의를 위해 설계된 프로토콜이 처음부터 1:1 AI 상호작용에 완벽하게 맞을 수는 없지만, 가벼운(thin) 라우팅 레이어와 같은 지능적인 추상화를 통해 전 지구적 규모에서 마법 같은 대화형 경험을 제공하도록 조정될 수 있습니다.