OpenAI कैसे बड़े Scale पर Low-Latency Voice AI डिलीवर करता है

Hero

#Introduction

रियल-टाइम वॉइस इंटरैक्शन तेज़ी से कन्वर्सेशनल AI का नया फ्रंटियर बनता जा रहा है। टेक्स्ट-बेस्ड चैटिंग के विपरीत, जहां यूज़र्स स्क्रीन पर टोकन्स (tokens) को स्ट्रीम होते देखने के आदी हैं, वॉइस कम्युनिकेशन के लिए एकदम अलग टेक्निकल पैराडाइम (technical paradigm) की ज़रूरत होती है। इंसानों की बातचीत का latency budget बहुत टाइट होता है; बस कुछ सौ मिलिसेकंड्स का डिले (delay) भी इंटरेक्शन को अननैचुरल बना सकता है, जिससे अजीब रुकावटें आती हैं और बातचीत का फ्लो (turn-taking) टूट जाता है।

हाल ही में, OpenAI ने एक बहुप्रतीक्षित इंजीनियरिंग अपडेट पब्लिश किया है, जिसमें यह बताया गया है कि वे 900 मिलियन वीकली एक्टिव यूज़र्स (weekly active users) को low-latency वॉइस AI कैसे डिलीवर करते हैं। इतने बड़े scale पर रियल-टाइम मीडिया सर्व करना एक बहुत बड़ा इन्फ्रास्ट्रक्चर चैलेंज है। अपनी पोस्ट में, उन्होंने बताया कि कैसे उन्होंने ट्रेडिशनल मीडिया सर्वर आर्किटेक्चर को छोड़कर WebRTC प्रोटोकॉल के ऊपर बना एक कस्टम और हाइली ऑप्टिमाइज़्ड सेटअप अपनाया है।

रियल-टाइम AI एप्लिकेशन्स बना रहे इंजीनियर्स के लिए, उनकी यह अप्रोच डिफ़ॉल्ट मान्यताओं को चुनौती देने और स्पेसिफिक यूज़ केसेज़ (use cases) के लिए नेटवर्क टोपोलॉजी (network topology) को ऑप्टिमाइज़ करने की एक मास्टरक्लास है। आइए गहराई से समझते हैं कि उन्होंने क्या बनाया है, क्यों बनाया है, और बाकी इंडस्ट्री के लिए इसके टेक्निकल मायने क्या हैं।

#What Happened

जब इंजीनियरिंग टीमों को इंटरनेट पर सब-सेकंड (sub-second), रियल-टाइम ऑडियो और वीडियो ट्रांसफर करना होता है, तो WebRTC एक undisputed स्टैंडर्ड है। यह पब्लिक इंटरनेट की पेचीदगियों—जैसे NAT traversal, पैकेट लॉस कन्सीलमेंट (packet loss concealment), कंज़ेशन कंट्रोल (congestion control), और सिक्योर ट्रांसपोर्ट को आउट-ऑफ़-द-बॉक्स (out-of-the-box) हैंडल कर लेता है।

हालांकि, WebRTC को स्केल करने का डिफ़ॉल्ट तरीका Selective Forwarding Unit (SFU) का इस्तेमाल करना है। SFUs मुख्य रूप से मल्टी-पार्टी कॉन्फ्रेंसिंग (जैसे Zoom या Google Meet) के लिए डिज़ाइन किए गए हैं। वे एक पार्टिसिपेंट से मीडिया स्ट्रीम लेते हैं और उसे सिलेक्टिव तरीके से कई अन्य पार्टिसिपेंट्स को फ़ॉरवर्ड करते हैं।

OpenAI ने महसूस किया कि उनका वर्कलोड बुनियादी रूप से अलग था। AI वॉइस इंटरैक्शन पूरी तरह से 1:1 होते हैं—एक यूज़र एक मॉडल से बात करता है। 1:1 आर्किटेक्चर के लिए SFU पर निर्भर रहने से गैर-ज़रूरी कंप्यूटेशनल और राउटिंग ओवरहेड (overhead) जुड़ जाता है। इसके अलावा, जैसे-जैसे उन्होंने स्केल अप किया, ट्रेडिशनल WebRTC टर्मिनेशन के साथ OpenAI को तीन बड़े कंस्ट्रेंट्स (constraints) का सामना करना पड़ा:

Port Management: स्टैंडर्ड WebRTC इम्प्लीमेंटेशन में अक्सर प्रति सेशन एक या अधिक UDP पोर्ट्स की आवश्यकता होती है। जब आप 900 मिलियन यूज़र्स के स्केल पर काम कर रहे हों, तो एज सर्वर्स (edge servers) पर पोर्ट्स का ख़त्म होना (port exhaustion) एक गंभीर इन्फ्रास्ट्रक्चरल बॉटलनेक (bottleneck) बन जाता है।
Session Stability: WebRTC NAT ट्रैवर्सल (traversal) के लिए Interactive Connectivity Establishment (ICE) और एन्क्रिप्शन के लिए Datagram Transport Layer Security (DTLS) जैसे स्टेटफ़ुल हैंडशेक्स (stateful handshakes) पर निर्भर करता है। इन प्रोटोकॉल्स को उस विशिष्ट नोड के साथ एक हाइली स्टेबल कनेक्शन की आवश्यकता होती है जो सेशन स्टेट को मेंटेन करता है।
Global Routing: इंसानों जैसी बातचीत की लेटेंसी (latency) हासिल करने के लिए, "फर्स्ट हॉप" (first hop)—यानी यूज़र के फ़ोन से OpenAI के नेटवर्क तक के कनेक्शन—को कम से कम करना ज़रूरी है। इसके लिए ट्रैफ़िक को पब्लिक इंटरनेट के ज़रिए किसी सेंट्रलाइज़्ड डेटा सेंटर में बैकहॉल (backhaul) करने के बजाय, ग्लोबल स्तर पर एज पॉइंट्स ऑफ़ प्रेज़ेंस (edge points of presence) पर कनेक्शन को टर्मिनेट करना ज़रूरी हो जाता है।

#Why It Matters

इतने बड़े स्केल के कंस्ट्रेंट्स को हल करने के लिए, OpenAI ने अपने इन्फरेंस बैकएंड्स (inference backends) से भारी WebRTC लॉजिक को हटाने का फ़ैसला किया और नेटवर्क के एज (edge) पर एक स्पेशलाइज़्ड लेयर इंट्रोड्यूस की। इसे वे अपना स्प्लिट रिले प्लस ट्रांससीवर आर्किटेक्चर (split relay plus transceiver architecture) कहते हैं।

बैकएंड में मौजूद Python या C++ इन्फरेंस सर्वर्स को पूरी तरह से कंप्लायंट WebRTC पीयर्स (peers) की तरह बर्ताव करने के लिए मजबूर करने के बजाय—जिसके लिए उन्हें जटिल ICE और DTLS स्टेट मशीनों को मैनेज करना पड़ता—OpenAI ने नेटवर्क एज पर स्पेशलाइज़्ड रिले नोड्स (relay nodes) लगा दिए।

ये थिन (thin) एज नोड्स क्लाइंट के लिए ज़रूरी सभी कॉम्प्लेक्स प्रोटोकॉल सिमेंटिक्स (semantics) को हैंडल करते हैं। यूज़र के मोबाइल ऐप को ऐसा लगता है जैसे वह किसी स्टैंडर्ड WebRTC एंडपॉइंट के साथ कम्युनिकेट कर रहा है। लेकिन इंटरनली, ये एज नोड्स अत्यधिक कुशल पैकेट राउटर्स की तरह काम करते हैं। वे WebRTC पेलोड से मीडिया को अनरैप (unwrap) करते हैं और एक ऑप्टिमाइज़्ड, डिटरमिनिस्टिक (deterministic) इंटरनल प्रोटोकॉल का उपयोग करके इसे बैकएंड इन्फरेंस सर्वर्स को फ़ॉरवर्ड कर देते हैं।

यह आर्किटेक्चरल सेपरेशन दो कारणों से बहुत ज़रूरी है। पहला, इन्फरेंस सर्वर्स को पहले से ही विशाल न्यूरल नेटवर्क्स को रन करने का कंप्यूटेशनली भारी काम सौंपा गया है; मीडिया ट्रांसपोर्ट लॉजिक को ऑफ़लोड (offload) करने से उनका डिप्लॉयमेंट और स्केलिंग आसान हो जाती है। दूसरा, यह एज लेयर OpenAI को ट्रैफ़िक को एग्रेसिवली मल्टीप्लेक्स (multiplex) करने की अनुमति देती है, जिससे लाखों कॉनकरेंट सेशंस (concurrent sessions) को सर्व करते हुए उनके पब्लिक-फ़ेसिंग UDP पोर्ट फ़ुटप्रिंट में भारी कमी आती है।

#Technical Implications

इस नए आर्किटेक्चर के केंद्र में Pion है, जो Go में लिखा गया एक ओपन-सोर्स, हाइली मॉड्यूलर WebRTC इम्प्लीमेंटेशन है। Pion WebRTC कम्युनिटी का चहेता बन गया है क्योंकि यह डेवलपर्स को किसी कठोर SFU बॉक्स में सीमित नहीं करता। इसका कंपोज़ेबल नेचर (composable nature) इंजीनियरिंग टीमों को केवल उन विशिष्ट कंपोनेंट्स को निकालने की आज़ादी देता है जिनकी उन्हें आवश्यकता है, और जिससे वे हाइली कस्टमाइज़्ड ट्रांसपोर्ट लेयर्स बना सकते हैं।

OpenAI ने अपने कस्टम ट्रांससीवर्स बनाने के लिए Pion का इस्तेमाल किया। आइए देखते हैं कि उनकी यह अप्रोच एक ट्रेडिशनल मीडिया सर्वर सेटअप की तुलना में कैसी है:

Feature	Traditional SFU Architecture	OpenAI Split Relay Architecture
Primary Workload	मल्टी-पार्टी कॉन्फ्रेंसिंग (N:M)	ह्यूमन-टू-AI इंटरैक्शन (1:1)
Termination Point	सेंट्रलाइज़्ड मीडिया सर्वर	डिस्ट्रीब्यूटेड एज नोड्स
Backend Responsibility	AI इन्फरेंस + WebRTC स्टेट मैनेजमेंट	रॉ/ऑप्टिमाइज़्ड मीडिया पर प्योर इन्फरेंस
Public Port Usage	ज़्यादा (अक्सर प्रति स्ट्रीम/सेशन 1)	कम (एज पर एग्रेसिव मल्टीप्लेक्सिंग)
Traffic Routing	अक्सर पेलोड इंस्पेक्शन की ज़रूरत होती है	प्रोटोकॉल-नेटिव मेटाडेटा के ज़रिए डिटरमिनिस्टिक

इस आर्किटेक्चर का एक स्टैंडआउट फ़ीचर डिटरमिनिस्टिक राउटिंग (deterministic routing) है। राउटिंग मेटाडेटा को स्टैंडर्ड प्रोटोकॉल-नेटिव फ़ील्ड्स में एन्कोड करके, किसी नए सेशन के पहले पैकेट को ही तुरंत पता चल जाता है कि उसे किस बैकएंड इन्फरेंस क्लस्टर को टारगेट करना है। यह असल में कनेक्शन सेटअप लेटेंसी को लगभग ज़ीरो कर देता है, जिससे यूज़र्स UI पर कनेक्शन दिखते ही बोलना शुरू कर सकते हैं। इसके अलावा, एज लेयर पर एक हाइली स्टेबल Media Round-Trip Time (RTT) मेंटेन करने और जिटर (jitter) को कम से कम करने से, AI के साथ बातचीत और टर्न-टेकिंग बहुत ही क्रिस्प और नैचुरल लगती है।

#What's Next

OpenAI का यह आर्किटेक्चरल डिस्क्लोज़र (disclosure) इंडस्ट्री के लिए एक महत्वपूर्ण टर्निंग पॉइंट है। जैसे-जैसे व्यापक टेक इकोसिस्टम टेक्स्ट-बेस्ड LLMs से आगे बढ़कर मल्टीमॉडल और रियल-टाइम वॉइस एजेंट्स (voice agents) बना रहा है, ट्रेडिशनल नेटवर्क इन्फ्रास्ट्रक्चर पैटर्न्स को भी विकसित होना पड़ेगा।

हम इस बदलाव से कई नए ट्रेंड्स के उभरने की उम्मीद कर सकते हैं:

Edge-Terminated Media Services: क्लाउड इन्फ्रास्ट्रक्चर प्रोवाइडर्स संभवतः 1:1 AI वर्कलोड्स के लिए विशेष रूप से डिज़ाइन की गई स्पेशलाइज़्ड, मैनेज्ड WebRTC टर्मिनेशन लेयर्स (termination layers) ऑफ़र करना शुरू कर देंगे, जिससे स्टार्टअप्स के लिए एंट्री बैरियर (barrier to entry) कम हो जाएगा।
Pion's Continued Growth: Go और Pion इकोसिस्टम की फ्लेक्सिबिलिटी इसे मॉडर्न, कस्टमाइज़्ड नेटवर्क प्रोग्रामिंग के लिए डिफ़ॉल्ट चॉइस बनाती है। आने वाले समय में हमें OpenAI के ट्रांससीवर मॉडल की नकल करने वाले ओपन-सोर्स फ्रेमवर्क्स की भरमार देखने को मिल सकती है।
Protocol Evolution: विशेष रूप से AI वर्कलोड्स के लिए डिज़ाइन किए गए WebRTC एक्सटेंशन्स (extensions) पर ज़ोर दिया जा सकता है, जो और भी तेज़ सेशन रिज़म्प्शन (session resumption) के लिए हैंडशेक्स को ऑप्टिमाइज़ करेंगे।

#Conclusion

लगभग एक बिलियन यूज़र्स को लो-लेटेंसी (low-latency), रियल-टाइम वॉइस AI डिलीवर करना एक अभूतपूर्व इंजीनियरिंग उपलब्धि है। ट्रेडिशनल मल्टी-पार्टी मीडिया सर्वर्स से दूर जाकर और Go द्वारा पावर्ड कस्टम स्प्लिट रिले आर्किटेक्चर अपनाकर, OpenAI ने AI नेटवर्किंग के लिए एक नया गोल्ड स्टैंडर्ड स्थापित कर दिया है।

उनके ये इंजीनियरिंग फ़ैसले सिस्टम डिज़ाइन का एक अहम सबक़ सिखाते हैं: जैसे-जैसे एप्लिकेशन्स का वर्कलोड बुनियादी रूप से बदलता है, अंडरलाइंग इन्फ्रास्ट्रक्चर (underlying infrastructure) को भी फिर से सोचना (reimagine) पड़ता है। वीडियो कॉन्फ्रेंसिंग के लिए डिज़ाइन किया गया प्रोटोकॉल डिफ़ॉल्ट रूप से 1:1 AI इंटरैक्शन के लिए पूरी तरह से सूटेबल नहीं है, लेकिन थिन राउटिंग लेयर (thin routing layer) जैसे इंटेलिजेंट एब्स्ट्रैक्शन्स (abstractions) की मदद से इसे ऐसे ढाला जा सकता है कि यह प्लैनेटरी स्केल (planetary scale) पर जादुई, कन्वर्सेशनल एक्सपीरियंस डिलीवर कर सके।