FSF ने कॉपीराइट उल्लंघन पर Anthropic को दी चेतावनी: LLMs को फ्री में शेयर करने की मांग

#Introduction
आर्टिफिशियल इंटेलिजेंस (AI) और ओपन-सोर्स लाइसेंसिंग का टकराव एक ऐसे बारूद के ढेर की तरह रहा है जो बस एक चिंगारी का इंतज़ार कर रहा था। आज, शायद वह चिंगारी सुलग चुकी है। फ्री सॉफ्टवेयर फाउंडेशन (FSF) ने बड़े पैमाने पर इस्तेमाल होने वाले Claude मॉडल्स के क्रिएटर्स, Anthropic के खिलाफ कथित कॉपीराइट उल्लंघन को लेकर कानूनी कार्रवाई की आधिकारिक चेतावनी दी है। फाउंडेशन की मुख्य मांग अपने आप में अभूतपूर्व है: उनके Large Language Models (LLMs) के वेट्स (weights) और ट्रेनिंग डेटा को फ्री सॉफ्टवेयर लाइसेंस के तहत रिलीज़ किया जाए। यह डेवलपमेंट उस तीखी बहस को एक नए स्तर पर ले जाता है कि कैसे AI मॉडल्स कॉपीलेफ्ट (copyleft) लाइसेंस के तहत सुरक्षित कोड और टेक्स्ट को कंज्यूम, प्रोसेस और आउटपुट करते हैं।
#What happened
FSF की एक हालिया अनाउंसमेंट के अनुसार, जो तेज़ी से Hacker News के डिस्कशंस में टॉप पर पहुँच गई, फाउंडेशन का दावा है कि उनके पास इस बात के पक्के सबूत हैं कि Anthropic के मॉडल्स को GPL-लाइसेंस वाले भारी मात्रा में कोड पर ट्रेन किया गया है, और वो भी लाइसेंस की सख्त शर्तों का पालन किए बिना।
GPL (GNU General Public License) और इसी तरह के अन्य कॉपीलेफ्ट लाइसेंस की यह शर्त होती है कि पब्लिक को डिस्ट्रीब्यूट किया जाने वाला कोई भी डेरिवेटिव वर्क (derivative work) बिल्कुल उन्हीं शर्तों के तहत रिलीज़ होना चाहिए। FSF का तर्क इस दावे पर टिका है कि GPL कोड पर ट्रेन किया गया कोई भी LLM असल में उसी कोड का एक डेरिवेटिव वर्क है। इसके अलावा, जब मॉडल ऐसा कोड स्निपेट (snippet) जनरेट करता है जो ट्रेनिंग डेटा से बहुत ज़्यादा मिलता-जुलता है या हूबहू उसकी कॉपी होता है, तो FSF के अनुसार यह बिना सही एट्रिब्यूशन (attribution) या लाइसेंसिंग के डेरिवेटिव वर्क का डिस्ट्रीब्यूशन है।
Anthropic ने, ज़्यादातर बड़ी AI लैब्स की तरह, हमेशा यह स्टैंड लिया है कि AI मॉडल्स को पब्लिकली उपलब्ध डेटा—जिसमें कॉपीराइट वाले कोड रिपॉजिटरी भी शामिल हैं—पर ट्रेन करना अमेरिकी कॉपीराइट कानून के "fair use" (उचित उपयोग) प्रावधानों के अंतर्गत आता है। FSF की यह कानूनी धमकी सीधे तौर पर इस बचाव को चुनौती देती है। उनकी मांग है कि अगर Anthropic फ्री सॉफ्टवेयर पर ट्रेन किए गए मॉडल्स का कमर्शियल एक्सेस देना जारी रखता है, तो उन मॉडल्स को भी—जिसमें अरबों पैरामीटर्स और विशिष्ट ट्रेनिंग डेटा मिक्स शामिल हैं—कम्युनिटी के साथ फ्री में शेयर किया जाना चाहिए।
#Why it matters
जो डेवलपर्स, रिसर्चर्स और कंपनियाँ अपने डेली वर्कफ्लो में AI का इस्तेमाल कर रही हैं, उनके लिए इस टकराव के नतीजे बहुत अहम हो सकते हैं।
- "Fair Use" की ढाल टूट सकती है: अगर FSF की यह व्याख्या कोर्ट में सही साबित होती है या एक बड़े सेटलमेंट का कारण बनती है, तो वह "fair use" डिफेंस चकनाचूर हो सकता है जो फिलहाल पूरी जनरेटिव AI इंडस्ट्री को बचा रहा है। यह फाउंडेशनल मॉडल्स बनाने के इकोनॉमिक्स और लीगलिटी को पूरी तरह बदल देगा, और हो सकता है कि हाल के वर्षों में हमने जो तेज़ प्रोग्रेस देखी है, उस पर ब्रेक लग जाए।
- डेरिवेटिव वर्क की नई परिभाषा: न्यूरल नेटवर्क्स (neural networks) के दौर में डेरिवेटिव वर्क क्या है, इसे लेकर हम पूरी तरह से अनजाने कानूनी क्षेत्र में प्रवेश कर रहे हैं। क्या अरबों फ्लोटिंग-पॉइंट नंबर्स का मल्टीडायमेंशनल मैट्रिक्स उस ह्यूमन-रीडेबल कोड का डेरिवेटिव है जिसे उसने इंजस्ट (ingest) किया था, या यह एक बिल्कुल नई, ट्रांसफॉर्मेटिव (transformative) एंटिटी है? लीगल सिस्टम को अभी इसका एक ठोस जवाब देना बाकी है।
- सच्चे Open Source AI की मांग: असली ओपन-सोर्स AI फिलहाल काफी रेयर है; बड़ी टेक कंपनियों द्वारा रिलीज़ किए गए ज़्यादातर "ओपन" मॉडल्स कमर्शियल यूज़ पर बहुत सख्त लाइसेंस के साथ आते हैं, या फिर वे अपने ट्रेनिंग डेटा को पूरी तरह से छिपा कर रखते हैं। FSF की जीत से सच्चे ओपन-सोर्स मॉडल्स की एक बड़ी लहर आ सकती है, जो एक्सेस को डेमोक्रेटाइज़ (democratize) तो करेगी, लेकिन साथ ही मौजूदा AI दिग्गजों के बेहद मुनाफे वाले बिज़नेस मॉडल्स को डगमगा भी देगी।
#Technical implications
सॉफ्टवेयर इंजीनियरिंग और सिस्टम आर्किटेक्चर के नज़रिए से देखा जाए, तो FSF की मांगों को पूरा करने की तकनीकी जटिलताएँ हैरान करने वाली हैं और यह मौजूदा मशीन लर्निंग कैपेबिलिटीज़ की सीमाओं को चुनौती देती हैं।
#1. Data Provenance and Machine Unlearning
अगर किसी मॉडल को कॉपीराइट का उल्लंघन करते हुए पाया जाता है, तो ट्रेनिंग डेटाबेस से सिर्फ ऑरिजिनल सोर्स कोड रिपॉजिटरी को डिलीट कर देना ही काफी नहीं है। उस कोड की सिंटैक्टिक (syntactic) और सिमेंटिक (semantic) नॉलेज पहले से ही मॉडल के वेट्स (weights) के अंदर गहराई से एनकोड हो चुकी होती है।
- Machine Unlearning: मॉडल की ओवरऑल परफॉरमेंस और रीज़निंग कैपेबिलिटी को ज़्यादा नुकसान पहुँचाए बिना, किसी प्री-ट्रेंड (pre-trained) मॉडल को स्पेसिफिक डेटा "भुलाने" के लिए रिलायबल एल्गोरिदम डेवलप करना अभी भी रिसर्च का एक एक्टिव और अनसुलझा विषय है।
- Attribution Tracking: किसी जनरेट किए गए स्निपेट को वापस उसके ट्रेनिंग डेटा के सोर्स तक ट्रेस करने के लिए मैकेनिज़्म बनाना बहुत मुश्किल है, क्योंकि LLMs जानकारी को मेमोरी से सिर्फ रिट्रीव (retrieve) करने के बजाय कांसेप्चुअली (conceptually) सिंथेसाइज़ (synthesize) करते हैं।
#2. Licensing the Weights and Infrastructure
आप एक विशाल टेंसर (tensor) पर कानूनी रूप से GPL लाइसेंस कैसे लागू कर सकते हैं? GPL को मुख्य रूप से ह्यूमन-रीडेबल सोर्स कोड के लिए डिज़ाइन किया गया था। अगर हम मॉडल वेट्स को "कंपाइल्ड बाइनरी" और ट्रेनिंग डेटा व स्क्रिप्ट्स को "सोर्स कोड" मानें, तो FSF की मांग का मतलब है कि Anthropic को मॉडल बनाने के लिए इस्तेमाल किए गए सटीक डेटासेट और पूरे ट्रेनिंग इंफ्रास्ट्रक्चर को रिलीज़ करना होगा।
| Component | Current State (Proprietary AI) | FSF Demand State (Copyleft AI) |
|---|---|---|
| Training Data | प्राइवेट, बिना सोचे-समझे स्क्रैप किया गया | पब्लिक, पूरी तरह से ऑडिटेबल (auditable), ऑप्ट-इन (opt-in)/लाइसेंसशुदा |
| Training Code | कड़ी सुरक्षा वाला ट्रेड सीक्रेट | पब्लिकली लाइसेंसशुदा (GPL कंपैटिबल) |
| Model Weights | प्रोपराइटरी APIs के पीछे कैद | पब्लिकली डाउनलोड और मॉडिफाई करने योग्य |
| Inference Engine | प्रोपराइटरी SaaS इंफ्रास्ट्रक्चर | ओपन सोर्स डिप्लॉयमेंट टूल्स |
#3. The Threat of Enterprise Contamination
एंटरप्राइज़ सॉफ्टवेयर डेवलपर्स के लिए, "लाइसेंस कंटामिनेशन" (license contamination) का डर एक बहुत बड़ी चिंता है। मान लीजिए कोई इंजीनियर कोर यूटिलिटी फंक्शन जनरेट करने के लिए प्रोपराइटरी (proprietary) AI असिस्टेंट का इस्तेमाल करता है, और बाद में यह साबित हो जाता है कि वह फंक्शन सीधे तौर पर GPL कोड की नकल है, तो थ्योरेटिकली (theoretically) पूरा प्रोपराइटरी कोडबेस कानूनी तौर पर खतरे में पड़ सकता है और उसे ओपन-सोर्स करने के लिए मजबूर किया जा सकता है। इसके लिए बेहद सोफिस्टिकेटेड (sophisticated) आउटपुट स्कैनिंग टूल्स की ज़रूरत है, जो फिलहाल बड़े पैमाने पर मौजूद नहीं हैं।
#What's next
गेंद अब Anthropic के पाले में है। औपचारिक कानूनी कार्यवाही शुरू होने से पहले, FSF की मांगों का जवाब देने के लिए उनके पास एक लिमिटेड समय है।
- Settlement and Filtering: Anthropic शायद एग्रेसिव आउटपुट फिल्टर्स लगाकर इस विवाद को सुलझाने की कोशिश करे, जो थ्योरेटिकली (theoretically) हूबहू लाइसेंस वाले कोड को जनरेट होने से रोकते हैं। हालाँकि, FSF आमतौर पर इसे एक परमानेंट इलाज के बजाय एक बैंड-एड (band-aid) की तरह देखता है, क्योंकि असली उल्लंघन तो ट्रेनिंग फेज़ के दौरान ही हो चुका होता है।
- The Landmark Legal Battle: अगर यह मामला कोर्ट तक पहुँचता है, तो यह यकीनन सॉफ्टवेयर इंडस्ट्री के लिए एक लैंडमार्क केस होगा। इसे सुलझने में शायद सालों लग जाएँ, बात सुप्रीम कोर्ट तक पहुँच सकती है, और जजों को न्यूरल नेटवर्क आर्किटेक्चर और हाई-डायमेंशनल डेटा कंप्रेशन जैसे बेहद गहरे तकनीकी कॉन्सेप्ट्स से जूझना पड़ेगा।
- A Shift in Training Paradigms: तात्कालिक नतीजा चाहे जो भी हो, हमें उम्मीद है कि AI कंपनियाँ अपनी डेटा पाइपलाइन्स को लेकर काफी ज़्यादा सावधान और ट्रांसपेरेंट हो जाएँगी। हो सकता है कि हम ऐसे छोटे और हाईली एफिशिएंट (efficient) मॉडल्स का उदय देखें जिन्हें एक्सक्लूसिव तौर पर पर्मिसिव लाइसेंस वाले (MIT, Apache) या स्पष्ट रूप से पब्लिक-डोमेन डेटासेट्स पर ही ट्रेन किया गया हो, भले ही इसकी वजह से कोडिंग परफॉरमेंस में कुछ समय के लिए गिरावट क्यों न आए।
#Conclusion
Anthropic के साथ फ्री सॉफ्टवेयर फाउंडेशन का यह टकराव लाइसेंसिंग शर्तों को लेकर महज़ एक कानूनी विवाद से कहीं बढ़कर है; यह बुनियादी विचारधाराओं का टकराव है। एक तरफ कमर्शियल आर्टिफिशियल इंटेलिजेंस डेवलपमेंट की डेटा-हंग्री (data-hungry) और बेरोकटोक चाल है; तो दूसरी तरफ फ्री सॉफ्टवेयर मूवमेंट के वो बुनियादी सिद्धांत हैं जिन्होंने मॉडर्न इंटरनेट की नींव को सफलतापूर्वक तैयार किया था।
हम जैसों के लिए जो टूल्स और एप्लिकेशन बना रहे हैं (जैसे यहाँ Ichiban Tools की इंजीनियरिंग टीम), यह अपनी डिपेंडेंसीज़ (dependencies) का ऑडिट करने और अपने प्रोडक्ट्स में हम जिन AI सर्विसेज़ को इंटीग्रेट करते हैं, उनके ओरिजिन (provenance) को गहराई से समझने का एक बहुत ही क्रिटिकल समय है। "तेज़ी से आगे बढ़ो और डेटा स्क्रैप करो" (move fast and scrape things) का युग शायद बहुत तेज़ी से खत्म हो रहा है, और इसकी जगह एक बेहद ज़रूरी, हालांकि यकीनन तकलीफदेह, एकाउंटेबिलिटी (accountability), ट्रांसपेरेंट डेटा गवर्नेंस (data governance) और सख्त लाइसेंस कंप्लायंस (license compliance) का युग ले रहा है। हम इस पूरी स्थिति पर करीब से नज़र रखेंगे और जैसे-जैसे हालात बदलेंगे, अपनी डेवलपर कम्युनिटी को अपडेट करते रहेंगे।