FSF ने कॉपीराइट उल्लंघन पर Anthropic को दी चेतावनी: LLMs को फ्री में शेयर करने की मांग

Hero

#Introduction

आर्टिफिशियल इंटेलिजेंस (AI) और ओपन-सोर्स लाइसेंसिंग का टकराव एक ऐसे बारूद के ढेर की तरह रहा है जो बस एक चिंगारी का इंतज़ार कर रहा था। आज, शायद वह चिंगारी सुलग चुकी है। फ्री सॉफ्टवेयर फाउंडेशन (FSF) ने बड़े पैमाने पर इस्तेमाल होने वाले Claude मॉडल्स के क्रिएटर्स, Anthropic के खिलाफ कथित कॉपीराइट उल्लंघन को लेकर कानूनी कार्रवाई की आधिकारिक चेतावनी दी है। फाउंडेशन की मुख्य मांग अपने आप में अभूतपूर्व है: उनके Large Language Models (LLMs) के वेट्स (weights) और ट्रेनिंग डेटा को फ्री सॉफ्टवेयर लाइसेंस के तहत रिलीज़ किया जाए। यह डेवलपमेंट उस तीखी बहस को एक नए स्तर पर ले जाता है कि कैसे AI मॉडल्स कॉपीलेफ्ट (copyleft) लाइसेंस के तहत सुरक्षित कोड और टेक्स्ट को कंज्यूम, प्रोसेस और आउटपुट करते हैं।

#What happened

FSF की एक हालिया अनाउंसमेंट के अनुसार, जो तेज़ी से Hacker News के डिस्कशंस में टॉप पर पहुँच गई, फाउंडेशन का दावा है कि उनके पास इस बात के पक्के सबूत हैं कि Anthropic के मॉडल्स को GPL-लाइसेंस वाले भारी मात्रा में कोड पर ट्रेन किया गया है, और वो भी लाइसेंस की सख्त शर्तों का पालन किए बिना।

GPL (GNU General Public License) और इसी तरह के अन्य कॉपीलेफ्ट लाइसेंस की यह शर्त होती है कि पब्लिक को डिस्ट्रीब्यूट किया जाने वाला कोई भी डेरिवेटिव वर्क (derivative work) बिल्कुल उन्हीं शर्तों के तहत रिलीज़ होना चाहिए। FSF का तर्क इस दावे पर टिका है कि GPL कोड पर ट्रेन किया गया कोई भी LLM असल में उसी कोड का एक डेरिवेटिव वर्क है। इसके अलावा, जब मॉडल ऐसा कोड स्निपेट (snippet) जनरेट करता है जो ट्रेनिंग डेटा से बहुत ज़्यादा मिलता-जुलता है या हूबहू उसकी कॉपी होता है, तो FSF के अनुसार यह बिना सही एट्रिब्यूशन (attribution) या लाइसेंसिंग के डेरिवेटिव वर्क का डिस्ट्रीब्यूशन है।

Anthropic ने, ज़्यादातर बड़ी AI लैब्स की तरह, हमेशा यह स्टैंड लिया है कि AI मॉडल्स को पब्लिकली उपलब्ध डेटा—जिसमें कॉपीराइट वाले कोड रिपॉजिटरी भी शामिल हैं—पर ट्रेन करना अमेरिकी कॉपीराइट कानून के "fair use" (उचित उपयोग) प्रावधानों के अंतर्गत आता है। FSF की यह कानूनी धमकी सीधे तौर पर इस बचाव को चुनौती देती है। उनकी मांग है कि अगर Anthropic फ्री सॉफ्टवेयर पर ट्रेन किए गए मॉडल्स का कमर्शियल एक्सेस देना जारी रखता है, तो उन मॉडल्स को भी—जिसमें अरबों पैरामीटर्स और विशिष्ट ट्रेनिंग डेटा मिक्स शामिल हैं—कम्युनिटी के साथ फ्री में शेयर किया जाना चाहिए।

#Why it matters

जो डेवलपर्स, रिसर्चर्स और कंपनियाँ अपने डेली वर्कफ्लो में AI का इस्तेमाल कर रही हैं, उनके लिए इस टकराव के नतीजे बहुत अहम हो सकते हैं।

"Fair Use" की ढाल टूट सकती है: अगर FSF की यह व्याख्या कोर्ट में सही साबित होती है या एक बड़े सेटलमेंट का कारण बनती है, तो वह "fair use" डिफेंस चकनाचूर हो सकता है जो फिलहाल पूरी जनरेटिव AI इंडस्ट्री को बचा रहा है। यह फाउंडेशनल मॉडल्स बनाने के इकोनॉमिक्स और लीगलिटी को पूरी तरह बदल देगा, और हो सकता है कि हाल के वर्षों में हमने जो तेज़ प्रोग्रेस देखी है, उस पर ब्रेक लग जाए।
डेरिवेटिव वर्क की नई परिभाषा: न्यूरल नेटवर्क्स (neural networks) के दौर में डेरिवेटिव वर्क क्या है, इसे लेकर हम पूरी तरह से अनजाने कानूनी क्षेत्र में प्रवेश कर रहे हैं। क्या अरबों फ्लोटिंग-पॉइंट नंबर्स का मल्टीडायमेंशनल मैट्रिक्स उस ह्यूमन-रीडेबल कोड का डेरिवेटिव है जिसे उसने इंजस्ट (ingest) किया था, या यह एक बिल्कुल नई, ट्रांसफॉर्मेटिव (transformative) एंटिटी है? लीगल सिस्टम को अभी इसका एक ठोस जवाब देना बाकी है।
सच्चे Open Source AI की मांग: असली ओपन-सोर्स AI फिलहाल काफी रेयर है; बड़ी टेक कंपनियों द्वारा रिलीज़ किए गए ज़्यादातर "ओपन" मॉडल्स कमर्शियल यूज़ पर बहुत सख्त लाइसेंस के साथ आते हैं, या फिर वे अपने ट्रेनिंग डेटा को पूरी तरह से छिपा कर रखते हैं। FSF की जीत से सच्चे ओपन-सोर्स मॉडल्स की एक बड़ी लहर आ सकती है, जो एक्सेस को डेमोक्रेटाइज़ (democratize) तो करेगी, लेकिन साथ ही मौजूदा AI दिग्गजों के बेहद मुनाफे वाले बिज़नेस मॉडल्स को डगमगा भी देगी।

#Technical implications

सॉफ्टवेयर इंजीनियरिंग और सिस्टम आर्किटेक्चर के नज़रिए से देखा जाए, तो FSF की मांगों को पूरा करने की तकनीकी जटिलताएँ हैरान करने वाली हैं और यह मौजूदा मशीन लर्निंग कैपेबिलिटीज़ की सीमाओं को चुनौती देती हैं।

#1. Data Provenance and Machine Unlearning

अगर किसी मॉडल को कॉपीराइट का उल्लंघन करते हुए पाया जाता है, तो ट्रेनिंग डेटाबेस से सिर्फ ऑरिजिनल सोर्स कोड रिपॉजिटरी को डिलीट कर देना ही काफी नहीं है। उस कोड की सिंटैक्टिक (syntactic) और सिमेंटिक (semantic) नॉलेज पहले से ही मॉडल के वेट्स (weights) के अंदर गहराई से एनकोड हो चुकी होती है।

Machine Unlearning: मॉडल की ओवरऑल परफॉरमेंस और रीज़निंग कैपेबिलिटी को ज़्यादा नुकसान पहुँचाए बिना, किसी प्री-ट्रेंड (pre-trained) मॉडल को स्पेसिफिक डेटा "भुलाने" के लिए रिलायबल एल्गोरिदम डेवलप करना अभी भी रिसर्च का एक एक्टिव और अनसुलझा विषय है।
Attribution Tracking: किसी जनरेट किए गए स्निपेट को वापस उसके ट्रेनिंग डेटा के सोर्स तक ट्रेस करने के लिए मैकेनिज़्म बनाना बहुत मुश्किल है, क्योंकि LLMs जानकारी को मेमोरी से सिर्फ रिट्रीव (retrieve) करने के बजाय कांसेप्चुअली (conceptually) सिंथेसाइज़ (synthesize) करते हैं।

#2. Licensing the Weights and Infrastructure

आप एक विशाल टेंसर (tensor) पर कानूनी रूप से GPL लाइसेंस कैसे लागू कर सकते हैं? GPL को मुख्य रूप से ह्यूमन-रीडेबल सोर्स कोड के लिए डिज़ाइन किया गया था। अगर हम मॉडल वेट्स को "कंपाइल्ड बाइनरी" और ट्रेनिंग डेटा व स्क्रिप्ट्स को "सोर्स कोड" मानें, तो FSF की मांग का मतलब है कि Anthropic को मॉडल बनाने के लिए इस्तेमाल किए गए सटीक डेटासेट और पूरे ट्रेनिंग इंफ्रास्ट्रक्चर को रिलीज़ करना होगा।

Component	Current State (Proprietary AI)	FSF Demand State (Copyleft AI)
Training Data	प्राइवेट, बिना सोचे-समझे स्क्रैप किया गया	पब्लिक, पूरी तरह से ऑडिटेबल (auditable), ऑप्ट-इन (opt-in)/लाइसेंसशुदा
Training Code	कड़ी सुरक्षा वाला ट्रेड सीक्रेट	पब्लिकली लाइसेंसशुदा (GPL कंपैटिबल)
Model Weights	प्रोपराइटरी APIs के पीछे कैद	पब्लिकली डाउनलोड और मॉडिफाई करने योग्य
Inference Engine	प्रोपराइटरी SaaS इंफ्रास्ट्रक्चर	ओपन सोर्स डिप्लॉयमेंट टूल्स

#3. The Threat of Enterprise Contamination

एंटरप्राइज़ सॉफ्टवेयर डेवलपर्स के लिए, "लाइसेंस कंटामिनेशन" (license contamination) का डर एक बहुत बड़ी चिंता है। मान लीजिए कोई इंजीनियर कोर यूटिलिटी फंक्शन जनरेट करने के लिए प्रोपराइटरी (proprietary) AI असिस्टेंट का इस्तेमाल करता है, और बाद में यह साबित हो जाता है कि वह फंक्शन सीधे तौर पर GPL कोड की नकल है, तो थ्योरेटिकली (theoretically) पूरा प्रोपराइटरी कोडबेस कानूनी तौर पर खतरे में पड़ सकता है और उसे ओपन-सोर्स करने के लिए मजबूर किया जा सकता है। इसके लिए बेहद सोफिस्टिकेटेड (sophisticated) आउटपुट स्कैनिंग टूल्स की ज़रूरत है, जो फिलहाल बड़े पैमाने पर मौजूद नहीं हैं।

#What's next

गेंद अब Anthropic के पाले में है। औपचारिक कानूनी कार्यवाही शुरू होने से पहले, FSF की मांगों का जवाब देने के लिए उनके पास एक लिमिटेड समय है।

Settlement and Filtering: Anthropic शायद एग्रेसिव आउटपुट फिल्टर्स लगाकर इस विवाद को सुलझाने की कोशिश करे, जो थ्योरेटिकली (theoretically) हूबहू लाइसेंस वाले कोड को जनरेट होने से रोकते हैं। हालाँकि, FSF आमतौर पर इसे एक परमानेंट इलाज के बजाय एक बैंड-एड (band-aid) की तरह देखता है, क्योंकि असली उल्लंघन तो ट्रेनिंग फेज़ के दौरान ही हो चुका होता है।
The Landmark Legal Battle: अगर यह मामला कोर्ट तक पहुँचता है, तो यह यकीनन सॉफ्टवेयर इंडस्ट्री के लिए एक लैंडमार्क केस होगा। इसे सुलझने में शायद सालों लग जाएँ, बात सुप्रीम कोर्ट तक पहुँच सकती है, और जजों को न्यूरल नेटवर्क आर्किटेक्चर और हाई-डायमेंशनल डेटा कंप्रेशन जैसे बेहद गहरे तकनीकी कॉन्सेप्ट्स से जूझना पड़ेगा।
A Shift in Training Paradigms: तात्कालिक नतीजा चाहे जो भी हो, हमें उम्मीद है कि AI कंपनियाँ अपनी डेटा पाइपलाइन्स को लेकर काफी ज़्यादा सावधान और ट्रांसपेरेंट हो जाएँगी। हो सकता है कि हम ऐसे छोटे और हाईली एफिशिएंट (efficient) मॉडल्स का उदय देखें जिन्हें एक्सक्लूसिव तौर पर पर्मिसिव लाइसेंस वाले (MIT, Apache) या स्पष्ट रूप से पब्लिक-डोमेन डेटासेट्स पर ही ट्रेन किया गया हो, भले ही इसकी वजह से कोडिंग परफॉरमेंस में कुछ समय के लिए गिरावट क्यों न आए।

#Conclusion

Anthropic के साथ फ्री सॉफ्टवेयर फाउंडेशन का यह टकराव लाइसेंसिंग शर्तों को लेकर महज़ एक कानूनी विवाद से कहीं बढ़कर है; यह बुनियादी विचारधाराओं का टकराव है। एक तरफ कमर्शियल आर्टिफिशियल इंटेलिजेंस डेवलपमेंट की डेटा-हंग्री (data-hungry) और बेरोकटोक चाल है; तो दूसरी तरफ फ्री सॉफ्टवेयर मूवमेंट के वो बुनियादी सिद्धांत हैं जिन्होंने मॉडर्न इंटरनेट की नींव को सफलतापूर्वक तैयार किया था।

हम जैसों के लिए जो टूल्स और एप्लिकेशन बना रहे हैं (जैसे यहाँ Ichiban Tools की इंजीनियरिंग टीम), यह अपनी डिपेंडेंसीज़ (dependencies) का ऑडिट करने और अपने प्रोडक्ट्स में हम जिन AI सर्विसेज़ को इंटीग्रेट करते हैं, उनके ओरिजिन (provenance) को गहराई से समझने का एक बहुत ही क्रिटिकल समय है। "तेज़ी से आगे बढ़ो और डेटा स्क्रैप करो" (move fast and scrape things) का युग शायद बहुत तेज़ी से खत्म हो रहा है, और इसकी जगह एक बेहद ज़रूरी, हालांकि यकीनन तकलीफदेह, एकाउंटेबिलिटी (accountability), ट्रांसपेरेंट डेटा गवर्नेंस (data governance) और सख्त लाइसेंस कंप्लायंस (license compliance) का युग ले रहा है। हम इस पूरी स्थिति पर करीब से नज़र रखेंगे और जैसे-जैसे हालात बदलेंगे, अपनी डेवलपर कम्युनिटी को अपडेट करते रहेंगे।