Back to Blog

FSF ने कॉपीराइट उल्लंघन पर Anthropic को दी चेतावनी: LLMs को फ्री में शेयर करने की मांग

March 20, 2026by Ichiban Team
aiopen-sourcelicensinganthropicfsfllmcopyright

Hero

#Introduction

आर्टिफिशियल इंटेलिजेंस (AI) और ओपन-सोर्स लाइसेंसिंग का टकराव एक ऐसे बारूद के ढेर की तरह रहा है जो बस एक चिंगारी का इंतज़ार कर रहा था। आज, शायद वह चिंगारी सुलग चुकी है। फ्री सॉफ्टवेयर फाउंडेशन (FSF) ने बड़े पैमाने पर इस्तेमाल होने वाले Claude मॉडल्स के क्रिएटर्स, Anthropic के खिलाफ कथित कॉपीराइट उल्लंघन को लेकर कानूनी कार्रवाई की आधिकारिक चेतावनी दी है। फाउंडेशन की मुख्य मांग अपने आप में अभूतपूर्व है: उनके Large Language Models (LLMs) के वेट्स (weights) और ट्रेनिंग डेटा को फ्री सॉफ्टवेयर लाइसेंस के तहत रिलीज़ किया जाए। यह डेवलपमेंट उस तीखी बहस को एक नए स्तर पर ले जाता है कि कैसे AI मॉडल्स कॉपीलेफ्ट (copyleft) लाइसेंस के तहत सुरक्षित कोड और टेक्स्ट को कंज्यूम, प्रोसेस और आउटपुट करते हैं।

#What happened

FSF की एक हालिया अनाउंसमेंट के अनुसार, जो तेज़ी से Hacker News के डिस्कशंस में टॉप पर पहुँच गई, फाउंडेशन का दावा है कि उनके पास इस बात के पक्के सबूत हैं कि Anthropic के मॉडल्स को GPL-लाइसेंस वाले भारी मात्रा में कोड पर ट्रेन किया गया है, और वो भी लाइसेंस की सख्त शर्तों का पालन किए बिना।

GPL (GNU General Public License) और इसी तरह के अन्य कॉपीलेफ्ट लाइसेंस की यह शर्त होती है कि पब्लिक को डिस्ट्रीब्यूट किया जाने वाला कोई भी डेरिवेटिव वर्क (derivative work) बिल्कुल उन्हीं शर्तों के तहत रिलीज़ होना चाहिए। FSF का तर्क इस दावे पर टिका है कि GPL कोड पर ट्रेन किया गया कोई भी LLM असल में उसी कोड का एक डेरिवेटिव वर्क है। इसके अलावा, जब मॉडल ऐसा कोड स्निपेट (snippet) जनरेट करता है जो ट्रेनिंग डेटा से बहुत ज़्यादा मिलता-जुलता है या हूबहू उसकी कॉपी होता है, तो FSF के अनुसार यह बिना सही एट्रिब्यूशन (attribution) या लाइसेंसिंग के डेरिवेटिव वर्क का डिस्ट्रीब्यूशन है।

Anthropic ने, ज़्यादातर बड़ी AI लैब्स की तरह, हमेशा यह स्टैंड लिया है कि AI मॉडल्स को पब्लिकली उपलब्ध डेटा—जिसमें कॉपीराइट वाले कोड रिपॉजिटरी भी शामिल हैं—पर ट्रेन करना अमेरिकी कॉपीराइट कानून के "fair use" (उचित उपयोग) प्रावधानों के अंतर्गत आता है। FSF की यह कानूनी धमकी सीधे तौर पर इस बचाव को चुनौती देती है। उनकी मांग है कि अगर Anthropic फ्री सॉफ्टवेयर पर ट्रेन किए गए मॉडल्स का कमर्शियल एक्सेस देना जारी रखता है, तो उन मॉडल्स को भी—जिसमें अरबों पैरामीटर्स और विशिष्ट ट्रेनिंग डेटा मिक्स शामिल हैं—कम्युनिटी के साथ फ्री में शेयर किया जाना चाहिए।

#Why it matters

जो डेवलपर्स, रिसर्चर्स और कंपनियाँ अपने डेली वर्कफ्लो में AI का इस्तेमाल कर रही हैं, उनके लिए इस टकराव के नतीजे बहुत अहम हो सकते हैं।

  • "Fair Use" की ढाल टूट सकती है: अगर FSF की यह व्याख्या कोर्ट में सही साबित होती है या एक बड़े सेटलमेंट का कारण बनती है, तो वह "fair use" डिफेंस चकनाचूर हो सकता है जो फिलहाल पूरी जनरेटिव AI इंडस्ट्री को बचा रहा है। यह फाउंडेशनल मॉडल्स बनाने के इकोनॉमिक्स और लीगलिटी को पूरी तरह बदल देगा, और हो सकता है कि हाल के वर्षों में हमने जो तेज़ प्रोग्रेस देखी है, उस पर ब्रेक लग जाए।
  • डेरिवेटिव वर्क की नई परिभाषा: न्यूरल नेटवर्क्स (neural networks) के दौर में डेरिवेटिव वर्क क्या है, इसे लेकर हम पूरी तरह से अनजाने कानूनी क्षेत्र में प्रवेश कर रहे हैं। क्या अरबों फ्लोटिंग-पॉइंट नंबर्स का मल्टीडायमेंशनल मैट्रिक्स उस ह्यूमन-रीडेबल कोड का डेरिवेटिव है जिसे उसने इंजस्ट (ingest) किया था, या यह एक बिल्कुल नई, ट्रांसफॉर्मेटिव (transformative) एंटिटी है? लीगल सिस्टम को अभी इसका एक ठोस जवाब देना बाकी है।
  • सच्चे Open Source AI की मांग: असली ओपन-सोर्स AI फिलहाल काफी रेयर है; बड़ी टेक कंपनियों द्वारा रिलीज़ किए गए ज़्यादातर "ओपन" मॉडल्स कमर्शियल यूज़ पर बहुत सख्त लाइसेंस के साथ आते हैं, या फिर वे अपने ट्रेनिंग डेटा को पूरी तरह से छिपा कर रखते हैं। FSF की जीत से सच्चे ओपन-सोर्स मॉडल्स की एक बड़ी लहर आ सकती है, जो एक्सेस को डेमोक्रेटाइज़ (democratize) तो करेगी, लेकिन साथ ही मौजूदा AI दिग्गजों के बेहद मुनाफे वाले बिज़नेस मॉडल्स को डगमगा भी देगी।

#Technical implications

सॉफ्टवेयर इंजीनियरिंग और सिस्टम आर्किटेक्चर के नज़रिए से देखा जाए, तो FSF की मांगों को पूरा करने की तकनीकी जटिलताएँ हैरान करने वाली हैं और यह मौजूदा मशीन लर्निंग कैपेबिलिटीज़ की सीमाओं को चुनौती देती हैं।

#1. Data Provenance and Machine Unlearning

अगर किसी मॉडल को कॉपीराइट का उल्लंघन करते हुए पाया जाता है, तो ट्रेनिंग डेटाबेस से सिर्फ ऑरिजिनल सोर्स कोड रिपॉजिटरी को डिलीट कर देना ही काफी नहीं है। उस कोड की सिंटैक्टिक (syntactic) और सिमेंटिक (semantic) नॉलेज पहले से ही मॉडल के वेट्स (weights) के अंदर गहराई से एनकोड हो चुकी होती है।

  • Machine Unlearning: मॉडल की ओवरऑल परफॉरमेंस और रीज़निंग कैपेबिलिटी को ज़्यादा नुकसान पहुँचाए बिना, किसी प्री-ट्रेंड (pre-trained) मॉडल को स्पेसिफिक डेटा "भुलाने" के लिए रिलायबल एल्गोरिदम डेवलप करना अभी भी रिसर्च का एक एक्टिव और अनसुलझा विषय है।
  • Attribution Tracking: किसी जनरेट किए गए स्निपेट को वापस उसके ट्रेनिंग डेटा के सोर्स तक ट्रेस करने के लिए मैकेनिज़्म बनाना बहुत मुश्किल है, क्योंकि LLMs जानकारी को मेमोरी से सिर्फ रिट्रीव (retrieve) करने के बजाय कांसेप्चुअली (conceptually) सिंथेसाइज़ (synthesize) करते हैं।

#2. Licensing the Weights and Infrastructure

आप एक विशाल टेंसर (tensor) पर कानूनी रूप से GPL लाइसेंस कैसे लागू कर सकते हैं? GPL को मुख्य रूप से ह्यूमन-रीडेबल सोर्स कोड के लिए डिज़ाइन किया गया था। अगर हम मॉडल वेट्स को "कंपाइल्ड बाइनरी" और ट्रेनिंग डेटा व स्क्रिप्ट्स को "सोर्स कोड" मानें, तो FSF की मांग का मतलब है कि Anthropic को मॉडल बनाने के लिए इस्तेमाल किए गए सटीक डेटासेट और पूरे ट्रेनिंग इंफ्रास्ट्रक्चर को रिलीज़ करना होगा।

ComponentCurrent State (Proprietary AI)FSF Demand State (Copyleft AI)
Training Dataप्राइवेट, बिना सोचे-समझे स्क्रैप किया गयापब्लिक, पूरी तरह से ऑडिटेबल (auditable), ऑप्ट-इन (opt-in)/लाइसेंसशुदा
Training Codeकड़ी सुरक्षा वाला ट्रेड सीक्रेटपब्लिकली लाइसेंसशुदा (GPL कंपैटिबल)
Model Weightsप्रोपराइटरी APIs के पीछे कैदपब्लिकली डाउनलोड और मॉडिफाई करने योग्य
Inference Engineप्रोपराइटरी SaaS इंफ्रास्ट्रक्चरओपन सोर्स डिप्लॉयमेंट टूल्स

#3. The Threat of Enterprise Contamination

एंटरप्राइज़ सॉफ्टवेयर डेवलपर्स के लिए, "लाइसेंस कंटामिनेशन" (license contamination) का डर एक बहुत बड़ी चिंता है। मान लीजिए कोई इंजीनियर कोर यूटिलिटी फंक्शन जनरेट करने के लिए प्रोपराइटरी (proprietary) AI असिस्टेंट का इस्तेमाल करता है, और बाद में यह साबित हो जाता है कि वह फंक्शन सीधे तौर पर GPL कोड की नकल है, तो थ्योरेटिकली (theoretically) पूरा प्रोपराइटरी कोडबेस कानूनी तौर पर खतरे में पड़ सकता है और उसे ओपन-सोर्स करने के लिए मजबूर किया जा सकता है। इसके लिए बेहद सोफिस्टिकेटेड (sophisticated) आउटपुट स्कैनिंग टूल्स की ज़रूरत है, जो फिलहाल बड़े पैमाने पर मौजूद नहीं हैं।

#What's next

गेंद अब Anthropic के पाले में है। औपचारिक कानूनी कार्यवाही शुरू होने से पहले, FSF की मांगों का जवाब देने के लिए उनके पास एक लिमिटेड समय है।

  1. Settlement and Filtering: Anthropic शायद एग्रेसिव आउटपुट फिल्टर्स लगाकर इस विवाद को सुलझाने की कोशिश करे, जो थ्योरेटिकली (theoretically) हूबहू लाइसेंस वाले कोड को जनरेट होने से रोकते हैं। हालाँकि, FSF आमतौर पर इसे एक परमानेंट इलाज के बजाय एक बैंड-एड (band-aid) की तरह देखता है, क्योंकि असली उल्लंघन तो ट्रेनिंग फेज़ के दौरान ही हो चुका होता है।
  2. The Landmark Legal Battle: अगर यह मामला कोर्ट तक पहुँचता है, तो यह यकीनन सॉफ्टवेयर इंडस्ट्री के लिए एक लैंडमार्क केस होगा। इसे सुलझने में शायद सालों लग जाएँ, बात सुप्रीम कोर्ट तक पहुँच सकती है, और जजों को न्यूरल नेटवर्क आर्किटेक्चर और हाई-डायमेंशनल डेटा कंप्रेशन जैसे बेहद गहरे तकनीकी कॉन्सेप्ट्स से जूझना पड़ेगा।
  3. A Shift in Training Paradigms: तात्कालिक नतीजा चाहे जो भी हो, हमें उम्मीद है कि AI कंपनियाँ अपनी डेटा पाइपलाइन्स को लेकर काफी ज़्यादा सावधान और ट्रांसपेरेंट हो जाएँगी। हो सकता है कि हम ऐसे छोटे और हाईली एफिशिएंट (efficient) मॉडल्स का उदय देखें जिन्हें एक्सक्लूसिव तौर पर पर्मिसिव लाइसेंस वाले (MIT, Apache) या स्पष्ट रूप से पब्लिक-डोमेन डेटासेट्स पर ही ट्रेन किया गया हो, भले ही इसकी वजह से कोडिंग परफॉरमेंस में कुछ समय के लिए गिरावट क्यों न आए।

#Conclusion

Anthropic के साथ फ्री सॉफ्टवेयर फाउंडेशन का यह टकराव लाइसेंसिंग शर्तों को लेकर महज़ एक कानूनी विवाद से कहीं बढ़कर है; यह बुनियादी विचारधाराओं का टकराव है। एक तरफ कमर्शियल आर्टिफिशियल इंटेलिजेंस डेवलपमेंट की डेटा-हंग्री (data-hungry) और बेरोकटोक चाल है; तो दूसरी तरफ फ्री सॉफ्टवेयर मूवमेंट के वो बुनियादी सिद्धांत हैं जिन्होंने मॉडर्न इंटरनेट की नींव को सफलतापूर्वक तैयार किया था।

हम जैसों के लिए जो टूल्स और एप्लिकेशन बना रहे हैं (जैसे यहाँ Ichiban Tools की इंजीनियरिंग टीम), यह अपनी डिपेंडेंसीज़ (dependencies) का ऑडिट करने और अपने प्रोडक्ट्स में हम जिन AI सर्विसेज़ को इंटीग्रेट करते हैं, उनके ओरिजिन (provenance) को गहराई से समझने का एक बहुत ही क्रिटिकल समय है। "तेज़ी से आगे बढ़ो और डेटा स्क्रैप करो" (move fast and scrape things) का युग शायद बहुत तेज़ी से खत्म हो रहा है, और इसकी जगह एक बेहद ज़रूरी, हालांकि यकीनन तकलीफदेह, एकाउंटेबिलिटी (accountability), ट्रांसपेरेंट डेटा गवर्नेंस (data governance) और सख्त लाइसेंस कंप्लायंस (license compliance) का युग ले रहा है। हम इस पूरी स्थिति पर करीब से नज़र रखेंगे और जैसे-जैसे हालात बदलेंगे, अपनी डेवलपर कम्युनिटी को अपडेट करते रहेंगे।