ArXiv ने पूरी तरह से AI-Generated रिसर्च पेपर्स पर लगाया कड़ा प्रतिबंध

Hero

#Introduction

कई दशकों से, ArXiv फिजिक्स, मैथमेटिक्स, और तेजी से कंप्यूटर साइंस और मशीन लर्निंग में प्री-प्रिंट रिसर्च के लिए एक सेंट्रल नर्वस सिस्टम के रूप में काम कर रहा है। यह वह रिपॉजिटरी है जहां ओरिजिनल Transformer आर्किटेक्चर जैसे ग्राउंडब्रेकिंग पेपर्स पहली बार दुनिया के साथ शेयर किए गए थे। हालांकि, जो तकनीक कई ArXiv पेपर्स का विषय है, वही अब इस रिपॉजिटरी की इंटीग्रिटी के लिए सीधा खतरा बन गई है। साइंटिफिक डिस्कोर्स की क्वालिटी को बनाए रखने के लिए एक बड़े कदम के तहत, ArXiv ने एक सख्त नई पॉलिसी की घोषणा की है: जो ऑथर्स पूरी तरह से artificial intelligence द्वारा जनरेट किए गए पेपर्स सबमिट करेंगे, उन्हें प्लेटफॉर्म से एक साल के लिए अनिवार्य रूप से बैन कर दिया जाएगा।

#What happened

यह अनाउंसमेंट, जिसे हाल ही में TechCrunch ने भी हाईलाइट किया है, जनरेटिव AI के प्रति एकेडमिक दुनिया के रिस्पॉन्स में एक महत्वपूर्ण एस्केलेशन (escalation) को दर्शाता है। जहां ग्रामर करेक्शन, लैंग्वेज ट्रांसलेशन, या एक्सपेरिमेंटल कोड को स्कैफोल्ड करने के लिए AI टूल्स का इस्तेमाल आम हो गया है और इसे आमतौर पर एक्सेप्ट भी किया जाता है, वहीं ArXiv "ज़ीरो-एफर्ट" पब्लिशिंग के खिलाफ एक सख्त लाइन खींच रहा है।

यह नई पॉलिसी विशेष रूप से उन सबमिशन को टारगेट करती है जहां Large Language Model (LLM) ने सारा भारी काम किया है—स्ट्रक्चर सोचना, कंटेंट लिखना, और कम से कम ह्यूमन इंटेलेक्चुअल इनपुट या ओवरसाइट के साथ कंक्लूजन जनरेट करना। अगर मॉडरेशन टीम, ऑटोमेटेड सिस्टम्स की मदद से, यह निर्धारित करती है कि कोई पेपर पूरी तरह से AI-generated है, तो सबमिट करने वाले ऑथर्स को पूरे 12 महीनों के लिए ArXiv पर कोई भी नया रिसर्च अपलोड करने से सस्पेंड कर दिया जाएगा।

#Why it matters

ArXiv ऐसे सख्त कदम क्यों उठा रहा है, यह समझने के लिए हमें सिग्नल-टू-नॉइज़ रेश्यो (signal-to-noise ratio) को देखना होगा। ArXiv मुख्य रूप से एक प्री-प्रिंट सर्वर के रूप में काम करता है, जिसका मतलब है कि पब्लिकेशन से पहले पेपर्स का पीयर-रिव्यू (peer-review) नहीं होता है। यह प्लेटफॉर्म इरेलेवेंट थ्योरीज या स्पष्ट चोरी (plagiarism) को फिल्टर करने के लिए रिसर्चर्स के गुड फेथ और बेसिक मॉडरेशन पर काफी हद तक निर्भर करता है।

लेकिन अब एक कन्विंसिंग दिखने वाला एकेडमिक पेपर जनरेट करने का बैरियर लगभग ज़ीरो हो गया है। हम सिंथेटिक रूप से जनरेटेड रिसर्च की एक बाढ़ देख रहे हैं जो ग्रामेटिकली भले ही फ्लॉलेस हो, लेकिन उसमें एम्पिरिकल बैकिंग (empirical backing), नोवेल इनसाइट (novel insight), या कभी-कभी लॉजिकल कोहेरेंस (logical coherence) की भी कमी होती है।

Information Overload: असल, ग्राउंडब्रेकिंग रिसर्च के साधारण, AI-generated नॉइज़ के पहाड़ के नीचे दब जाने का खतरा है। सबमिशन का इतना बड़ा वॉल्यूम डिस्कवरी को सभी के लिए मुश्किल बना देता है।
Reputation Damage: अगर ArXiv को बॉट-जनरेटेड टेक्स्ट के डंपिंग ग्राउंड के रूप में जाना जाने लगा, तो यह अर्ली-स्टेज साइंटिफिक डिस्कवरी के प्रीमियर सोर्स के रूप में अपनी क्रेडिबिलिटी खो देगा।
Resource Drain: इन सबमिशन का रिव्यू और मॉडरेशन करने में वॉलंटियर्स और स्टाफ का बहुत सारा समय बर्बाद होता है, जिससे प्लेटफॉर्म इम्प्रूवमेंट्स से रिसोर्सेज कम हो जाते हैं।

#Technical implications

सॉफ्टवेयर इंजीनियरिंग के नजरिए से, इस बैन का एन्फोर्समेंट (enforcement) सबसे ज्यादा दिलचस्प हिस्सा है। बिना हाई रेट फॉल्स पॉजिटिव्स (false positives) के आप AI-generated टेक्स्ट को रिलायबली कैसे डिटेक्ट करते हैं? हकीकत यह है कि AI डिटेक्शन एक लगातार चलने वाली हथियारों की होड़ (arms race) है।

ArXiv पॉलिसी का उल्लंघन करने वालों की पहचान करने के लिए शायद मल्टी-लेयर्ड, डिफेंस-इन-डेप्थ (defense-in-depth) अप्रोच अपनाएगा:

Statistical Text Analysis: एल्गोरिदम लो perplexity (अगले शब्द की भविष्यवाणी करना कितना आसान है) और लो burstiness (वाक्य की लंबाई और संरचना में भिन्नता) को देखते हैं। इंसान की राइटिंग आमतौर पर ज्यादा कैओटिक (chaotic) और वैरीड (varied) होती है।
Watermarking: जैसे-जैसे मॉडल प्रोवाइडर्स अपने आउटपुट में क्रिप्टोग्राफिक वॉटरमार्किंग लागू करते हैं, रिपॉजिटरीज इन छिपे हुए, डिटरमिनिस्टिक सिग्नल्स को स्कैन कर सकती हैं।
Semantic Consistency Checks: मौजूदा AI मॉडल्स अभी भी 20-पेज के घने टेक्निकल पेपर में लॉन्ग-टर्म लॉजिकल कंसिस्टेंसी बनाए रखने में संघर्ष करते हैं।
Metadata and Reference Hallucinations: LLMs अक्सर साइटेशंस (citations) इन्वेंट करते हैं। हैलुसिनेटेड DOIs (hallucinated DOIs) के हाई परसेंटेज वाले पेपर्स को फ्लैग करने के लिए ऑटोमेटेड स्क्रिप्ट्स स्थापित डेटाबेस के खिलाफ बिब्लियोग्राफी (bibliography) को क्रॉस-रेफरेंस कर सकती हैं।

यहां इस बात का एक सिम्पलीफाइड उदाहरण है कि कैसे एक बेसिक ऑटोमेटेड पाइपलाइन रेफरेंस वैलिडेशन के आधार पर ह्यूमन मॉडरेशन के लिए किसी पेपर को फ्लैग कर सकती है:

import requests
import re

def check_citations(paper_text: str) -> str:
    """Scans text for DOIs and validates them against the Crossref API."""
    # Extract DOIs from the text using a standard regex
    dois = re.findall(r'10.\d{4,9}/[-._;()/:A-Z0-9]+', paper_text, re.IGNORECASE)
    hallucinated_count = 0
    
    for doi in dois:
        # Ping the Crossref API to verify the DOI actually exists
        response = requests.get(f"https://api.crossref.org/works/{doi}", timeout=5)
        if response.status_code == 404:
            hallucinated_count += 1
            
    suspicion_score = hallucinated_count / len(dois) if dois else 0
    
    # If more than 30% of DOIs are fake, flag it
    if suspicion_score > 0.30:
        return "High Risk: Flag for Moderation"
    return "Pass"

हालांकि कोई भी सिंगल ऑटोमेटेड मेथड फुलप्रूफ नहीं है, लेकिन इन सिग्नल्स को ह्यूमन ओवरसाइट (human oversight) के साथ मिलाने से लेजिटिमेट रिसर्चर्स को पेनलाइज़ (penalize) किए बिना लो-एफर्ट AI डंप्स को पकड़ने के लिए एक रोबस्ट फिल्टर बनाया जा सकता है।

#What's next

ArXiv का यह फैसला शायद गिरने वाला पहला डोमिनोज़ (domino) है। हम उम्मीद कर सकते हैं कि अन्य प्रमुख रिपॉजिटरीज, एकेडमिक जर्नल्स, और प्रीमियर कॉन्फ्रेंसेस (जैसे NeurIPS, ICML, और CVPR) भी अनडिस्क्लोज्ड (undisclosed), होलसेल AI जनरेशन के लिए इसी तरह के दंडात्मक (punitive) उपाय अपनाएंगी।

आगे चलकर असली चुनौती ग्रे एरियाज़ (gray areas) को डिफाइन करने की होगी। आखिर "AI assistance" कहां खत्म होती है और "AI authorship" कहां से शुरू होती है? अगर आप पेपर खुद लिखते हैं लेकिन अपना सारा एक्सपेरिमेंटल कोड लिखने के लिए किसी LLM एजेंट का इस्तेमाल करते हैं, तो क्या यह एक्सेप्टेबल है? क्या होगा अगर आप लिटरेचर रिव्यू के लिए 50 सोर्स पेपर्स को सिंथेसाइज़ (synthesize) करने के लिए किसी मॉडल का उपयोग करते हैं?

साइंटिफिक कम्युनिटी को स्टैंडर्डाइज्ड डिस्क्लोज़र फ्रेमवर्क्स (standardized disclosure frameworks) की सख्त जरूरत है। हम जल्द ही हर सबमिशन के साथ अनिवार्य "AI Usage Statements" अटैच देख सकते हैं, जिसमें यह डिटेल होगी कि किन मॉडल्स का उपयोग किया गया और किस स्पेसिफिक पर्पस के लिए, जो काफी हद तक वैसे ही काम करेगा जैसे आज कॉन्फ्लिक्ट-ऑफ-इंटरेस्ट (conflict-of-interest) डिक्लेरेशन्स करते हैं।

#Conclusion

ArXiv पर पूरी तरह से AI-generated पेपर्स सबमिट करने के लिए एक साल का बैन लगाना एकेडमिक सिस्टम के लिए एक जरूरी शॉक है। यह साइंटिफिक रिसर्च के एक फंडामेंटल प्रिंसिपल को रीअफ़र्म (reaffirm) करता है: असली वैल्यू ह्यूमन इनसाइट, रिगोरस (rigorous) मेथोडोलॉजी, और नोवेल डिस्कवरी में है, न कि सिर्फ शब्दों को कन्विंसिंग तरीके से फॉर्मेट करने की क्षमता में।

इंजीनियर्स और रिसर्चर्स के लिए, मैसेज स्पष्ट है। AI हमारे वर्कफ्लोज़ को एक्सीलरेट (accelerate) करने, हमारे कोड को डिबग करने, और हमारे रोज़मर्रा के काम को रिफाइन करने के लिए एक पावरफुल टूल है। लेकिन यह असली रिसर्च की कड़ी मेहनत का विकल्प (substitute) नहीं है। फाइनल आउटपुट—और इसके इंटेलेक्चुअल मेरिट—की जिम्मेदारी मजबूती से इंसानों के हाथों में ही रहनी चाहिए।