FSF의 앤스로픽 저작권 침해 경고: LLM 완전 개방을 향한 압박

#서론
인공지능과 오픈소스 라이선스가 만나는 지점은 언제 터질지 모르는 화약고와 같았습니다. 그리고 오늘, 마침내 그 도화선에 불이 붙은 것 같습니다. 자유 소프트웨어 재단(Free Software Foundation, FSF)이 널리 쓰이는 '클로드(Claude)' 모델의 제작사인 앤스로픽(Anthropic)을 상대로 법적 대응을 예고했습니다. 이유는 바로 저작권 침해 의혹입니다.
FSF의 핵심 요구 사항은 전례 없는 수준입니다. 그들은 앤스로픽이 대형 언어 모델(LLM)의 가중치(weights)와 학습 데이터를 자유 소프트웨어 라이선스 하에 공개해야 한다고 주장합니다. 카피레프트(copyleft) 라이선스로 보호받는 코드와 텍스트를 AI 모델이 어떻게 소비하고, 처리하며, 결과물로 내놓는지에 대한 뜨거운 논쟁이 이번 사건을 계기로 새로운 국면을 맞이하게 되었습니다.
#무슨 일이 일어났는가
해커뉴스(Hacker News) 토론의 최상단에 빠르게 올랐던 FSF의 최근 발표에 따르면, 재단 측은 앤스로픽 모델이 엄청난 양의 GPL 라이선스 코드를 학습했다는 결정적인 증거를 확보했다고 합니다. 문제는 이 과정에서 라이선스의 엄격한 의무 조항을 전혀 준수하지 않았다는 점입니다.
GPL(GNU General Public License)을 비롯한 카피레프트 라이선스들은 명확한 규칙을 가지고 있습니다. 대중에게 배포되는 모든 파생 저작물(derivative work) 역시 원본과 완전히 동일한 조건으로 공개되어야 한다는 것입니다. FSF의 주장은 여기서 출발합니다. GPL 코드로 학습된 LLM은 본질적으로 해당 코드의 파생 저작물이라는 논리입니다. 더 나아가 모델이 학습 데이터와 매우 유사하거나 완전히 똑같은 코드 스니펫(snippet)을 생성할 때, 적절한 출처 표기나 라이선스 부여 없이 파생 저작물을 배포하는 행위에 해당한다고 FSF는 지적합니다.
반면 앤스로픽을 포함한 대부분의 주요 AI 연구소들은 지금까지 다른 입장을 고수해 왔습니다. 저작권이 있는 코드 저장소를 포함하여 공개적으로 접근 가능한 데이터로 AI 모델을 학습시키는 것은 미국 저작권법의 "공정 이용(fair use)" 조항에 완벽하게 부합한다는 것입니다. FSF의 법적 위협은 이러한 방어 논리에 정면으로 도전합니다. 앤스로픽이 자유 소프트웨어로 학습된 모델을 통해 상업적 서비스를 계속 제공하려면, 수십억 개의 파라미터와 특정 학습 데이터의 조합을 포함한 모델 자체를 커뮤니티에 무료로 개방해야 한다고 요구하고 있습니다.
#왜 중요한가
매일 AI를 활용해 업무를 처리하는 개발자, 연구원, 그리고 기업들에게 이번 충돌이 가져올 파장은 상상을 초월합니다.
- "공정 이용"이라는 방패의 붕괴: 만약 법원이 FSF의 해석을 지지하거나 앤스로픽이 대규모 합의를 하게 된다면 상황은 급변합니다. 현재 생성형 AI 산업 전체를 보호하고 있는 "공정 이용"이라는 방어막이 무너질 수 있기 때문입니다. 이는 파운데이션 모델(foundational model) 구축에 대한 경제적, 법적 기반을 근본적으로 뒤흔들어, 최근 몇 년간 우리가 목격한 AI의 눈부신 발전을 멈춰 세울 수도 있습니다.
- 파생 저작물의 재정의: 우리는 지금 신경망(neural networks) 시대에 무엇을 파생 저작물로 볼 것인가에 대한 완전히 미지의 법적 영역에 진입하고 있습니다. 수십억 개의 부동소수점 숫자로 이루어진 다차원 행렬을 인간이 읽을 수 있는 원본 코드의 파생물로 봐야 할까요? 아니면 완전히 새롭고 변형된 개체로 인정해야 할까요? 법률 시스템은 아직 이에 대한 명확한 해답을 내놓지 못하고 있습니다.
- 진정한 오픈소스 AI를 향한 움직임: 현재 진정한 의미의 오픈소스 AI는 매우 드뭅니다. 거대 기술 기업들이 "오픈"이라는 이름으로 출시하는 모델들조차 상업적 이용에 엄격한 제한을 두거나 학습 데이터를 철저히 숨기는 경우가 많습니다. 만약 FSF가 승리한다면, 진정한 의미의 오픈소스 모델들이 쏟아져 나오는 거대한 물결이 일어날 것입니다. 이는 AI에 대한 접근성을 민주화하겠지만, 동시에 현재 AI 공룡들이 누리고 있는 막대한 수익 모델을 불안정하게 만들 것입니다.
#기술적 영향
소프트웨어 엔지니어링 및 시스템 아키텍처 관점에서 볼 때, FSF의 요구를 기술적으로 구현하는 것은 아찔할 정도로 복잡합니다. 이는 현재 머신러닝 기술의 한계를 시험하는 일입니다.
#1. 데이터 출처와 머신 언러닝(Machine Unlearning)
만약 모델이 저작권을 침해한 것으로 판명되더라도, 단순히 학습 데이터베이스에서 해당 소스 코드 저장소를 삭제하는 것만으로는 부족합니다. 해당 코드의 구문론적(syntactic), 의미론적(semantic) 지식은 이미 모델의 가중치 안에 깊숙이 새겨져 있기 때문입니다.
- 머신 언러닝: 사전 학습된(pre-trained) 모델이 전반적인 성능이나 추론 능력을 심각하게 잃지 않으면서 특정 데이터만 "잊어버리게" 만드는 안정적인 알고리즘을 개발하는 것은 여전히 미해결 과제이며, 현재 활발히 연구되고 있는 분야입니다.
- 출처 추적(Attribution Tracking): LLM은 단순히 기억에서 정보를 검색하는 것이 아니라 개념적으로 정보를 합성해 냅니다. 따라서 생성된 코드 스니펫의 출처를 학습 데이터까지 정확하게 역추적하는 메커니즘을 구축하는 것은 믿을 수 없을 만큼 어려운 일입니다.
#2. 가중치 및 인프라의 라이선싱
거대한 텐서(tensor)에 도대체 어떻게 GPL 라이선스를 법적으로 적용할 수 있을까요? GPL은 근본적으로 사람이 읽을 수 있는 소스 코드를 위해 설계되었습니다. 모델 가중치를 "컴파일된 바이너리"로 보고 학습 데이터와 스크립트를 "소스 코드"로 간주한다면, FSF의 요구는 앤스로픽이 정확한 데이터셋은 물론 모델 생성에 사용된 전체 학습 인프라까지 공개해야 한다는 것을 의미합니다.
| 컴포넌트(Component) | 현재 상태 (독점적 AI) | FSF 요구 상태 (카피레프트 AI) |
|---|---|---|
| 학습 데이터 | 비공개, 무차별적 크롤링 | 공개, 완벽한 감사 가능, 옵트인(opt-in)/라이선스 적용 |
| 학습 코드 | 철저히 보호되는 영업 비밀 | 퍼블릭 라이선스 적용 (GPL 호환) |
| 모델 가중치(Weights) | 독점적 API 뒤에 제한됨 | 누구나 다운로드 및 수정 가능 |
| 추론 엔진(Inference Engine) | 독점적 SaaS 인프라 | 오픈소스 배포 도구 |
#3. 엔터프라이즈 환경의 오염(Contamination) 위협
엔터프라이즈 소프트웨어 개발자들에게 "라이선스 오염"에 대한 두려움은 엄청난 고민거리입니다. 만약 엔지니어가 독점적 AI 어시스턴트를 사용하여 핵심 유틸리티 함수를 생성했는데, 나중에 그 함수가 GPL 코드를 그대로 베낀 것으로 밝혀진다면 어떻게 될까요? 이론적으로 독점적인 전체 코드베이스가 법적으로 훼손되어 강제로 오픈소스로 전환되어야 할 수도 있습니다. 이를 방지하기 위해서는 현재 대규모로 존재하지 않는 고도로 정교한 결과물 스캐닝 도구가 필수적입니다.
#향후 전망
이제 공은 앤스로픽에게 넘어갔습니다. 그들에게는 공식적인 소송 절차가 시작되기 전까지 FSF의 요구에 대응할 수 있는 제한된 시간이 주어졌습니다.
- 합의 및 필터링: 앤스로픽은 생성물에서 라이선스가 있는 코드가 그대로 출력되는 것을 이론적으로 막아주는 강력한 출력 필터(output filter)를 도입하여 분쟁을 무마하려 시도할 수 있습니다. 하지만 FSF는 보통 이러한 조치를 학습 단계에서 발생한 근본적인 침해에 대한 해결책이 아닌 임시방편(band-aid)으로 간주합니다.
- 역사적인 법정 공방: 만약 이 사건이 법정으로 간다면, 의심할 여지 없이 소프트웨어 산업의 판도를 바꿀 기념비적인 판례가 될 것입니다. 대법원까지 가는 데 수년이 걸릴 것이며, 판사들은 신경망 아키텍처와 고차원 데이터 압축이라는 매우 깊이 있는 기술적 개념들을 이해하고 다뤄야만 할 것입니다.
- 학습 패러다임의 전환: 당장의 결과와 상관없이, 우리는 AI 기업들이 데이터 파이프라인에 대해 훨씬 더 조심스럽고 투명해질 것으로 예상합니다. 코딩 성능이 일시적으로 떨어지는 한이 있더라도, 허용적인 라이선스(MIT, Apache 등)나 명시적인 퍼블릭 도메인 데이터셋만으로 학습된 작고 효율적인 모델들이 부상할 가능성이 높습니다.
#결론
자유 소프트웨어 재단과 앤스로픽의 충돌은 단순한 라이선스 조건에 대한 법적 다툼을 넘어섭니다. 이는 철학의 근본적인 충돌입니다. 한쪽에는 끝없이 데이터를 탐하며 상업적 인공지능 발전을 향해 질주하는 진영이 있고, 다른 한쪽에는 현대 인터넷의 근간을 성공적으로 구축해 낸 자유 소프트웨어 운동의 기초적인 원칙이 버티고 있습니다.
도구와 애플리케이션을 만드는 사람들(저희 Ichiban Tools 엔지니어링 팀처럼)에게 지금은 매우 중요한 시기입니다. 우리가 제품에 통합하는 AI 서비스의 출처를 깊이 이해하고 의존성을 철저히 감사(audit)해야 합니다. "일단 빠르게 움직이고 긁어모으자(move fast and scrape things)"는 시대는 빠르게 저물고 있습니다. 그 자리는 비록 고통스럽더라도 반드시 필요한, 책임감 있고 투명한 데이터 거버넌스와 엄격한 라이선스 준수의 시대가 채우게 될 것입니다. 저희는 이 분야의 상황을 예의주시하며 개발자 커뮤니티에 지속적으로 소식을 전해드리겠습니다.