AI 시장의 다음 전장은 데이터센터도, 반도체도, 모델 성능도 아니다. 더 근본적인 싸움은 “AI가 무엇을 먹고 자랐는가”를 둘러싼 저작권 전쟁이다. 생성형 AI는 방대한 텍스트, 이미지, 음원, 영상, 코드, 뉴스 콘텐츠를 학습해 작동한다. 문제는 그 학습재료 상당수가 누군가의 저작물이라는 점이다. AI 기업은 이를 기술 발전을 위한 학습이라고 주장하고, 권리자들은 허락 없는 이용이자 시장 침해라고 반박한다. 이 충돌은 단순한 법률 분쟁이 아니라 AI 산업의 비용 구조와 콘텐츠 산업의 생존 방식을 동시에 바꾸는 시장 재편의 문제다.

국제적으로는 이미 전선이 넓어졌다. 뉴욕타임스는 OpenAI와 Microsoft가 자사 기사 수백만 건을 허락 없이 AI 학습에 사용했다고 주장하며 2023년 소송을 제기했고, 이 사건은 이후 작가와 언론사들이 제기한 여러 사건과 함께 뉴욕에서 병합됐다. 디즈니와 유니버설은 Midjourney를 상대로 저작권 소송을 제기하며 유명 캐릭터 IP를 무단 활용했다고 주장했고, 이후 디즈니·유니버설·워너브러더스 디스커버리는 중국 AI 기업 MiniMax의 이미지·영상 생성 서비스 Hailuo AI를 상대로도 유사한 소송을 제기했다. 최근에는 룩셈부르크 음악 플랫폼 Jamendo가 Nvidia의 AI 음성·오디오 모델 학습에 자사 음원과 메타데이터가 무단 사용됐다고 주장하며 소송을 제기했다. 이제 저작권 분쟁은 뉴스와 도서에 머물지 않고 이미지, 캐릭터, 음원, 영상, 법률 데이터까지 확산되고 있다.

핵심 쟁점은 ‘공정이용’이다. AI 기업들은 학습 과정이 원저작물을 그대로 복제해 판매하는 행위가 아니라, 통계적 패턴을 추출해 새로운 결과물을 만드는 과정이라고 주장한다. 반면 권리자들은 AI가 원저작물을 대량으로 수집·복제하고, 때로는 원저작물과 경쟁하는 결과물을 만들어 시장을 잠식한다고 본다. 미국 저작권청은 2025년 생성형 AI 학습 보고서에서 AI 학습이 언제나 공정이용이라고 볼 수 없으며, 목적·이용량·시장 영향 등을 사안별로 따져야 한다는 입장을 제시했다. 이 말은 AI 기업에도, 권리자에게도 완전한 승리를 주지 않는다. 앞으로의 판단은 “AI 학습은 허용된다” 또는 “전부 금지된다”가 아니라, 어떤 데이터로, 어떤 방식으로, 어떤 시장을 침해했는지에 따라 갈릴 가능성이 크다.

법원의 초기 판단도 일관된 결론으로 정리되지 않는다. Thomson Reuters와 Ross Intelligence 사건에서 미국 델라웨어 연방법원은 Westlaw 콘텐츠를 경쟁 법률 AI 도구 개발에 사용한 행위가 공정이용에 해당하지 않는다고 판단했다. 이 사건은 AI 관련 저작권 분쟁에서 공정이용 항변이 본격적으로 다뤄진 초기 판례로 주목받았다. 반면 Anthropic 관련 작가 집단소송에서는 법원이 AI 학습 자체에는 공정이용 여지가 있다고 보면서도, 해적판 도서 파일을 대규모로 보관한 행위는 별도 문제가 될 수 있다고 봤고, 이후 Anthropic은 작가들과 대규모 합의에 이르렀다. 이 흐름이 보여주는 것은 명확하다. 법원은 “AI 학습”이라는 추상적 행위 하나만 보는 것이 아니라, 데이터의 출처, 보관 방식, 경쟁 시장 침해 여부를 세밀하게 나눠 판단하기 시작했다.

국내에서도 이 문제는 더 이상 해외 뉴스가 아니다. 지상파 3사는 네이버가 뉴스 콘텐츠를 생성형 AI 학습에 무단 활용했다며 저작권 침해 중지 등 청구 소송을 제기했고, 서울중앙지방법원은 이 사건에서 공정이용 항변과 저작권 피해 저작물 특정 문제를 본격적으로 다루고 있다. 이 사건은 국내 최초이자 아시아권에서도 중요한 AI 뉴스 학습 관련 저작권 소송으로 평가된다. 한국 AI 시장에서 이 소송이 중요한 이유는 네이버 한 기업의 문제가 아니기 때문이다. 언론사, 포털, AI 기업, 플랫폼 사업자가 그동안 암묵적으로 공유해 온 뉴스 데이터 이용 질서가 생성형 AI 시대에 더 이상 그대로 작동하기 어렵다는 신호다.

정부도 기준 마련에 들어갔다. 문화체육관광부와 한국저작권위원회는 2026년 2월 「생성형 인공지능의 저작물 학습에 대한 저작권법상 공정이용 안내서」를 발간했다. 이 안내서는 생성형 AI 학습에 저작물을 활용할 때 국내 저작권법상 공정이용 조항을 어떻게 검토할지에 대한 참고 기준을 제시한다. 다만 이 안내서는 법원의 판결이나 법률 개정이 아니라 실무 참고자료에 가깝다. 따라서 기업 입장에서는 “정부가 허용했다”는 면죄부로 오해해서는 안 되고, 권리자 입장에서도 “모든 학습은 침해”라고 단정하기 어렵다. 국내 시장은 지금 명확한 법적 결론이 아니라, 분쟁이 실제로 누적되면서 기준이 형성되는 과도기에 있다.

또 하나의 쟁점은 AI 산출물의 권리 귀속이다. 한국저작권위원회는 2025년 생성형 AI 활용 저작물의 등록 기준을 마련하며, 순수하게 AI가 생성한 결과물과 인간의 창작적 기여가 개입된 결과물을 구분하는 방향을 제시했다. 이는 매우 중요한 변화다. 앞으로 기업이 AI로 만든 광고 이미지, 게임 캐릭터, 음악, 기사, 영상 콘텐츠를 상업적으로 쓰려면 “이 결과물에 인간의 창작성이 어디에 얼마나 들어갔는가”를 설명할 수 있어야 한다. 단순히 프롬프트를 입력했다는 사실만으로 안정적인 권리를 주장하기 어려워질 수 있다.

시장은 이미 소송과 협상의 두 갈래로 움직이고 있다. 한쪽에서는 뉴욕타임스, 디즈니, 유니버설, Jamendo 같은 권리자들이 소송을 통해 무단 학습과 무단 출력을 문제 삼고 있다. 다른 한쪽에서는 Getty Images가 OpenAI와 라이선스 계약을 맺고 ChatGPT 검색 결과에 자사 이미지 아카이브를 제공하는 방식처럼 협상 기반의 수익 모델이 등장하고 있다. 이 계약은 OpenAI의 이미지 생성 모델 학습에는 포함되지 않는 것으로 보도됐지만, 중요한 것은 저작권자가 AI 기업과 싸우기만 하는 것이 아니라 사용 범위와 대가를 정해 시장에 참여하는 방식이 확산되고 있다는 점이다. 저작권 전쟁의 결말은 전면 금지가 아니라, 고품질 데이터에 대한 유료 라이선스 시장의 확대가 될 가능성이 높다.

유럽은 이 흐름을 규제의 문제로 보고 있다. EU AI Act는 범용 AI 모델 제공자에게 투명성, 저작권 준수, 안전 관련 의무를 부과하는 방향으로 설계됐고, 생성형 AI 콘텐츠 표시와 범용 AI 관련 투명성 규칙은 2026년 8월부터 본격 적용될 예정이다. 캘리포니아 역시 2026년부터 공개형 생성 AI 시스템 개발자에게 학습 데이터셋의 고수준 요약 공개를 요구하는 법을 시행하고 있으며, 이는 영업비밀 보호와 투명성 사이의 새 충돌을 낳고 있다. 앞으로 AI 기업의 경쟁력은 모델 성능뿐 아니라 “학습데이터를 얼마나 합법적으로 설명할 수 있는가”로 평가받게 된다.

한국 기업의 blind spot은 여기 있다. 지금까지는 “좋은 모델을 빨리 만들자”가 우선이었다. 그러나 IP 전쟁이 본격화되면 빠르게 긁어모은 데이터는 자산이 아니라 부채가 될 수 있다. 특히 뉴스, 웹툰, 음악, 방송 영상, 게임 캐릭터, 출판물처럼 한국이 강점을 가진 콘텐츠 산업은 AI 학습데이터로서 가치가 높다. 동시에 분쟁 가능성도 높다. K-콘텐츠의 경쟁력이 커질수록, 그 콘텐츠를 학습한 AI 결과물이 국내외 시장에서 원저작자와 경쟁할 가능성도 커진다. AI 산업 육성을 이유로 권리 보호를 느슨하게 가져가면 창작 생태계가 약해지고, 반대로 모든 학습을 막으면 국내 AI 기업은 글로벌 경쟁에서 뒤처질 수 있다.

따라서 해법은 저작권을 낡은 규제로 취급하는 것도, AI 학습을 무조건 침해로 몰아가는 것도 아니다. 우선 기업은 학습데이터의 출처, 수집 경로, 이용 목적, 필터링 방식, 삭제 요청 처리 절차를 문서화해야 한다. 둘째, 언론·출판·음악·영상·웹툰 분야에서는 개별 소송보다 표준계약과 집단 라이선스 모델을 빨리 만들어야 한다. 셋째, 정부는 AI 학습을 위한 공정이용 기준과 창작자 보상 체계를 함께 설계해야 한다. 공정이용만 강조하면 창작자가 버티기 어렵고, 보상만 강조하면 국내 AI 기업의 개발 비용이 급증한다. 균형은 구호가 아니라 계약 구조, 데이터 관리, 분쟁 조정, 투명성 의무로 구현되어야 한다.