[세상읽기] 인공지능 저작권 딜레마

김명주 ETRI 인공지능안전연구소장

image

인공지능은 기준에 따라 여러 가지로 분류된다. 예를 들어 글, 그림, 동영상, 가상인간 같은 콘텐츠를 만들면 이를 ‘생성형’ 인공지능이라 부른다. 반면 주어진 상황을 토대로 장차 벌어질 일을 예측하고 판단하면 ‘예측형’ 인공지능이라 한다. 자율주행차에 심어져 교통상황을 판단하면서 목적지까지 데려다 주는 인공지능은 예측형이다. 2022년 11월30일 공개한 챗GPT는 글을 써주는 생성형이다.

 

예측형이든 생성형이든 인공지능이라면 방대한 데이터를 학습해 동작한다. 그런데 이러한 학습데이터의 상당수는 인간 저작물로서 자연스레 저작권이 존재한다. 인공지능이라는 혁신 신기술을 먼저 개발하기 위해 미국 등 주요 선진국은 불편한 저작권 이슈를 일부러 묻었다. 이때 공정사용(fair use)이라는 명분이 동원됐다. 인류 전체를 위한 혁신 신기술을 우선 개발하려면 저작권까지 고려하면서 학습데이터를 확보한다는 것은 현실적으로 불가능했다. 그런데 생성형 인공지능이 전면에 등장하면서 공정 사용에 대한 대중적 인식이 크게 바뀌었다.

 

저작권법에 의해 저작권 침해가 인정되려면 ‘실질적 유사성’이 있을 뿐 아니라 원저작물에 대한 접근 가능성, 즉 ‘의거성’이라는 2개 조건을 모두 만족해야 한다. 한동안 인공지능 기업들은 인터넷상에 존재하는 모든 디지털 데이터를 최대한 크롤링해 자신들이 개발한 인공지능의 학습데이터로 사용했다고 자랑해 왔다. 그런데 이러한 홍보는 저작권 침해 요건 중 ‘의거성’을 만족함을 스스로 인정하는 셈이다. 의거성을 회피하기 위해 최근 인공지능 기업들은 학습데이터를 어디서 구했는지, 그리고 저작권 이슈를 어떻게 처리했는지 일부러 밝히지 않고 모두 영업비밀로 간주한다.

 

미국의 경우 지난 2월 기준으로 인공지능 저작권 소송은 약 39건이 진행됐다. 가장 주목할 만한 사건은 2023년 1월17일 이뤄진 게티이미지사와 영국 스테빌리티 AI 간 소송이다. 게티이미지는 인터넷상에 자기 회사에 저작권이 있는 이미지 1천200만장 정도를 올려놓았다. 그중 수백만장을 영국 기업이 무단으로 학습에 사용했다고 주장했다. 특히 사진에 삽입된 게티이미지 워터마크가 약간 뭉개진 모습으로 스테이블 디퓨전 인공지능의 합성출력물 안에 등장하면서 표현의 실질적 유사성이 크게 부각됐다.

 

2년 전 생성형 인공지능 도입기에 비해 지금은 저작권 이슈가 더욱 복잡해졌다. 이제는 학습데이터 중 인간 저작물만 있지 않고 인공지능이 만들어 낸 합성산출물도 갈수록 더 많이 사용되는 상황이다. 합성산출물에 대한 저작권 부여 여부도 새로운 이슈인데 현재로서는 불분명하므로 학습데이터의 저작권 문제는 더 복잡해진다.

 

어떤 인공지능은 앞선 인공지능을 공개 소스 형태로 내려받아 사용하므로 추가 학습 과정이 거의 없거나 아주 적다. 중국 딥시크의 경우 다른 인공지능으로부터 데이터를 증류(distillation)한 후 사용해 자체 학습 과정이 대폭 줄어든다. 인공지능을 통해 다른 인공지능을 훈련하는 강화학습도 학습데이터가 없다. 그러나 이 모든 경우 앞선 인공지능이 책임져야 할 학습데이터의 저작권 이슈는 후속 인공지능에 그대로 전수된다는 것은 상식적이다. 이처럼 최근 2년 사이 인공지능 기술의 급격한 발달과 활용 확대로 저작권 이슈는 더욱더 얽히고설킨 상태다.

 

유럽연합은 인공지능을 개발할 때 학습데이터의 저작권을 어떻게 다뤘는지 꼭 밝히도록 법적으로 요구할 예정이다. 우리나라도 인공지능의 저작권 이슈에 대해 원칙을 세우는 것이 필요하다. 다만 우리나라 기업의 인공지능 활용과 산업 진흥을 위해서는 저작권 적용에 대한 완급 조절 및 글로벌 협의가 현실적으로 필요하다. 그렇지 않으면 우리나라 기업만 역차별받을 가능성이 크다. 내년 초 시행을 앞둔 우리나라 인공지능 기본법에서 ‘진흥’ 항목은 가급적 빨리 시행하고 저작권 이슈 같은 ‘규제’ 항목은 글로벌 보조를 맞추며 충분한 준비 기간을 둬야 한다.

© 경기일보(www.kyeonggi.com), 무단전재 및 수집, 재배포금지
댓글 댓글 운영규정