'하이퍼클로바X' 개발에 제휴 기사 무단 활용한 네이버, 끊이지 않는 AI 저작권 침해 논란

네이버, 하이퍼클로바X 학습에 국내 기사 50년치와 블로그 9년치 활용
빅테크들, 연구개발 위해 저작권자 허락 없이 저작물을 활용할 수 있다 주장
구글의 기사 작성 AI ‘제네시스’, 기자들 일자리 위협하나

네이버_하이퍼_김유원대표_코엑스 — 김유원 네이버클라우드 대표가 지난 2월 27일 서울 삼성동 코엑스에서 진행된 데뷰 컨퍼런스에서 하이퍼클로바X를 소개하고 있다/사진=네이버

네이버의 생성형 AI 모델인 ‘하이퍼클로바X’의 뉴스 저작권 문제가 재점화됐다. 지난해 11월 오픈AI의 챗GPT가 출시된 이후 생성형 AI 붐이 일어나면서 전 세계적으로 저작권 이슈가 두드러지고 있는 상황에서 우리나라도 이를 피해가지 못하는 모양새다. 한편 최근 언론계에서도 AI의 일자리 위협에 대한 불안이 가시지 않는 가운데, 당장 AI가 기자의 일자리를 대체하긴 어렵다는 분석이 나온다.

한국신문협회 “네이버, 뉴스 제휴 약관 위반했다”

16일 한국신문협회(이하 협회)는 신문협회보를 통해 “하이퍼클로바X의 뉴스 학습은 뉴스 제휴 약관 위반 소지가 있고 약관 자체가 생성형 AI 출현 전에 부당하게 불리한 내용으로 체결됐다”고 주장했다. 협회가 제시한 약관 제1조(목적)에 따르면 ‘뉴스기사를 네이버 뉴스 서비스에서 노출하는 등의 방법으로 사용함에 있어 네이버와 제공사 간의 권리의무 등에 관하여 정하는 것’이라고 규정한다. 이를 근거로, 기사를 AI 학습에 사용하는 것은 뉴스 노출이나 이용자 제공과 전혀 다르기 때문에 별도 계약이 필요하다는 주장이다. 그러면서 “약관이 적용된 2020년 3월 이미 챗GPT 개발이 진행됐고 네이버도 AI 관련 연구를 시작했을 것으로 판단할 수 있다”며 “그럼에도 약관에 관련 내용을 포함시키지 않은 것은 계약체결에 있어 기망에 해당하는 것으로 볼 수 있다”고도 역설했다.

앞서 협회는 지난 8월 22일 네이버·카카오·구글코리아·MS 등 국내외 대형 IT 기업에 ‘생성형 AI(인공지능)의 뉴스 저작권 침해 방지를 위한 5대 요구사항’을 전달한 바 있다. 언론사가 막대한 투자와 수많은 정제과정을 거쳐 생산한 뉴스 콘텐츠를 생성형 AI 개발 기업이 저작권자의 사전 동의나 학습 데이터의 이용 출처 등을 명기하지 않고 활용하는 등 저작권 침해행위가 광범위하게 발생해 뉴스 콘텐츠의 가치가 훼손되고 있다는 내용이 골자였다.

이에 네이버는 하이퍼클로바X의 데이터 학습이 뉴스 콘텐츠 제휴 약관에 의한 ‘합법적 사용’이라며 그 근거로 ‘네이버 뉴스콘텐츠제휴 약관(약관)’ 제8조제3항을 제시했다.

협회는 즉각 반박했다. 해당 조항은 AI를 예견해 만든 게 아닌 데다, 언론사들은 네이버가 AI 개발에 뉴스를 활용하고 있다는 사실도 사전에 알지 못했다. 더욱이 언론사가 약관에 동의했다고 해서 언론사 이익에 반하는 방식으로 콘텐츠가 활용되는 것까지 허용했다고는 볼 수 없는 만큼 이는 불공정 행위에 해당한다는 것이다.

실제로 네이버는 하이퍼클로바X가 제휴 언론사의 기사 50년치와 블로그 9년치에 달하는 한국어 데이터를 학습했다고 밝혔는데, 이를 위한 언론사들의 동의를 구한 적도, 비용을 지불한 적도 없다. 이후 언론계 반발로 동의 절차를 거치도록 약관을 개정했지만, 이미 하이퍼클로바X의 개발이 끝난 뒤였다.

“뉴스 데이터 활용은 명백한 도둑질”, 법적 대응도 불사

이번 네이버 뉴스 저작권 침해 문제도 지난 8월 24일 네이버가 하이퍼클로바X를 공개한 후 기자들과 만난 자리에서 “지금까지 학습한 데이터는 기존의 약관에 근거를 두고 학습한 거라 별도 사용료를 논의하고 있는 단계는 아니다”라고 말하면서 수면 위로 떠올랐다. 이에 한국일보를 시작으로 중앙일보, SBS 등 언론사에서는 ‘AI 및 대량 크롤링 방지’ 약관을 신설했지만, 역부족이라는 평가다.

해외 언론사들은 이미 생성형 AI의 저작권 문제에 대해 강경하게 대응하고 있다. 로이터통신, 뉴욕타임스(NYT), 니혼게이자이 등은 오픈AI가 자사 홈페이지에 게시된 뉴스 콘텐츠를 자동으로 수집해 가는 ‘GPT봇’의 접근을 차단했다. 사전 동의 없는 챗GPT의 콘텐츠 무단 수집 및 전재를 막기 위함이다.

일부 언론사에서는 법적 대응도 불사한다는 입장이다. 오픈AI가 미국의 주요 언론사 뉴스를 무단으로 학습한 정황이 드러나자 CNN과 월스트리트저널(WSJ)은 법적 대응을 검토하겠다고 밝혔다. 월스트리트저널을 소유한 다우존스앤컴퍼니의 법률대리인은 “월스트리트저널 기자들이 쓴 기사를 인공지능 학습시키는 데 활용하고자 하는 이들은 누구든 적절한 라이선스를 받아야 한다”고 말했다.

미국과 캐나다 언론사들이 가입된 뉴스미디어연합(NMA) 차원에서도 AI의 무단 뉴스 학습에 관한 논의가 이어졌다. 대니얼 코피 NMA 부회장은 “우리가 투자를 해 만든 가치 있는 콘텐츠에는 인간의 노력을 필요로 하지만 이를 다른 사람들이 무단으로 사용하고 있다”며 “보상을 받아야 한다”고 주장했다.

언론사와의 갈등이 고조되자 오픈AI는 서둘러 봉합에 나섰다. 외신에 따르면 지난 7월 오픈AI는 AP통신과 뉴스 기사 라이선스 계약을 맺었다. 해당 계약을 통해 오픈AI는 AP통신이 1985년부터 생산한 뉴스 콘텐츠를 챗GPT를 학습시키는 데 이용할 수 있고, AP는 자사 서비스에 오픈AI의 AI 기술을 활용할 수 있게 됐다. 이보다 앞서 지난 5월에는 구글이 NYT에 3년간 1억 달러(약 1,358억원)를 내고 기사 데이터를 구매하는 계약을 체결하기도 했다.

생성형 AI, 기자 대체할 수 있을까?

“나는 AI에 대체되고 싶지 않다(I don’t want to be replaced with something artificial)”. 할리우드 작가들이 파업 당시 외친 말이다.

생성형 AI가 불러온 우려는 저작권만이 아니다. 가장 큰 우려는 AI가 인간의 일자리를 대체할 수도 있다는 것이다. 할리우드 배우들과 작가들이 파업을 감행한 이유 중에 하나도 AI의 일자리 잠식이다. 혹자는 이를 두고 ‘ 챗GPT가 세상에 나온 뒤 벌어진 인간의 가장 큰 조직적인 저항’이라 평하기도 한다. 이들에 이어 최근에는 언론 매체, 음악가 등도 전열을 정비하고 있는 것으로 알려졌다.

특히 몇 달 전 구글이 뉴스 기사를 작성할 수 있는 인공지능(AI) 도구를 실험하고 있다고 발표하면서 언론인들의 불안이 가중되고 있다. 지난 7월 19일 구글은 NYT와 WSJ, 워싱턴포스트(WP)를 포함한 언론사 관계자들에게 기사를 생산하는 AI 기술을 시연했다. 제네시스(가칭)라는 이름의 AI 시스템은 구체적인 시사 정보를 수집하고 뉴스 콘텐츠를 생산할 수 있다.

그러나 일각에서는 당장 AI가 기자들을 대체하는 건 사실상 불가능하다는 목소리가 나온다. 해답은 AI가 만들어 내는 콘텐츠의 질에서 찾을 수 있다. 거대언어모델(LLM)은 대개 최상의 콘텐츠가 아닌 평균적인 수준의 콘텐츠를 입력하고, 그 대가로 평균적인 콘텐츠를 얻는 패턴이 반복된다. GPT-4와 같은 LLM들은 주로 전문가가 선별한 소규모 데이터 세트보다는 광범위한 인터넷을 기반으로 한 대규모 데이터 세트에 의존하는 만큼, 결과물 역시 평균적인 품질을 반영하기 때문이다.

물론 RLHF(인간 피드백형 강화학습)를 통해 생성형 AI의 기능을 지속적으로 향상시킬 수는 있으나, 이 과정은 상당한 시간과 노동력을 요구한다. 이뿐만 아니라 GPT와 같은 모델은 인간과 상호작용을 하면 할수록, 즉 RLHF 작업량이 증가할수록 인간과 유사한 오류를 답습하는 상황이 발생하게 된다. 다시 말해 AI는 평균적인 수준의 기사를 짜깁기만 할 수 있을 뿐, 분석과 비판적 사고를 요하는 전문 기사를 생산할 능력은 없다는 의미다. 또한 날조된 정보도 사실인 것처럼 포장하는 AI 할루시네이션(환각) 문제도 넘어야 할 산이다.