작년 12월 27일, 뉴욕타임즈(NYT)는 오픈AI, 마이크로소프트(MS)를 상대로 저작권 침해 소송을 제기했습니다. 저작권 액수 문제로 협상이 결렬된 이후에 생긴 일로, 미국 주요 언론사가 이런 문제로 해당 기업을 고소한 것은 이번이 처음입니다. 뉴욕타임즈는 왜 오픈AI를 고소한 걸까요? 자신들의 수많은 저작권들이 오픈AI의 봇 크롤링을 통해 ChatGPT 학습에 사용되는 것을 더이상 지켜볼 수 없다는 판단이었습니다.
출처 : 뉴욕타임스
The Verge 의 데이비드 피어스 (David Pierce)는 The text file that runs the internet 이란 칼럼을 통해 웹 크롤링의 역사를 알기쉽게 풀어냅니다. AI시대에 봇은 어떻게 진화할 것이며 상호 신뢰에 기반을 둔 느슨한 규약이 어떻게 재편될 지에 대한 이야기를 나눠보겠습니다.
출처 : The Verge
인터넷 세상을 지켜온 작은 텍스트 파일
인터넷이 태동하던 시절부터 봇이 생겨났습니다.
대부분의 경우는 좋은 의도에서 만들어졌죠. 자신들의 디렉토리를 만들거나 사이트를 검증하고 연구 목적의 데이터베이스를 구축하기 위해 웹 페이지의 내용들을 긁어갔습니다. 그런데 트래픽이 문제가 됩니다. 당시 인터넷 망은 느리고 비쌌기 때문에 몇몇 봇이 사이트를 과도하게 다운로드해서 먹통이 되거나 통신 요금이 치솟는 등의 문제가 발생한거죠. 이 문제를 해결하기 위해 개발자인 마르틴 코스터(Martjin Koster)와 웹 관리자 그룹은 Robots Exclusion Protocol 을 만들자고 제안했습니다. 아주 단순한 방법이었죠. 웹 도메인에 일반 텍스트 파일을 추가하자. 그래서 그 텍스트 파일에 어떤 봇이 그들의 웹 사이트를 탐색해도 될 지 말지를 명시하도록 하자는 거였죠. 봇 제작자들은 이 텍스트 파일의 내용을 보고 크롤링을 해도 되는지 아닌지를 판단하자는 아주 심플한 방법입니다. 이 단순한 프로토콜은 몇 번의 개선을 거쳐 단순한 robots.txt 로 최종적으로 확정되었고 모든 웹사이트는 이 규약을 따르게 됩니다. 웹사이트 주소/robots.txt 를 치면 해당 페이지의 봇에 대한 허용 범위를 확인할 수 있습니다.
robots.txt 는 표준이 되었지만 공식적인 것은 아닙니다. 어떤 법적인 근거도 없습니다. 상호 신뢰에 바탕을 둔 암묵적 약속입니다. 내 사이트의 내용을 가져다 쓸 수 있도록 해줄께. 대신 내 사이트에 더 많은 트래픽이 될 수 있도록 해줘 라는 서로 간의 보이지 않는 믿음으로 운영이 되는거죠. 이러한 약속은 검색 엔진 때문에 더욱 공고히 다져집니다. 구글이 해당 페이지를 크롤링함으로써 그 내용을 바탕으로 색인화하고 이를 검색 결과에 표시합니다. 그러면 구글 검색을 통해 사람들이 그 페이지를 더 잘 찾고 방문할 수 있게 됩니다. 서로가 이익이 되는 방향으로 이루어지는 거래라고 볼 수 있지만, 사실 이 지렛데는 이미 구글로 넘어가 버린 지 오래죠. 구글은 지금도 검색 엔진이라는 막강한 무기를 통해 엄청난 돈을 벌고 있습니다.
어쨋거나 봇이 자신의 사이트를 크롤링하는 것을 허용할 지 말지는 전적으로 웹 페이지 소유주의 선택입니다. robots.txt 에 해당 봇의 크롤링을 거부한다고 명시해 두기만 하면 봇은 그 사이트를 검색하지 않을 겁니다. 대신 그 페이지는 사람들에게 노출될 기회를 박탈당하는 거죠. 이렇게 인터넷은 나름의 규율을 지켜오며 성장해 왔습니다.
출처 : Google
AI의 등장
그런데 AI가 등장한 겁니다. 특히 오픈AI가 시작한 생성형 AI의 혁신은 엄청한 학습 데이터가 필요했고, 가능한 모든 채널들 특히 언론사나 커뮤니티와 같이 정보가 많이 아카이빙되어 있다고 판단되는 사이트가 봇들의 가장 큰 타겟이 되었습니다.AI 기업이 해당 데이터의 출처를 정확히 표기하거나 트래픽을 유도할 수 있는 혜택을 전혀 주지 못하기 때문에 이들 언론사나 정보 플랫폼은 AI 기업들의 크롤링이 상호의 교환이 아니라 도둑질처럼 느꼈습니다. 그래서 앞서 얘기했던 뉴욕타임즈, BBC 등 대부분의 언론사들이 오픈AI의 크롤링 봇인 GPTBot을 자신들의 robots.txt 에서 차단목록에 추가했다고 발표했습니다. 언론사 뿐만 아니라, 아마존(Amazon), 페이스북 (Facebook), 핀터레스트(Pinterest) 등의 플랫폼들도 GPTBot이 자신들의 웹사이트의 일부 또는 전체에 접근하는 것을 차단했다고 합니다. 그런데 사실 차단의 방법은 robots.txt 파일 내에 거부 목록에 추가하는 것 뿐입니다. robots.txt 를 무시하고 싶은 크롤러는 얼마든지 그렇게 할 수 있고, 사실 법적인 처벌도 쉽지 않은 것도 사실입니다.
출처 : WIRED
AI 시대, 데이터에 대한 새로운 논의
2년 내 LLM 학습데이터가 고갈될 것이란 얘기가 있습니다. 현재의 AI의 발전 속도라면 앞으로 더욱 천문학적인 학습 데이터들이 필요할텐데, 그만큼 충분하고 좋은 데이터를 구하기가 점점 더 어려워질 것이란 전망입니다. 그러면 AI 의 발전 속도에 제동이 걸릴 수도 있습니다. AI 기업의 입장에서는 고품질의 충분한 데이터를 확보하는 것이 AI 혁신에 가장 중요한 요소 중 하나입니다. 오픈AI 뿐 아니라 여러 AI 기업들이 매체, 컨텐츠 플랫폼들과 수백, 수천만 달러의 저작권 계약을 하고 있는 것이 바로 그런 이유 때문입니다.
그리고 또 다른 측면에서 robots.txt 이 AI 시대에 적합하지 않다는 논의가 시작되었습니다. 더 강력하고 더 엄격한 크롤링 관리 도구가 필요하는 주장이죠. 단순하게 허용과 금지만으로 구분하는 것이 아니라 더 세부적인 항목들을 제어하고 관리할 수 있는 robots.txt의 업그레이트가 필요하다고 합니다.
그럼에도 불구하고 웹사이트 소유주의 고민은 쉽지 않습니다. 앞으로는 AI가 검색엔진을 대체할 것입니다. 그렇다면 AI의 크롤링 봇을 막는 것만이 능사는 아니라는 거죠. 상호간에 이익을 교환할 수 있는 방법이 구상되어야 합니다. 궁극적으로 인터넷이 열린 생태계로 발전하기 위해서는 서로의 가치를 오픈하고 공유해야 합니다. 오픈AI도 ChatGPT를 일반사용자가 무료로 사용할 수 있도록 하는 것 뿐만 아니라 정보 제공자에게 실제적인 혜택이 주어지는 방안을 함께 고민해가야할 것입니다. AI 기업 자신들의 성장이 웹생태계 전체의 성장이 된다는 믿음을 주지 못한다면 인터넷은 그동안 겪어보지 못했던 커다란 위기에 직면하게 될 수도 있습니다.
출처 : DALL-E 를 통해 생성
AI 시대입니다. 오래된 가치와 새로운 혁신이 부딪치고 있습니다. 그 속에서 또 다른 가능성이 열리고 있는 중입니다. 새로운 변화를 흥미롭게 지켜보고 있습니다.