거칠 것 없이 질주하던 AI의 발전 속도에 제동이 걸리고 있다는 소식들이 전해집니다. 유럽연합(EU)을 시작으로 정부 차원의 AI규제가 시작되고 있습니다. AI 서비스 등급에 따라서 엄격한 규율을 지켜야할 의무가 AI 기업들에 부과될 것입니다. 또 다른 문제는 학습용 데이터 부족에 대한 이슈입니다. 뉴욕타임즈(NYT)에서 관련된 이슈를 다각도로 분석한 기사가 있어서 소개해 드리려고 합니다.
How Tech Giants Cut Corners to Harvest Data for A.I. (출처 : NYT)
학습할 데이터가 부족하다
2021년말 오픈AI는 데이터 공급 문제에 직면했다는 내용이 알려집니다. ChatGPT를 지속적으로 발전시키려면 고품질의 학습데이터가 충분해야 하는데 데이터가 부족해지기 시작한 겁니다. 그래서 오픈AI 연구팀들은 Whisper 라는 음성인식도구를 만들었는데, 유튜브의 동영상, 오디오에서 텍스트를 추출하여 이를 AI 학습에 사용하려는 목적이었습니다. 문제가 될 수 있음에도 불구하고 이 데이터들이 GPT-4 개발에 광범위하게 사용되었다고 전해 집니다.
오픈AI만 그럴까요? 뉴욕타임즈에 따르면 구글, 메타를 포함한 테크 기업들이 이러한 문제에 자유로운 곳은 하나도 없을 거라 이야기합니다. 사실 구글도 유튜브에서 AI 모델 학습을 위해 데이터를 사용했다고 내부 관계자들의 말을 빌어 얘기하고 있습니다.
규모가 모든 것이다
2020년 존스홉킨스 대학의 제어드 카플란(Jared Kaplan)은 AI에 대한 획기적인 논문을 발표하는데, 대규모 언어모델은 데이터가 많을 수록 성능이 획기적으로 좋아진다는 내용이었습니다.
“확장 법칙이라는 것이 기본적으로 천문학이나 물리학에서 말하는 것처럼 명확하게 보입니다. 규모가 모든 것을 말합니다.”
오픈AI가 2020년 11월 ChatGPT-3을 공개했을 때 학습에 사용한 토큰은 3,000억개 였다고 밝혔습니다. 2022년에는 구글의 딥마인드(DeepMind)의 Chinchilla 모델의 경우에는 1조 4천억개의 토큰이 학습에 사용되었다고 알려졌구요. 이후 곧바로 구글의 PaLM2가 공개가 되었는데 이 모델은 3조6천억개의 토큰이 사용되었다고 합니다. 정말 천문학적으로 학습데이터가 증가하고 있습니다. 그만큼 AI의 성능도 고도화되어 가고 있구요.
2020년 이전의 AI 모델에 사용된 데이터 (출처 : NYT)
2020년 이후 AI 모델에 사용된 데이터 (출처 : NYT)
2026년부터는 쓸 데이터가 없다
오랜 기간동안 Wikipedia 나 Reddit 과 같은 사이트는 엄청난 데이터의 보고였고 데이터들을 무한정 쏟아질 것으로 보였습니다. 그런데 더 이상 무차별적인 데이터 크롤링은 불가능해졌습니다. 구글과 메타가 보유한 엄청난 데이터도 개인 정보 보호헙과 자체 정책으로 인해 AI 학습용으로 대놓고 사용하기 어렵습니다. 연구기관인 Epoch에 따르면 2026부터는 고품질의 데이터를 찾기가 거의 어려울 것이다 이렇게 보고 있습니다. 데이터의 고갈이 실제로 심각해지는 상황이 발생한 겁니다.
지적재산권을 지켜라
뉴욕타임즈는 오픈AI와 마이크로소프트를 고소했습니다. 자신들의 뉴스 기사가 무단으로 AI 학습용으로 사용되었다는 사안 때문입니다. 작은 창작 집단들도 단체로 자신들의 창작물을 보호하기 위한 행동을 실행에 옮기고 있습니다. 아마도 이런 움직임은 모든 방면에서 터져나올 것이고, 많은 웹사이트들이 AI 학습용 봇의 접근을 막으려 들 것입니다.
데이터 확보에 사활을 걸다
AI 테크 기업들은 데이터를 확보하기 위해 엄청난 투자와 노력을 하고 있습니다. 인터넷 공간에서 가능한 모든 사이트들을 다 뒤져 가면서 데이터 확보에 혈안이 되었습니다. 안정적인 데이터 확보를 위해 고품질의 데이터 소스 매체 기업들과는 엄청난 규모의 데이터 사용 비용 계약을 체결하고 있구요.
AI 테크 기업들이 데이터를 확보하기 위한 또 다른 아이디어는 AI가 생성한 데이터 (합성 데이터)를 기반으로 AI를 학습을 시키자라는 것입니다. 데이터의 고갈을 원천적으로 해결할 수도 있는 방법으로 보이기도 하지만 자신의 단점, 자신의 실수와 한계를 강화하는 형태로 잘못된 AI 모델이 나타날 수도 있습니다. 그래서 엄청난 학습 데이터가 필요한 LLM 알고리즘이 아닌 다른 형태의 AI 모델이 앞으로 각광받으리라는 의견들도 있습니다. 특히나 온디바이스 형태의 AI 서비스들은 제한된 데이터 학습량 조건 하에서도 특정한 목적에 잘 동작되도록 발전하고 있습니다.
끝없이 폭발할 것 같은 AI의 성장 속도에도 합리적인 제동이 걸릴 수도 있지 않을까 생각해 봅니다. 앞으로 어떤 흐름으로 성장하고 또 발전할 지 깊이 지켜보도록 하겠습니다.