지난 주 가장 뜨거웠던 이슈는 OpenAI에서 발표한 Sora 였습니다. Sora는 Text to Video 인공지능 모델입니다. 프롬프트에 원하는 내용을 입력하면 그 내용을 이해하고 최대 1분 길이의 비디오를 생성합니다. 이런 형태의 인공지능 서비스들이 이미 존재하긴 했지만, 이번의 Sora가 놀라운 것은 만들어낸 영상의 퀄리티 때문입니다. 이게 과연 인공지능이 만든 가짜 영상이 맞나 싶을 정도로 진짜와 차이를 거의 느끼지 못했습니다. 오늘 수요레터에서는 OpenAI의 Sora 에 대해 살펴보겠습니다.
2월 15일 (현지시간) OpenAI는 텍스트를 입력하면 영상을 만들어주는 AI인 Sora를 소개했다. (참조 : OpenAI)
놀라운 Sora의 결과물
Sora는 움직이는 물리적 세계를 이해하고 시뮬레이션하는 것을 목적으로 OpenAI에서 개발한 Text to Video 생성 인공지능입니다. 프롬프트에 텍스트를 입력하면 그 내용을 이해하고 최대 1분 길이의 비디오를 만들어 줍니다. 이번 발표에서 가장 큰 인상을 남겼던 샘플 영상 중 하나가 여성이 도코의 밤거리를 걷는 영상이었는데요. 이걸 만들기 위해 입력한 프롬프트를 한번 살펴볼까요?
프롬프트 : 스타일리시한 여성이 따뜻하고 빛나는 네온과 애니메이션 도시 간판으로 가득한 도쿄 거리를 걷고 있습니다. 그녀는 검은색 가죽 재킷, 빨간색 긴 드레스, 검은색 부츠를 신고 검은색 을 들고 있습니다. 그녀는 선글라스와 빨간 립스틱을 착용합니다. 그녀는 자신감 있고 자연스럽게 걷는다. 거리는 축축하고 반사되어 다채로운 조명의 거울 효과를 만들어냅니다. 많은 보행자들이 걸어 다닙니다.
위의 프롬프트 텍스트를 통해 만들어진 영상이다. 몇 번을 봐도 정말 놀랍다. (참조 : OpenAI)
놀라운 것은 프롬프트로 모든 것을 설명하지 않아도 내용의 맥락과 그런 상황의 물리적 세계를 이해한 것처럼 보인다는 점이죠. 예를 들면 여성의 선글라스에 반사된 거리의 모습과 조명이라던지, 귀걸이의 자연스러운 흔들림, 미소와 동작, 카메라 앵글 등. 이런 건 실제 세계를 이해하고 물리적 실제가 무엇인지를 유추할 수 있어야 구현해 낼 수 있는 수준입니다.
선글라스에 비친 모습을 보라. 프롬프트에는 이런 걸 설명하지 않았다. 그런데도 Sora는 이런 디테일한 부분을 구현해 냈다. 진짜 세상은 어떠해야할 지를 (마치) 이해하는 것처럼 보인다. (참조 : OpenAI)
한계는 있다
물론 아직 한계는 있다고 OpenAI에서 솔직히 공개한 점도 흥미롭습니다. 아직은 개발하고 있는 단계란 거고, 복잡한 물리적 현상을 정확히 표현하기엔 좀 더 시간이 필요하다고 인정하고 있죠. 시각 예술가, 디자이너, 영화 제작자들로 이루어진 레드팀을 구성해서 다양한 테스트를 진행하고 있다고 합니다.
유리컵이 떨어졌는데 부서지지 않고 물처럼 녹아 내린다. (참조 : OpenAI)
할머니가 촛불을 힘껏 부는데 촛불은 흔들리지도 않는다. 축하를 해주는 사람들의 움직임도 뭔가 어색하다. (참조 : OpenAI)
페이크 영상, 어떤 보안책이 있는가?
얼마전 테일러 스위프트의 페이크 영상이 X에 올라와서 순식간에 많은 사람들에게 퍼지는 이슈가 터지기도 했죠. 미국 대선 과정에서 페이크 뉴스, 페이크 영상이 선거에 엄청난 영향을 끼칠 수 있다는 경고가 여기저기서 터져나오고 있습니다. 이런 사회의 부정적인 시각을 OpenAI가 모를리 없겠죠. 여러 보안책을 적용해서 문제점들을 최소화 시키겠다고 약속하고 있습니다. 그럼에도 불구하고 그들 스스로 이런 노력들이 완벽하지 않다고 인정하고 있어요.
세상에서 가장 핫한 가수, 테일러 스위프트. 그녀도 페이크 영상에서 자유롭지 못했다. (출처 : AMC Theaters)
" 광범위한 연구와 테스트에도 불구하고 우리는 사람들이 우리 기술을 사용하는 유익한 방법이나 이를 남용하는 방법을 모두 예측할 수는 없습니다. 이것이 바로 우리가 실제 사용을 통해 배우는 것이 시간이 지남에 따라 점점 더 안전한 AI 시스템을 만들고 출시하는 데 중요한 구성 요소라고 믿는 이유입니다. " - OpenAI -
이번 Sora의 발표를 보면서 놀라움과 함께 걱정이 앞서는 건 어쩔 수 없습니다.
Sora의 기술
Sora는 Diffusion Transformer 모델입니다.GPT 모델의 LLM과 방식과 비슷한 기반 하에서 발전되고 있죠. 학습데이터에 차이가 있습니다. LLM은 토큰 이라고 하는 단위로 학습이 진행되는 반면, Sora는 시각적 패치라고 하는 단위로 학습이 이루어집니다. 패치는 시공간을 잘게 쪼갠 조각들이라고 볼 수 있어요. 아래 그림을 참고하시면 됩니다.
영상을 잘게 짜른다. 정지 영상의 평면적 구분 뿐 아니라 시간대 별로 변화하는 이미지들을 조각내는데 이런 각 요소들을 패치 (Patch)라고 부른다. Sora의 가장 기본적인 학습단위이다. (참조 : OpenAI)
작년에 개봉한 <크리에이터> 영화의 한 장면같은 영상을 만들어 냈다. 영화계에서 난리났다는 얘기가 허풍은 아닌 것 같다. (참조 : OpenAI)
창발 능력 (Emergent Capability)
Sora는 각각의 패치들이 공간적인 의미 뿐 아니라 시간적으로 어떻게 변화되는 지를 학습함으로써 실제의 물리적 세계를 시뮬레이션해 나갑니다. 정말 어마어마한 학습량이 필요할 겁니다. 하지만, 인터넷에는 정말 너무너무 많은 영상 소스들이 넘쳐 납니다. 그리고 OpenAI는 돈도 많습니다. 얼마 전에 샘 알트먼이 AI 반도체 생태계를 새롭게 만들어야 한다며 무려 7조 달러 (한화로 약 9,000조)에 이르는 투자가 필요하다고 주장하기도 했죠. 참고로 2024년도 대한민국 전체의 예산이 660조가 좀 안됩니다. 성공하려면 배포가 이 정도는 되어야 하나 봅니다.
이번 Sora의 기술보고서에서 흥미로운 부분은 OpenAI 스스로 얘기하는 창발 능력 Emergent Capability 을 언급한 점입니다. 비디오 모델을 대규모로 훈련을 진행하다 보니 예상치 못했던 능력을 보였다는 점인데요. 3D 특징이나 사물에 대한 구체적인 지시 없이도 실제 물리적인 세상의 측면들을 시뮬레이션하는 영상을 만들어 내더라는 거죠. 역동적인 카메라 움직임을 가진 영상을 보여주는 것도 이런 창발의 가능성을 얘기하고 있는 지점입니다. 어떤 규모를 넘어서면 완전히 새로운 단계의 기술로 성숙되는 것인데, 사실 ChatGPT도 학습량이 어떤 규모를 넘어서면서 얻은 기술적 성취라고 알려지고 있습니다.
일본의 어떤 관광 거리를 3D 로 보여주는 영상. 이런 공간감은 예상치 못한 결과물이라고 얘기한다. 학습의 규모가 어느 이상 넘어서면 '창발'이 발생되는데, 기술이 완전히 새로운 국면의 기능으로 진화하는 것을 의미한다. (참조 : OpenAI)
AGI를 향한 이정표
OpenAI는 Sora가 실제 세계를 이해하고 시뮬레이션할 수 있는 모델의 기초를 다지는 역할을 하게 될 것이고, 이런 기능은 인공지능이 AGI (Artificial General Intelligence, 인공 일반 지능)를 달성하기 위한 중요한 이정표가 되리라 주장하고 있어요. 무슨 선언문 같지 않습니까? 불과 몇 년 전만해도 상상도 하지 못했던 일들이 정말 현실로 구현되고 있는 장면을 우리 모두 목도하고 있습니다. 기술이 두렵기도 하고 흥미진진하기도 합니다.
촌장 드림
헬멧 위에 빨간 털조끼 모자를 쓴 모습이 진짜 '창의적'으로 보이기도 한다. 아무튼 이런 실제적인 느낌의 영상을 AI가 만들어냈다는 점에서 Sora는 정말 놀랍다. (참조 : OpenAI)