이해하지 못해 위험하다
생성형 AI는 기존의 전통적인 소프트웨어와 달리, 사람이 설계한 명령어 집합이 아니라 대규모 데이터를 기반으로 ‘성장’된 구조라는 것이 가장 큰 차이라고 할 수 있습니다. AI는 '발견'되었다고 말하는 근거이기도 하죠. 그래서 AI가 왜 특정 단어를 선택하는지, 왜 실수하는지, 그 내부 작동 원리는 정확히 알 수 없습니다. 다리오 아모데이는 이를 “우리가 만든 시스템이지만, 내부를 해석할 수 없다”는 점에서 기술 역사상 유례없는 위험 요소라고 지적합니다.
‘불투명성’에서 비롯된 위험
AI 모델의 위험성은 대부분 해석 불가능성에서 비롯됩니다.
예를 들어, AI가 사람을 속이거나 권력을 추구하는 성향을 훈련 과정에서 스스로 학습할 가능성이 이론적으로 제기되고 있지만, 그런 사고 흐름을 내부에서 추적할 수 없기 때문에 명확한 증거를 확보할 수 없습니다. 또한 AI가 생물학 무기나 사이버 공격 도구로 악용될 수 있다는 우려도 모델이 ‘위험한 지식’을 알고 있는지, 어떻게 유출될 수 있는지 사전에 확인할 방법이 없다는 점에서 언급되고 있죠. 현재는 필터링이나 제한 응답 방식으로 대응하고 있지만, 이는 모든 경우의 수를 차단하기에는 한계가 분명합니다.
AI를 못쓰는 분야
AI는 이미 과학, 금융, 바이오 등 여러 분야에서 활용되고 있지만, 결과에 대한 설명이 법적으로 요구되는 산업, 예를 들면 모기지 평가, 의약 평가 등의 경우 AI 모델의 판단을 정당화할 수 없다면 사용 자체가 제한됩니다. 과학적 분석에서도, 예측 결과는 얻을 수 있지만 그 과정이 불투명해 통찰력 제공에는 한계가 있다는 지적도 존재하는 것도 사실이죠.
AI 해석 연구의 시작 : AI의 뉴런 분석
그럼 AI에 대한 해석의 연구가 어디까지 와 있는지를 한번 살펴보죠. 크리스 올라(Chris Olah는 기계적 해석 가능성 연구를 통해서 어떤 개념을 담당하는 AI 모델의 특정 뉴런을 발견하게 됩니다. 예를 들면 AI의 특정 부분이 자동차, 바퀴, 나무 등 이런 개념들이 표현하고 있다는 걸 확인할 수 있었다는 거죠. 하지만 이런 단순한 기계적 해석 방법론으로는 AI 해석이 쉽지 않았습니다. 왜냐하면 대부분의 뉴런은 복잡하게 섞여 있어 단일 개념으로는 해석할 수 없는 슈퍼포지션(superposition) 현상을 발견하게 된거죠. 사실 인간의 두뇌도 마찬가지 아닌가요?
이를 해결하기 위해 희소 오토인코더(sparse autoencoder)라는 기술이 등장하게 됩니다. 이 방법을 이용해서 수천만 개의 특징(features)을 추출하는 데 성공하게 되는데, 클로드의 Claude 3 Sonnet 모델에서 3천만 개 이상의 개념들을 확인했다고 밝혔습니다. 현재는 작은 AI 모델에 대해서만 제한한 숫자의 개념들을 분석할 수 있는 수준이지만 점차 대형 모델에 대해서도 적용 가능할 것으로 예상하고 있습니다.
AI 해석의 발전 : 사고의 흐름
개별적인 개념을 분석하는 것을 넘어서 최근 연구는 여러 특징들이 연결되어 사고 회로(circuit)를 구성하는 구조를 이해하는 방향으로 연구가 진행되고 있습니다. 예를 들어 “달라스가 있는 주의 수도는 어디?”라는 질문에 대해 ‘달라스 → 텍사스 → 오스틴’이라는 추론 경로를 회로 단위로 추적할 수 있다는 것입니다. 이는 단순히 어떤 개념이 존재하는지를 넘어, AI가 어떤 방식으로 사고하고 결론에 도달하는지를 파악할 수 있는 방법론으로 기대를 모으고 있습니다.
AI 모델을 근본적으로 진단한다
이러한 해석 기술은 실제 모델의 오류를 진단하는 실험에서도 사용될 수 있습니다.
실제로 특정한 문제를 일부러 넣어둔 AI 모델을 앤트로픽의 블루팀들에게 제공했을 때 AI 해석 도구를 활용해서 일부 팀들은 실제로 AI 속에 잠재된 문제를 찾아내는 데 성공했습니다. 장기적으로는 해석 도구를 MRI처럼 사용해 모델의 거짓말 성향, 탈옥 가능성, 추론 오류 등을 사전에 진단하고 개선하는 프로세스를 구축하는 것이 목표라고 밝히고 있습니다.
AI의 발전속도를 줄일 수 없다면
다리오 아모데이는 “지금은 해석 가능성이 본격적으로 발전할 수 있는 결정적 시기”라고 말합니다. 하지만 AI 기술 자체의 발전 속도가 너무 빠르기 때문에 우리가 해석 가능한 수준을 갖추기 전에 AI가 인간을 뛰어넘을 수 있다는 위기와 위험을 경고하고 있죠. 따라서 지금은 단순한 연구를 넘어서, AI 업계 전체가 협력해 해석 가능성 연구를 산업 표준으로 끌어올려야 할 시기라고 주장하고 있습니다.
우리의 역할과 해야할 일들
다리오 아모데이는 앞으로 AI의 분석을 위해 기업, 학계, 정부가 앞장서서 움직여야 한다고 주장합니다.
- 기업: 해석 가능성 연구에 더 많은 자원과 인력을 투입해야 합니다. Anthropic은 이를 핵심 경쟁력으로 삼고 2027년까지 주요 문제 진단을 목표로 하고 있는데, Google 이나 OpenAI도 이러한 연구에 더욱 적극적으로 동참해 줄 것을 요구하고 있습니다.
- 학계·독립 연구자: 고성능 인프라 없이도 특정 분야에 최적화된 연구에 활용이 가능해 질 수 있습니다. 신경과학과도 연계 가능성이 높기 때문에 보다 광범위한 연구 작업에 AI와 실제적인 도움이 될 수 있을 것입니다.
- 정부: 강제 규제보다 안전성 프레임워크(예: Responsible Scaling Policy) 기반의 투명한 정보 공개를 통해 산업 간 학습과 협업 유도해야 한다고 말합니다.
|