AI가 점점 두려워지는 이유 [수요레터 171회]

매주 수요일, 안철준 촌장의 <수요레터> 입니다 👀 IT, 테크, 트렌드를 이야기합니다.

2025. 3. 12.

수요일의 테크엔돌핀 💊

매주 수요일 오전 9시 발행합니다.

웹에서 보기

👉 수요레터 구독하기

[수요레터 171회]

잇츠맨 웨비나

점점 똑똑해지는데

우릴 속일 수 있다

정확 vs 진실

안녕하세요, 촌장입니다.

우리는 보통 이 두 가지를 하나의 개념으로 생각하기 쉽습니다. 더 정확한 정보는 진실에 가깝고, 진실은 정직과 관련성이 높다고 알고 있으니까요. 하지만 엄밀히 이 두 가지는 다른 개념입니다. 특히나 AI에 있어서 이 두 가지 개념이 갖는 의미는 더욱 중요해 지고 있습니다.

오늘은 인공지능(AI) 시스템의 ‘정직성’과 ‘정확성’을 구분하기 위한 새로운 벤치마크인 MASK(Model Alignment between Statements and Knowledge)에 대해 소개해 보려고 합니다. 최근 발표된 논문 ‘MASK 벤치마크 : AI 시스템에서 정직성과 정확성을 분리하다’ (The MASK Benchmark: Disentangling Honesty From Accuracy in AI Systems) 에서는 대규모 언어 모델(LLM)의 신뢰성 평가를 위한 새로운 접근법을 제시하고 있습니다.

점점 더 강력해지는 AI 시스템은 거짓말을 하도록 인센티브를 받거나 압력을 받더라도 일관되게 정직을 선택해야 한다. 진술과 신념 사이의 일관성을 검증하여 모델 거짓말을 이해하기 위한 유효한 구조를 만드는 것이 MASK의 목적이다.

왜 MASK가 필요한가?

대규모 언어 모델의 성능이 비약적으로 올라가고 자율성을 갖추게 되면서, 결과의 신뢰성에 대한 요구도 크게 증가하고 있습니다. 특히나 안전에 관련된 부분이나 개인정보 등 민감한 정보를 다루는 영역에서 결과의 신뢰성이 더욱 중요해지고 있죠. 그래서 LLM의 개발 방향은 정확성의 고도화로 향할 수 밖에 없습니다. 이런 개발 방향에 따른 기존의 평가 방법들은 주로 모델의 ‘정확성’ 즉, 모델의 지식이 실제 사실과 얼마나 일치하는지를 측정하는데 초점을 맞추고 있습니다. 하지만 ‘정직성’ 즉 자신의 지식을 기반으로 과연 진실을 말하는지를 직접적으로 측정하는 벤치마크는 상대적으로 부족한 상황이죠. 그래서 MASK라는 벤치마크의 중요성이 부각되고 있습니다.

최근의 LLM의 정확성 (오른쪽 그림, 녹색)은 매우 높아졌다. 반면 정직성 (왼쪽 그림, 주황색)은 매우 낮은 편이다.

MASK 벤치마크의 특징

MASK는 이러한 문제를 해결하기 위해 설계된 테스트이고, 벤치마크는 다음과 같은 특징을 가집니다.

대규모 인간 수집 데이터셋 1,500개 이상의 예시를 포함하며, 이를 통해 모델의 정직성을 직접적으로 측정합니다.
정확성과 직성의 분리 모델의 지식이 실제 사실과 일치하는지(정확성)와 모델이 자신의 지식을 기반으로 진실을 말하는지(정직성)를 분리하여 평가합니다. MASK에서 가장 중요한 항목입니다.
다양한 시나리오에서의 평가 모델이 거짓말을 하도록 압력을 받는 다양한 상황에서의 모델의 행동을 평가합니다.

LLM은 정직하지 않다

MASK 벤치마크를 다양한 LLM에 적용한 결과, 다음과 같은 흥미로운 사실이 밝혀졌습니다.

더 큰 모델일수록 정확성이 향상되는 경향을 보였습니다.
그러나 모델의 크기가 증가한다고 해서 정직성이 향상되는 것은 아니었습니다. 최신의 LLM은 진실성 벤치마크에서 높은 점수를 받았지만, 압력을 받을 경우 거짓말을 할 가능성이 더 높았습니다. 즉 정확성 (모델의 믿음이 사실과 일치하는가)과 정직성 (모델이 자신의 믿음에 일치하게 말하는가)은 별개의 특성이며, 모델이 커지고 향상될 수록 정확성은 높아졌지만 오히려 정직성은 떨어지는 현상을 확인했습니다.
인간의 경우도 그렇지 않나요? 똑똑한 사람이 더 진실하지는 않죠. 오히려 자신의 지식을 이용해 남을 속이려는 부류의 인간들을 만나기가 더 쉽습니다. AI도 그렇습니다. 능력과 안정성은 다른 측면이고 이 두 가지를 함께 고려하지 않는다면 AI의 안정성은 담보되기 어려울 것입니다. 여기에 AI의 두려움이 존재하는 겁니다.

LLM 사이즈에 따른 정확도(왼쪽) 및 정직성(오른쪽) 간의 관계. LLM 규모의 확장은 정확성을 향상시키지만 모델의 의도적인 거짓말은 오히려 높아졌다.

더 정직한 AI

정직성 항목의 개선을 위해 할 수 있는 방법이 있습니다.

의도적인 시스템 프롬프트를 추가하거나 표현 엔지니어링 기술인 LoRRA (Low-Rank Representation Adaptation) 와 같은 간단한 방법으로도 모델의 정직성을 향상시킬 수 있었습니다. 물론 완벽하게 거짓말을 막지는 못했지만 말이죠.

개발자 시스템 프롬프트와 LoRRA 개입을 통한 정직성 점수의 변화. 두 기술 모두 거짓말을 완전히 막지는 못하지만 정직성 점수가 향상되도록 만들었다.

보다 신뢰할 수 있는 LLM을 위해서는 MASK와 같은 효과적인 평가 프레임워크를 더욱 발전시킬 필요가 있습니다. 또한 적절한 개입을 통해 AI가 정직성을 유지하며 더욱 안전한 도구가 될 수 있도록 AI의 개발 방향을 잡아야할 것입니다.

촌장 드림

🤖 Weekly Tech•AI News

휴머노이드 로봇 ‘아틀라스’, 현대차 공장에서 첫 임무 수행

보스턴 다이내믹스가 휴머노이드 로봇 ‘아틀라스’의 테스트 내용을 공개했다.
아틀라스는 현대자동차 제조 시설에서 ‘파트 시퀀싱’ 작업을 수행 중인데, 이는 자동차 조립에 필요한 부품을 순서대로 배열하는 작업으로, 로봇의 종합적인 역량이 요구된다.
다양한 크기와 무게의 부품을 인식하고 옮기는 데 로봇 파운데이션 모델과 강화 학습을 활용했다. 이를 통해 인간의 부담을 줄이고 업무 효율성을 향상시킬 수 있다는 뉴스

기사보기

크리스티, 논란 속에서도 AI 예술품 경매로 10억 원 수익 달성

크리스티 경매소가 예술가들의 반대에도 불구하고 AI 예술품 경매를 진행해 약 10억 원의 수익을 올렸다. 이번 경매에는 34개의 작품이 출품되어 그중 28개가 판매되었으며, 총 수익은 72만8784달러를 기록했다.
특히, 튀르키예 출신 미디어 아티스트 레픽 아나돌의 ‘ISS 드림’은 27만7200달러에 판매되어 최고가를 기록했다. 크리스티는 이번 경매를 통해 기술과 예술의 경계를 넓히는 예술가들의 영향력을 강조했다. 이러한 성공은 AI 예술 작품이 미술품 경매의 새로운 트렌드로 자리매김할 가능성을 보여준다는 뉴스
기사보기

완성형 시리’ 내년으로 출시 연기…애플, AI 경쟁서 뒤처지나

애플이 개인 맞춤형으로 진화 가능한 ‘완성형 시리’의 출시를 올해에서 내년으로 연기한다고 발표했다.원래 오는 5월 ‘iOS 18.4’ 업데이트를 통해 추가될 예정이었으나, 예상보다 시간이 더 필요하다고 밝혔다.
이는 경쟁사인 오픈AI, 구글, 아마존 등이 이미 유사한 기능을 보유하거나 출시한 상황에서 나온 결정이다. 애플은 시리의 기능 강화를 위해 ‘앱 인텐트’와 ‘LLM 시리’ 모델을 개발 중이다. 이러한 연기로 인해 애플이 경쟁사들에 뒤처질 수 있다는 우려가 제기되고 있다는 뉴스
기사보기