지식 노동자의 종말! 오픈AI '딥 리서치'의 파괴력 [수요레터 167회]

매주 수요일, 안철준 촌장의 <수요레터> 입니다 👀 IT, 테크, 트렌드를 이야기합니다.

2025. 2. 12.

수요일의 테크엔돌핀 💊

매주 수요일 오전 9시 발행합니다.

웹에서 보기

👉 수요레터 구독하기

[수요레터 167회]

잇츠맨 웨비나

지식 노동자의 종말

오픈AI '딥 리서치'의 파괴력

안녕하세요, 촌장입니다.

얼마 전 오픈AI가 ‘딥 리서치(Deep Research)라는 새로운 AI 에이전트를 공개했습니다. 이 모델은 기존의 챗봇 수준을 넘어, 광범위한 연구를 수행하고 복잡한 분석을 통해 전문가 수준의 보고서를 작성하는 능력을 갖췄다고 알려져 있는데요. 금융, 과학, 정책 분석 등 여러 분야에서 활용될 수 있도록 설계된 이 AI는 단순한 정보 검색을 뛰어넘어 진정한 연구 파트너로 자리 잡을 가능성을 보여주고 있습니다. AI 성능 평가를 위한 ‘인류의 마지막 시험’에서 딥 리서치는 26.6%의 정확도를 기록했는데요. 최근에 각광받는 딥시크(DeepSeek)-R1의 9.4%, 오픈AI의 o3-mini 모델의 13%보다 훨씬 더 높은 점수입니다. 어떤 전문가는 '지식 노동자의 종말'이 현실이 되었다고 고백하기도 했습니다.

이제 AI는 단순히 정보를 처리하는 수준을 넘어, 고도의 추론을 요하는 문제에서도 유의미한 성과를 내기 시작했다는 점이 이번 ‘딥 리서치’의 가장 큰 성과입니다. 이는 AI가 인간 수준의 문제 해결 능력에 얼마나 빠르게 접근하고 있는지를 보여주는 강력한 시그널이라고 볼 수 있을 텐데요. 그런데 한 가지 궁금한 게 생겼습니다.

“AI의 지능을 평가하는 시험인 ‘인류의 마지막 시험(Humanity’s Last Exam, HLE)’ 라는 것이 대체 뭐고 또 어떻게 만들어졌을까?”

인류의 마지막 시험이란?

기존의 AI 평가 시험들은 대부분 SAT 수준, 즉 고등학교 졸업 레벨 정도의 논리, 수학, 과학 문제로 구성되어 있었습니다. 하지만 AI가 빠르게 발전하면서 이러한 문제들을 너무 쉽게 풀어내자, 연구자들은 박사 과정 수준의 난이도를 여기에 추가하기 시작했죠. 하지만 그마저도 금방 한계를 보였습니다. AI의 발전 속도가 빨라도 너무 빨랐기 때문이죠. 오픈AI, 구글의 제미나이,앤트로픽의 클로드 등의 최신 AI 모델들이 박사급 시험에서도 높은 점수를 기록하면서, 연구자들은 AI의 한계를 보다 정확히 측정할 새로운 시험이 필요하다고 판단하기에 이르렀습니다. 그렇게 탄생한 것이 ‘인류의 마지막 시험(Humanity’s Last Exam, HLE)입니다.

이 시험의 기획자인 댄 헨드릭스(Dan Hendrycks)는 AI가 단순한 정보 검색을 넘어, 인간과 유사한 복잡한 사고를 수행할 수 있는지를 평가하는 시험을 설계해야 한다고 주장했는데요. 그래서 그는 각 분야의 전문가들의 도움을 받아 AI가 절대 쉽게 풀어낼 수 없는 최고 난이도의 문제 3,000여 개를 선별하기에 이릅니다.

대체 얼마나 문제가 어려운거야?

이 시험의 가장 큰 특징은 단순한 지식 테스트가 아니라 추론, 논리적 사고, 창의적 문제 해결 능력을 평가하는 것에 초점을 맞춘다는 점이라고 말씀드렸죠? 분석 철학, 이론 물리학, 로켓 공학, 수학, 생물학 등 다양한 학문적 영역에서 문제들이 출제되었는데요. 그중에 실제 물리학 문제 하나를 보여드릴께요.

블록이 수평 레일 위에 놓여 있으며 마찰 없이 미끄러질 수 있다.

길이 R인 단단하고 질량이 없는 막대의 한쪽 끝은 블록에 부착되어 있으며, 반대쪽 끝에는 질량 W가 부착되어 있다.

초기 상태에서 질량이 블록 바로 위에 위치하고 있으며, 이후 레일과 평행하게 미세하게 밀려난다.

이제 막대가 360도 회전할 수 있도록 설계되었다고 가정할 때, 막대가 수평일 때의 장력(T₁)과 수직일 때의 장력(T₂)의 차이를 구하라.

- <인류의 마지막 시험> 출제 문제

저도 공대 출신이지만, 무슨 문제가 이렇습니까? 풀기는 커녕 문제를 이해하기도 어렵네요. 이걸 보면 단순한 계산 문제가 아니라 고급 물리학적 개념과 창의적 접근 방식을 필요로 하는 아주 고난도의 문제라고 누구나 짐작할 수 있을 겁니다. AI가 단순한 공식 대입이 아니라, 인간처럼 논리적 사고를 할 수 있는지를 검증하는 것이 이 시험의 목적인데, 해당 분야의 진짜 전문가가 아니라면 풀어볼 엄두도 내기 어렵습니다.

50% 달성은 코앞에?

현재 AI 모델들이 바로 이렇게 복잡하고 어려운 난제투성이인 ‘인류의 마지막 시험’에서 놀라운 성과를 보이고 있습니다. 앞서 얘기한 것처럼 딥시크-R1이 기록한 9.4%를 불과 몇 달 만에 오픈AI의 ‘딥 리서치’가 26.6%까지 끌어올린 셈인데요. 헨드릭스는 연말까지 AI가 50% 이상의 정확도를 기록할 가능성이 크다고 예측한 바 있습니다. 그러나 ‘딥 리서치’가 이미 26.6%를 기록한 것을 감안하면, 예상보다 훨씬 빠른 시일 내에 50%를 넘어설 가능성이 있을 것 같습니다.

AI는 언제 ‘인류의 마지막 시험’을 통과할까?

50%를 넘어서는 순간, AI는 인간 전문가보다 더 높은 정확도로 지식을 처리할 수 있는 ‘세계적 오라클(AI Oracle)’로 변모할 가능성이 높죠. 즉, AI가 특정 분야뿐만 아니라 모든 학문적 영역에서 인간과 동등하거나 더 높은 수준의 지식을 습득하게 되는 순간이 올 수 있다는 것입니다. 그것도 아주 조만간에 말이죠.

궁극적으로 AI가 이 시험을 완벽히 통과하는 순간은 인공지능이 인간의 인지적 한계를 넘어서는 순간이 될 것이다. 그때가 되면 우리는 AI가 단순한 ‘도구’가 아니라, 진정한 연구 파트너 또는 독립적인 문제 해결자로 자리 잡는 시대를 맞이하게 되겠죠.

AI가 50%를 넘어 80%, 90%로 향하는 과정에서 우리는 또 다른 질문을 던져야 한다.

AI는 단순히 문제를 푸는 기계가 될 것인가, 아니면 인간의 창의성과 직관까지 학습할 수 있는가?

이제 그 답을 찾아가는 여정이 진짜 본격적으로 시작되었다고 보입니다.

촌장 드림

PS : 딥 리서치에 대해 아주 흥미롭게 설명한 YouTube 영상이 있어서 소개해 드립니다. 7분 정도의 짧은 영상이지만 오픈AI의 ‘딥 리서치’의 놀라운 성능을 아주 쉽고 간결하게 설명하고 있습니다. ‘지식 노동자의 종말’이 머지않았다는 암울한 미래를 예견하고 있기도 합니다.

🤖 Weekly Tech•AI News

“딥시크, API 사용료 5배 인상… 급격히 경쟁력 약화"

딥시크 출시 1개월 만에 그 영향력이 급속도로 떨어지고 있다.
딥시크는 2월 8일부터 ‘V3’ API 사용료를 기존보다 5배 인상해 입력 토큰당 0.07달러, 출력 토큰당 1.10달러로 조정했는데,
이로 인해 가격 경쟁력을 상실했으며, 구글의 ‘제미나이 2.0 플래시-라이트’ 등 경쟁사 모델보다 비용 및 성능 면에서 열세에 놓였다.
여기에 오픈 소스 기업들의 추격으로 딥시크의 혁신성과 영향력이 감소하고 있다는 뉴스
기사보기

“머스크, 오픈AI 인수 제안했으나 알트먼 단칼에 거절"

일론 머스크는 오픈AI 인수를 위해 974억 달러(약 141조 원)를 제안했으나, 샘 알트먼 오픈AI CEO는 이를 단박에 거절했다.
오히려 97억 4천만 달러(약 14조 원)에 X(트위터)를 매각하라고 응수했는데.
머스크는 현재 오픈AI의 영리기업 전환을 막기 위한 소송을 진행 중이며, 알트먼은 이러한 소송을 '단순한 괴롭힘'이라고 지적했다는 뉴스
기사보기

"아카데미, AI 사용 여부 공개 의무화.. 영화 '브루탈리스트' 논란"

아카데미는 2026년부터 후보작에 AI 사용 여부를 공개하도록 의무화하는 새로운 규정을 추진할 할 예정이다.
최근 골든글로브 작품상, 감독상, 남우주연상 등을 석권하며 유력한 아카데미 주요 부분상을 탈 것으로 예상되는 영화 '브루탈리스트'가 AI기술로 주인공의 목소리를 변경했다는 사실이 알려지면서 AI 사용에 대한 논란이 있었다.
안야 테일러-조이와 아약 배우 얼굴을 합성한 '퓨리오사 : 매드맥스 사가', 밥 딜러의 전기 영화 '컴프리트 언노운' 등 여러 영화가 AI 도구를 사용한 것으로 밝혀졌고, 앞으로 모든 후보작이 AI 사용 여부를 명확히 밝혀야 한다는 뉴스
기사보기