침묵하지 않는 데이터

매주 수요일, 안철준 촌장의 <수요레터> 입니다 👀 IT, 테크, 트렌드를 이야기합니다.

2025. 4. 23.

침묵하지 않는 데이터

수요일의 테크엔돌핀 💊

매주 수요일 오전 9시 발행합니다.

웹에서 보기

👉 수요레터 구독하기

[수요레터 177회]

잇츠맨 웨비나

침묵하지 않는 데이터

AI에게 거짓을 학습시킨 건 아닐까?

안녕하세요, 촌장입니다.

우리는 데이터를 통해 세상을 읽어 냅니다. AI 역시 그런 데이터를 통해 세상을 배우며 점점 더 똑똑해지고 있습니다. 그런데 그 데이터가 완전하지 않다면? 혹은 보이지 않는 데이터가 있다면 어떻게 될까요? AI는 그런 데이터의 공백을 어떻게 다루고 있을까요? 최근 읽은 『다크 데이터(Dark Data)』는 이런 질문에 아주 흥미로운 통찰을 줍니다.

『다크 데이터』는 옥스퍼드 대학교 통계학 명예교수이자 영국 통계학회 회장을 지낸 데이비드 핸드(David J. Hand) 가 집필한 책입니다. 그는 머신러닝, 예측 모델링, 금융 통계 분야에서 세계적인 권위를 지닌 통계학자로, 『신은 주사위 놀이를 하지 않는다(The Improbability Principle)』 라는 저서를 통해 "우리가 믿는 수치가 왜 틀릴 수 있는가"를 지속적으로 이야기하고 있는 학자입니다.

이 책 『다크 데이터』에서 그는 데이터 과학과 AI에서 너무나 자주 무시되는 한 가지를 강조합니다.

보이지 않는 데이터가 얼마나 많은 영향을 미치는가?

"보이지 않는 데이터가 문제다"

'다크 데이터'란 수집되지 않았거나, 누락되었거나, 접근할 수 없거나, 왜곡되어 존재하는 데이터를 의미합니다. 다시 말해, 우리가 보지 못하거나 일부러 보지 않으려 한 정보입니다. 저자 데이비드 핸드는 이러한 다크 데이터를 총 15가지 유형으로 구분하며, 단순한 실수부터 구조적 편향까지 다양한 사례를 들어 설명합니다.

예를 들어,

병원에서 기저질환이 없는 환자에 대한 기록이 누락되면, 질병 예측 모델은 편향된 판단을 할 수 있습니다.
기업이 고객 이탈률을 계산할 때, 아예 클레임조차 남기지 않고 떠난 고객의 정보는 빠지기 쉽습니다.
센서의 오류나 인터넷 연결 문제로 인해 스마트홈 기기의 데이터가 불완전하게 수집되는 경우, AI가 잘못된 판단을 할 가능성도 높아집니다.

문제는 이러한 다크 데이터가 단지 존재하는 것에 그치지 않는다는 데 있습니다. AI는 그런 데이터의 공백을 그냥 두지 않습니다.

"AI는 모르는 것을 모른다고 하지 않는다"

다크 데이터로 인한 AI의 문제는 모르는 것을 모른다고 말하지 않고 대신 그럴듯하게 지어낸다는 점입니다.

우리가 잘 알고 있는 AI의 '할루시네이션(Hallucination)' 현상은 사실상 다크 데이터가 만들어낸 착시에 가깝습니다. LLM은 훈련되지 않은 영역에 도달했을 때 침묵하지 않습니다. 오히려 '있을 법한 문장'으로 빈 공간을 채우는 방식을 택합니다. 이는 기술적인 한계라기보다는 통계 기반 추론 시스템의 구조적 문제에 가깝다고 저자는 말하고 있습니다.

할루시네이션의 문제는 단순히 잘못된 답변을 낸다는 데 있지 않습니다. 그럴듯하게 들리는 잘못된 사실이기에, 우리가 쉽게 속아넘어갈 수 있다는 것이 본질적 문제입니다. 다크 데이터는 이 착시를 부추기는 원인입니다. 예를 들어, 편향된 데이터로 학습한 AI가 특정 인종이나 성별에 대해 왜곡된 판단을 내리는 이유도 여기에 있습니다. 보이지 않는 데이터가 "없는 것"이 아니라, "틀린 것"을 만들고 있는 셈이죠.

우리는 무엇을 주의해야 하는가?

『다크 데이터』에서 데이비드 핸드는 다크 데이터를 완전히 제거할 수는 없다고 말합니다. 다크 데이터의 존재 가능성을 그대로 인정하면서도 데이터의 어디에 어떤 공백이 있을지를 추정하며 비판적인 시각을 가지는 것이 중요하도고 강조하고 있죠. 특히 AI를 활용하는 기업이나 조직은 아래의 질문을 끊임없이 던져야 합니다.

이 데이터셋에서 어떤 정보가 빠졌을 수 있을까?
누락된 정보가 특정 집단에게 불이익을 줄 가능성은 없을까?
AI의 예측 결과에 대해, 우리는 어떤 맹신을 하고 있지는 않을까?

AI의 정확도는 알고리즘의 정밀함보다 데이터의 정직함과 투명성에 달려 있습니다. 우리가 무엇을 알고 있고, 무엇을 모른 채 넘기고 있는지. 이 경계를 자각하는 것이야말로 진짜 AI 리터러시의 시작이 아닐까 싶습니다.

보이지 않는 데이터가 만들어낸 그럴듯한 거짓에 속지 않기 위해, 우리는 오늘도 끊임없이 경계하며 질문해야 합니다.

“우리는 무엇을 놓치고 있는가?”

촌장 드림

🤖 Weekly Tech•AI News

구글의 지배력 흔들리나…검색·광고 연속 패소

구글이 검색 독점에 이어 광고 독점 소송에서도 패소했다.
미국 법원은 구글이 광고 교환 시장과 광고 도구 시장을 독점해 광고주와 사용자에게 피해를 줬다고 판단했다. 이에 따라 법무부는 구글에 광고 기술 핵심 자산의 매각을 포함한 강력한 조치를 추진할 계획이다.
구글은 이에 항소 의사를 밝혔으며, 검색 독점과 관련해서는 8월 최종 판결이 예정돼 있다. 검색과 관련되어 두 개의 소송에서 패했기 때문에 구글의 변화는 불가피할 것이라는 뉴스

기사보기

베이징 하프마라톤, 인간과 로봇이 함께 달렸다

베이징 하프마라톤 대회에서 1만 2천여 명의 인간 참가자들과 함께 21대의 인간형 로봇이 별도의 트랙에서 경주를 펼쳤다.
중국 유비테크가 개발한 ‘티앙궁 울트라’는 배터리를 세 번 교체하고 한 차례 넘어졌음에도 2시간 40분 만에 완주해 유일하게 인간 참가 기준을 겨우 통과했다. 대부분의 로봇은 시작 직후 탈락하거나 과열과 낙상으로 교체되었으며, 사람들의 이목을 끌기 위한 퍼포먼스성 시연도 다수 포함됐다.
전문가들은 이번 경주가 로봇의 속도보다는 하드웨어의 내구성 개선을 보여주는 사례라고 평가했다. 기술은 인상적이나 실용성은 낮고, 오히려 인간 운영자의 지침 없이는 제대로 작동하지 못하는 한계를 드러냈다는 뉴스

기사보기

CVE 프로그램, 운영 중단 위기 넘기고 계약 연장, 하지만 불씨는 여전

사이버 보안 취약점 관리의 핵심인 CVE 프로그램이 미국 정부의 자금 연장 결정으로 운영 중단 위기를 넘겼다.
CISA는 마이터(MITRE)와의 계약을 만료 직전 11개월 연장하며 프로그램 연속성을 확보했다고 밝혔다. 이번 사태는 보안 커뮤니티의 압도적인 지지 속에 해결됐으며, 소프트웨어 약점 식별 체계인 CWE 프로그램도 함께 연장됐다.
그러나 CVE가 특정 정부에 의존하지 않는 독립 구조로의 전환 필요성이 재차 부각됐다. 이에 따라 일부 이사들은 ‘CVE 재단’을 출범해 거버넌스 개선을 논의할 예정이라는 뉴스

기사보기