AI 성적표를 읽는 법-벤치마크의 진실과 AI 기술 지형도

윤희정 기자

등록일 2026-03-29 15:44 게재일 2026-03-30 16면

스크랩버튼

Second alt text — 서용운 계명대 글로벌 창업대학원 벤처창업학과 교수

지난 열한 번의 이야기를 통해 우리는 인공지능(AI)이 어떻게 학습하고, 언어를 이해하며, 눈과 귀를 열고, 그 기술을 누가 공개하고 감추는지를 살펴봤다. 그리고 이번 기사가 1분기의 마지막 순서로 작성된 것이다. 오늘은 AI의 성능을 판단하는 기준인 벤치마크(Benchmark)의 실제 의미를 알아보고, 지금까지 칼럼을 통해 함께 살펴본 내용을 하나의 지형도로 완성해 보고자 한다.

‘AI 성적표’는 어떻게 만들어지는가?
학교에서 학생의 실력을 가늠할 때 시험을 치른다. AI의 경우도 마찬가지인데, 서로 다른 회사가 만든 수십 개의 AI 모델 중 어느 것이 더 우수한지를 객관적으로 비교하기 위해 연구자들이 설계한 표준화된 시험이 바로 벤치마크다.

대표적인 것이 MMLU(Massive Multitask Language Understanding)인데, 대학 수준의 의학, 법률, 역사, 물리학 등 57개 분야 문제를 풀게 해 모델의 폭넓은 지식을 검증한다고 한다. GPQA Diamond는 한 단계 더 올라가 박사급 수준의 화학·물리·생물 문제로 전문 추론 능력을 시험하고, 코딩 능력은 HumanEval과 LiveCodeBench로 측정하는데, 파이썬(Python) 함수를 실제로 짜게 해 코드가 올바르게 작동하는지 자동으로 채점한다. 수학은 AIME나 MATH 벤치마크가 널리 쓰인다.

이들이 ‘필기시험’이라면, ‘실기시험’에 해당하는 것이 Chatbot Arena(챗봇 아레나)다. 미국 UC버클리 연구진이 창설한 이 플랫폼은 두 개의 익명 AI 모델이 낸 답변을 실제 사용자가 블라인드로 비교하고 투표하는 방식으로, 3월 기준 누적 투표 수가 563만 건을 넘어설 정도로 방대한 실사용 데이터를 바탕으로 순위를 산출한다. 체스에서 쓰는 Elo 레이팅 방식을 도입해 모델의 상대적 서열을 실시간으로 제시하기 때문에, 숫자 중심의 필기 벤치마크보다 실제 사용자 체감에 가깝다는 평가를 받는 것이다. AI를 직접 쓰는 수백만 명의 사용자들이 채점관이 되는 셈이다.

2026년 3월, 지금 성적표는 어떻게 생겼나?
2026년 3월 현재 챗봇 아레나 1위는 Anthropic의 Claude Opus 4.6 Thinking으로, Elo 점수 1504를 기록하며 선두를 지키고 있다. 같은 회사의 Claude Opus 4.6(비사고 모드)이 Elo 1500으로 2위에 바짝 뒤따르고 있어 Anthropic이 1·2위를 동시에 점령한 형국이다. Google의 Gemini 3.1 Pro Preview가 Elo 1493으로 3위, xAI의 Grok 4.20 beta가 4위에 자리 잡았다. 한 달 전 1위가 이달에는 2~3위로 밀리는 일이 반복되는, 그야말로 AI 춘추전국시대인 것이다.
한편, 독립 AI 평가기관 Artificial Analysis가 발표한 Intelligence Index v4.0에서는 Google의 Gemini 3.1 Pro Preview와 OpenAI의 GPT-5.4가 57점으로 공동 1위를 차지했고, Claude Opus 4.6(53점)과 Claude Sonnet 4.6(52점)이 바짝 뒤따라 사실상 통계적 동점을 기록했다. 이 벤치마크는 실제 업무 에이전트(GDPval-AA), 통신 에이전트(τ²-Bench), 코딩, 과학적 추론, 지식 등 10개 항목을 4개 영역으로 묶어 균등 가중치로 평가한 것이다. 그만큼 AI 성능의 격차가 좁혀져 있다는 것을 의미하기도 한다.
그런데 사용 시 용도별로 보면 결과가 달라진다. 단일 1위보다는 ‘어떤 상황에 어떤 모델을 쓰는가?’가 훨씬 중요한 질문이 된 것이다. 마치 팔방미인 한 명보다 분야별 전문가를 상황에 맞게 기용하는 방식이 더 효율적인 것처럼, AI 모델도 목적에 따라 선택하는 시대가 된 것이다. 하지만 사용자에게는 적잖은 부담이다.

우리나라도 주목할 만한 움직임을 보이고 있는데, 글로벌 AI 성능 평가기관 Artificial Analysis가 공개한 ‘지능 지수 v4.0’에서 네이버클라우드, 모티프테크놀로지스, LG AI 연구원, 업스테이지 등 국내 주요 AI 개발사들의 대형언어모델이 글로벌 비교 순위표에 나란히 이름을 올렸다. 특히 네이버클라우드의 HyperCLOVA X SEED Think는 통신사 고객 지원 시나리오 기반 에이전트 평가(τ²-Bench Telecom)에서 87%를 기록하며 국내 모델 중 최고 점수를 받았다. 글로벌 최상위권과의 격차는 분명하게 있지만 일단, 같은 무대에 올라섰다는 사실 자체가 이전과는 다른 장면이다. 한국 AI의 도전은 이제 막 시작이라고 봐도 될 것이다.

벤치마크를 곧이곧대로 믿으면 안 되는 이유
앞서 말한 다양한 벤치마크 ‘성적표’를 그대로 믿는 것은 위험하다. 학교 시험에도 ‘족보’가 있듯이, AI 벤치마크에도 그와 같은 고질적인 문제가 존재한다.

첫 번째는 데이터 오염(Contamination)이다. 인터넷상의 거의 모든 텍스트를 학습 데이터로 사용하는 LLM의 특성상, 벤치마크의 문제와 정답이 훈련 데이터에 포함됐을 가능성을 배제할 수 없다. 일부 모델은 벤치마크 테스트 세트를 학습 과정에서 직간접적으로 접해 실제 추론 능력과 무관하게 높은 점수를 기록하는 것으로 연구 결과 확인됐다. 수학적 원리를 이해해서가 아니라, 문제 패턴을 기억해 정답을 뱉어내는 ‘영리한 앵무새’ 현상이다.

두 번째는 벤치마크 게임화(Gaming)다. 모델이 특정 벤치마크에서 높은 점수를 얻는 데만 치중하면 실제 세상의 복잡한 문제를 해결하는 능력은 오히려 저하될 수 있다. 실제로 Meta가 LLaMA 4의 성능을 공개할 때 일반에게 공개된 버전이 아닌 대화에 특화된 실험용 버전을 벤치마크에 사용했다는 사실이 뒤늦게 드러나 논란이 됐고, Meta의 수석 AI 과학자였던 얀 르쿤(Yann LeCun)이 훗날 이를 공개적으로 인정하기도 했다. 이는 AI 기업이 자사 기술의 우수성을 드러내는 수단으로 벤치마크를 활용하는 관행과 무관치 않다. AI 업계에서도 ‘성적 부풀리기’가 일어나고 있는 셈이다.

세 번째는 범위의 협소함이다. 대부분의 추론 벤치마크는 정답이 명확한 수학이나 코딩 과제를 선호하는 경향이 있다. 그러나 대수 문제를 풀 수 있다고 해서 AI가 실제 세상의 모호한 상황을 헤쳐 나가거나 인과 관계를 추론하거나 사람의 동기를 이해할 수 있다는 의미는 아니다. 완벽한 파이썬 코드를 짜는 모델이 “사직서를 써야 할까요?”라는 질문에는 맥락 없는 답을 내놓을 수 있는 것이다.

스탠퍼드 대학교 연구팀은 NeurIPS 2025에서 발표한 논문을 통해, AI 개발자들이 사용하는 수천 개의 벤치마크 중 약 5%가 라벨링 오류·모호한 질문·논리적 불일치 등 치명적인 결함을 가지고 있으며, 이는 AI 산업 전반에 걸쳐 신뢰 위기를 초래할 수 있다고 경고했다. 경제학의 ‘굿하트의 법칙(Goodhart’s Law)‘이 AI에도 그대로 적용되는 셈이다. 측정 지표 자체가 목표가 되는 순간, 그것은 더 이상 좋은 지표가 아니라는 교훈이다.

벤치마크도 진화하고 있다
이런 한계를 극복하기 위해 벤치마크 자체도 변화하고 있다. Artificial Analysis v4.0은 MMLU-Pro, AIME 등 기존 벤치마크를 일부 제거하고, 6000문항 42개 주제를 다루는 AA-Omniscience, 실제 지식 노동 과제를 평가하는 GDPval-AA, 박사급 물리 추론을 시험하는 CritPt 등 신규 평가를 도입했다. 실전 업무 능력을 중심으로 재편하는 추세다.
챗봇 아레나는 정적인 데이터셋 기반 벤치마크의 한계를 극복하기 위해 등장한 플랫폼으로, 사용자들의 변칙적이고 예측 불가능한 질문이 쏟아지기 때문에 암기된 지능만으로는 높은 점수를 유지할 수 없다는 강점이 있다. 단순히 시험 답을 외운 AI는 이 실기시험을 통과한다는 것은 불가능에 가깝다.
결국 벤치마크는 AI를 선택하는 출발점은 되지만 종착점이 되어서는 안 된다. IDC의 AI 전문가는 “조직은 각자 모델 성능 주장을 직접 검증해야 하며, 실제 운영 환경이나 데이터, 프롬프트의 차이만으로도 결과는 충분히 달라질 수 있다”고 강조한다. 숫자를 보되, 자신의 업무 환경에서 직접 테스트해 보는 것이 가장 정확한 평가법이다. 포항의 제조기업이라면, 글로벌 1위 모델이 자사의 현장 용어와 공정 데이터를 제대로 이해하는지를 직접 확인해 보는 것이 어떤 벤치마크 순위보다 유용한 판단 기준이 된다. 벤치마크 순위는 어디까지나 참고 자료일 뿐이며, 나의 상황에 맞는 모델을 직접 써보는 경험이 가장 정확한 판단의 기준이 될 것이다.

1분기 결산- AI 기술 지형도 완성하기
지금까지 12주에 걸쳐 그려온 AI 기술 지형도를 마무리할 시간이다. 점 하나하나가 이제 선으로 이어졌다. AI는 데이터에서 패턴을 찾는 기계다(2주차). 그 핵심은 인간의 뇌를 흉내 낸 신경망이고(3주차), 트랜스포머 구조가 이를 언어에 적용해 ChatGPT를 가능케 했다(4주차). AI는 텍스트를 숫자 덩어리인 토큰과 임베딩으로 변환해 의미를 파악하며(5주차), 같은 AI라도 질문 방식에 따라 답의 질이 천차만별로 달라진다(6주차). AI가 종종 거짓말처럼 보이는 답을 내놓는 것은 악의가 아니라, 확률적으로 그럴듯한 단어를 고르는 구조적 이유 때문이다(7주차). RAG 기술은 AI에 외부 지식을 실시간으로 연결해 이 한계를 보완하고(8주차), 파인튜닝은 모델 자체를 개조하는 것이며 프롬프팅은 기존 모델을 잘 설득하는 기술이다(9주차). AI는 이제 텍스트를 넘어 이미지·음성·영상을 동시에 처리하는 멀티모달 시대로 진입했고(10주차), AI를 만드는 기업들은 기술을 공개하는 오픈소스와 감추는 클로즈드 두 진영으로 나뉘어 치열하게 경쟁 중이다(11주차). 그리고 오늘, 그 성능을 재는 잣대인 벤치마크의 의미와 한계를 이해했다(12주차).

열두 개의 퍼즐 조각이 완성됐다. AI는 ‘생각하는 기계’가 아니라, ‘패턴을 학습한 확률 계산기’라는 말을 했었다. 그러나 그 계산의 정교함이 이미 인간의 전문 영역을 넘보는 수준에 이르렀다. AI를 제대로 활용하려면 원리를 알아야 하고, 원리를 아는 사람은 더 좋은 질문을 던질 수 있다. 더 좋은 질문이 더 좋은 답을 만든다. 1분기 동안 우리가 함께 쌓아온 것이 바로 그 원리다. 숫자는 안내자이지 심판관이 아니다. 지형도를 아는 사람만이 길을 잃지 않는다.

/서용운 계명대 글로벌 창업대학원 벤처창업학과 교수

많이 본 뉴스

보이지 않는 손, AI가 짠다···물류·유통의 새 질서

농업과 AI···스마트팜, 작황 예측·정밀 농업의 실제

고장 나기 전에 알려주는 공장··· 제조업 ‘AX 시대’ 열렸다

금융AI의 실체···알고리즘 트레이딩에서 리스크 관리까지

법률 AI 혁명···계약 검토· 판례 분석·법률 자문의 변화

AI 성적표를 읽는 법-벤치마크의 진실과 AI 기술 지형도

대구에서 가까운 청도 25만원인데 멀리 떨어진 울릉 20만원…고유가지원금 지역별 큰 차

도심 속 복합문화공원 ‘학산공원’ 정식 개방···환호공원 이어 두 번째 민간공원

포항시장 여론조사…박용선 44.2% 박희정 22.6% 박승호 19.4%

다카이치 일본 총리 첫 국빈 방문, 외교 무대가 된 안동 스탠포드호텔

조건 없이 먹거리 ‘OK’···포항 ‘그냥드림’ 첫날 순조롭게 출발