국내 AI, 수능 수학에 '고전'…해외 모델과 격차 '뚜렷'

등록 2025.12.15 09:11:44 수정 2025.12.15 09:11:44
조성현 기자 j7001q0821@youthdaily.co.kr

수능·논술 50문제 비교 실험…해외 AI 90점대, 국내는 20~50점대에 그쳐
'국대 AI' 도전 5개팀 평가 결과…수학 추론력에서 프런티어 모델과 격차

 

【 청년일보 】 국내 주요 인공지능(AI) 모델들이 대학수학능력시험 수학 및 고난도 논술 문제 풀이에서 해외 대형언어모델(LLM)에 비해 현저히 낮은 성능을 보인 것으로 나타났다.

 

김종락 서강대 수학과 교수 연구팀은 국가대표 AI 개발에 도전 중인 국내 5개 팀의 LLM과 해외 주요 AI 모델을 대상으로 수능 수학 및 논술 문제 풀이 실험을 진행한 결과, 국내 모델 대부분이 하위권에 머물렀다고 15일 밝혔다.

 

연구팀은 수능 수학 공통과목, 확률과 통계, 미적분, 기하 영역에서 고난도 문항 5개씩 총 20문제를 선정했다. 여기에 국내 주요 대학 논술 기출 10문제, 인도 대학입시 수학 10문제, 일본 도쿄대 공대 대학원 입시 수학 10문제를 더해 총 50문제를 출제했다. 해당 문제는 국내외 10개 AI 모델에 동일하게 제시됐다.

 

국내 모델로는 업스테이지의 '솔라 프로-2', LG AI연구원의 '엑사원 4.0.1', 네이버 'HCX-007', SK텔레콤의 'A.X 4.0(72B)', 엔씨소프트의 경량 모델 '라마 바르코 8B 인스트럭트'가 참여했다. 해외 모델은 GPT-5.1, 제미니 3 프로 프리뷰, 클로드 오푸스 4.5, 그록 4.1 패스트, 딥시크 V3.2 등이 활용됐다.

 

평가 결과 해외 모델들은 76~92점을 기록하며 상위권 성적을 냈지만, 국내 모델 가운데서는 솔라 프로-2만 58점에 그쳤고 나머지는 20점대에 머물렀다. 특히 라마 바르코 8B 인스트럭트는 2점으로 최저점을 기록했다.

 

연구팀은 국내 모델의 경우 단순 추론만으로는 문제 해결이 어려워 파이썬 툴 사용을 허용했음에도 성능 개선이 제한적이었다고 설명했다.

 

추가로 연구팀은 자체 개발한 고난도 수학 문제 세트 '엔트로피매스(EntropyMath)' 100문제 중 10문제를 선별해 동일한 실험을 진행했다. 이 평가에서도 해외 모델은 82.8~90점을 기록한 반면, 국내 모델은 7.1~53.3점에 그쳤다.

 

세 차례 풀이 기회를 주는 방식으로 재시험한 결과 그록은 만점을 받았고, 다른 해외 모델들도 90점대를 유지했다. 반면 국내 모델은 솔라 프로-2(70점), 엑사원(60점), HCX-007(40점), A.X 4.0(30점), 라마 바르코 8B(20점) 순으로 격차가 이어졌다.

 

김종락 교수는 "국내 소버린 AI 모델의 수학적 추론 능력이 해외 프런티어 모델과 상당한 격차가 있음을 확인했다"며 "국가대표 AI의 새로운 버전이 공개되면 추가 평가를 진행할 계획"이라고 전했다.

 

한편, 연구팀은 이번 실험을 계기로 엔트로피매스 기반의 수학 리더보드를 개설하고, 향후 과학·제조·문화 등 다양한 도메인 문제 세트로 확장해 국내 AI 모델의 경쟁력 제고에 기여하겠다는 방침이다.

 

이번 연구는 서강대 수리과학 및 데이터사이언스 연구소(IMDS)와 딥파운틴의 공동 지원으로 수행됐다.
 


【 청년일보=조성현 기자 】




저작권자 © 청년일보 무단전재 및 재배포 금지




서울특별시 영등포구 당산로35길 4-8, 5층(당산동4가, 청년일보빌딩) 대표전화 : 02-2068-8800 l 팩스 : 02-2068-8778 l 법인명 : (주)팩트미디어(청년일보) l 제호 : 청년일보 l 등록번호 : 서울 아 04706 l 등록일 : 2014-06-24 l 발행일 : 2014-06-24 | 회장 : 김희태 | 고문 : 고준호ㆍ오훈택ㆍ고봉중 | 편집·발행인 : 김양규 청년일보 모든 콘텐츠(영상,기사, 사진)는 저작권법의 보호를 받은바, 무단 전재와 복사, 배포 등을 금합니다. Copyright © 2019 청년일보. All rights reserved. mail to admin@youthdaily.co.kr