【 청년일보 】 크래프톤이 자체 AI 모델 브랜드 'Raon(라온)'을 공식 출범하고, 음성과 시각을 아우르는 멀티모달 AI 모델 4종을 글로벌 오픈소스로 공개했다. 게임 개발사로 알려진 크래프톤이 독자적인 파운데이션 모델 역량을 전면에 내세우며, AI 기술 기업으로서의 존재감을 본격적으로 확대하는 모습이다.
크래프톤은 2일 음성 지원 대규모 언어모델(LLM) 'Raon-Speech', 실시간 음성 대화 모델 'Raon-SpeechChat', 텍스트-음성 변환(TTS) 모델 'Raon-OpenTTS', 비전 인코더 'Raon-VisionEncoder'를 공개했다고 밝혔다. 모든 모델은 글로벌 AI 플랫폼 허깅페이스(Hugging Face)를 통해 오픈소스로 배포된다.
'Raon'은 '즐거움'을 뜻하는 순우리말 '라온'에서 이름을 따왔다. 여기에 KRAFTON의 일부 철자를 결합해 영문명을 만들었다. AI 기술을 통해 게임의 본질적인 즐거움을 구현하겠다는 크래프톤의 방향성을 담았다는 설명이다.
이번 공개의 의미는 단순히 모델 수를 늘린 데 그치지 않는다. 크래프톤은 데이터 수집과 정제, 학습, 성능 평가에 이르는 파운데이션 모델 개발 전 과정을 자체적으로 수행했다고 강조했다. 이는 외부 모델을 활용하거나 일부 기술만 적용하는 수준을 넘어, 독자적인 AI 기술 체계를 구축했다는 의미로 해석된다.
특히 핵심 모델인 'Raon-Speech'는 90억(9B) 파라미터 규모의 음성 지원 언어모델이다. 기존 텍스트 기반 언어모델을 확장해 음성을 이해하고 생성할 수 있도록 만든 모델로, 음성 텍스트 변환(STT), 텍스트 음성 변환(TTS), 음성 기반 질의응답 등 다양한 작업을 수행할 수 있다.
크래프톤에 따르면 Raon-Speech는 100억 파라미터 이하 공개 음성 언어모델 가운데 영어와 한국어 모두에서 세계 최고 수준의 성능을 기록했다. 성능 평가는 음성 텍스트 변환, 음성 생성, 음성 질의응답 등 7개 핵심 태스크와 40개 벤치마크를 대상으로 진행됐으며, 태스크별 평균 순위를 동일 비중으로 반영한 결과 글로벌 1위를 차지했다.
특히 영어뿐 아니라 한국어에서도 최고 성능을 확보했다는 점이 눈길을 모은다. 지금까지 글로벌 음성 AI 모델은 영어 중심으로 학습돼 한국어 성능이 상대적으로 떨어지는 경우가 많았다. 크래프톤은 이번 모델을 통해 한국어 음성 AI 분야에서도 경쟁력을 확보했다.
함께 공개된 'Raon-SpeechChat'은 사용자가 말하는 도중 AI가 자연스럽게 끼어들거나, 반대로 사용자의 발화를 실시간으로 받아치는 양방향 음성대화 모델이다. 일반적인 음성 비서는 사용자가 말을 마친 뒤에만 응답할 수 있지만, Raon-SpeechChat은 사람 간 대화처럼 동시에 듣고 말하는 '풀 듀플렉스(Full-duplex)' 방식을 지원한다.
크래프톤은 이 모델이 국내에서 공개된 최초의 실시간 양방향 음성 언어모델이라고 설명했다. 맞장구, 발화 중 끼어들기 처리, 응답 지연 시간 등 13개 세부 태스크를 기준으로 평가한 결과, 글로벌 최상위권 수준의 성능을 기록했다.
이는 향후 게임 속 NPC나 AI 동료 캐릭터가 이용자와 자연스럽게 대화하는 형태의 상호작용으로 이어질 가능성을 보여준다. 이용자가 말을 멈출 때까지 기다리는 방식이 아니라, 실제 사람처럼 반응하고 대화를 주도하는 AI 구현이 가능해지는 셈이다.
텍스트를 음성으로 바꿔주는 'Raon-OpenTTS'도 눈길을 끈다. 이 모델은 공개된 음성 데이터만으로 학습된 오픈소스 기반 TTS 모델이다. 크래프톤은 기존 공개 데이터 중 활용하기 어려웠던 일부 자료를 직접 수집·정제해 추가 공개했고, 전체 학습 데이터 역시 함께 배포한다.
이를 통해 연구자와 개발자는 동일한 데이터 환경에서 모델을 재현하거나 추가 학습을 진행할 수 있다. 통상 고성능 음성 합성 모델은 비공개 데이터에 크게 의존하는 경우가 많지만, 크래프톤은 공개 데이터만으로도 글로벌 연구용 TTS 모델과 견줄 수 있는 성능을 확보했다고 강조했다.
실제로 두 음성 가운데 어느 쪽이 더 자연스러운지를 평가하는 블라인드 테스트에서 Raon-OpenTTS는 비공개 데이터 기반의 글로벌 연구용 모델들과 비교해 최상위 수준의 결과를 기록했다.
시각 AI 영역에서는 'Raon-VisionEncoder'를 공개했다. 비전 인코더는 이미지를 AI가 이해할 수 있는 형태의 정보로 변환하는 핵심 기술이다. 언어모델과 결합하면 이미지 인식과 분석, 멀티모달 대화 기능까지 구현할 수 있다.
크래프톤은 이번 비전 인코더를 공개 데이터만으로 학습했으며, 기존 사전학습 모델을 활용하지 않고 처음부터 직접 학습했다고 밝혔다. 이른바 '프롬 스크래치(from scratch)' 방식으로 개발한 것이다.
성과도 적지 않다. 일부 시각 인식 태스크에서는 구글의 대표 비전 인코더 모델인 'SigLIP2'를 뛰어넘는 결과를 기록했다. 나머지 평가 항목에서도 SigLIP2 대비 90% 이상의 성능을 확보했다.
이는 크래프톤이 음성뿐 아니라 시각 AI에서도 독자적인 기술력을 확보하고 있음을 보여준다. 회사는 향후 추진 중인 '독자 AI 파운데이션 모델' 프로젝트에도 해당 비전 인코더를 적용할 계획이다.
크래프톤은 이번 Raon 공개를 단순한 기술 시연이 아니라, 오픈소스를 기반으로 한 AI 생태계 확대 전략의 출발점으로 보고 있다. 모델뿐 아니라 데이터와 기술 보고서까지 함께 공개함으로써, 외부 연구자와 개발자들이 자유롭게 활용하고 개선할 수 있도록 하겠다는 것이다.
특히 Raon-Speech의 경우 성능 검증 과정과 학습 방법 등을 담은 기술 보고서도 함께 공개됐다. 이를 통해 국내 연구자들도 글로벌 수준의 음성 AI 모델 개발 과정을 보다 구체적으로 참고할 수 있을 전망이다.
이강욱 크래프톤 CAIO는 "이번 Raon 모델 시리즈 공개는 AI 기술 역량을 축적해 나가는 과정의 중요한 이정표"라며 "대규모 학습 데이터와 핵심 모델을 오픈소스로 공유해 연구자와 개발자들이 자유롭게 활용할 수 있도록 하고, 멀티모달 기술 발전과 국내 AI 생태계 성장에 기여하길 기대한다"고 말했다.
크래프톤은 최근 AI 사업을 빠르게 확대하고 있다. 지난해에는 개인용 AI 비서 'KIRA(키라)'를 선보였고, 지난달에는 AI 에이전트 성능 향상 기술인 'Terminus-KIRA'를 오픈소스로 공개했다. 여기에 게임 속 AI 캐릭터가 플레이어와 함께 행동하고 상호작용하는 CPC(Co-Playable Character) 기술도 개발하고 있다.
결국 이번 Raon 브랜드 출범은 크래프톤이 게임 개발사를 넘어 독자적인 파운데이션 모델과 AI 에이전트 기술을 보유한 종합 AI 기업으로 진화하고 있음을 보여주는 신호로 평가된다. 향후 이들 기술이 게임 내 NPC, AI 비서, 멀티모달 콘텐츠 제작 등에 실제 적용될 경우, 크래프톤의 AI 전략은 한층 더 속도를 낼 전망이다.
【 청년일보=조성현 기자 】












