크래프톤, AI 모델 브랜드 '라온' 출범…음성·시각 아우른 4종 모델 전면 공개

"9B 음성 LLM 세계 1위"…한국어 비롯 영어까지 모두 잡은 'Raon-Speech'
실시간 음성대화·TTS·비전 인코더까지…게임사 넘어 AI 기업 존재감 강화
데이터부터 학습·평가까지 자체 수행…"오픈소스로 국내 AI 생태계 확장"

크래프톤이 자체 AI 모델 브랜드 'Raon(라온)'을 공식 출범했다. [사진=크래프톤]

【 청년일보 】 크래프톤이 자체 AI 모델 브랜드 'Raon(라온)'을 공식 출범하고, 음성과 시각을 아우르는 멀티모달 AI 모델 4종을 글로벌 오픈소스로 공개했다. 게임 개발사로 알려진 크래프톤이 독자적인 파운데이션 모델 역량을 전면에 내세우며, AI 기술 기업으로서의 존재감을 본격적으로 확대하는 모습이다.

크래프톤은 2일 음성 지원 대규모 언어모델(LLM) 'Raon-Speech', 실시간 음성 대화 모델 'Raon-SpeechChat', 텍스트-음성 변환(TTS) 모델 'Raon-OpenTTS', 비전 인코더 'Raon-VisionEncoder'를 공개했다고 밝혔다. 모든 모델은 글로벌 AI 플랫폼 허깅페이스(Hugging Face)를 통해 오픈소스로 배포된다.

'Raon'은 '즐거움'을 뜻하는 순우리말 '라온'에서 이름을 따왔다. 여기에 KRAFTON의 일부 철자를 결합해 영문명을 만들었다. AI 기술을 통해 게임의 본질적인 즐거움을 구현하겠다는 크래프톤의 방향성을 담았다는 설명이다.

이번 공개의 의미는 단순히 모델 수를 늘린 데 그치지 않는다. 크래프톤은 데이터 수집과 정제, 학습, 성능 평가에 이르는 파운데이션 모델 개발 전 과정을 자체적으로 수행했다고 강조했다. 이는 외부 모델을 활용하거나 일부 기술만 적용하는 수준을 넘어, 독자적인 AI 기술 체계를 구축했다는 의미로 해석된다.

특히 핵심 모델인 'Raon-Speech'는 90억(9B) 파라미터 규모의 음성 지원 언어모델이다. 기존 텍스트 기반 언어모델을 확장해 음성을 이해하고 생성할 수 있도록 만든 모델로, 음성 텍스트 변환(STT), 텍스트 음성 변환(TTS), 음성 기반 질의응답 등 다양한 작업을 수행할 수 있다.

크래프톤에 따르면 Raon-Speech는 100억 파라미터 이하 공개 음성 언어모델 가운데 영어와 한국어 모두에서 세계 최고 수준의 성능을 기록했다. 성능 평가는 음성 텍스트 변환, 음성 생성, 음성 질의응답 등 7개 핵심 태스크와 40개 벤치마크를 대상으로 진행됐으며, 태스크별 평균 순위를 동일 비중으로 반영한 결과 글로벌 1위를 차지했다.

특히 영어뿐 아니라 한국어에서도 최고 성능을 확보했다는 점이 눈길을 모은다. 지금까지 글로벌 음성 AI 모델은 영어 중심으로 학습돼 한국어 성능이 상대적으로 떨어지는 경우가 많았다. 크래프톤은 이번 모델을 통해 한국어 음성 AI 분야에서도 경쟁력을 확보했다.

함께 공개된 'Raon-SpeechChat'은 사용자가 말하는 도중 AI가 자연스럽게 끼어들거나, 반대로 사용자의 발화를 실시간으로 받아치는 양방향 음성대화 모델이다. 일반적인 음성 비서는 사용자가 말을 마친 뒤에만 응답할 수 있지만, Raon-SpeechChat은 사람 간 대화처럼 동시에 듣고 말하는 '풀 듀플렉스(Full-duplex)' 방식을 지원한다.

크래프톤은 이 모델이 국내에서 공개된 최초의 실시간 양방향 음성 언어모델이라고 설명했다. 맞장구, 발화 중 끼어들기 처리, 응답 지연 시간 등 13개 세부 태스크를 기준으로 평가한 결과, 글로벌 최상위권 수준의 성능을 기록했다.

이는 향후 게임 속 NPC나 AI 동료 캐릭터가 이용자와 자연스럽게 대화하는 형태의 상호작용으로 이어질 가능성을 보여준다. 이용자가 말을 멈출 때까지 기다리는 방식이 아니라, 실제 사람처럼 반응하고 대화를 주도하는 AI 구현이 가능해지는 셈이다.

텍스트를 음성으로 바꿔주는 'Raon-OpenTTS'도 눈길을 끈다. 이 모델은 공개된 음성 데이터만으로 학습된 오픈소스 기반 TTS 모델이다. 크래프톤은 기존 공개 데이터 중 활용하기 어려웠던 일부 자료를 직접 수집·정제해 추가 공개했고, 전체 학습 데이터 역시 함께 배포한다.

이를 통해 연구자와 개발자는 동일한 데이터 환경에서 모델을 재현하거나 추가 학습을 진행할 수 있다. 통상 고성능 음성 합성 모델은 비공개 데이터에 크게 의존하는 경우가 많지만, 크래프톤은 공개 데이터만으로도 글로벌 연구용 TTS 모델과 견줄 수 있는 성능을 확보했다고 강조했다.

실제로 두 음성 가운데 어느 쪽이 더 자연스러운지를 평가하는 블라인드 테스트에서 Raon-OpenTTS는 비공개 데이터 기반의 글로벌 연구용 모델들과 비교해 최상위 수준의 결과를 기록했다.

크래프톤은 'Raon' 출범과 함께 음성 지원 대규모 언어 모델(LLM), 실시간 음성 대화 모델, 텍스트-음성 변환(TTS) 모델 및 비전 인코더를 글로벌 플랫폼 허깅페이스에 오픈소스로 공개했다. [사진=크래프톤]

시각 AI 영역에서는 'Raon-VisionEncoder'를 공개했다. 비전 인코더는 이미지를 AI가 이해할 수 있는 형태의 정보로 변환하는 핵심 기술이다. 언어모델과 결합하면 이미지 인식과 분석, 멀티모달 대화 기능까지 구현할 수 있다.

크래프톤은 이번 비전 인코더를 공개 데이터만으로 학습했으며, 기존 사전학습 모델을 활용하지 않고 처음부터 직접 학습했다고 밝혔다. 이른바 '프롬 스크래치(from scratch)' 방식으로 개발한 것이다.

성과도 적지 않다. 일부 시각 인식 태스크에서는 구글의 대표 비전 인코더 모델인 'SigLIP2'를 뛰어넘는 결과를 기록했다. 나머지 평가 항목에서도 SigLIP2 대비 90% 이상의 성능을 확보했다.

이는 크래프톤이 음성뿐 아니라 시각 AI에서도 독자적인 기술력을 확보하고 있음을 보여준다. 회사는 향후 추진 중인 '독자 AI 파운데이션 모델' 프로젝트에도 해당 비전 인코더를 적용할 계획이다.

크래프톤은 이번 Raon 공개를 단순한 기술 시연이 아니라, 오픈소스를 기반으로 한 AI 생태계 확대 전략의 출발점으로 보고 있다. 모델뿐 아니라 데이터와 기술 보고서까지 함께 공개함으로써, 외부 연구자와 개발자들이 자유롭게 활용하고 개선할 수 있도록 하겠다는 것이다.

특히 Raon-Speech의 경우 성능 검증 과정과 학습 방법 등을 담은 기술 보고서도 함께 공개됐다. 이를 통해 국내 연구자들도 글로벌 수준의 음성 AI 모델 개발 과정을 보다 구체적으로 참고할 수 있을 전망이다.

이강욱 크래프톤 CAIO는 "이번 Raon 모델 시리즈 공개는 AI 기술 역량을 축적해 나가는 과정의 중요한 이정표"라며 "대규모 학습 데이터와 핵심 모델을 오픈소스로 공유해 연구자와 개발자들이 자유롭게 활용할 수 있도록 하고, 멀티모달 기술 발전과 국내 AI 생태계 성장에 기여하길 기대한다"고 말했다.

크래프톤은 최근 AI 사업을 빠르게 확대하고 있다. 지난해에는 개인용 AI 비서 'KIRA(키라)'를 선보였고, 지난달에는 AI 에이전트 성능 향상 기술인 'Terminus-KIRA'를 오픈소스로 공개했다. 여기에 게임 속 AI 캐릭터가 플레이어와 함께 행동하고 상호작용하는 CPC(Co-Playable Character) 기술도 개발하고 있다.

결국 이번 Raon 브랜드 출범은 크래프톤이 게임 개발사를 넘어 독자적인 파운데이션 모델과 AI 에이전트 기술을 보유한 종합 AI 기업으로 진화하고 있음을 보여주는 신호로 평가된다. 향후 이들 기술이 게임 내 NPC, AI 비서, 멀티모달 콘텐츠 제작 등에 실제 적용될 경우, 크래프톤의 AI 전략은 한층 더 속도를 낼 전망이다.

【 청년일보=조성현 기자 】

[청년발언대] 컨베이어 벨트의 진화…스마트 팩토리로 본 '양산'의 미래

【 청년일보 】 최근 현대자동차그룹의 싱가포르 글로벌 혁신센터(HMGICS)를 비롯해, 테슬라, 토요타 등 글로벌 제조 기업들이 앞다투어 고도화된 '스마트 팩토리' 구축에 사활을 걸고 있다. 단순한 공장 자동화를 넘어, 인공지능(AI), 로보틱스, 디지털 트윈, 5G 통신 등 첨단 기술이 투입된 이 새로운 공장들은 인류의 '물건을 만드는 방식' 자체를 근본적으로 뒤바꾸고 있다. 현재의 스마트 팩토리 도입 현황을 근거로, 앞으로 우리의 '양산(Mass Production)' 패러다임이 어떻게 변화할지 4가지 핵심 트렌드로 짚어보았다. ◆ '라인'에서 '셀'로: 유연 생산과 매스 커스터마이제이션의 실현 과거 양산의 핵심은 '소품종 대량생산'이었다. 일렬로 늘어선 컨베이어 벨트 위를 제품이 지나가면, 작업자가 정해진 부품을 조립하는 방식이다. 이 방식은 생산 속도를 극대화하지만, 소비자의 다양한 요구를 반영하거나 중간에 다른 모델을 생산하기에는 치명적으로 뻣뻣했다. 미래의 양산은 컨베이어 벨트가 사라진 '셀 방식'으로 진화한다. 바닥에 깔린 레일 대신, 자율주행 물류 로봇(AMR)과 무인 운반차(AGV)가 부품과 반제품을 실어 나르며 독립된 작업 공간인 '셀'들을

[청년발언대] "6G는 언제 오고, 청년에게 무슨 의미가 있나"

【 청년일보 】 5G 상용화 이후 불과 몇 년 만에 통신 산업은 다시 한 번 거대한 전환점을 준비하고 있다. 바로 6G(6세대 이동통신)다. 아직 상용화까지는 시간이 남아 있지만, 글로벌 주요 국가와 기업들은 이미 기술 표준 선점을 위한 경쟁에 돌입했다. 통신은 단순한 속도의 문제가 아니라, 산업 구조와 일자리 지형을 바꾸는 기반 인프라라는 점에서 6G는 청년 세대에게도 결코 먼 이야기가 아니다. 과거 세대가 4G를 통해 모바일 플랫폼 산업의 폭발적 성장을 경험했다면, 5G는 초연결 사회의 시작을 열었다. 그렇다면 6G는 무엇을 바꾸게 될까. 그리고 그 변화는 청년에게 어떤 의미로 다가올 것인가. ◆ 6G는 언제 오는가…기술 경쟁은 이미 시작 국제전기통신연합(ITU)은 2030년 전후를 6G 상용화 시점으로 전망하고 있다. 현재는 표준화 초기 단계이며, 각국은 연구개발과 시험망 구축을 진행 중이다. 6G의 핵심은 단순한 속도 향상이 아니다. 테라헤르츠(THz) 대역을 활용한 초고속 통신, 위성·지상망 통합 네트워크, AI 기반 자율 네트워크 운영이 주요 특징으로 꼽힌다. 이론적으로 6G는 5G 대비 수십 배 이상의 전송 속도와 마이크로초(μs) 단위의 초저지

[청년발언대] 실재하는 지능, 피지컬 AI(Physical AI)의 연착륙을 위한 시스템 설계 전략

【 청년일보 】 "모니터를 넘어 물리적 세계로 진입한 AI" 인공지능(AI)은 오랫동안 '화면 속 존재'였다. GPT 계열 언어 모델이 텍스트를 생성하고, 추천 알고리즘이 클릭률을 높이는 방식으로 AI는 디지털 레이어에 머물러 왔다. 이러한 스크린 AI는 한 가지 근본적 한계를 안고 있다. 결과에 책임지지 않는다는 점이다. 모델이 오작동해도 서버를 재부팅하면 그만이다. 그러나 AI가 모니터 밖으로 나오는 순간 규칙이 달라진다. 피지컬 AI(Physical AI)란 AI 알고리즘이 로봇, 센서, 액추에이터와 결합해 물리적 환경을 직접 인지하고 제어하는 시스템이다. 협동 로봇이 작업자 옆에서 부품을 조립하고, 자율주행 지게차가 물류 창고를 누비는 세계에서 AI의 오판단은 단순한 버그가 아니라 충돌과 부상으로 이어진다. 이 지점에서 산업공학의 역할이 부각된다. 뛰어난 AI 모델을 만드는 것은 컴퓨터 과학자의 영역이지만, 그 AI가 현실 세계에서 안정적으로 작동하도록 설계하는 것은 시스템 아키텍트(System Architect)로서의 산업공학적 사고를 요구한다. 이 글은 피지컬 AI의 연착륙을 위한 세 가지 핵심 설계 전략(신뢰성 공학, 실시간 공정 제어, 인간공학

[청년발언대] 최적화는 항상 정의로운가?

【 청년일보 】 우리는 '최적'이라는 단어를 들으면 본능적으로 그것이 옳다고 믿는다. 더 빠르고, 더 싸고, 더 효율적인 선택. 최적화는 언제나 합리적이며, 따라서 정의롭다고 여겨진다. 하지만 과연 그럴까? 최적화는 언제나 어떤 기준을 설정한 뒤 이루어진다. 비용을 최소화할 것인가, 시간을 단축할 것인가, 이윤을 극대화할 것인가. 문제는 그 기준이 이미 하나의 가치판단이라는 점이다. 예를 들어 기업이 생산 비용을 최소화하도록 시스템을 설계한다면, 그 결과는 인건비 절감, 자동화 확대, 혹은 인력 감축으로 이어질 수 있다. 숫자상으로는 '최적'일지 모르지만, 그 결정이 노동자에게도 정의로운 선택이라고 말할 수 있을까? 플랫폼 알고리즘 역시 마찬가지다. 사용자 체류 시간을 최대화하는 것이 목표라면, 자극적인 콘텐츠가 더 많이 노출되는 구조가 만들어진다. 이 또한 시스템 관점에서는 최적이지만, 사회 전체의 건강이라는 관점에서는 반드시 그렇다고 말하기 어렵다. 최적화는 답이 아니라 방향이다. 우리가 무엇을 최적화할 것인지 정하는 순간, 이미 우리는 하나의 가치를 선택하고 있는 셈이다. 효율을 최우선으로 둘 것인가, 공정성을 고려할 것인가, 안전과 인간의 존엄을 포함

[청년발언대] 웨이퍼 위의 건설 현장

【 청년일보 】 반도체는 완성된 부품을 조립해 만들기 보다는 바닥 위에 구조물을 올리는 시공에 가깝다. 기초를 다지고, 벽을 세우고, 배관과 전기 배선을 넣은 뒤, 검사와 마감까지 거쳐야 비로소 집이 되는 것처럼 실리콘 웨이퍼라는 바탕 위에서 회로는 한 번에 만들어지지 않는다. 현장에서 수십 번의 공정이 겹겹이 이어지며, 매 공정마다 정밀도가 유지되어야 칩이 완성된다. 공사는 먼저 바닥 상태부터 잡는다. 실리콘을 얇게 잘라 표면을 거울처럼 매끈하게 만든 판인 웨이퍼 위에 쌓이는 구조들은 이 바닥의 균일함에 큰 영향을 받는다. 하지만 나노미터 단위로 회로를 올리는 작업에서는 먼지 한 알이 현장의 자갈처럼 작지 않다. 그래서 반도체 제조는 깨끗함이 곧 품질인 공간에서 시작된다. 바탕이 준비되면, 이제는 벽과 길을 동시에 설계한다. 전기가 흐를 길을 만들기 위해서는, 전기가 새어 나오지 않도록 막아주는 절연층이 필요하다. 웨이퍼 위에 얇은 막을 형성하는 과정은 건설로 치면 방수층이나 단열재를 까는 일과 비슷하다고 볼 수 있다. 눈에 띄지 않지만, 나중에 성능을 좌우하는 필수 공정이다. 그 다음은 현장에서의 핵심인 도면을 바닥에 옮기는 작업이다. 반도체에서는 빛을