2026.01.25 (일)

  • 맑음동두천 -13.8℃
  • 맑음강릉 -6.4℃
  • 맑음서울 -9.0℃
  • 맑음대전 -8.5℃
  • 맑음대구 -4.7℃
  • 맑음울산 -5.0℃
  • 맑음광주 -4.4℃
  • 맑음부산 -2.6℃
  • 흐림고창 -6.5℃
  • 흐림제주 3.8℃
  • 맑음강화 -8.8℃
  • 흐림보은 -12.3℃
  • 맑음금산 -10.3℃
  • 구름조금강진군 -2.4℃
  • 맑음경주시 -5.5℃
  • 맑음거제 -1.2℃
기상청 제공

SKT·LG·업스테이지 총출동...정부 AI 2차 관문, 멀티모달 경쟁 본격화

SKT 음성 중심 옴니모달 전략 공개, 업스테이지·LG도 가세
정부 AI 파운데이션 경쟁, 기술 난도 높은 멀티모달로 압축

 

【 청년일보 】 정부 주도의 독자 인공지능(AI) 파운데이션 모델 개발 프로젝트가 2차 평가부터 멀티모달 경쟁 구도로 재편될 전망이다. 1차 평가를 통과한 SK텔레콤, LG AI연구원, 업스테이지가 모두 최종 목표로 멀티모달 모델 개발을 제시하면서다.

 

25일 정보통신기술(ICT) 업계에 따르면 SK텔레콤 정예팀은 2단계 개발부터 자사 AI 모델 ‘A.X K1’에 이미지·음성 등 멀티모달 기능을 단계적으로 적용할 계획이다. SK텔레콤 정예팀에서 멀티모달 연구를 담당하고 있는 김건희 서울대 컴퓨터공학부·첨단융합학부 교수는 최근 SK텔레콤 뉴스룸 기고를 통해 이 같은 구상을 공개했다.

 

김 교수는 “초거대 언어모델은 텍스트·이미지·동영상을 통합적으로 이해하는 멀티모달을 넘어, 음성까지 포괄하는 옴니모달 모델로 진화하고 있다”고 밝혔다. 특히 음성 기반 대화 구현에는 높은 기술적 난도가 따른다고 강조했다. 텍스트 대화가 턴 기반의 순차적 소통인 반면, 음성 대화는 실시간 양방향 상호작용이 핵심이라는 설명이다. 대화 중 끼어들기나 짧은 피드백(백채널) 처리, 호흡과 감정 표현 등 복합 요소를 함께 다뤄야 한다는 점도 과제로 꼽았다.

 

김 교수는 “기존에는 음성인식(STT)과 음성합성(TTS)을 결합하는 방식이 주로 활용됐지만, 응답 지연과 감정·억양 정보 손실 문제가 있었다”며 “사전학습된 강력한 언어모델을 중심에 두고 음성을 포함한 다양한 데이터로 미세조정하는 방식이 옴니모달 개발의 핵심”이라고 설명했다.

 

SK텔레콤은 향후 옴니모달 모델을 자사 AI 서비스 ‘에이닷(A.)’에 적용해 통화 요약을 비롯해 T맵, B tv 등에서 실시간 음성 대화 기능을 제공한다는 구상이다.

 

업스테이지는 앞서 3차 평가부터 언어와 이미지를 통합적으로 이해하는 멀티모달 기능을 확보하겠다고 밝힌 바 있다. LG AI연구원 역시 구체적인 일정은 공개하지 않았지만, 궁극적으로 멀티모달 모델 구축을 목표로 하고 있는 것으로 전해졌다.

 

한편 정부가 1차 평가에서 네이버와 NC AI를 탈락시키고 1개 팀을 추가 선정하기로 하면서 재도전 팀들의 행보에도 관심이 쏠린다. 스타트업 모티프테크놀로지스와 트릴리온랩스가 재도전 의사를 밝힌 가운데, 멀티모달 모델은 기존 대형언어모델(LLM) 대비 개발 난도가 높아 기술 경쟁력이 관건이 될 전망이다.

 

모티프테크놀로지스는 “고성능 LLM과 대형 멀티모달 모델을 모두 파운데이션 모델로 개발한 경험을 보유한 국내 유일의 스타트업”이라며 멀티모달 개발에 도전하겠다는 의지를 강조했다.

 


【 청년일보=김두환 기자 】




청년발언대

더보기


기자수첩

더보기

배너
배너
배너
배너
배너