구글 클라우드, 클라우드 TPU v4 기반 세계 최대 규모 머신러닝 클러스터 발표

클라우드 TPU v4 포드, 압도적 규모·성능·비용 효율성·지속가능성으로 프로세스 혁신
LG AI 연구원, 클라우드 TPU v4 사전 테스트 참여해 초거대 AI 모델 강화

【 청년일보 】 구글 클라우드가 맞춤형 머신러닝 하드웨어 가속기 '클라우드 TPU'의 4세대 버전 TPU v4 포드 기반의 머신러닝 클러스터를 31일 발표했다.

구글 I/O 2022에서 프리뷰 버전으로 선보인 머신러닝 클러스터는 세계 최고 수준의 속도와 효율성, 지속가능성을 자랑하는 머신러닝 인프라 허브로, 차세대 인공지능(AI) 기술에서 핵심적인 진보와 혁신을 지원한다.

산업 전반에 걸쳐 디지털 트랜스포메이션이 가속화되면서 기업이 필요로 하는 머신러닝의 용량, 성능, 규모는 그 어느 때보다 빠르게 증가하고 있다.

IDC가 2000명의 IT 의사결정권자를 대상으로 진행한 최근 설문조사에 따르면, AI 프로젝트가 실패하는 근본적인 원인은 주로 불충분한 인프라 역량인 것으로 나타났다.

기업용으로 설계된 AI 인프라의 중요성이 커지는 가운데, 구글은 미국 오클라호마주에 클라우드 TPU v4의 연산 집합으로 총 9엑사플롭의 연산 성능을 지원하는 세계 최대 규모의 머신러닝 클러스터를 구축했다.

클라우드 TPU v4 포드로 구동되는 구글 클라우드의 머신러닝 클러스터는 연구원과 개발자가 AI 분야의 최전선에서 혁신적인 돌파구를 마련하도록 지원한다. 이제 머신러닝 클러스터를 이용해 점점 더 정교해지는 대규모 자연어처리(NLP), 추천 시스템, 컴퓨터 비전 모델용 워크로드를 클라우드 TPU v4에서 훈련할 수 있다.

대규모 모델의 고속 훈련도 가능하다. 각각의 클라우드 TPU v4 포드는 4096개의 칩이 상호연결된 초고속 네트워크로 구성되어 있는데, 호스트 당 6Tbps 대역폭을 지원해 업계 최고 속도를 제공한다.

구글 클라우드 머신러닝 클러스터는 모델 훈련에 필요한 연산 능력을 비용 대비 매우 뛰어난 성능으로 제공한다. 클라우드 TPU v4 칩은 클라우드 TPU v3 대비 2.2배나 향상된 피크 플롭스를 지원하며 달러 당 피크 플롭스도 1.4배 높아졌다.

실제 모델 훈련 시 할당된 전체 칩에서 연산이 지속되는지 여부가 모델 훈련의 효율성을 좌우한다. 클라우드 TPU v4는 수천 개의 칩으로 머신러닝 모델의 훈련 능력을 향상시킬 수 있으며, 높은 네트워크 대역폭과 컴파일러 최적화 덕분에 다른 시스템보다 활용도가 월등히 우수하다. 이를 통해 기업은 모델 훈련 시간을 단축하면서 비용 효율성을 높였다.

이 밖에 구글 클라우드 머신러닝 클러스터가 위치한 구글의 오클라호마 데이터센터는 동일한 전력망 안에서 시간당 90%의 무탄소(CFE) 에너지로 운영된다.

구글은 지속가능성을 위한 노력의 일환으로 2017년부터 데이터센터 및 클라우드 리전의 연간 에너지 소비량과 재생 에너지 구매량을 100% 동일하게 맞추고 있으며, 2030년까지 전체 비즈니스의 무탄소 에너지 운영을 목표로 하고 있다.

구글 클라우드는 지난해 구글 I/O 2021에서 클라우드 TPU v4를 처음 발표하고 LG AI 연구원, 카카오브레인, 메타 AI, 세일즈포스리서치, 코히어 등 국내외 유수의 AI 연구팀에 클라우드 TPU v4 포드의 얼리 액세스 버전을 제공했다.

연구팀은 클라우드 TPU v4의 뛰어난 성능과 확장성을 긍정적으로 평가했다. 클라우드 TPU v4는 빠른 상호연결 및 최적화된 소프트웨어 스택, 새로운 TPU VM 아키텍처로 자체 인터랙티브 개발 환경을 설정할 수 있는 기능, JAX·파이토치·텐서플로우 등 머신러닝 프레임워크 선택의 유연성 등을 제공한다.

AI 연구팀은 클라우드 TPU v4의 가격 대비 우수한 성능을 바탕으로 최첨단 대규모 머신러닝 모델을 훈련하며 AI 연구 영역을 한 단계 더 확장시키고 있다.

LG AI연구원은 구글 클라우드의 전략적 연구 파트너로서 구글의 최신 머신러닝 슈퍼컴퓨터 TPU v4가 상용화되기 전 테스트에 참여해 3000억 개 매개변수 규모의 초거대 AI 'LG 엑사원'을 학습시켰다.

카카오브레인 또한 클라우드 TPU v4의 대규모 데이터 학습 테스트에 참여해 초거대 AI 언어모델 'KoGPT'의 연구개발 역량을 강화했다.

카카오브레인은 기존의 GPU 서버 환경에 클라우드 TPU를 추가로 도입해 대규모 모델 학습 시 발생하는 네트워크 병목 현상을 해결하고 60억 개의 파라미터와 2000억 개 토큰에 달하는 한국어 데이터를 빠르게 처리했다. 이를 통해 언어 모델 연구 및 개발에 소요되는 시간을 단축하고 효율적인 모델 학습 프로세스를 구축할 수 있었다.

배경훈 LG AI 연구원장은 "멀티모달 기능을 갖춘 LG 엑사원은 TPU v4를 활용해 6000억 개 이상의 말뭉치와 2억 5000만 개 이상의 이미지로 구성된 방대한 데이터를 학습하고 있으며 커뮤니케이션, 생산성, 창의성 등의 측면에서 인간 전문가를 뛰어넘는 것이 목표"라며 "TPU v4의 성능은 동급 최고의 컴퓨팅 아키텍처를 능가할 뿐만 아니라 고객 지원 능력 역시 기대 이상이었다. 구글과 협력해 매우 기쁘며, 더 나은 삶을 위해 AI를 발전시킨다는 LG AI 연구원의 궁극적인 비전을 달성하도록 구글과 전략적 파트너십을 굳건히 이어나갈 것"이라고 말했다.

장화진 구글 클라우드 코리아 사장은 "구글 클라우드는 구글 검색, 유튜브와 같은 구글 제품에 실제로 사용되는 업계 최고 수준의 AI 성능을 구글 클라우드 고객에게 클라우드 TPU를 통해 제공하고 있다"며 "클라우드 TPU v4의 강력한 성능과 기술력을 바탕으로 국내 기업 및 연구 기관이 차세대 AI 및 머신러닝 혁신을 가속화하도록 적극 지원하겠다"고 말했다.

【 청년일보=박준영 기자 】

[청년발언대] 컨베이어 벨트의 진화…스마트 팩토리로 본 '양산'의 미래

【 청년일보 】 최근 현대자동차그룹의 싱가포르 글로벌 혁신센터(HMGICS)를 비롯해, 테슬라, 토요타 등 글로벌 제조 기업들이 앞다투어 고도화된 '스마트 팩토리' 구축에 사활을 걸고 있다. 단순한 공장 자동화를 넘어, 인공지능(AI), 로보틱스, 디지털 트윈, 5G 통신 등 첨단 기술이 투입된 이 새로운 공장들은 인류의 '물건을 만드는 방식' 자체를 근본적으로 뒤바꾸고 있다. 현재의 스마트 팩토리 도입 현황을 근거로, 앞으로 우리의 '양산(Mass Production)' 패러다임이 어떻게 변화할지 4가지 핵심 트렌드로 짚어보았다. ◆ '라인'에서 '셀'로: 유연 생산과 매스 커스터마이제이션의 실현 과거 양산의 핵심은 '소품종 대량생산'이었다. 일렬로 늘어선 컨베이어 벨트 위를 제품이 지나가면, 작업자가 정해진 부품을 조립하는 방식이다. 이 방식은 생산 속도를 극대화하지만, 소비자의 다양한 요구를 반영하거나 중간에 다른 모델을 생산하기에는 치명적으로 뻣뻣했다. 미래의 양산은 컨베이어 벨트가 사라진 '셀 방식'으로 진화한다. 바닥에 깔린 레일 대신, 자율주행 물류 로봇(AMR)과 무인 운반차(AGV)가 부품과 반제품을 실어 나르며 독립된 작업 공간인 '셀'들을

[청년발언대] "6G는 언제 오고, 청년에게 무슨 의미가 있나"

【 청년일보 】 5G 상용화 이후 불과 몇 년 만에 통신 산업은 다시 한 번 거대한 전환점을 준비하고 있다. 바로 6G(6세대 이동통신)다. 아직 상용화까지는 시간이 남아 있지만, 글로벌 주요 국가와 기업들은 이미 기술 표준 선점을 위한 경쟁에 돌입했다. 통신은 단순한 속도의 문제가 아니라, 산업 구조와 일자리 지형을 바꾸는 기반 인프라라는 점에서 6G는 청년 세대에게도 결코 먼 이야기가 아니다. 과거 세대가 4G를 통해 모바일 플랫폼 산업의 폭발적 성장을 경험했다면, 5G는 초연결 사회의 시작을 열었다. 그렇다면 6G는 무엇을 바꾸게 될까. 그리고 그 변화는 청년에게 어떤 의미로 다가올 것인가. ◆ 6G는 언제 오는가…기술 경쟁은 이미 시작 국제전기통신연합(ITU)은 2030년 전후를 6G 상용화 시점으로 전망하고 있다. 현재는 표준화 초기 단계이며, 각국은 연구개발과 시험망 구축을 진행 중이다. 6G의 핵심은 단순한 속도 향상이 아니다. 테라헤르츠(THz) 대역을 활용한 초고속 통신, 위성·지상망 통합 네트워크, AI 기반 자율 네트워크 운영이 주요 특징으로 꼽힌다. 이론적으로 6G는 5G 대비 수십 배 이상의 전송 속도와 마이크로초(μs) 단위의 초저지

[청년발언대] 실재하는 지능, 피지컬 AI(Physical AI)의 연착륙을 위한 시스템 설계 전략

【 청년일보 】 "모니터를 넘어 물리적 세계로 진입한 AI" 인공지능(AI)은 오랫동안 '화면 속 존재'였다. GPT 계열 언어 모델이 텍스트를 생성하고, 추천 알고리즘이 클릭률을 높이는 방식으로 AI는 디지털 레이어에 머물러 왔다. 이러한 스크린 AI는 한 가지 근본적 한계를 안고 있다. 결과에 책임지지 않는다는 점이다. 모델이 오작동해도 서버를 재부팅하면 그만이다. 그러나 AI가 모니터 밖으로 나오는 순간 규칙이 달라진다. 피지컬 AI(Physical AI)란 AI 알고리즘이 로봇, 센서, 액추에이터와 결합해 물리적 환경을 직접 인지하고 제어하는 시스템이다. 협동 로봇이 작업자 옆에서 부품을 조립하고, 자율주행 지게차가 물류 창고를 누비는 세계에서 AI의 오판단은 단순한 버그가 아니라 충돌과 부상으로 이어진다. 이 지점에서 산업공학의 역할이 부각된다. 뛰어난 AI 모델을 만드는 것은 컴퓨터 과학자의 영역이지만, 그 AI가 현실 세계에서 안정적으로 작동하도록 설계하는 것은 시스템 아키텍트(System Architect)로서의 산업공학적 사고를 요구한다. 이 글은 피지컬 AI의 연착륙을 위한 세 가지 핵심 설계 전략(신뢰성 공학, 실시간 공정 제어, 인간공학

[청년발언대] 최적화는 항상 정의로운가?

【 청년일보 】 우리는 '최적'이라는 단어를 들으면 본능적으로 그것이 옳다고 믿는다. 더 빠르고, 더 싸고, 더 효율적인 선택. 최적화는 언제나 합리적이며, 따라서 정의롭다고 여겨진다. 하지만 과연 그럴까? 최적화는 언제나 어떤 기준을 설정한 뒤 이루어진다. 비용을 최소화할 것인가, 시간을 단축할 것인가, 이윤을 극대화할 것인가. 문제는 그 기준이 이미 하나의 가치판단이라는 점이다. 예를 들어 기업이 생산 비용을 최소화하도록 시스템을 설계한다면, 그 결과는 인건비 절감, 자동화 확대, 혹은 인력 감축으로 이어질 수 있다. 숫자상으로는 '최적'일지 모르지만, 그 결정이 노동자에게도 정의로운 선택이라고 말할 수 있을까? 플랫폼 알고리즘 역시 마찬가지다. 사용자 체류 시간을 최대화하는 것이 목표라면, 자극적인 콘텐츠가 더 많이 노출되는 구조가 만들어진다. 이 또한 시스템 관점에서는 최적이지만, 사회 전체의 건강이라는 관점에서는 반드시 그렇다고 말하기 어렵다. 최적화는 답이 아니라 방향이다. 우리가 무엇을 최적화할 것인지 정하는 순간, 이미 우리는 하나의 가치를 선택하고 있는 셈이다. 효율을 최우선으로 둘 것인가, 공정성을 고려할 것인가, 안전과 인간의 존엄을 포함

[청년발언대] 웨이퍼 위의 건설 현장

【 청년일보 】 반도체는 완성된 부품을 조립해 만들기 보다는 바닥 위에 구조물을 올리는 시공에 가깝다. 기초를 다지고, 벽을 세우고, 배관과 전기 배선을 넣은 뒤, 검사와 마감까지 거쳐야 비로소 집이 되는 것처럼 실리콘 웨이퍼라는 바탕 위에서 회로는 한 번에 만들어지지 않는다. 현장에서 수십 번의 공정이 겹겹이 이어지며, 매 공정마다 정밀도가 유지되어야 칩이 완성된다. 공사는 먼저 바닥 상태부터 잡는다. 실리콘을 얇게 잘라 표면을 거울처럼 매끈하게 만든 판인 웨이퍼 위에 쌓이는 구조들은 이 바닥의 균일함에 큰 영향을 받는다. 하지만 나노미터 단위로 회로를 올리는 작업에서는 먼지 한 알이 현장의 자갈처럼 작지 않다. 그래서 반도체 제조는 깨끗함이 곧 품질인 공간에서 시작된다. 바탕이 준비되면, 이제는 벽과 길을 동시에 설계한다. 전기가 흐를 길을 만들기 위해서는, 전기가 새어 나오지 않도록 막아주는 절연층이 필요하다. 웨이퍼 위에 얇은 막을 형성하는 과정은 건설로 치면 방수층이나 단열재를 까는 일과 비슷하다고 볼 수 있다. 눈에 띄지 않지만, 나중에 성능을 좌우하는 필수 공정이다. 그 다음은 현장에서의 핵심인 도면을 바닥에 옮기는 작업이다. 반도체에서는 빛을