2016년, 이세돌 9단을 이긴 알파고는 전 세계를 충격에 빠뜨렸습니다. 하지만 아무리 바둑을 잘 두거나 복잡한 코드를 짜도, 현실 세계의 물리 법칙을 이해하지 못했습니다. 우리는 로봇에게 “이 사과를 집어라”라고 명령해도, 로봇은 사과의 무게, 표면의 마찰력, 주변 물체와의 관계를 직관적으로 알지 못했죠. 한마디로 손만 가지고 있었고 두뇌가 없던 시대였습니다.
- <피지컬 AI 시대, 출발 시점>
- <휴머노이드 로봇이 세상을 배우다 – 월드 모델의 기본 원리>
- <핵심 기술 정리 : 로봇 지능 기술 설계 방법>
- <피지컬 AI 시대 : 월드 모델이 가져올 미래>
- <생각 결론>
피지컬 AI 시대의 로봇 세상
<피지컬 AI 시대, 출발 시점>
1. 로봇이 ‘손’만 가진 채 ‘뇌’가 없던 시대의 종말
이제 이 판이 완전히 뒤집히고 있습니다. 바로 피지컬 AI의 등장 때문입니다. 피지컬 AI는 단순히 코드를 실행하는 것을 넘어, 현실 세계를 인지하고, 추론하며, 행동할 수 있는 로봇 지능을 의미합니다. 그리고 이 혁명의 중심에는 로봇에게 세상을 상상할 수 있는 능력을 부여하게 되는 상황이 되었습니다.
핵심 기술은 월드 모델(World Model)이 있습니다.
2. 월드 모델이란 무엇인가?: 로봇에게 세상을 상상할 수 있는 능력을 부여하다
월드 모델을 이해하기 가장 쉬운 방법은 인간의 두뇌 활동과 비교하는 것입니다. 우리는 눈을 감고도 코앞의 컵을 잡을 수 있습니다. 왜냐하면 머릿속에 컵을 잡는 행위에 대한 시뮬레이션 결과가 이미 그려지기 때문입니다. 손을 컵 쪽으로 뻗으면, 컵은 움직이지 않을 것이고, 손가락에 적당한 힘을 주면 잡을 수 있다는 물리적 예측이 순식간에 끝납니다.

월드 모델은 바로 로봇의 머리 속에 이 가상의 물리 시뮬레이션 공간을 구축하는 기술인 것이죠.
외부 환경(세상)의 역학 관계(물리 법칙)와 상태 변화를 예측하고 모방할 수 있도록 AI 내부에 구축된 인지 모델로, 로봇은 이 모델을 통해 실제로 행동하기 전에 수백, 수천 번의 가상 시행착오를 거쳐 최적의 행동 계획을 수립할 수 있게 되었습니다.
월드 모델이 없다면 로봇은 모든 새로운 상황에서 처음부터 배워야 하지만, 월드 모델이 있다면 이전에 배운 지식을 기반으로 새로운 환경을 예측하고, 훨씬 빠르고 안전하게 임무를 수행할 수 있습니다. 이것이 바로 로봇이 손재주를 넘어 지능을 갖게 되는 이유입니다.
이 사태에서 클라우드를 통해 통신으로 수십만대의 로봇들에게 업데이트를 하게 되면, 순식간에 소프트웨어가 Copy가 되어 관련된 모든 로봇들이 성능 업그레이드가 될 수 있게 되죠.
<휴머노이드 로봇이 세상을 배우다 – 월드 모델의 기본 원리>
1. 로봇 스스로 경험이 아닌 시뮬레이션으로 학습을 하다
우리는 아이가 컵을 넘어뜨리고, 공을 던져보며 물체의 속성(무게, 탄성, 중력)을 배운다는 것을 알고 있습니다. 로봇도 마찬가지죠. 현실 세계에서 수백만 번의 시행착오를 겪게 하는 것은 시간적, 비용적으로 불가능하며, 때로는 위험합니다.
여기서 시뮬레이션 학습, 즉 가상 환경에서의 훈련이 필수적입니다. 로봇이 자신의 월드 모델을 기반으로 가상 환경에서 수많은 테스트를 합니다. 그 결과를 통해 모델을 개선하고, 가장 효율적이고 안전한 행동을 학습합니다. 마치 인간이 잠을 자면서 낮에 경험한 정보를 압축하고 시뮬레이션 하듯이 말입니다.
2. 로봇의 예측 기반 학습의 작동 방식
월드 모델의 핵심은 예측입니다. 로봇은 주변 환경의 현재 상태와 자신이 취할 행동을 입력 받아, 다음 순간의 상태를 예측하는 훈련을 할 수 있게 되죠.
예를 들어, 로봇이 테이블 위의 ‘빨간색 공’을 집는 행동을 한다고 생각하보면,
- 현재 상태 : 테이블 위에 빨간색 공이 있다.
- 행동 : 팔을 뻗어 공에 닿는다.
- 월드 모델의 예측: 공을 잡을 수 있을 것이다.
- 현실의 결과 : 실제로 공을 잡았다.
만약 예측과 현실이 다르다면 (예: 공이 예상보다 미끄러워 잡지 못했다), 로봇은 이 오차를 기반으로 월드 모델 코드를 수정합니다. 이 과정을 반복하면서 모델은 점점 더 정확해지고, 로봇의 예측 능력, 즉 상상력이 고도화되는 원리죠.
3. 미래를 시뮬레이션하는 힘
인간은 잠을 자는 동안 낮에 겪었던 수많은 정보 중 불필요한 것을 걸러내고, 중요한 경험을 압축하여 장기 기억으로 만듭니다. 동시에 이 기억들을 조합하여 현실에서 일어날 법한, 혹은 일어나지 않을 법한 다양한 시나리오를 시뮬레이션 한다고 알려져 있죠.
로봇의 월드 모델도 마찬가지로, 수많은 센서 데이터를 통해 얻은 지식을 단순하게 저장하는 것이 아니라, 물리 법칙이라는 하나의 문법으로 압축합니다. 그리고 이 문법을 이용해 새로운 상황에 대해 가상 현실 속에서 행동을 반복해 봅니다.
실제 시행착오를 최소화하고, 로봇이 미지의 환경에서도 일반화된 지능을 발휘하게 있게 하는 로직인거죠. 이 능력이 바로 피지컬 AI의 궁극적인 목표입니다.
<핵심 기술 정리 : 로봇 지능 기술 설계 방법>
월드 모델을 성공적으로 구현하여 로봇에게 세상을 가르치기 위해서는 세 가지 핵심 기술이 유기적으로 결합되어야 합니다. 이 기술들은 로봇의 지능 뼈대를 이루는 설계도라 할 수 있습니다.
1. 첫 번째 핵심 : 효율적 데이터 압축을 위한 표현 학습
인간의 눈앞에는 수많은 시각 정보(픽셀)가 쏟아집니다. 하지만 우리는 그 모든 픽셀을 기억하지 않고, 테이블, 컵, 빨간색과 같은 핵심 개념만 추려냅니다. 이것이 바로 표현 학습인 것이죠.
- 세상의 복잡성을 단순화하는 역할 로봇이 환경을 인식할 때, 방대한 센서 데이터(고해상도 카메라 이미지, 라이다 포인트 클라우드 등)를 그대로 사용하면 계산 비용이 폭발적으로 증가합니다. 표현 학습은 이 복잡한 원시 데이터를 로봇이 이해하기 쉬운 저차원의 특징 벡터로 압축합니다.
- 이 과정에 주로 사용되는 것이 오토인코더입니다. 오토인코더는 입력 데이터를 인코더를 통해 압축하고, 압축된 벡터를 디코더를 통해 다시 원본으로 복원하는 방식으로 학습합니다. 이 과정을 통해 인코더는 데이터의 가장 중요한 정보, 즉 세상의 본질만을 추출하는 능력을 갖게 할 수 있습니다.
- 로봇 능력의 근간 : 피지컬 AI의 궁극적인 목표는 일반화하는 것입니다. 예를 들면, 주방 A에서 배운 설거지를 주방 B에서도 할 수 있어야 하죠.
- 이를 위해 로봇이 카메라 각도, 조명 변화, 물체의 색상 변화 등 사소한 변화에도 변하지 않는 핵심 속성을 추출해야 합니다. 표현 학습은 이 불변성을 포착하여 로봇에게 컵은 뒤집혀 있든, 세워져 있든 컵이다라는 인식을 심어줍니다.
- 이처럼 효율적인 표현을 학습해야만, 로봇은 낯선 환경에서도 당황하지 않고 지식을 적용하는 로봇 일반화 능력을 발휘할 수 있습니다.
2. 두 번째 핵심 : 미래 시나리오를 예측하는 역학 모델
표현 학습이 세상이 무엇인가를 정의한다면, 역학 모델은 세상은 어떻게 움직이는가를 정의합니다. 즉, 로봇의 행동이 환경에 어떤 변화를 가져올지 예측하는 물리적 현상의 역할을 합니다.
- 로봇이 계획을 세우는 방법 : 행동의 결과를 미리 아는 능력 로봇이 어떤 작업을 수행하려면 일련의 행동 시퀀스를 미리 계획해야 합니다. 역학 모델은 다음과 같은 방식으로 계획을 가능하게 하죠.
- 현재 상태를 입력 받고, 로봇이 시도할 여러 가상 행동을 모델에 넣어보면서, 모델은 각 행동이 미래에 어떤 결과를 초래할지 예측할 수 있습니다. 그리고 나서 로봇은 예측된 결과 중 가장 목표 달성에 효율적인 경로를 선택하는 것이죠.
- 이 과정은 사람이 체스를 둘 때 몇 수 앞을 내다보는 것과 같습니다. 로봇은 이 역학 모델을 통해 수백만 번의 행동을 가상으로 시도하며, 현실에서 단 한 번의 정확한 행동을 실행합니다.
- 현재 상태를 입력 받고, 로봇이 시도할 여러 가상 행동을 모델에 넣어보면서, 모델은 각 행동이 미래에 어떤 결과를 초래할지 예측할 수 있습니다. 그리고 나서 로봇은 예측된 결과 중 가장 목표 달성에 효율적인 경로를 선택하는 것이죠.
- AI 세상 이해 기술 : 시간적 일관성 정확도는 곧 AI 세상 이해 기술의 수준을 결정합니다.
- 특히 중요한 것은 시간적 일관성입니다. 로봇이 탁구공을 튕기는 행동을 할 때, 공이 튀어 오르는 궤적과 속도가 시간이 지남에 따라 물리 법칙을 벗어나지 않고 일관되게 예측되어야 하죠. 그렇지 않으면 로봇은 몇 초 후의 결과를 예측하지 못하고 의미가 없어집니다.
- 정확한 역학 모델은 로봇이 단순히 시각 정보를 처리하는 것을 넘어, 인과 관계를 이해하게 만드는 핵심입니다.
3. 세 번째 핵심 : 현실과 격차를 줄이는 오프라인 강화학습
월드 모델은 가상 세계에서 훈련되지만, 궁극적으로는 현실 세계에서 작동이 되어야 되죠. 가상 환경에서 아무리 잘 학습된 로봇도 현실에 투입되면 현실과의 격차로 인해 실패할 수 있습니다. 이때 이러한 실패를 극복할 수 있는 기술이 오프라인 강화 학습(Offline RL)입니다.
- 로봇이 실패를 두려워하지 않는 이유 : 과거 경험 데이터의 효율적 활용 기존의 온라인 강화 학습(Online RL)은 로봇이 환경과 직접 상호작용하며 실시간으로 데이터를 얻어야 했습니다. 이는 느리고 위험하며 비효율적이였죠.
- 하지만 오프라인 강화학습은 이미 수집된 데이터(수많은 로봇의 성공 및 실패 경험 기록)만을 사용하여 학습할 수 있죠. 따라서 로봇은 이 많은 과거 경험 데이터를 교과서처럼 읽고 분석할 수 있게 됩니다.
- 특히, 실패한 경험도 중요한 학습 자료가 되며, 로봇은 실제로 실패할 필요 없이 데이터 속의 실패를 보며 이 행동은 위험하다는 것을 깨닫습니다. 결국 로봇도 인간과 마찬가지로 실패를 두려워하지 않는 학습을 통해 중요한 데이터를 확보할 수 있으며, 궁극적으로는 실패모드를 피해서 안전하고 효율적인 학습 경로를 따라 갈 수 있습니다.
- 시뮬레이션 기반 로봇에 현실성을 높이기 위한 오프라인 강화학습은 월드 모델이 가상 환경에서 세운 계획을 현실 세계의 데이터에 기반하여 보정하고 강화할 수 있습니다.
- 이렇게 되면 시뮬레이션 기반 로봇 훈련의 결과가 현실에서도 강력하게 작동할 수 있게 되죠.
- 실제로 테슬라의 옵티머스 로봇이나 구글의 RT-X(Robotics Transformer) 같은 최신 피지컬 AI 시스템들은 오프라인 RL을 월드 모델과 결합하여, 수많은 인터넷 데이터와 실제 로봇 경험 데이터를 통합 학습하여 성능을 극대화하고 있습니다.
<피지컬 AI 시대 : 월드 모델이 가져올 미래>
1. 노동의 종말이 아닌, 노동의 진화 : 인간과의 협업
월드 모델이 상용화되면 로봇은 공장이나 물류 창고 같은 구조화된 환경을 넘어, 가정, 병원, 길거리와 같은 비구조화된 환경에서 인간과 자연스럽게 협업할 수 있게 되죠.
전문가들은 노동의 종말이 아니라 노동의 진화로 보고 있습니다. 로봇은 단순 반복 작업 뿐만 아니라, 예상치 못한 상황 즉, 예를 들면 갑자기 바닥에 쏟아진 물, 위치가 바뀐 도구에서도 인간의 지시를 받아 스스로 문제를 해결하고 행동을 수정할 수 있게 되죠.
- 간호 로봇 : 환자의 갑작스러운 상태 변화를 예측하고 신속하게 대응.
- 재난 구조 로봇: 무너진 건물 내부의 역학 관계를 시뮬레이션하여 가장 안전하고 효율적인 구조 경로를 탐색.
인간은 계획과 의사소통에 집중하고, 로봇은 물리 세계에서의 실행을 담당하는 협업 시대가 열리는 것입니다. 무섭기도하죠.
2. 상상력이 로봇의 도덕성을 결정한다
전문가들은 로봇의 월드 모델, 즉 상상력이 로봇 윤리의 새로운 세상을 만들 것으로 보고 있으며 이 윤리적 도덕적인 학습들이 매우 중요할 수 있다고도 지적하고 있죠.
기존의 로봇 윤리는 무엇을 하지 마라는 규칙(아시모프의 3원칙 등)을 코드로 주입하는 방식이었습니다. 하지만 월드 모델을 가진 로봇은 행동의 결과를 미리 상상할 수 있습니다.
“내가 이 무거운 물건을 저 사람 근처에 떨어뜨린다면, 월드 모델의 예측에 따르면 저 사람은 다칠 확률이 90%다.”
로봇은 이 예측을 통해 스스로 위험도를 평가하고, 피해가 가장 적은 행동을 선택할 수 있습니다. 이는 단순히 규칙을 따르는 것이 아니라, 인간과 같이 살려면 결과를 예측하고 책임감 있게 행동하는 도덕성을 가져야 되겠죠.
결국 상상력을 가진 로봇이 윤리와 도덕을 갖는 하나의 윤리적 주체가 될 가능성이 생기는 것입니다. 새로운 종이 탄생할 수 있다는 뜻이죠.
3. 테슬라 옵티머스와 구글 RT-X에게 배우는 월드 모델의 현재
월드 모델의 잠재력은 이미 글로벌 거대 기술 기업들에 의해 현실화되고 있습니다.
- 테슬라 옵티머스 : 테슬라는 자동차의 자율 주행에 사용되는 것과 같은 AI 아키텍처(대규모 데이터 기반의 예측 모델)를 휴머노이드 로봇에 적용하고 있습니다. 옵티머스는 지금까지 축적해온 비디오 데이터를 통해 세상을 이해하는 월드 모델을 구축하고, 이를 통해 빠르고 유연하게 새로운 작업을 수행하도록 훈련하고 있습니다.
- 구글 RT-X (Robotics Transformer) : 구글 딥마인드와 협력사들이 개발한 이 모델은 인터넷에서 얻은 수많은 텍스트와 이미지 데이터, 그리고 로봇의 행동 데이터를 한데 모아 학습하고 있습니다.
- 이는 로봇에게 테이블 위 사과를 냉장고에 넣어라와 같은 자연어 지시를 이해하고, 월드 모델을 통해 복잡한 실행 계획으로 전환할 수 있는 능력을 부여합니다.
이러한 선두 주자들은 월드 모델이 로봇의 지식 습득 속도와 일반화 능력을 수백 배 빠르게 만들고 있음을 보여주고 있는 것이죠.
생각 결론
요약 : 월드 모델이 휴머노이드 로봇에 미치는 영향
피지컬 AI 시대의 핵심은 월드 모델입니다. 이 기술은 로봇에게 단순한 행동 명령을 넘어, 세상을 이해하고, 미래를 예측하며, 스스로 계획을 세울 수 있는 능력(상상력)을 부여하는 개념이죠.
따라서 표현 학습, 역학 모델, 오프라인 강화학습의 세 가지 핵심 기술은 월드 모델이라는 강력한 지능의 뼈대를 구성하며, 로봇이 세상 만물의 관계를 인간처럼 유연하게 작동할 수 있도록 하는 기술이죠.
이제는 로봇이 더 이상 정해진 코드를 따르는 기계가 아니며 로봇들은 스스로 배우고, 상상하며, 진화하는 지능형 주체로 탄생할 수 있는 것이죠.
로봇이 월드 모델을 통해 미래를 설계하듯이, 우리 인간의 삶 또한 결국 우리가 세상을 어떻게 바라보고(표현 학습), 어떤 행동이 어떤 결과를 낳을지 예측(역학 모델)하며, 과거의 경험을 어떻게 활용(오프라인 RL)하는가에 달려 있습니다.
피지컬 AI 시대는 단순한 기술 혁신을 넘어, 인간이 세상을 이해하는 방식에 대한 근본적인 질문이 필요할때 인 것 같습니다. 결국 이 새로운 지능의 휴머노이드 로봇이 시작된 것 같습니다.