2025년 8월 6일 수요일

Genie 3: 실시간 상호작용이 가능한 세계 모델의 새로운 지평

구글 딥마인드가 또 한 번 AI 분야에 혁신적인 발표를 했다. 바로Genie 3라는 범용 세계 모델(world model)이다. 텍스트 프롬프트만으로 실시간으로 상호작용할 수 있는 다양한 환경을 생성할 수 있다는 점에서 기존 모델들과는 차원이 다른 기술적 진보를 보여준다.


세계 시뮬레이션을 향한 여정

구글 딥마인드는 지난 10년간 시뮬레이션 환경 연구의 선구자 역할을 해왔다. 실시간 전략 게임을 마스터하는 에이전트 훈련부터 개방형 학습과 로봇공학을 위한 시뮬레이션 환경 개발까지, 이들의 연구는 세계 모델 개발의 토대가 되었다.

세계 모델이란 AI 시스템이 세계에 대한 이해를 바탕으로 세계의 특정 측면을 시뮬레이션할 수 있는 기술이다. 이를 통해 에이전트는 환경이 어떻게 변화할지, 그리고 자신의 행동이 환경에 어떤 영향을 미칠지 예측할 수 있다. 이는 AGI(Artificial General Intelligence)로 가는 핵심 단계이기도 하다. 무제한의 풍부한 시뮬레이션 환경에서 AI 에이전트를 훈련시킬 수 있기 때문이다.

작년에 발표된 Genie 1과 Genie 2가 첫 번째 파운데이션 세계 모델이었다면, Genie 3는 실시간 상호작용을 가능하게 한 첫 번째 세계 모델이다. 동시에 Genie 2 대비 일관성과 현실감도 크게 개선되었다.

Genie 3의 핵심 능력들

물리적 특성 모델링

Genie 3는 물과 조명 같은 자연 현상과 복잡한 환경 상호작용을 경험할 수 있게 해준다. 화산 지대를 탐험하는 로봇의 시점에서 용암과 연기를 피해 험난한 지형을 횡단하거나, 허리케인이 다가오는 플로리다 해안가를 걷는 경험까지 생생하게 구현한다.

특히 인상적인 것은 심해 탐험 시뮬레이션이다. 해저 협곡 사이를 헤엄치며 열수 분출구에서 나오는 푸른 연기와 작은 흰 게들이 기어다니는 모습을 관찰할 수 있다. 이런 디테일한 물리적 현상들이 실시간으로 일관성 있게 구현되는 것은 정말 놀라운 기술적 성취다.

자연 세계 시뮬레이션

빙하호 주변을 달리며 산림 속 갈래길을 탐험하고 산간 계곡을 건너는 경험을 제공한다. 눈 덮인 산과 소나무 숲 속에서 풍부한 야생동물을 만날 수 있다. 심해에서 해파리 떼와 함께 헤엄치거나, 일본식 선 정원에서 평온한 아침을 맞이하는 것도 가능하다.

이런 자연 환경 시뮬레이션에서 주목할 점은 단순히 시각적 재현에 그치지 않고, 생태계의 역동성까지 구현한다는 것이다. 나뭇잎 위의 물방울이 주변 빛을 반사하고, 습하고 고요한 공기의 느낌까지 전달하는 수준이다.

애니메이션과 판타지 구현

Genie 3는 상상력의 영역까지 확장한다. 무지개 다리를 뛰어다니는 귀여운 털북숭이 생물체나, 종이접기 스타일의 도마뱀이 되어보는 경험도 제공한다. 마법 같은 숲 속에서 반딧불이가 되어 나무집들 사이를 날아다니거나, 아일랜드 풍경이 갑자기 중력을 거스르며 하늘로 솟아오르는 초현실적 장면도 구현할 수 있다.

이런 판타지적 요소들이 단순한 시각적 효과가 아니라 실제로 상호작용 가능한 환경으로 구현된다는 점이 기존 비디오 생성 모델들과의 차별점이다.

장소와 역사적 설정 탐험

알프스의 험준한 산악 지형부터 베니스의 운하, 크레타 섬의 크노소스 궁전까지 지리적, 시간적 경계를 넘나드는 탐험이 가능하다. 일리노이주 힌스데일의 평범한 일상부터 인도의 킬라르-키시트와르 도로의 절벽 길까지, 실제 장소들을 생생하게 재현한다.

실시간 기능의 기술적 돌파구

Genie 3에서 높은 수준의 제어 가능성과 실시간 상호작용을 달성하는 것은 상당한 기술적 돌파구가 필요했다. 각 프레임을 자동회귀적으로 생성하는 동안, 모델은 시간이 지남에 따라 증가하는 이전에 생성된 궤적을 고려해야 한다.

예를 들어, 사용자가 1분 후에 같은 장소를 다시 방문한다면, 모델은 1분 전의 관련 정보를 참조해야 한다. 실시간 상호작용을 위해서는 새로운 사용자 입력이 들어올 때마다 이런 계산이 초당 여러 번 일어나야 한다.

장기간 환경 일관성

AI가 생성한 세계가 몰입감을 주려면 긴 시간 동안 물리적으로 일관성을 유지해야 한다. 하지만 환경을 자동회귀적으로 생성하는 것은 일반적으로 전체 비디오를 생성하는 것보다 기술적으로 더 어려운 문제다. 시간이 지남에 따라 부정확성이 누적되는 경향이 있기 때문이다.

이런 도전에도 불구하고 Genie 3 환경은 몇 분 동안 대체로 일관성을 유지하며, 시각적 기억은 1분 전까지 거슬러 올라간다. 이는 정말 인상적인 성과다. 기존의 NeRF나 Gaussian Splatting 같은 방법들도 일관된 탐색 가능한 3D 환경을 제공하지만, 명시적인 3D 표현에 의존한다. 반면 Genie 3가 생성하는 세계는 세계 설명과 사용자 행동을 바탕으로 프레임별로 생성되기 때문에 훨씬 더 역동적이고 풍부하다.

프롬프트 가능한 세계 이벤트

Genie 3는 탐색 입력 외에도 텍스트 기반의 더 표현력 있는 상호작용을 가능하게 한다. 이를 '프롬프트 가능한 세계 이벤트'라고 부른다. 날씨 조건을 바꾸거나 새로운 객체와 캐릭터를 도입하는 등 생성된 세계를 변경할 수 있어, 단순한 탐색 제어를 넘어선 경험을 제공한다.

이런 능력은 또한 "만약에"라는 반사실적 시나리오의 폭을 넓혀, 경험을 통해 학습하는 에이전트가 예상치 못한 상황을 처리할 수 있도록 돕는다.

구현체 에이전트 연구 지원

Genie 3가 생성한 세계가 미래 에이전트 훈련과 호환되는지 테스트하기 위해, 3D 가상 설정을 위한 범용 에이전트인 SIMA 에이전트의 최신 버전으로 세계를 생성했다. 각 세계에서 에이전트에게 서로 다른 목표를 추구하도록 지시했고, 에이전트는 Genie 3에 탐색 행동을 보내 목표 달성을 시도한다.

다른 환경과 마찬가지로 Genie 3는 에이전트의 목표를 알지 못하고, 대신 에이전트의 행동을 바탕으로 미래를 시뮬레이션한다. Genie 3가 일관성을 유지할 수 있기 때문에 이제 더 긴 행동 시퀀스를 실행하여 더 복잡한 목표를 달성할 수 있다.

한계와 과제

물론 Genie 3도 현재 한계가 있다. 먼저 제한된 행동 공간이다. 프롬프트 가능한 세계 이벤트가 광범위한 환경 개입을 허용하지만, 이것이 반드시 에이전트 자체에 의해 수행되는 것은 아니다. 에이전트가 직접 수행할 수 있는 행동의 범위는 현재 제한적이다.

또한 다른 에이전트와의 상호작용과 시뮬레이션도 과제다. 공유 환경에서 여러 독립적인 에이전트 간의 복잡한 상호작용을 정확하게 모델링하는 것은 여전히 진행 중인 연구 과제다.

실제 세계 위치의 정확한 표현도 한계가 있다. Genie 3는 현재 완벽한 지리적 정확성으로 실제 세계 위치를 시뮬레이션할 수 없다. 텍스트 렌더링도 입력 세계 설명에 제공될 때만 명확하고 읽기 쉬운 텍스트가 생성되는 경우가 많다.

상호작용 지속 시간도 제한적이다. 모델은 현재 연장된 시간이 아닌 몇 분의 연속적인 상호작용을 지원할 수 있다.

책임감 있는 개발

구글 딥마인드는 파운데이션 기술에는 처음부터 깊은 책임감이 필요하다고 믿는다. Genie 3의 기술적 혁신, 특히 개방형 및 실시간 기능은 안전성과 책임감에 대한 새로운 과제를 제기한다.

이런 고유한 위험을 해결하면서 이익을 극대화하기 위해 책임감 있는 개발 및 혁신 팀과 긴밀히 협력했다. 현재 Genie 3를 제한된 연구 프리뷰로 발표하여 소수의 학계 연구자와 창작자들에게 조기 접근을 제공하고 있다. 이런 접근 방식을 통해 중요한 피드백과 학제간 관점을 수집하면서 이 새로운 영역을 탐험하고 위험과 적절한 완화 방법에 대한 이해를 계속 구축할 수 있다.

미래 전망과 의미

Genie 3는 세계 모델이 AI 연구와 생성 미디어의 많은 영역에 영향을 미치기 시작하는 중요한 순간이라고 생각한다. 교육과 훈련을 위한 새로운 기회를 창출할 수 있어, 학생들의 학습과 전문가들의 경험 습득을 도울 수 있다.

로봇과 자율 시스템 같은 에이전트를 훈련시킬 방대한 공간을 제공할 뿐만 아니라, 에이전트의 성능을 평가하고 약점을 탐색하는 것도 가능하게 한다.

개인적으로 Genie 3에서 가장 인상적인 부분은 단순히 비디오를 생성하는 것을 넘어서 실제로 상호작용 가능한 환경을 만들어낸다는 점이다. 이는 게임 개발, 교육 시뮬레이션, 로봇 훈련 등 다양한 분야에서 혁신적인 변화를 가져올 수 있을 것이다.

하지만 동시에 이런 기술이 가져올 수 있는 사회적 영향도 신중하게 고려해야 한다. 현실과 구분하기 어려운 수준의 가상 환경이 생성될 수 있다는 것은 긍정적 활용과 함께 오남용의 가능성도 내포하고 있기 때문이다.

결론적으로, Genie 3는 AI 기술의 또 다른 중요한 이정표다. 실시간 상호작용이 가능한 세계 모델의 등장은 우리가 가상 환경과 상호작용하는 방식을 근본적으로 바꿀 수 있는 잠재력을 가지고 있다. 앞으로 이 기술이 어떻게 발전하고 실제 응용 분야에서 어떤 혁신을 가져올지 지켜보는 것이 흥미로울 것이다. 동시에 책임감 있는 개발과 배포를 통해 인류에게 도움이 되는 방향으로 발전하기를 기대한다.

Share: