2025년 7월 6일 일요일

존 카맥의 AI 연구 여정: 게임에서 현실로, 그리고 미해결 과제들

최근 존 카맥(John Carmack)이 자신의 AI 연구 방향과 현재 진행 중인 프로젝트에 대해 상세히 공개했다. id Software의 창립자이자 VR 기술의 선구자였던 그가 이제는 AI 연구자로서 어떤 도전에 직면하고 있는지, 그리고 현재 AI 분야의 한계점들을 어떻게 바라보고 있는지 살펴보자.


게임 개발자에서 AI 연구자로의 전환

카맥의 이력은 독특하다. 1990년대 초 id Software를 창립해 1인칭 슈팅 게임 장르를 정의했고, 특히 Quake의 GL Quake 버전은 초기 GPU 채택의 핵심 동력이 되었다. 이후 Armadillo Aerospace에서 수직 이착륙 로켓을 개발하고, Oculus에서 현대 VR의 기반 기술을 구축했다.

그런 그가 AI에 관심을 갖게 된 계기는 OpenAI 창립자들의 영입 제안이었다. 당시 AI 전문가가 아니었던 카맥은 이들의 제안을 받고 AI 분야를 깊이 공부하기 시작했고, "현재 누구나 할 수 있는 가장 흥미로운 일"이라는 결론에 도달했다.

흥미로운 점은 카맥이 처음에는 "빅토리아 시대 신사 과학자" 모드로 혼자 연구를 시작했다는 것이다. 충분한 자산을 바탕으로 개인적으로 과학 연구를 하겠다는 생각이었지만, 주변의 권유로 결국 회사를 설립하고 벤처 투자를 받아 현재 6명의 연구진과 함께 일하고 있다.

LLM의 한계와 근본적 문제들

카맥은 현재 LLM 열풍에 대해 냉정한 시각을 유지한다. 그는 LLM을 매일 사용하며 그 놀라운 능력을 인정하지만, 동시에 근본적인 한계를 지적한다.

"LLM은 전체 답이 될 수 없다. 트랜스포머 기반 모델은 인간 뇌가 작동하는 방식이 아니다. 이들이 하는 일은 마법 같지만, 고양이나 개, 심지어 어린아이들이 하는 많은 기본적인 일들을 처리하지 못한다."

카맥이 특히 강조하는 점은 LLM이 "인간의 모든 지식을 거대한 믹서기에 넣고 훈련시킨 것"이라는 표현이다. 이는 새로운 것을 학습해야 하는 상황에서 근본적인 한계를 드러낸다는 것이다.

아타리 게임을 통한 AI 연구의 가치

카맥의 연구팀은 아타리 게임을 주요 연구 플랫폼으로 선택했다. 이에 대해 "구식 아닌가?"라는 의문이 제기될 수 있지만, 카맥은 여러 이유로 아타리의 가치를 옹호한다.

첫째, 100개 이상의 다양한 게임이 제공하는 다양성이다. 둘째, 연구자 편향이 없다는 점이다. 연구자가 직접 벤치마크를 만들면 자신의 알고리즘에 불리한 요소들을 무의식적으로 배제하게 되지만, 아타리 게임들은 AI 연구가 시작되기 전에 인간을 위해 만들어진 편향 없는 도전 과제들이다.

하지만 카맑은 현재 아타리 연구 방식의 문제점도 지적한다. 표준적인 방법은 하나의 에이전트를 2억 프레임(약 한 달간의 플레이 타임) 동안 훈련시키는 것인데, 이는 현실적이지 않다는 것이다.

현실 세계와의 격차: 물리적 게임 플레이 실험

카맥 팀의 가장 흥미로운 프로젝트 중 하나는 실제 물리적 환경에서 아타리 게임을 플레이하는 시스템이다. 카메라, 로봇 서보, 조이스틱을 이용해 실제 아타리 콘솔에서 게임을 플레이하는 시스템을 구축했다.

이 실험을 통해 여러 중요한 발견을 했다:

지연 시간의 영향: 로봇 컨트롤러를 사용할 때 약 180밀리초의 지연이 발생한다. 이는 인간의 반응 속도(150-200밀리초)와 비슷한 수준이지만, 많은 최신 RL 알고리즘들이 이런 지연에 매우 취약하다는 것을 발견했다.

물리적 제약의 복잡성: 조이스틱을 한 대각선에서 다른 대각선으로 움직일 때 중간 단계에서 의도하지 않은 액션이 발생하는 문제가 있다. 예를 들어, Atlantis 게임에서 오른쪽으로 조이스틱을 움직이면서 발사 버튼을 누르려 할 때, 조이스틱이 완전히 오른쪽에 도달하기 전에 발사가 되어 엉뚱한 방향으로 쏘게 된다.

점수 인식의 어려움: 가장 예상치 못한 문제는 화면에서 점수를 읽어내는 것이었다. 시뮬레이션에서는 내부 메모리에서 점수를 직접 가져올 수 있지만, 실제 환경에서는 화면을 보고 점수를 인식해야 한다. 이것이 생각보다 훨씬 어려운 문제였다고 한다.

미해결된 핵심 과제들

카맥은 현재 AI 연구에서 해결되지 않은 몇 가지 핵심 문제들을 제시한다:

순차적 멀티태스크 학습

현재 RL 에이전트는 한 게임을 학습한 후 다른 게임을 학습하면 이전 게임 능력을 거의 완전히 잃어버린다. 이는 인간의 학습 방식과 완전히 다르다. 인간은 10개의 게임을 각각 한 달씩 플레이한 후 새로운 게임을 접하면, 게임이 어떻게 작동하는지에 대한 이해를 바탕으로 빠르게 적응할 수 있다.

전이 학습의 실패

OpenAI의 "Gotta Learn Fast" 챌린지에서 아무도 의미 있는 전이 학습을 보여주지 못했다. 심지어 Gato 에이전트는 부정적 전이 학습을 보여줬다. 즉, 여러 게임에서 훈련된 모델이 새로운 게임을 학습할 때 처음부터 훈련하는 것보다 더 어려워했다.

희소 보상 문제

실제 세계에서는 비디오 게임처럼 초당 여러 번 보상을 받는 경우가 거의 없다. 아타리 게임 중에서도 Pitfall이나 Montezuma's Revenge 같은 게임들은 몇 분간 아무런 보상 신호 없이 플레이해야 하는 경우가 있다.

탐험과 행동 공간의 문제

현재 대부분의 RL 시스템은 epsilon-greedy 방식(100번 중 한 번은 랜덤 액션)을 사용하는데, 이는 인간의 행동 방식과 전혀 다르다. 또한 현대 게임 컨트롤러(Xbox 컨트롤러 등)는 백만 개 이상의 가능한 액션을 가지고 있어 이산적 액션 공간으로 모델링하기 어렵다.

새로운 벤치마크 제안

카맥은 현재 ML 벤치마킹의 문제점을 지적하며 새로운 접근법을 제안한다. 대부분의 아타리 성능 보고서들이 각자의 훈련 프레임워크를 사용하고 중요한 세부사항들이 재현 불가능하다는 것이다.

그는 에이전트를 매우 단순한 인터페이스로 호출하는 하네스를 만들 것을 제안한다: "에이전트야, 여기 관찰과 보상이 있다. 액션을 줘." 그리고 환경은 에이전트의 통제 없이 계속 진행된다.

이 새로운 벤치마크는 다음과 같은 특징을 가질 것이다:

- 8개 게임을 3번 순환하며 순차적으로 학습

- 마지막 사이클에서 테스트

- 명시적인 평가 단계 없음

- 전체 액션 세트와 sticky actions 사용

기술적 최적화와 실용적 고려사항

카맥은 자신의 저수준 최적화 배경을 언급하며 흥미로운 통찰을 제공한다. 처음에는 커스텀 CUDA 커널부터 시작했지만, 결국 PyTorch를 사용하게 되었다고 한다. 이는 "실수였다"고 회고하며, 너무 저수준에서 시작하는 것의 문제점을 지적한다.

현재 시스템에서는 CUDA Graphs를 사용해 전체 파이프라인을 하나의 CUDA 호출로 처리하고 있다. 이는 정책 평가부터 훈련까지 모든 것을 포함하며, 실제 세계가 계속 진행되는 동안 조기 종료하여 다음 훈련 세트를 준비한다.

인간 vs 기계: 내재적 보상에 대한 고찰

카맥은 인간의 내재적 보상과 기계의 내재적 보상 사이의 차이에 대해 흥미로운 관점을 제시한다. 인간은 우리가 모방하려는 지능의 존재 증명이지만, 인간의 모든 특성을 모방해야 하는지는 의문이다.

그는 일부 명백한 특성들은 모방할 가치가 있다고 본다. 예를 들어, 자신이 무언가를 통제하고 있다는 느낌에서 오는 보상, 시각적 효과의 크기에 따른 보상(작은 픽셀 변화보다는 화면 전체의 폭발이 더 보상적) 등이다.

하지만 온라인 도박 같은 인간 마음의 보상 해킹은 이상적이지 않다고 본다. 결국 최종 점수가 주요 동력이 되어야 하며, 점수 향상에 도움이 되는 내재적 보상이 좋은 보상이라고 생각한다.

결론: 과학으로서의 AI 연구

카맥의 발표에서 가장 인상적인 부분은 그가 AI 연구를 "과학"으로 접근한다는 점이다. 이전의 모든 작업들이 엔지니어링이었다면, 지금은 아무도 모르는 지식을 찾아내는 과학을 하고 있다고 말한다.

그는 현재 AI 분야가 "모든 일이 일어나는 시기"라고 보며, 앞으로 몇 년이 정말 중요한 시기가 될 것이라고 전망한다. LLM의 놀라운 성과에도 불구하고, 연속 학습, 전이 학습, 희소 보상 환경에서의 학습 등 근본적인 문제들이 여전히 해결되지 않았다.

카맥의 접근법은 단순해 보이지만 깊이가 있다. 아타리라는 "구식" 플랫폼을 통해 AI의 가장 근본적인 문제들을 탐구하고, 시뮬레이션과 현실 사이의 격차를 실험을 통해 직접 확인하며, 커뮤니티 전체가 사용할 수 있는 새로운 벤치마크를 제안한다.

결국 그의 메시지는 명확하다. 현재 AI 기술의 화려한 성과에 현혹되지 말고, 여전히 해결되지 않은 근본적인 문제들에 집중해야 한다는 것이다. 그리고 그 문제들을 해결하기 위해서는 단순한 환경에서부터 차근차근 과학적으로 접근해야 한다는 것이다.

Share: