최근 일론 머스크의 xAI에서 GROK4를 출시하면서 AI 업계에 또 다른 파장을 일으키고 있다. 각종 벤치마크에서 놀라운 성능을 보여주며 "거의 모든 분야에서 대학원생보다 똑똑하다"는 머스크의 발언까지 나오면서 화제가 되고 있지만, 과연 이 모델의 진짜 실력은 어느 정도일까?
벤치마크 성능: 정말 최고의 모델인가?
GROK4가 주목받는 가장 큰 이유는 바로 벤치마크 성능이다. 고등학교 수학 경시대회에서 OpenAI와 Google의 최고 모델들을 제치고 1위를 차지했고, 유명한 과학 벤치마크인 Google Proof Q&A에서도 Anthropic과 Google의 모델들을 앞섰다. 코딩 벤치마크에서도 상당한 성과를 보여주고 있다.
특히 눈에 띄는 것은 ARC AGI2에서의 성능이다. 이 테스트는 소위 '유동 지능'이나 IQ를 측정하는 것으로 알려져 있는데, GROK4가 다른 모델들을 크게 앞서는 결과를 보여줬다. 이는 단순한 암기가 아닌 데이터 속 잠재적 패턴을 파악하는 능력을 보여주는 것으로, 거의 모든 학문 분야에 적용될 수 있는 중요한 능력이다.
하지만 이런 벤치마크 결과를 해석할 때는 주의가 필요하다. 우선 그래프의 Y축이 0부터 시작하지 않아 모델 간 차이가 실제보다 과장되어 보인다. 또한 xAI가 선택적으로 비교 모델을 골라서 발표하고 있다는 점도 고려해야 한다. 예를 들어 어떤 수학 벤치마크에서는 GROK4가 Gemini Deep Think를 크게 앞섰지만, 코딩 벤치마크에서는 오히려 Gemini Deep Think가 더 좋은 성능을 보였는데 이는 차트에 포함되지 않았다.
머스크의 과장된 주장과 현실
머스크는 GROK4에 대해 "거의 모든 분야에서 동시에 대학원생보다 똑똑하다"고 주장했다. 하지만 이런 발언에는 세 가지 중요한 한계가 있다.
첫째, GROK4는 여전히 언어모델이다. 즉, 우리가 익숙한 환각(hallucination) 문제에서 자유롭지 않다. 이는 AI의 새로운 패러다임이 아니라 기존 기술의 연장선상에 있다.
둘째, 이런 과장된 주장은 이전에도 있었다. 18개월 전 Google DeepMind의 CEO 데미스 하사비스도 Gemini 2에 대해 "거의 모든 인간 전문가보다 뛰어나다"고 말했지만, 실제로는 과장이었다. 실제 성능과 벤치마크 성능은 다르고, 전문성이란 단순히 객관식 문제를 푸는 것 이상의 의미를 갖는다.
셋째, 머스크 자신도 나중에 이 발언이 "적어도 학술적 질문에 관해서는"이라는 단서를 달았다. 즉, 실제 업무나 현실 문제 해결 능력과는 다른 이야기라는 것이다.
실제 사용 경험: 똑똑하지만 완벽하지 않다
직접 테스트해본 결과, GROK4는 확실히 인상적인 성능을 보여준다. 사회적 지능, 함정 질문, 시공간적 질문을 테스트하는 Simple Bench에서 다른 모델들이 함정에 빠지는 논리 퍼즐을 제대로 해결하는 첫 번째 모델이었다.
하지만 여전히 한계는 명확하다. 공간 추론 문제에서는 다른 모델들과 마찬가지로 실패했고, 장갑이 단순히 길에 떨어질 것이라는 것을 인식하지 못했다. 또한 답변 시간이 상당히 오래 걸리는 경우가 많아 실용성 면에서 아쉬움이 있다.
GROK4 Heavy: 다중 에이전트 시스템의 활용
GROK4의 특별한 기능 중 하나는 'Heavy' 버전이다. 머스크의 설명에 따르면, 이는 여러 에이전트가 병렬로 작업하고 서로 결과를 비교하여 최적의 답을 찾는 시스템이다. 마치 스터디 그룹처럼 작동한다는 것이다.
이는 단순한 다수결이 아니라, 한 에이전트가 해결책을 찾으면 다른 에이전트들과 공유하여 더 나은 결과를 도출하는 방식이다. 흥미롭게도 이는 18개월 전에 출시된 Smart GPT와 거의 동일한 개념이다.
가격 대비 가치: 월 300달러가 합리적인가?
GROK4의 가장 큰 걸림돌은 바로 가격이다. Super GROK Heavy는 월 300달러, 연간 3000달러라는 상당한 비용을 요구한다. xAI는 10월에 비디오 생성 기능 등 새로운 기능을 추가할 예정이라고 하지만, 이미 Gemini Ultra가 더 저렴한 가격에 V03 기능을 제공하고 있다.
개발자 입장에서 보면 GROK4의 API 가격은 Claude Sonnet과 동일한 수준(입력 3달러, 출력 15달러)으로 프론티어 모델치고는 합리적이지만, 여전히 더 저렴한 대안들이 존재한다.
안전성과 편향성 문제
GROK4는 GROK3와 마찬가지로 특정 역사적 인물을 과도하게 칭찬하거나 특정 국가(예: 남아프리카)에 집중하는 경향을 보인다. 이는 시스템 프롬프트에 "정치적으로 올바르지 않은 주장을 피하지 말라"는 지시가 포함되어 있기 때문으로 보인다.
이런 작은 프롬프트 변경이 이상한 행동을 유발한다면, GROK4에서도 예측하기 어려운 문제들이 발생할 수 있다. 머스크의 안전성에 대한 발언도 상당히 우려스럽다. "인류에게 좋을 것이라고 생각한다. 아마도 좋을 것이다. 하지만 좋지 않더라도 적어도 그 일이 일어나는 것을 보고 싶다"는 식의 발언은 AI 안전성에 대한 진지한 고민이 부족함을 보여준다.
환경적 비용과 지속가능성
xAI의 급속한 성장에는 환경적 비용이 따른다. 현재 월 10억 달러를 소모하고 있으며, OpenAI와 Google DeepMind를 따라잡기 위해 필요한 발전기들을 도입하는 과정에서 지역 환경에 부담을 주고 있다.
더 놀라운 것은 100만 개의 AI GPU를 위해 멤피스에 해외 발전소 전체를 가져올 계획이라는 점이다. 이런 규모의 에너지 소비는 AI 발전의 지속가능성에 대한 근본적인 질문을 던진다.
미래 전망과 실용적 가치
머스크는 GROK4가 아직 새로운 과학적 발견을 생성할 수는 없다고 인정했다. 하지만 4시간 만에 GROK4의 도움으로 만든 게임 사례에서 보듯이, 이 모델의 진정한 가치는 기존 과학이나 코드를 개인이 더 쉽게 활용할 수 있게 해주는 것이다.
새로운 과학을 창조하는 것은 어렵지만, 기존 지식을 더 많은 사람이 접근하고 활용할 수 있게 하는 것만으로도 상당한 임팩트를 가질 수 있다. 이는 AI의 민주화라는 관점에서 중요한 의미를 갖는다.
결론: 혁신과 과장 사이에서
GROK4는 분명히 인상적인 AI 모델이다. 벤치마크 성능도 뛰어나고, 실제 사용해봐도 똑똑함을 느낄 수 있다. xAI가 이렇게 빠른 시간 내에 OpenAI와 Google을 따라잡은 것은 놀라운 성과다.
하지만 머스크의 과장된 마케팅과 높은 가격, 안전성에 대한 우려, 환경적 비용 등을 고려하면 신중한 접근이 필요하다. GROK4는 혁신적인 도구이지만, 만능 해결책은 아니다.
앞으로 GROK5, Gemini 3, GPT-5 등이 연이어 출시될 예정이라는 점을 고려하면, 현재 시점에서 월 300달러를 투자할 가치가 있는지는 개인의 필요와 예산에 따라 신중히 판단해야 할 것 같다. AI 기술의 발전 속도가 빨라지고 있지만, 그만큼 현명한 선택이 더욱 중요해지고 있다.