기대와 현실 사이의 괴리
GPT-5가 출시된 후 AI 커뮤니티는 완전히 두 갈래로 나뉘었다. 한쪽에서는 "와, 이거 정말 대단하다"며 환호하고, 다른 쪽에서는 "이게 AGI라고? 별거 없네"라며 실망을 표하고 있다. 이런 극명한 반응 차이가 나타나는 이유를 살펴보면, 오픈AI의 서비스 전략과 모델 구조에서 그 답을 찾을 수 있다.
먼저 객관적인 성능 지표를 보자. Artificial Analysis의 최신 벤치마크에서 GPT-5 High와 GPT-5 Medium이 1, 2위를 차지했다. 이전까지 Grok이 상위권을 점령하고 있었는데, GPT-5가 이를 완전히 뒤바꿔놓은 것이다. 하지만 여기서 흥미로운 점은 같은 GPT-5 패밀리 내에서도 성능 편차가 크다는 것이다. GPT-5 High는 최상위권에 있지만, GPT-5 Minimal은 GPT-4o1보다도 낮은 순위에 머물러 있다.
사용자 선택권을 제거한 오픈AI의 전략
가장 큰 문제는 오픈AI가 사용자에게 모델 선택권을 주지 않았다는 점이다. 기존에는 GPT-4, GPT-4 Turbo 등 다양한 모델 중에서 사용자가 직접 선택할 수 있었다. 하지만 GPT-5에서는 시스템이 프롬프트를 분석해서 자동으로 적절한 모델을 선택하는 방식으로 바뀌었다.
이는 마치 무선 청소기의 자동 흡입력 조절 기능과 비슷하다. 청소기가 스스로 판단해서 흡입력을 조절하는 것은 편리하지만, 사용자가 최대 출력으로 계속 사용하고 싶을 때도 있지 않나? GPT-5도 마찬가지다. 시스템이 판단하기에는 GPT-5 Minimal로도 충분한 질문이라고 여겨져서 성능이 떨어지는 모델이 선택될 수 있고, 이때 사용자는 "뭔가 예전보다 답변이 별로네"라고 느낄 수밖에 없다.
개발자 중심으로 설계된 GPT-5
오픈AI는 GPT-5를 개발할 때 개발자를 주요 타겟으로 삼았다고 공식 발표했다. 특히 에이전트 AI 구현을 위한 API 호출 최적화에 집중했으며, 한 번의 프롬프트로 대규모 코드를 생성하는 능력을 강화했다. 기존의 반복적인 수정 과정 대신, 처음부터 완성도 높은 결과물을 제공하는 방향으로 발전시킨 것이다.
하지만 이런 변화가 모든 사용자에게 환영받지는 못하고 있다. 오픈AI가 공식적으로 'GPT-5 프롬프트 가이드'를 발표한 것만 봐도 알 수 있다. 에이전트 AI 시대에는 프롬프트 엔지니어링보다 컨텍스트 엔지니어링이 중요해질 것이라고 했는데, 다시 사용자가 복잡한 프롬프트를 작성해야 하는 상황이 된 것이다.
가이드에 따르면 GPT-5는 도구 사용 시 미리 계획을 설명하고 진행 상황을 지속적으로 보고하도록 훈련되어 있다. 사용자는 목표를 명확히 제시하고, 각 단계별 설명을 요청하며, 보고 스타일까지 지시해야 한다. 'Reasoning Effort' 설정을 통해 얼마나 깊이 생각할지도 조절할 수 있다고 한다.
기술적 성과는 분명히 존재한다
비판적인 시각에도 불구하고, GPT-5의 기술적 발전은 부인할 수 없다. HumanEval 벤치마크에서 92점을 기록했는데, 이는 거의 모든 프로그래밍 문제를 정확히 해결할 수 있는 수준이다. 앞으로 출시될 모든 프론티어 모델들이 이 수준 이상의 성능을 보일 것으로 예상된다.
특히 주목할 점은 환각(hallucination) 현상이 크게 개선되었다는 것이다. 기존 4.5%에서 0.7%로 대폭 감소했다. 이는 20분의 1에서 100분의 1 수준으로 줄어든 것으로, 실제 업무에 활용할 때 신뢰성이 크게 향상되었음을 의미한다.
또한 모든 학습 데이터를 합성 데이터로 구성했다는 점도 흥미롭다. 이는 데이터 품질 관리와 저작권 이슈 해결에 있어서 중요한 진전이라고 볼 수 있다.
오픈AI의 딜레마와 전략적 선택
오픈AI가 이런 방식을 선택한 배경에는 스타트업으로서의 한계가 있다. 메타나 구글과 달리 오픈AI는 광고 수익 같은 안정적인 수익원이 없다. 지속적인 투자 유치가 필요한 상황에서, 투자자들에게 어필할 수 있는 혁신적인 변화를 보여줘야 했다.
모델을 통합하여 효율적으로 컴퓨팅 자원을 사용하면서도 수익성을 개선할 수 있는 구조를 만들고, 동시에 "에이전트 AI 시대의 새로운 기점"이라는 메시지를 전달하려고 한 것으로 보인다. 하지만 이런 전략이 사용자 경험 측면에서는 오히려 역효과를 낳고 있는 상황이다.
AGI 논쟁과 미래 전망
샘 알트만이 AGI 달성을 주장한 것에 대해서는 여전히 논란이 많다. 9.1과 9.2 중 어느 것이 더 큰지도 제대로 답하지 못하는 모델이 AGI라고 할 수 있느냐는 비판이 나오고 있다. 하지만 이런 비판에도 불구하고, 스케일링 법칙에 따른 지속적인 성능 향상 추세를 보면 AGI 달성이 그리 먼 미래의 일은 아닐 수도 있다.
중요한 것은 이것이 끝이 아니라는 점이다. AI 경쟁은 여전히 진행 중이고, 오픈AI가 이런 수준을 달성했다는 것은 다른 기업들도 곧 비슷한 수준에 도달할 것임을 의미한다. 실제로 구글, 메타, 앤스로픽 등 모든 주요 AI 기업들이 엄청난 투자를 쏟아붓고 있다.
결론: 기술은 발전했지만 서비스는 아쉽다
결론적으로 GPT-5는 기술적으로는 분명한 발전을 이뤘지만, 서비스 방식에서는 아쉬움이 많다. 사용자 선택권을 제거하고 시스템이 알아서 판단하도록 한 것은 AGI를 향한 시도로는 의미가 있지만, 현재 기술 수준에서는 오히려 사용자 만족도를 떨어뜨리는 결과를 낳았다.
오픈AI가 앞으로 지속적인 업데이트를 통해 이런 문제들을 해결해 나간다면, 여전히 AI 분야의 선두주자로서의 위치를 유지할 수 있을 것이다. 하지만 다른 기업들도 빠르게 따라잡고 있는 상황에서, 기술적 우위만으로는 충분하지 않다. 사용자 경험과 서비스 품질에도 더 많은 신경을 써야 할 때다.
AI 기술의 발전 속도를 보면, 앞으로 몇 년 내에 정말로 AGI에 근접한 모델들이 등장할 가능성이 높다. 그때까지 오픈AI가 기술적 혁신과 사용자 만족 사이의 균형을 얼마나 잘 맞춰나가느냐가 향후 AI 시장에서의 위치를 결정할 것이다.