드디어 그 유명한 GPT-5가 세상에 모습을 드러냈다. 그런데 반응이 예상과는 사뭇 다르다. 어떤 사람들은 코딩 실력에 감탄하고, 또 어떤 사람들은 가격과 속도에 만족해하지만, 동시에 "사상 최악의 AI 모델"이라며 분노하는 목소리도 높다. 도대체 무슨 일이 벌어진 걸까?
모델 집합체라는 새로운 접근
GPT-5의 가장 큰 특징은 단일 모델이 아닌 여러 모델의 집합체라는 점이다. 라우팅 기능이 내장되어 있어서 사용자의 질문을 분석한 후 가장 적합한 모델을 자동으로 선택해서 실행한다. 예를 들어 "생각해봐"라는 명령을 주면 추론에 특화된 모델을, 코딩 요청을 하면 코딩에 최적화된 모델을 돌리는 식이다.
이런 접근 방식은 분명 혁신적이다. 하나의 거대한 모델로 모든 것을 처리하려던 기존 방식에서 벗어나 특화된 여러 모델을 조합하는 것은 효율성 면에서 큰 장점이 있다. 하지만 동시에 일관성 있는 사용자 경험을 제공하기 어려워진다는 단점도 있다.
성능은 어떨까? 벤치마크 분석
흥미롭게도 OpenAI는 이번에 다른 회사 모델들과의 성능 비교 차트를 공개하지 않았다. 이는 상당히 이례적인 일이다. 직접 찾아본 벤치마크 결과를 보면:
수학 성능: 상당히 높은 점수를 기록했다. 다만 이는 '씽킹 모드'를 활용했을 때의 결과다. 예를 들어 AI들이 어려워하는 "-1 - (-9)" 같은 계산을 일반 모드로 물어보면 0.1초 만에 틀린 답을 주지만, 씽킹 모드에서는 차근차근 수식을 세워서 정확한 답을 도출한다.
의료 지식: 벤치마크 성적이 크게 향상되었다. 할루시네이션(잘못된 정보 생성)도 확실히 줄어들었다는 평가가 많다.
코딩 능력: 타사 모델들과 비슷한 수준이지만, 특히 프론트엔드 개발에서 두각을 나타낸다. 디자인 센스가 기본적으로 탑재되어 있어서 요즘 트렌드에 맞는 UI를 한 번에 잘 뽑아준다.
가격 혁명, 하지만 숨겨진 함정
GPT-5의 가장 큰 장점 중 하나는 압도적으로 저렴한 가격이다. 최신 모델과 비슷한 성능을 몇 배 더 싼 가격에 제공한다니, API를 사용하는 개발자들에게는 반가운 소식이다. 특히 에이전트를 개발하는 사람들에게는 토큰 소비량이 많기 때문에 이런 가격 경쟁력은 큰 메리트다.
하지만 여기서 문제가 시작된다. 공식 리포트를 자세히 보면 차트의 길이가 이상하거나 수상한 부분들이 눈에 띈다. 아마도 GPT에게 차트 제작을 맡긴 것 같은데, 이런 디테일한 실수들이 신뢰성에 의문을 제기하게 만든다.
사용자 경험의 급격한 변화
정작 큰 문제는 사용자 경험에서 나타났다. GPT-5를 써본 사람들이 공통적으로 지적하는 점들이 있다:
- 답변이 현저히 짧아졌다
- 친근한 말투가 사라졌다
- 이모지를 거의 사용하지 않는다
- 전반적으로 무뚝뚝하고 사무적이다
이를 음식점에 비유하면 "음식 나왔습니다" 하면서 접시를 툭 던져주는 느낌이라고 할까. 코딩이나 업무용으로만 사용하는 사람들에게는 오히려 좋을 수 있지만, 대화를 목적으로 하거나 글쓰기에 활용하는 사용자들에게는 큰 불편함이다.
특히 AI와의 대화를 통해 정서적 교감을 찾던 사용자들의 실망이 크다. 심지어 AI 연애 관련 커뮤니티에서도 말투 변화에 대한 불만이 쏟아지고 있다.
OpenAI의 대응과 해결책
사용자들의 거센 반발에 OpenAI는 플러스 유저들에게 이전 버전 선택권을 다시 제공했다. 하지만 이것도 완전한 해결책은 아니다. 예전 GPT-4의 느낌과는 여전히 다르다는 평가가 많고, 무료 사용자들은 여전히 전환이 불가능해서 불만이 계속되고 있다.
OpenAI 직원들의 AMA에서는 이런 변화가 의도적이라고 밝혔다. 설정에서 말투를 바꾸거나 프롬프트로 "이모지를 넣어주고 칭찬해달라"고 요청하면 충분히 친근하게 대화할 수 있다고 설명했다. 하지만 이는 사용자가 매번 추가 작업을 해야 한다는 의미이기도 하다.
기술적 한계와 미래 전망
이번 GPT-5를 보면서 근본적인 질문이 든다. 과연 현재의 언어 모델 아키텍처로 진정한 AGI(Artificial General Intelligence)를 만들 수 있을까?
현재 대부분의 AI 모델은 다음 단어를 예측하는 방식에 인간 피드백 강화학습을 더한 구조다. 사람이 추론을 흉내내려고 만든 CoT(Chain of Thought) 모델도 학습 범위를 벗어나면 쉽게 무너진다는 연구 결과들이 나오고 있다.
그래서 GPT-5처럼 외부 도구를 결합한 뉴로-심볼릭 AI가 미래라는 주장도 제기되고 있다. 순수한 신경망 기반 접근법의 한계를 인정하고, 논리적 추론과 기호 조작 능력을 결합하는 방향으로 가야 한다는 것이다.
개인적 평가와 시사점
솔직히 말하면, 그동안 AGI가 곧 나올 것처럼 과대광고를 해온 것에 비하면 GPT-5는 생각보다 혁신적이지 않다. 성능 향상은 분명히 있지만, 패러다임을 바꿀 만한 수준은 아니다.
하지만 동시에 놀라운 점도 있다. 대규모 언어 모델이 나온 지 겨우 2-3년밖에 안 되었는데 이 정도까지 발전한 것은 분명 인상적이다. 특히 가격 경쟁력과 특화된 기능들을 보면 실용성 면에서는 큰 진전이 있었다.
다만 사용자 경험 측면에서는 명백한 후퇴가 있었다. 기술적 성능만 추구하다가 사용자들이 실제로 원하는 것을 놓친 것 같다. AI는 단순히 정확한 답을 주는 도구가 아니라, 사람과 상호작용하는 파트너 역할도 해야 한다는 점을 간과한 것이다.
결론적으로, GPT-5는 기술적으로는 진전이 있었지만 사용자 경험에서는 아쉬움이 남는 모델이다. 앞으로 OpenAI가 이런 피드백을 어떻게 반영할지, 그리고 다른 AI 회사들이 어떤 차별화 전략을 내놓을지 지켜볼 일이다. 무엇보다 AI 기술이 단순히 성능 경쟁을 넘어서 진정으로 인간에게 도움이 되는 방향으로 발전하기를 기대한다.