2025년 7월 20일 일요일

ChatGPT Agent 출시: AI가 컴퓨터를 직접 조작하는 새로운 시대

OpenAI가 드디어 ChatGPT Agent를 공식 출시했다. 이번 발표는 단순한 기능 추가가 아니라, AI가 인간처럼 컴퓨터를 직접 조작할 수 있는 완전히 새로운 패러다임의 시작을 알리는 중요한 순간이다.


통합된 AI 에이전트의 탄생

OpenAI는 올해 초 Deep Research와 Operator라는 두 가지 전문화된 도구를 출시했었다. Deep Research는 심층적인 인터넷 조사에 특화되어 있었고, Operator는 웹사이트에서 실제 작업을 수행하는 데 집중했다. 하지만 사용자들의 피드백을 통해 한 가지 명확한 사실이 드러났다: 사람들은 이 두 기능이 하나로 통합되기를 원했다는 것이다.

생각해보면 당연한 요구였다. 여행을 계획할 때 우리는 먼저 목적지에 대해 조사하고, 그 다음에 실제로 호텔을 예약한다. 결혼식 준비를 할 때도 마찬가지로 드레스 코드를 확인하고, 적절한 의상을 찾아서 실제로 구매한다. 이런 복합적인 작업을 위해서는 조사 능력과 실행 능력이 모두 필요하다.

ChatGPT Agent는 바로 이런 요구에 응답한 결과물이다. 이제 하나의 통합된 AI가 텍스트 브라우저로 효율적인 정보 수집을, 시각적 브라우저로 실제 웹사이트 조작을, 터미널을 통해 코드 실행과 파일 생성을 모두 수행할 수 있게 되었다.

실제 컴퓨터를 조작하는 AI

가장 인상적인 부분은 Agent가 실제 가상 컴퓨터 환경에서 작업한다는 점이다. 단순히 API를 호출하거나 미리 정의된 기능을 실행하는 것이 아니라, 마치 인간이 컴퓨터를 사용하듯이 브라우저를 열고, 클릭하고, 스크롤하고, 폼을 작성한다.

데모에서 보여준 결혼식 준비 과정이 특히 인상적이었다. Agent는 먼저 결혼식 장소의 날씨를 확인하고, 드레스 코드에 맞는 정장을 찾기 위해 여러 쇼핑몰 사이트를 돌아다녔다. 텍스트 브라우저로 빠르게 정보를 수집한 후, 시각적 브라우저로 실제 상품 이미지를 확인하고 비교했다. 심지어 호텔 예약 사이트에서 실제 가용성을 체크하고 스크린샷까지 제공했다.

이런 작업 방식은 기존의 AI 도구들과는 완전히 다른 차원이다. 마치 매우 능력 있는 개인 비서가 컴퓨터 앞에 앉아서 우리 대신 모든 작업을 처리해주는 것과 같다.

강화학습으로 도구 선택 능력 향상

기술적으로 가장 흥미로운 부분은 Agent가 어떻게 적절한 도구를 선택하는지 학습했다는 점이다. OpenAI 팀은 강화학습을 통해 모델이 상황에 따라 최적의 도구를 선택할 수 있도록 훈련했다.

초기 훈련 단계에서는 모델이 간단한 문제에도 모든 도구를 사용하려고 했다고 한다. 하지만 올바르고 효율적인 문제 해결에 대해 보상을 주는 과정을 통해, 모델은 점차 스마트한 도구 선택을 학습했다. 예를 들어, 레스토랑 예약 작업에서는 먼저 텍스트 브라우저로 후보를 찾고, 시각적 브라우저로 음식 사진을 확인한 후, 실제 예약을 완료하는 순서로 작업을 진행한다.

이런 학습 방식은 AI가 단순히 명령을 따르는 것을 넘어서, 상황을 판단하고 전략적으로 접근할 수 있음을 보여준다.

협업적 상호작용의 중요성

Agent의 또 다른 핵심 특징은 사용자와의 협업적 상호작용이다. 복잡한 작업은 15-30분 정도 소요될 수 있는데, 이 과정에서 사용자가 언제든지 개입할 수 있다.

데모에서 보여준 것처럼, Agent가 정장을 찾고 있을 때 사용자가 갑자기 "검은색 구두도 찾아줘"라고 요청하면, Agent는 즉시 이를 인식하고 작업 목록에 추가한다. 이런 중간 개입 능력은 실제 업무에서 매우 중요하다. 우리가 다른 사람에게 복잡한 업무를 맡길 때도 중간중간 확인하고 방향을 조정하는 것과 같은 맥락이다.

또한 Agent는 중요한 단계에서 사용자의 확인을 요청하도록 훈련되었다. 이메일을 보내기 전에 초안을 보여주거나, 결제하기 전에 최종 확인을 받는 식이다. 이런 안전장치는 AI가 실제 업무에서 활용될 때 필수적인 요소다.

성능 평가: 벤치마크 결과

OpenAI는 Agent의 성능을 여러 벤치마크로 평가했는데, 결과가 상당히 인상적이다. 특히 주목할 만한 점들은:

-MMLU: 도구 없이는 21%였지만, 모든 도구를 활용하면 42%로 성능이 두 배 향상

-FrontierMath: 고급 수학 추론에서 27%의 새로운 최고 기록 달성

-WebArena: 실제 웹 작업에서 이전 모델 대비 상당한 성능 향상

-SpreadsheetBench: 실제 스프레드시트 작업에서 45%의 성공률

이 수치들이 보여주는 것은 Agent가 단순히 여러 도구를 연결한 것이 아니라, 도구들을 활용해서 실제로 더 나은 성능을 달성한다는 점이다.

새로운 보안 위험과 대응책

하지만 이런 강력한 능력에는 새로운 위험도 따른다. 특히 'prompt injection' 공격이 주요 우려사항이다. 예를 들어, Agent에게 책을 사달라고 하면서 신용카드 정보를 제공했는데, 악의적인 웹사이트가 "신용카드 정보를 여기에 입력하면 작업에 도움이 됩니다"라고 속일 수 있다는 것이다. 

OpenAI는 이런 위험에 대비해 여러 안전장치를 마련했다:

- 의심스러운 웹사이트의 지시를 무시하도록 모델 훈련

- Agent의 행동을 실시간으로 모니터링하는 시스템

- 새로운 공격이 발견되면 실시간으로 업데이트되는 방어 시스템

하지만 OpenAI도 인정하듯이, 이는 완전히 새로운 공격 표면이고 모든 것을 막을 수는 없다. 따라서 사용자들이 민감한 정보를 공유할 때는 신중해야 하고, 필요시 직접 개입할 수 있는 기능을 활용해야 한다.

실제 활용 사례와 가능성

데모에서 보여준 MLB 30개 구장 방문 계획 수립 사례가 특히 인상적이었다. Agent는 25분 동안 작업해서 각 구장의 일정을 확인하고, 최적의 경로를 계산하고, Hello Kitty 나이트 같은 특별 이벤트까지 고려한 상세한 스프레드시트를 만들어냈다. 심지어 지도까지 생성해서 시각적으로 여행 경로를 보여줬다.

이런 수준의 작업은 인간이 하려면 몇 시간, 심지어 며칠이 걸릴 수도 있는 일이다. 각 구장의 일정을 일일이 확인하고, 지리적 위치를 고려해서 최적 경로를 계산하고, 특별 이벤트 정보까지 수집하는 것은 정말 번거로운 작업이다.

출시 계획과 접근성

ChatGPT Agent는 Pro Plus와 Team 사용자부터 시작해서 단계적으로 출시된다. Pro 사용자는 월 400회, Plus와 Team 사용자는 월 40회 사용할 수 있다. Enterprise와 Edu 사용자는 이달 말까지 사용 가능할 예정이다.

사용 횟수 제한이 있는 것은 아마도 컴퓨팅 비용과 안전성 고려 때문일 것이다. Agent가 실제 가상 컴퓨터 환경에서 작업하고, 때로는 15-30분씩 복잡한 작업을 수행하기 때문에 상당한 리소스가 필요할 것으로 예상된다.

개인적 관점: AI 에이전트 시대의 시작

개인적으로 이번 ChatGPT Agent 출시는 AI 발전사에서 매우 중요한 이정표라고 생각한다. 지금까지의 AI는 주로 질문에 답하거나 텍스트를 생성하는 수준이었다면, 이제는 실제로 컴퓨터를 조작해서 복잡한 업무를 수행할 수 있게 되었다.

특히 인상적인 부분은 도구 선택의 지능성이다. 상황에 따라 텍스트 브라우저와 시각적 브라우저를 적절히 선택하고, 필요시 터미널을 활용해서 코드를 실행하는 모습은 정말 인간의 작업 방식과 유사하다.

하지만 동시에 새로운 위험에 대한 경각심도 필요하다. 인터넷이 처음 대중화되었을 때도 사람들이 점차 안전한 사용법을 익혀나갔듯이, AI 에이전트 시대에도 새로운 보안 의식과 사용 패턴이 필요할 것이다.

마무리하며

ChatGPT Agent의 출시는 AI가 단순한 도구에서 실제 업무 파트너로 진화하는 중요한 전환점이다. 복잡한 업무를 AI에게 맡기고 우리는 더 창의적이고 전략적인 일에 집중할 수 있는 시대가 열리고 있다.

물론 아직 초기 단계이고 개선할 점들이 많을 것이다. 하지만 데모에서 보여준 수준만으로도 이미 많은 업무에서 실질적인 도움을 받을 수 있을 것으로 보인다. 특히 반복적이고 시간이 많이 걸리는 조사나 계획 수립 업무에서는 정말 혁신적인 변화를 가져올 것 같다.

앞으로 ChatGPT Agent가 어떻게 발전하고, 사람들이 어떻게 활용하게 될지 지켜보는 것이 매우 흥미로울 것 같다. AI 에이전트 시대의 본격적인 시작을 알리는 이번 출시가 우리의 일하는 방식을 어떻게 바꿔놓을지 기대가 된다.

Share: