“구글링의 시대는 끝났다? OpenAI의 ‘Deep Research’가 여는 검색혁명”

OpenAI’s Deep Research Team on Why Reinforcement Learning is the Future for AI Agents

 

Josh Tobin:
이 분야에서 사람들이 반복해서 배우는 교훈이 하나 있는데요. 우리가 모델보다 더 똑똑한 방식을 스스로 만들어낼 수 있다고 생각하지만, 기술이 발전할수록 모델이 인간보다 더 나은 해결책을 찾아내곤 합니다. 머신러닝에서 가장 중요한 교훈은, 결국 “최적화한 만큼 결과가 나온다”는 것입니다. 만약 당신이 원하는 결과를 정확히 최적화할 수 있도록 시스템을 구축할 수 있다면, 여러 모델들을 단순히 끼워 맞추는 것보다 훨씬 더 좋은 성과를 낼 겁니다. 그래서 장기적인 관점에서는, 가장 강력한 AI 에이전트를 만드는 데는 모델 위에서 ‘강화학습’을 이용한 튜닝이 아주 중요한 부분이 될 거라고 생각합니다.

진행자:
오늘 Deep Research 제품을 이끄는 OpenAI의 이사 풀포드(Issa Fulford)와 조쉬 토빈(Josh Tobin)을 모셨습니다. Deep Research는 3주 전에 출시되어 많은 테크 업계 유명 인사들에게 빠르게 인기를 얻고 있으며, 산업 분석부터 의료 연구, 심지어 생일 파티 계획에까지 쓰이고 있습니다. Deep Research는 복잡한 웹 검색과 추론 작업을 직접 강화학습(end-to-end reinforcement learning)을 통해 훈련받은 제품이죠.

OpenAI의 두 번째 에이전트 제품이며, 첫 번째는 ‘Operator’였습니다. 오늘 두 분과 Deep Research의 사용 사례부터 기술적 작동 원리, 향후 계획까지 모든 이야기를 나눠 보겠습니다. 이사와 조쉬, 환영합니다.

Issa Fulford & Josh Tobin:
감사합니다. 여기 오게 되어 정말 기쁩니다. 초대해 주셔서 감사해요.

 

진행자:
그럼 먼저 Deep Research가 무엇인지, 탄생 배경에 대해 알려주실래요?

Issa Fulford:
Deep Research는 많은 웹사이트를 검색해서 매우 포괄적인 보고서를 작성하는 AI 에이전트입니다. 인간이라면 몇 시간씩 걸릴 작업을 5분에서 30분 내에 처리할 수 있어요. 일반적인 ChatGPT보다 훨씬 더 깊이 있고 구체적인 소스가 담긴 답변을 제공합니다. 최근 출시한 Operator에 이어 저희가 내놓은 두 번째 에이전트인데요, 앞으로도 더 많은 에이전트를 출시할 계획입니다.

진행자:
Deep Research가 어떻게 등장하게 됐는지 궁금합니다.
언제 시작됐고, 몇 명이 참여했나요?

Issa Fulford:
좋은 질문이에요. 사실 제가 오기 전부터 시작된 일이라서…

Josh Tobin:
대략 1년 전쯤 내부적으로 새로운 추론 방식을 이용해 모델을 훈련시켜 응답 전에 생각하게 하는 접근법에서 큰 성과를 얻었어요. 초반에는 수학과 과학 분야에 집중했었는데, 이 방법이 더 장기적이고 복잡한 작업도 할 수 있게 만들어주었습니다. 많은 사람들이 웹에서 외부 정보를 얻는 작업을 하잖아요. 창의적인 판단과 추론이 요구되는 그런 작업들에 적합한 모델을 훈련시킬 방법을 찾게 되었고, 그래서 실제적인 웹 브라우징과 추론 작업을 본격적으로 시도하게 됐어요.

진행자:
이사는 처음부터 참여했나요? 조쉬는 어떻게 이 프로젝트에 합류하게 되었나요?

Issa Fulford:
처음엔 저와 요스 프틸(Yos Ptil)이 함께 비슷한 프로젝트를 진행했고요. 또 토마스 딤슨(Thomas Dimson) 같은 뛰어난 엔지니어와 함께 했어요. 그는 무엇이든 뛰어들어서 빠르게 해결해내는 대단한 사람이에요.

Josh Tobin:
저는 비교적 최근에 다시 OpenAI에 합류했어요. 6개월 전에요. 초창기에도 OpenAI에 있었고, 스타트업을 하다가 다시 돌아왔을 때, 이 프로젝트와 다른 휴먼-모델 팀(HMT) 관련 프로젝트에 관심을 갖게 되어서 참여하게 되었어요.

 

진행자:
이 제품을 어떤 사람들을 생각하며 만들었나요?

Josh Tobin:
기본적으로 지식 노동을 하는 누구에게나 도움이 될 수 있습니다. 업무상 시장 조사, 기업 분석, 부동산, 과학적 연구, 의료 관련 업무에서 많은 분들이 활용하고 있습니다. 업무 외에도 쇼핑이나 여행 계획에도 많이 쓰이고 있어요. 아마  더 많은 사람들이 사용하게 되면서 새로운 용도가 생길 거라고 기대하고 있습니다.

 

진행자:
두 분은 개인적으로 어떻게 사용하나요?


사실 저도 최근 자동차를 살 계획이라서 Deep Research로 출시 예정 모델 정보를 조사했는데, 여러 루머나 블로그 글들을 분석해 정확한 정보를 얻었어요. 정말 유용했습니다.

 

Josh Tobin:
맞아요. 일반적인 정보를 폭넓게 수집하는 것뿐 아니라, 인터넷에서 찾기 힘든 아주 구체적이고 특이한 정보도 잘 찾아줍니다. 그런 점이 정말 매력적이죠.

 

진행자:
오호, 그 특이한 사용 사례라는 게 어떤 거죠?

 

Issa Fulford:
가장 놀란 건 코딩이었어요. 트위터 등에서 코딩이나 최신 패키지 문서를 찾는 데 활용하는 사람들이 많더라고요. ChatGPT 사용자 입장에선 당연한데, 저희가 이걸 미리 생각 못 했다는 게 약간 민망하기도 했죠.

진행자:
기업용과 개인용 중에 앞으로 어디에 더 많이 사용될까요?

 

Josh Tobin:
둘 다요. 기업에서도 개인 일상에서도 시간을 많이 절약해 주니까 둘 다 성장할 거라고 봅니다.

 

Issa Fulford:
개인적으로는 쇼핑이나 여행 정보 찾기에 많이 썼어요. 최근 일본에서 Deep Research 출시 행사할 때도 식당 찾는 데 엄청 유용했어요. 개인적인 특별한 여행이나 고가의 상품 구매 결정처럼 시간이 많이 드는 작업에도 매우 효과적이죠. 여러 질문을 동시에 하거나 복잡한 요구사항도 잘 이해해서 표로 깔끔하게 정리해 주는 기능도 있습니다.

진행자:
정말 좋은 팁이네요. Deep Research가 어떻게 이렇게 놀라운 성능을 낼 수 있는지 그 내부 기술도 궁금해요. 어떻게 작동하나요?

Issa Fulford:
좋은 질문이네요. Deep Research는 ‘end-to-end reinforcement learning’을 통해 훈련된 모델이에요. 좀 더 쉽게 말하면, 모델이 스스로 시행착오를 겪으며 인터넷 검색이나 복잡한 추론 같은 어려운 작업을 배우는 방식입니다. 처음에는 모델이 잘 못 하겠지만, 많은 시행착오를 겪으면서 점점 더 잘하게 됩니다. 특히 Deep Research의 경우, 모델이 웹페이지를 효과적으로 분석하고, 중요한 정보를 추출하며, 그것들을 종합하여 사용자의 질문에 잘 맞는 보고서를 만들 수 있도록 설계되었습니다.

Josh Tobin:
네, 맞아요. 여기서 중요한 점은 ‘end-to-end’라는 개념이에요. 과거의 많은 시스템들은 서로 다른 작업을 하는 여러 모델을 조합해서 만들었는데요, Deep Research는 처음부터 끝까지 하나의 목표를 가지고 최적화됩니다. 모델이 브라우저를 직접 제어하면서 필요한 웹사이트를 방문하고, 그곳에서 얻은 정보를 통합해서 최종 답변을 작성하는 모든 과정을 하나의 모델이 통합적으로 학습하죠. 그래서 기존 방식보다 더 정확하고 효율적입니다.

진행자:
이 기술을 개발할 때 특별히 어려웠던 점이 있었나요?

Issa Fulford:
인터넷이란 환경 자체가 아주 복잡하기 때문에 처음엔 꽤 까다로웠어요. 정보가 너무 많기도 하고, 모델이 잘못된 정보를 잘못된 맥락으로 가져올 위험성도 있죠. 특히 모델이 ‘어떤 정보가 더 신뢰할 수 있는가’를 판단하도록 훈련시키는 부분이 큰 도전이었습니다.

 

Josh Tobin:
네, 특히 모델이 스스로 정보를 평가하는 능력을 키우는 게 정말 중요했어요. 좋은 정보를 선별하고, 어떤 출처를 신뢰할지 판단할 수 있게 만드는 게 가장 힘들었죠. 다행히 ‘reinforcement learning’ 방식 덕분에 이런 문제를 효과적으로 해결할 수 있었습니다.

진행자:
미래에 출시할 다음 에이전트들에 대해서도 궁금해지네요. 앞으로 어떤 걸 기대할 수 있을까요?

 

Issa Fulford:
앞으로 더 다양한 작업을 수행할 수 있는 에이전트를 만들 계획이에요. Deep Research가 정보 검색 및 분석 분야를 다뤘다면, 이후 에이전트들은 실제로 더 복잡한 작업, 예를 들어 일상 생활에서 일어나는 여러 단계를 가진 문제 해결이나 개인의 업무를 더 깊게 이해하고 돕는 그런 에이전트들이 나올 예정입니다.

 

Josh Tobin:
네, 그리고 사용자 맞춤화도 중요한 목표예요. 개개인의 요구사항을 더 잘 이해하고, 사용자가 원하는 방식으로 더 세밀하게 도움을 줄 수 있는 에이전트를 만들려고 합니다. 또한 앞으로는 AI가 단순히 정보를 제공하는 것뿐만 아니라 실제로 사용자의 업무나 생활의 일부를 자동화하는 데 더 많이 쓰이게 될 겁니다.

 

진행자:
두 분은 AI 에이전트의 미래가 어떤 모습일 거라고 예상하시나요?

 

Issa Fulford:
AI 에이전트가 사람들의 삶을 훨씬 더 편하게 만들어주는 방향으로 갈 거라고 생각해요. 지금은 사용자가 일일이 AI에 요청해야 하는데, 앞으로는 AI가 사용자의 니즈를 먼저 파악하고 미리 행동을 제안하거나 자동으로 처리해 줄 수 있는 방향으로 발전하지 않을까 싶어요.

 

Josh Tobin:
저도 동의해요. 앞으로는 AI가 사용자의 삶에 깊이 녹아들어서 일상에서 자연스럽게 도와주는 존재가 될 거라고 봅니다. 특히 Deep Research 같은 모델이 발전하면서, AI가 사람들의 창의력과 생산성을 높여주는 도구를 넘어, 진정한 파트너가 될 수 있다고 믿어요.

 

진행자:
정말 흥미롭습니다. 끝으로 두 분이 Deep Research 프로젝트를 하면서 얻은 개인적인 배움이나 교훈이 있다면 무엇인지 나눠주실 수 있을까요?

 

Issa Fulford:
이 프로젝트를 하면서 “모델에게 최대한 많은 자유를 줘야 한다”는 걸 배웠어요. 사람이 생각하는 최적의 방법보다 모델이 더 좋은 답을 낼 때가 정말 많더라고요. 그래서 AI를 믿고, 더 많은 자율성을 줄수록 결과가 더 좋아진다는 걸 다시 한번 깨달았습니다.

 

Josh Tobin:
저는 “항상 최종 목표에 초점을 맞추는 것”의 중요성을 배웠어요. 최종적으로 사용자가 원하는 결과를 정확히 정의하고, 그것을 향해 지속적으로 최적화할 수 있게 시스템을 구축하면 정말 좋은 성과를 얻을 수 있다는 걸 알게 되었죠.

 

진행자:
정말 좋은 이야기였습니다. 오늘 함께해 주신 이사 풀포드와 조쉬 토빈, 정말 감사드립니다.

 

Issa Fulford & Josh Tobin:
저희도 즐거웠어요. 초대해 주셔서 감사합니다!

 

[출처] OpenAI’s Deep Research Team on Why Reinforcement Learning is the Future for AI Agents

 

AI 시대, 가장 확실한 대비를 위해
지금 바로 배울 수 있는 [ AI ] 관련 강의가 준비되어있어요.

지금 바로 아래에서 관심을 끄는 강의를 눌러 확인해보세요.

테디노트의 RAG 비법노트 : 랭체인을 활용한 GPT부터 로컬 모델까지의 RAG 가이드테디노트의 RAG 비법노트 : 랭체인을 활용한
GPT부터 로컬 모델까지의 RAG 가이드
모두의 AI 케인의 Agent로 완성하는 RAG: 데이터 별 아키텍처 설계를 중심으로모두의 AI 케인의 Agent로 완성하는 RAG:
데이터 별 아키텍처 설계를 중심으로
차원이 다른 연구 프로세스: 연구자를 위한 AI툴 활용법

차원이 다른 연구 프로세스
: 연구자를 위한 AI툴 활용법

2025 AI 시대 일잘러를 위한 비현실적인 700가지 ChatGPT 활용 바이블

2025 AI 시대 일잘러를 위한 비현실적인
700가지 ChatGPT 활용 바이블

[출처] Stanford CS229 I Machine Learning I Building Large Language Models (LLMs)

Facebook Comments