💌 Reference
1. Deep Research란 무엇인가?
Deep Research는 OpenAI에서 새롭게 선보인 에이전트 기반(AI Agent) 연구 기능으로, 다단계 웹 검색 및 데이터 분석을 자동화하여 전문 연구 분석가 수준의 보고서를 생성하는 AI 도구입니다.
-
웹 브라우징 및 데이터 분석 최적화:
- 실시간으로 정보를 수집하고 분석하여 신뢰성 높은 결과 제공
-
긴 시간 동안 실행 가능:
- 5분에서 30분까지도 길게 요청한 연구 수행 가능
-
출처 명확히 제시:
-
다양한 분야 적용 가능:
- 금융, 과학, 정책, 엔지니어링, 제품 연구, 쇼핑 분석 등에서 활용 가능
-
AGI(일반 인공지능) 로드맵의 핵심 요소:
-
사용자 맞춤형 데이터 분석 기능 제공:
- 사용자의 요구사항을 반영하여 최적의 연구 결과 도출
-
심층적인 정보 평가 및 비교 가능:
- 여러 출처의 데이터를 수집하여 비교 분석 수행
2. 개발 배경 및 기술적 특징
기존 AI 모델은 실시간으로 정보를 탐색하는 기능이 제한적이었습니다.
-
OpenAI는 Deep Research를 통해 이 문제를 해결하고, 복잡한 연구 작업을 자동화하는 것을 목표로 삼았습니다.
-
지식 노동자의 연구 생산성 향상 (시장 분석, 논문 조사, 경쟁사 비교 등)
-
신뢰성 있는 보고서 생성 (출처가 명확한 정보 제공)
-
전문가 수준의 정보 통합 및 분석 (수백 개의 문서를 정리하고 통합하는 능력)
-
비즈니스 인텔리전스를 위한 최적화된 데이터 수집 및 분석 제공
-
기업 및 연구 기관이 신뢰할 수 있는 데이터 기반 의사 결정을 내릴 수 있도록 지원
2.1 o3 Reasoning Model 기반
- OpenAI의 차세대 o3 모델을 Fine-tuning하여 다단계 논리적 추론 및 계획 수행 가능
- 모델이 실시간으로 새로운 정보를 반영하면서 점진적인 사고 과정 수행
- 다중 검색 결과를 종합하여 정보를 필터링하고 핵심 내용을 요약하는 기능 강화
- 이전 GPT-4o 모델보다 문맥을 더 깊이 이해하고 연결하는 방식으로 개선됨
2.2 강화 학습 적용
- AI가 실제 웹 검색 및 분석을 수행하면서 학습을 지속
- 데이터 검색, 분석, 피드백 반영을 통한 자기 최적화 수행
- 어려운 질문에 대한 검색 경로를 최적화하여 효율적 탐색 수행
- 검색 및 정보 분석 과정에서 반복 학습을 수행하며 정보 수집 경로를 최적화
2.3 도구 활용 능력
- Python 실행 가능: 수학 계산, 데이터 분석, 시각화 지원
- 파일 업로드 지원: 사용자 파일(PDF, CSV 등) 분석 가능
- 이미지, 그래프 포함: 보고서 내 시각적 요소 자동 생성
- 웹 문서 분석: 텍스트뿐만 아니라 이미지 및 표 형태의 데이터 해석 가능
- 다중 소스 정보 통합: 여러 웹사이트에서 데이터를 크롤링하여 신뢰도 높은 정보를 선별하고 비교 분석 가능
- 데이터 시각화 기능 강화: 분석한 데이터를 효과적으로 표현하기 위한 차트 및 그래프 자동 생성 기능 포함
3. Deep Research의 성능 평가
3.1 Humanity’s Last Exam 평가
Humanity's Last Exam (HLE)는 수학, 인문학, 자연과학 등 다양한 분야에서 3,000개의 객관식 및 단답형 질문으로 구성된 벤치마크입니다.
- 이 테스트는 AI 모델이 전문가 수준의 지식과 추론 능력을 갖추었는지 평가하기 위해 설계되었습니다.
- 최근 평가에서, OpenAI의 'Deep Research' 모델은 26.6%의 정확도를 기록하여 이전 모델들보다 향상된 성능을 보였습니다.
3.2 GAIA 벤치마크 평가
GAIA(benchmark for General AI Assistants)는 AI 모델이 실제 세계의 복잡한 작업을 얼마나 잘 수행하는지 평가하기 위한 벤치마크입니다.
-
이 테스트는 AI의 추론, 멀티모달 처리, 웹 브라우징, 도구 사용 능력 등을 측정합니다.
-
GAIA는 세 가지 난이도로 구성되어 있으며, 각 레벨은 점점 더 복잡한 작업을 포함합니다.
- 최근 평가에서, 'Deep Research' 모델은 모든 난이도에서 우수한 성능을 기록하였습니다.
3.3 전문가 수준 작업(Expert-Level Tasks) 평가
- Deep Research는 내부 평가에서 전문가 수준의 복잡한 연구 및 데이터 분석을 자동화하는 데 뛰어난 성능을 보였음.
-
(좌) 경제적 가치가 높은 작업일수록 수행률이 낮아지는 경향을 보이며, 이는 모델의 복잡한 의사 결정 과정에서 추가적인 개선이 필요함을 시사.
- X축: 작업의 경제적 가치 (Low, Medium, High, Very High)
- Y축: 수행률(Pass Rate
-
(우) 짧은 시간 내에 해결할 수 있는 작업에서 가장 높은 수행률(0.22)을 기록하며, 각각 4-6시간, 7-9시간 정도의 시간이 걸리는 중간 난이도 문제에서 상대적으로 낮은 성능을 보임(각각 0.13, 0.14). 10시간 이상의 작업에서는 수행률이 다시 증가(0.15).
- X축: 예상 작업 시간 (1-3시간, 4-6시간, 7-9시간, 10시간 이상)
- Y축: 수행률(Pass Rate)
- 더 많은 도구를 활용할수록 수행률이 향상되며, 복잡한 문제 해결 과정에서 반복적인 탐색과 분석이 중요함을 시사함.
- X축: 도구 호출 횟수(Max Tool Calls)
- Y축: 수행률(Pass Rate)
4. Deep Research 데모
OpenAI의 Deep Research 기능이 실제로 어떻게 작동하는지를 보여주기 위해, 패널 토크에서는 다양한 데모를 진행했습니다.
- 각 데모에서는 Deep Research가 어떻게 데이터를 수집하고 분석하며, 최종적으로 보고서를 생성하는지를 시연했습니다.
4.1 시장 조사 및 전략 분석
💬 시나리오
- Deep Research를 활용하여 iOS 및 Android 채택률, 모바일 보급률 증가율, 언어 학습 관심도 변화를 조사.
- 전 세계 상위 개발도상국과 선진국의 시장 데이터 비교.
- 최적의 시장을 찾기 위한 데이터 기반 추천 보고서 생성.
💻 작업 과정
- Deep Research에 질의 입력:
- “전 세계 개발도상국 및 선진국에서 iOS와 Android 채택률, 언어 학습 관심도, 모바일 보급률 변화를 분석하고 최적의 시장을 추천해줘.”
- 질의 명확화:
- Deep Research는 추가 질문을 통해 데이터를 세부적으로 조정.
- 예: “모바일 보급률 증가율을 총 사용자 기준으로 볼 것인지, 신규 사용자 기준으로 볼 것인지?”
- 웹 검색 및 데이터 분석:
- 29개의 웹사이트에서 관련 데이터를 수집하고, 논문, 기사, 보고서를 참조.
- 결과 보고서 생성:
- 깔끔한 표와 그래프를 포함한 전문 분석가 수준의 보고서 출력.
- 각 데이터 출처를 명확히 표시.
💡 결과
- 최적의 시장 추천: ChatGPT 번역 앱이 진출할 가장 유망한 시장 제시.
- 각국의 모바일 OS 점유율 및 언어 학습 수요 비교 분석.
- 모바일 보급률 변화 트렌드 시각화.
4.2 제품 및 소비자 연구
💬 시나리오
- 사용자가 일본에서 스키 여행을 준비하며 최적의 스키 장비를 찾기 위한 조사를 Deep Research에 요청.
💻 작업 과정
- Deep Research에 질의 입력:
- “일본에서 스키 타기에 적합한 최고의 스키 장비를 조사하고 비교해줘. 보고서는 표로 정리해줘.”
- 질의 명확화:
- Deep Research는 사용자의 스키 스타일(올 마운틴, 파우더), 신체 조건(키, 숙련도) 등에 대한 추가 질문을 수행.
- 웹 검색 및 데이터 수집:
- 스키 장비 리뷰, 소비자 평가, 제품 사양 등을 포함한 다수의 웹사이트 탐색.
- 결과 보고서 생성:
- 장비별 장점/단점 분석.
- 각 제품의 가격, 성능, 추천 사용자 유형을 표로 정리.
- 출처 명확히 표기.
💡 결과
- 스키 전문가 추천 장비 TOP 3 선정.
- 각 제품의 장점, 단점, 가격, 추천 환경 비교 분석.
- 보고서 형태로 출력하여 사용자가 쉽게 참고할 수 있도록 정리.
4.3 학술 연구 및 논문 조사
💬 시나리오
- 특정 생물학 논문의 핵심 내용을 분석하고, 관련 연구를 추가로 탐색.
💻 작업 과정
- 사용자가 논문 파일 업로드:
- Deep Research는 논문의 주요 개념과 연구 주제를 자동으로 분석.
- 관련 연구 논문 검색:
- 유사한 연구 논문을 식별하고, 해당 논문들의 주요 내용을 요약.
- 결과 보고서 생성:
- 해당 논문의 핵심 요약과 관련 연구 논문 목록 제공.
- 논문들 간의 공통된 연구 방향과 차이점 비교.
💡 결과
- 기존 논문과의 관계 분석.
- 주요 연구 방향과 실험 결과 요약.
- 추천할 만한 추가 연구 논문 제시.
4.4 역사적/문화적 정보 검색
💬 시나리오
- 사용자가 기억이 희미한 TV 프로그램을 찾기 위해 Deep Research 활용.
💻 작업 과정
- 사용자가 입력한 기억 조각 기반 검색:
- 예: “10년 전쯤 본 드라마에서 두 남자가 포커를 치다가 한 사람이 베팅하라고 말한 후 폴드하는 장면이 있었음.”
- Deep Research가 관련 장면이 포함된 작품 검색:
- 온라인 리뷰, TV 쇼 에피소드 요약, 팬 커뮤니티, 위키 등을 크롤링.
- 결과 도출:
- 드라마 및 에피소드의 제목, 해당 장면의 세부 설명을 포함한 결과 제공.
실제로 맞는거 같기도 하고... 해당 드라마를 안 봐서 모르겠네요 🤔
출처 : https://counterpartstarz.fandom.com/wiki/Both_Sides_Now
💡 결과
- 실제 해당 장면이 있는 TV 쇼를 찾아내어 사용자에게 제시.
- 참고 가능한 영상 클립이나 리뷰 링크 포함.
4.5 기업 투자 분석 데모
💬 시나리오
- 실리콘밸리 벤처캐피털 투자자가 초음속 여객기 시장에 대한 투자 기회를 분석.
💻 작업 과정
- Deep Research에 질의 입력:
- “초음속 여객기 산업의 성장 가능성을 분석하고, 주요 기업 및 투자 기회를 평가해줘.”
- 웹 데이터 및 연구 보고서 검색:
- 업계 보고서, 최신 뉴스, 기업 재무 데이터 수집.
- 경쟁사 비교: R&D(연구개발) 비용 분석, 규제 이슈 검토.
- 결과 보고서 생성:
- 초음속 여객기 시장의 주요 기업, 기술 동향, 투자 리스크 분석.
- 출처가 명확한 기업별 성장 전망 및 시장 점유율 예측 데이터 제공.
💡 결과
- 투자 기회 및 리스크 평가 보고서 제공.
- 유망한 스타트업 및 기존 항공 기업 분석.
- 시장 성장 예측 데이터 및 관련 규제 분석 포함.
5. Deep Research의 작동 방식
-
초기 질의 설정
- 사용자가 질문을 입력하면 AI가 추가 질문을 하여 요구사항을 명확히 함.
- 예: "모바일 보급률을 어떤 기준으로 분석할 것인가?"
-
자동 정보 수집 및 분석
- 웹에서 수백 개의 문서를 검색하여 관련성이 높은 정보를 선별.
- 논문, 뉴스, 데이터베이스 등에서 필요한 자료를 수집.
- 여러 출처를 비교하고 신뢰도를 평가하여 최적의 정보를 선별.
-
데이터 가공 및 보고서 생성
- 표, 그래프, 차트 등을 활용하여 시각적으로 정리된 보고서 제공.
- 출처를 명확히 표시하여 신뢰성 확보.
- 데이터를 시각화하여 이해도를 높이고, 트렌드를 파악하는 데 도움을 줌.
-
사용자 피드백 반영 및 추가 조사
- 필요 시 추가 탐색을 수행하여 최적의 결과 도출.
- 사용자 요구 사항에 따라 데이터 업데이트 및 보완 가능.
6. 향후 발전 방향
OpenAI의 Deep Research는 AI가 수행할 수 있는 연구의 수준을 한층 더 끌어올리는 혁신적인 기술입니다. 단순한 정보 검색을 넘어 다단계 웹 탐색, 신뢰성 높은 데이터 분석, 전문가 수준의 보고서 작성을 자동화하여 연구 생산성을 극대화할 수 있습니다.
이 기술의 핵심 특징은 o3 Reasoning Model 기반의 논리적 추론 능력, 강화 학습을 통한 지속적 최적화, 다양한 도구 활용 능력입니다. 이를 통해 금융, 과학, 정책, 엔지니어링, 비즈니스 분석 등 다양한 분야에서 연구 과정을 효율화하고, 신뢰할 수 있는 데이터 기반 의사 결정을 지원합니다.
벤치마크 평가에서도 Deep Research는 기존 AI 모델 대비 향상된 추론 및 문제 해결 능력을 입증했으며, Humanity’s Last Exam(HLE), GAIA 벤치마크, 전문가 수준의 작업 평가에서 뛰어난 성능을 보였습니다. 특히, 웹 브라우징 및 데이터 분석 최적화, 출처 명확화, 장기 실행 가능성 등의 기능을 통해 AI 기반 연구의 신뢰성과 실용성을 높였습니다.
실제 데모에서도 Deep Research는 시장 조사, 소비자 분석, 학술 연구, 역사적 정보 검색, 기업 투자 분석 등 다양한 시나리오에서 강력한 연구 역량을 발휘했습니다. 사용자의 질의에 대해 추가 질문을 통해 요구사항을 명확히 하고, 수백 개의 출처에서 데이터를 검색·분석하여, 정확하고 신뢰할 수 있는 보고서를 자동으로 생성하는 모습을 보여주었습니다.
이러한 기술의 발전을 보니 연구의 새로운 지평이 열리는 듯하여 기대되면서도, 한편으로는 ‘이거 너무 똑똑한데… 혹시 내 일자리도 연구 대상이 되는 건 아닐까?’ 하는 묘한 긴장감이 들기도 합니다.
출처 : https://www.aitimes.com/news/articleView.html?idxno=162823
하지만 결국 AI는 연구자들의 도구로서 더욱 강력한 지원을 제공하는 방향으로 발전할 것이며, 이를 어떻게 활용하느냐에 따라 우리의 연구 방식도 한층 진화할 것이라고 생각됩니다..! 😅
읽어주셔서 감사합니다 🙌