GPTSearch 의 등장과 OpenAI 의 우회 전략

Harrison Jung·2024년 7월 27일
4

LLM 그리고 AI

목록 보기
6/8

OpenAI가 최근 GPTSearch를 전격 발표했다. 이 소식은 테크 업계에 작은 파장을 일으켰고, 일부 뉴스에서는 구글의 주가가 3% 하락했다고 보도했다. 하지만 이는 큰 의미가 없어 보인다. MS를 비롯한 다른 기업들의 주가도 함께 하락했기 때문이다. 그렇다면 GPTSearch 발표의 진짜 의미는 무엇일까? 뉴스에 나오지 않는 배경을 살펴보자.

OpenAI의 데이터 수집 전략

OpenAI는 지금까지 주로 두 가지 방법으로 데이터를 확보해왔다. 하나는 크롤링이고, 다른 하나는 대량의 데이터 구매다. 가장 많이 사용한 데이터 소스는 위키피디아다. 우리 회사인 두루미스도 이 데이터를 사용하는데, 영어 데이터만 해도 무려 70GB에 달한다.
그런데 최근 OpenAI의 크롤링을 막는 사이트들이 늘어나고 있다. 처음에는 무단으로 데이터를 수집했지만, GPT 크롤러 봇 정보가 공개된 후 많은 사이트에서 이를 차단하기 시작했다. 웹사이트 관리자들은 Robots.txt 파일을 통해 GPTbot의 접근을 막을 수 있게 되었고 (GPT봇 차단하기) , 이로 인해 OpenAI의 데이터 수집이 점점 어려워지고 있다.
참고: https://platform.openai.com/docs/bots

구글과의 정보 격차

반면 구글은 다른 상황에 놓여 있다. 많은 웹사이트 관리자들이 구글 검색엔진에 노출되기를 원하기 때문에, 구글의 크롤러에 대해서는 상대적으로 관대하다. 이는 시간이 지날수록 구글과 OpenAI 사이의 정보 격차를 벌어지게 만든다. OpenAI가 저작권 문제와 무단 크롤링 비난을 피하기 위해 Robots.txt를 준수해야 하는 상황에서, 이 격차는 더욱 커질 수밖에 없다.

GPTSearch의 의미

이런 맥락에서 GPTSearch의 발표는 중요한 의미를 갖는다. OpenAI 입장에서는 이를 통해 여러 문제를 한 번에 해결할 수 있다. 우선 구글과의 정보 격차를 줄일 수 있다. GPTSearch가 인기를 얻게 되면, 웹사이트 관리자들이 OpenAI의 봇 차단을 해제할 가능성이 높기 때문이다. 또한, 검색 결과에 광고를 넣을 수 있어 새로운 수익원을 확보할 수 있다.

미스터리: 두 개의 봇

흥미로운 점은 OpenAI가 OAI-SearchBot과 GPTBot이라는 두 개의 봇을 별도로 운영하고 있다는 사실이다. 하나는 검색용, 다른 하나는 GPT 학습용이다. 이런 분리 운영 전략은 약간 의아하다. 각각의 목적에 맞는 데이터를 수집하려는 의도로 보이지만, 이 접근법의 효과는 아직 불분명하다.

관련 기사 : 오픈AI·앤트로픽, 웹 크롤링 방지 장치 우회...데이터 무차별 수집

전망

지금까지 OpenAI가 보여준 행보를 고려하면, GPTSearch의 성공 여부는 불확실해 보인다. GPT-4o도 아직 완벽하지 않은 상황에서 GPTSearch가 얼마나 잘 작동할지는 의문이다. 또한, 검색 봇과 GPT 학습 봇을 분리 운영하는 전략이 어떤 결과를 가져올지도 지켜봐야 할 부분이다.
결론적으로, GPTSearch의 발표는 단순한 신제품 출시 이상의 의미를 갖는다. 이는 OpenAI의 데이터 확보 전략과 구글과의 경쟁 구도, 그리고 AI 기술의 미래와 맞물린 복합적인 이슈다. 앞으로 이 서비스가 어떻게 발전하고, 시장에 어떤 영향을 미칠지 주목해볼 만하다. 기술의 발전 속도가 빠른 만큼, 예상치 못한 변화가 일어날 수도 있다. 일단 기다려보며 지켜봐야 할 것 같다.


본 내용은 직접 작성한 내용을 바탕으로 AI의 도움을 받아 작성하였습니다.

profile
차세대 생성형 AI 블로그 서비스 "두루미스"를 만들고 있는 개발자

0개의 댓글