우선 이하의 모든것은 추정에 기반한것이다. 쉽게 말해 뇌피셜...
모든걸 추정하기에 앞서 Gemini API 를 사용하는 주체들은 누가 있을까 생각해보자.
우리가 Gemini APP 을 사용할때가 있을 수 있고,
검색을 할 때가 있을 수 있고,
구글의 다양한 내부 서비스들 ( 대표적으로 GWS.. )
그리고, 사람들이 AI Studio 를 사용할때가 있을꺼고,
혹은 우리가 Cursor와 같은 개발도구를 사용할때,
그리고, 마지막으로 당신이 API로 Gemini 를 호출할때.
자. 그럼 이제 구글은 어떤 형태로 API를 제공하는지 생각해보자.
기본적으로 크게는 AI Studio 와 Vertex AI 가 있다.
그리고 AI Studio 는 무료 티어, 티어1,2,3
Vertex AI 는 provisioning (예약/약정) 과 일반 DSQ ( 동적 공유 할당량 )으로 나뉘어 있다.
그리고 Batch API.
그럼 여기서 우선순위를 정해보자.
당연히 모든것에 앞서서 Provisioning은 최우선이다.
그렇게 약속한거니까.
다음으로 우선순위는 티어1,2,3 와 일반 DSQ가 있는데 크게 다를것 같지 않다.
마지막으로 무료 티어.
그럼 이걸 아까 말한 사용하는 주체들로 생각해보자.
- 아마도, 구글의 기본적인 내부 서비스들 그리고 Cursor , Gemini APP과 같은 대량의 사용. 그리고 미션 크리티컬한 경우들은 아마도 Provisioning을 사용할 가능성이 높다.(물론 일반 DSQ랑 하이브리드로 사용하겠지? ) 그러고, 나서 부족한 쿼터는 일반 DSQ를 이용해서 API를 호출할 가능성이 크다.
비용과 적절한 사용량을 고려하면 말이다.
- 우리가 사용하는 다양한 기업들의 AI 서비스 혹은 어느정도 규모가 있는 대부분의 기업들 혹은 그외의 기타 일반적인 AI 사용패턴은 기본적으로 Provisioning + 일반 DSQ를 사용할거다. 이 사용량이 진짜 어마 어마 하겠지.
- 사람들이 AI Studio를 사용할때는 간혹.. 429가 뜬다. 아마도 앞에서 말한 사용량에 더불어, 기본적으로 AI Studio 사용량이 폭주했을때일거다.
- 사실 이게 우선순위가 높을지, 3번이 높을지는 잘 모르겠다. 다음으로 어쨌던 Vertex AI 의 Batch API 가 있다. Batch API 는 미리 작업을 예약해뒀다가, 서버에서 서버의 부하가 낮아 졌을때 틈틈히 작업을 처리하는것을 의미한다. 문서상으로는 엄청나게 작업을 많이 에약 걸면, 최대 1일까지도 걸릴 수 있다고 하는데, 가격이 반값인 대신 틈틈히 하는 방식으로 시간이 좀 걸린다. 비용 줄이는데는 최고.
- 마지막 우선순위는 확실하게도, 당신이 무료 티어에서 무료 API 를 호출할때이다. 구글의 한정된 자원을 앞의 우선순위에서 다 쓰고 남은 잔여 사용량을 수 많은 무료 티어 사용자들이 경합을 통해 사용할때 여러분이 만나게 되는 메세지가 바로 429 다.
해결책은?
유료 API 를 사용하면 쉽게 해결된다.