



웹개발자지만 앞으로 ai에 관심을 가지면 좋을 것이라 생각했고 gdg 멤버인 동생의 제안으로 DevFest Cloud 2024에 함께 참여했다.
DevFest Cloud 2024는 GDG Cloud Korea에서 주최한 컨퍼런스이다. 11월 23일 오후 1시부터 삼성역 스페이스쉐어 갤럭시홀에서 진행되었다.
구글러가 연사로 참여해서 Google Cloud의 최신 기술 트렌드와 서비스를 직접 들을 수 있었다.
Generative AI, GKE 등 Google Cloud AI를 활용한 실제 유즈케이스와 문제 해결 과정 등을 담은 총 6개의 세션으로 진행되었다.
구글러와 각 분야 전문가들과 직접 대화할 수 있는 기회가 있었고, 스페셜 굿즈인 티셔츠도 받았다. :)
세션을 듣고 잊지 않기 위해 내용을 정리해보았다.
확산 모델(Diffusion Model)의 핵심은 이미지에 노이즈를 넣고 빼는 과정을 통한 학습이며, Google의 대표적인 text to image AI 모델인 IMAGEN이 이 방식을 활용한다.
G2 VM + L4 GPU 환경에서 Stable Diffusion을 커스텀 데이터셋으로 학습시키는 첫 번째 시나리오를 통해 실제 모델 파인튜닝 과정을 살펴보았다.
TPU v5e를 활용한 두 번째 시나리오에서는 MaxDiffusion으로 1024x1024 해상도의 이미지를 첫 호출에서 5.97초, 이후 호출에서 0.84초 이하로 생성하는 성능을 보여주었다.
Google Cloud Imagen은 Vertex AI를 통해 API로 접근 가능하며, 마스킹을 통한 텍스트 제거 등 실용적인 이미지 편집 기능을 제공한다.
현재 영문/한글 자간 처리 로직에 개선이 필요하지만, TPU v5e의 다양한 구성을 통해 성능과 비용 면에서 효율적인 이미지 생성이 가능함을 확인했다.
빠른 프로토타입/MVP가 필요하다면 → Google Cloud Imagen
대규모 서비스나 커스텀 요구사항이 있다면 → TPU v5e + MaxDiffusion
Gemini는 Ultra, Pro, Flash, Nano 등 다양한 모델을 제공하며, 특히 Gemini 1.5 Pro는 100만 토큰(약 75만 단어)의 긴 컨텍스트 윈도우를 지원한다.
실제 데모에서는 69만 토큰 분량의 영화 내용을 학습시켜 질의응답이 가능함을 보여주었고, 텍스트뿐만 아니라 이미지, 영상도 처리 가능한 멀티모달 AI임을 확인했다.
Google AI Studio(aistudio.google.com)를 통해 누구나 쉽게 Gemini를 테스트해볼 수 있다.
Streamlit이라는 파이썬 기반 프레임워크를 활용하면 Gemini의 기능을 웹 애플리케이션으로 쉽게 구현할 수 있다.
데모에서는 Streamlit으로 만든 간단한 웹 서비스를 보여주었는데, 이를 통해 Gemini를 실제로 어떻게 서비스에 활용할 수 있는지 확인할 수 있었다.
RAG의 핵심은 입력된 텍스트를 임베딩 벡터로 변환하여 의미를 이해하는 것인데, 단순히 단어 단위가 아닌 문맥과 관계까지 고려한다는 점이 중요했다.
기본 RAG 아키텍처는 벡터 데이터베이스에 정보를 미리 저장해두고, 질문이 들어오면 임베딩 모델을 통해 관련 컨텍스트를 찾아 LLM에 전달하는 방식으로 동작한다.
정보 검색 과정에서는 '청크 수집'과 '컨텍스트 생성' 두 단계가 있는데, 청크 수집은 코사인 유사도를 통한 정보 수집(recall)이, 컨텍스트 생성은 불필요한 정보 제거가 중요하다.
연속된 질문(multi hop QA) 처리를 위해 질문을 분석하고 분리하는 과정이 필요한데, 이때 NLTK(자연어 처리 도구)로 문장을 긴 문서를 문장별로 나누고, 임베딩 모델로 비슷한 내용의 문장들을 그룹화하고 연관성 없는 내용은 제거한다. 임베딩 모델로 유사성을 확인하며, query graph로 질문들의 관계도 파악한다.
성능 개선을 위해 Vertex Search(구글에서 제공하는 검색 서비스) 나 AlloyDB(구글의 데이터베이스 서비스) 같은 도구를 활용할 수 있고, 특히 Scann 알고리즘은 정확도와 성능의 균형을 맞추는 데 효과적이라고 한다.
Multi hop QA (연속된 질문 처리)란?
예시: "구글의 CEO는 누구야? 그리고 그 사람의 고향은 어디야?"
이런 식으로 이전 질문의 답변을 기반으로 다음 질문이 이어지는 경우를 말한다.
이걸 어떻게 처리하나?
Sentence Splitter: 먼저 긴 질문을 개별 질문으로 나눕니다
"구글의 CEO는 누구야?" + "그 사람의 고향은 어디야?"
Query Graph: 질문들 사이의 관계를 파악한다.
두 번째 질문의 "그 사람"은 첫 번째 질문의 답변(CEO)에 의존함
Gemini는 'Natively Multimodal'한 AI로, 처음부터 텍스트, 이미지, 비디오, 오디오 등 다양한 형태의 데이터를 동시에 처리할 수 있도록 설계되었다.
특히 Gemini 1.5 Pro는 비디오-오디오 인터리빙 기술을 통해 영상과 음성을 번갈아가며 분석하고 이해할 수 있는 기능을 보여주었다.
Vertex AI를 활용하면 Gemini로 비디오 분석을 통한 자동 번역과 타임라인에 맞는 자막 생성이 가능하다.
멀티모달 RAG(Retrieval-Augmented Generation)는 대규모 데이터에서 사용자 질문과 관련된 정보를 검색하는 기술로, 다양한 형태의 데이터를 처리할 수 있다.
이러한 멀티모달 처리 능력은 인간의 정보 처리 방식과 유사해 차세대 AI 기술로 주목받고 있다.
AI 관련 소식과 트렌드를 파악할 수 있는 주요 정보 소스
AI Times
MIT Technology Review
AI Breakfast
주요 테크 기업들의 기술 블로그
Google AI Blog
Meta AI Blog
Microsoft Research Blog
등 회사 기술 블로그들이 최신 AI 기술 동향을 파악하기 좋음
전문 커뮤니티/플랫폼
MLOps 관련 커뮤니티
Vens Byte: AI 개발 및 구현 관련 정보 공유 플랫폼