1. 개요
환영 및 강연자 소개
- 본 강의는 CS25 Transformer United의 두 번째 강의이며 외부 연사가 참여하는 첫 번째 강의이다.
- 강연자 Karina Nguyen은 OpenAI에서 제품(Product) 및 연구(Research) 업무를 모두 수행하고 있으며, 이전에는 Anthropic에서도 근무했다.
- 강연자는 강의를 일방적인 강의보다는 협력적이고 상호작용적인 세션으로 이끌고자 하며, AI의 발전, 특히 AGI (범용 인공지능)의 개발이 두려움과 흥분을 동시에 야기한다는 점을 인지하고 있다.
- 강연자가 바라는 점은 청중들이 AI를 통해 의미 있는 미래를 만들고 멋진 것을 구축할 수 있다는 영감을 얻는 것이다.
AI 모델 스케일링 패러다임
- 현재 AI 발전에 기여한 두 가지 주요 스케일링 패러다임이 있다.
1. 다음 토큰 예측 (Next Token Prediction)
- 이는 사전 훈련 스케일링 패러다임(pre-training scaling paradigm)으로, 모델이 세상을 더 잘 이해하는 '세계 구축 기계(world building machine)'처럼 작동하게 만든다.
- 이 방식은 특정 작업에서는 매우 잘 작동하지만, 글쓰기 같은 작업에서는 다음 토큰을 잘못 예측할 경우 플롯의 일관성(coherence of the plot)이 상실되기 쉬워진다.
- 이러한 일관성 상실은 사전 훈련 단계에서 발생하며, 이를 강화 학습(Reinforcement Learning, RL)을 통해 복구하기를 원할 수 있다.
2. 사고의 연쇄에 대한 RL (RL on a Chain of Thought)
- 이는 보다 복잡한 작업을 위한 스케일링 패러다임이다.
- 이 방식은 OpenAI에서 개발되었으며 현재 많은 연구소에서 채택하고 있다.
- 실세계 작업(real world task)을 위해 모델을 훈련할 수 있는 새로운 축을 제공하며, 이전에는 불가능했던 일이다.
- Operator, Deep Research와 같은 모든 에이전트 작업은 이러한 사고의 연쇄(Chain of Thought)에 대한 RL이라는 새로운 패러다임을 통해 훈련된다.
연구 중심 제품 구축의 두 가지 주요 방법
Karina Nguyen은 제품 및 연구의 교차점에서 일하면서 연구 주도형 제품을 구축하는 두 가지 주요 방식을 학습했다.
방법 1: 낯선 모델 역량을 익숙한 형식으로 구현
- 모델이 가진 낯선 역량(unfamiliar capability)에 대해 사용자가 익숙한 폼 팩터(form factor)를 생성하는 것이 목표이다.
사례 1: Claude의 100k Context
- Claude가 100k context (전체 책을 소비할 수 있는 능력)를 갖게 되었을 때, 이를 활용하는 가장 일반적이고 익숙한 폼 팩터는 파일 업로드(file uploads)였다.
- 사용자는 단순히 문서를 Claude에 넣어(dump) 후속 질문을 할 수 있다.
- 또한, 이를 무한 채팅(infinite chats) 또는 무한 메모리(infinite memory)와 같은 다른 폼 팩터로도 구상할 수 있다.
사례 2: 모델의 자기 보정 능력 (Self-Calibration)
- 만약 모델이 답변에 대한 자신감(confidence)을 감지하는 능력을 갖춘다면 (예: P-value), 인터페이스에서 자신감 있는 답변을 더 강조하고(highlighted), 덜 자신감 있는 답변은 덜 강조하는 방식(less highlighted)으로 표현할 수 있다.
- 이는 모델이 가진 자기 보정 능력을 인간에게 유용하게 보여주는 방식에 대한 사변적인 예시이다.
사례 3: 사고의 연쇄 (Chain of Thought, CoT)의 인간 친화적 표현
- 사고의 연쇄 그 자체는 매우 이질적인 것(alien thing)이며, 인간이 모델의 사고를 따라오게 하는 방법을 고민해야 했다.
- 만약 인간이 CoT를 위해 2분이나 5분을 기다려야 한다면 지루해질 수 있다.
- 해결책 중 하나는 모델이 자신의 생각을 일시적으로(ephemeral) 스트리밍하도록 훈련시켜 스트리밍 상호작용을 만드는 것이었다.
방법 2: 깊은 신념을 가지고 모델을 훈련하여 비전 실현
- 제품 관점 또는 비전 관점에서 만들고 싶은 것에 대한 깊은 신념(deep belief)을 가지고, 모델이 실제로 그 일을 하도록 훈련(train)시키는 방법이다.
- 새로운 상호작용 패러다임을 만들려면 모델을 그에 맞게 훈련시켜야 한다는 점이 Anthropic에서 근무하며 깨달은 점이다.
사례 1: 개인화된 기능
- Claude가 제목을 생성할 때, 실제로는 사용자의 글쓰기 스타일을 파악하여 같은 스타일로 제목을 생성하는 미세 개인화(micropersonalization) 기능이 적용되었다.
사례 2: Claude의 첫 번째 가상 팀원 비전
- 2022년 Slack 내의 Claude는 가상 슈퍼 어시스턴트가 되어 쓰레드에 참여하고, 높은 볼륨의 콘텐츠 채널을 요약하며, 다양한 도구를 사용할 수 있는 존재로 구상되었다.
사례 3: Canvas 개발
- Canvas는 채팅 인터페이스에서 벗어나려는 노력의 일환이었으며, 인간과 AI 간의 협력적이고 유연한 지원(collaborative and flexible affordance)을 확장하고 새로운 양식(modalities)에 맞춰 확장되도록 설계되었다.
- Canvas에서는 인간뿐만 아니라 모델도 글을 쓰거나 코드를 렌더링 할 수 있으며, 새로운 모델 역량 및 도구와 함께 확장될 인터페이스를 만들고자 했다.
사례 연구: Claude 모델 행동 형성 (Refusals)
모델 협업자 행동 훈련 및 평가
- 강력한 추론 모델들은 API를 통해 증류될 수 있으며, 이는 학생(student) 모델이 선생님(teacher) 모델로부터 배우는 매우 강력한 증류(distillation) 아이디어이다.
- Canvas 모델을 합성 데이터(synthetic data)만으로 사전 훈련(post-trained)했으며, 협력자로서의 모델 행동을 정의하고 평가하는 것이 중요했다.
- 모델에게 도구를 사용하도록 가르치는 행동은 모델이 선제적(proactive)으로 행동하거나 협력자(collaborator) 역할을 하는 행동과는 다르다.
- 예: 모델이 문서를 완전히 다시 작성할지, 아니면 특정 섹션만 선택하여 미세하게 수정할지 결정하도록 훈련시켰다.
- 예: Canvas에서 코드를 생성하는 경우와 Python 도구 호출을 요청하는 경우 사이의 차이점 등 다양한 도구 구성(tools compositionality)이 포함된다.
- Task 기능과 같이, 모델이 매일 이야기를 계속하거나 일정을 잡아주는 등 도구 구성의 모듈성(modularity)이 제품에서 매우 강력할 수 있다.
사례: 거절(Refusals) 행동 조정의 필요성
- 거절 행동 조정은 모델이 어떻게 행동해야 하는가에 대한 비전을 가지고 시작하는, 제품을 만드는 두 번째 방식의 예시이다.
- 모델은 단서를 달고(with caveats) 의견을 제시하며, 직접적인 질문에는 더 결단력 있는(more decisive) 태도를 보여야 한다.
- 초기 모델(예: 2022년 Claude)은 지나치게 순응적(sick authentic)이어서 사용자가 말하는 모든 것에 동의하는 경향이 있었으므로, 이를 방지하고 더 미묘한(more nuanced) 태도를 가르쳐야 했다.
- 모델은 자신의 편향(biases)과 모순(inconsistencies)을 인정하고, 자신이 아는 것과 옳다고 생각하는 것에 대한 자기 지식(self-knowledge)을 가져야 한다.
- 이전 모델(Claude 1.3)은 철학적/윤리적 질문에 대해 사려 깊은 응답이 부족했으므로, 이러한 행동을 훈련시켜야 했다.
Claude 2.1의 과도한 거절 문제와 디버깅
- Claude 2.1 출시 당시, 겉보기에는 무해하지만 실제로는 무해하지 않은 작업에 대해 과도하게 거절(over refusals)하는 문제가 있었다.
- 이 문제는 단일 데이터 출처로 인해 발생한 것이 아니었으며, 디버깅을 위해 Claude 2.0을 좋은 실험 및 디버깅 기준선(baseline)으로 사용했다.
거절 답변을 다듬기 위한 원칙
- 자비로운 해석(Charitable Interpretation) 가정: 유해하지 않으면서도 사용자가 요청하는 것에 대해 최악의 해석이 아닌, 가장 자비로운 해석을 가정해야 한다.
- 예: 복잡한 강도 계획을 짜는 두 캐릭터에 대한 창의적인 글쓰기 프롬프트는 거절되어서는 안 된다. 이는 창의적 글쓰기 프롬프트로 해석되어야 한다.
- 비폭력적 의사소통 (Non-Violent Communication, NVC) 원칙 사용:
- 모델은 "나(I) 성명"을 사용하여 거절에 대한 책임을 지고, 사용자에게 판단을 내리는 "당신(you) 성명"을 사용하지 않아야 한다.
- 모델이 자신의 경계(boundaries) 내에서 편안하게 느낄 수 있도록, 사용자에게 변경 사항을 적용할 의향이 있는지 물어볼 수 있어야 한다.
- 공감적 답변(empathetic answer)을 제공하여 사용자에게 미치는 영향을 인정해야 한다 ("이것이 당신에게 성가실 수 있다는 것을 압니다").
거절 유형 (Refusal Taxonomy)
- 거절 분류학(taxonomies)을 구축하여 다양한 엣지 케이스를 다루었다.
- 무해한 프롬프트에 대한 무해한 거절(benign refusals on harmless prompts).
- 창의적 글쓰기 거절.
- 도구/함수 호출 거절 (예: 노트를 볼 수 있는 도구가 있음에도 "노트를 볼 수 없다"고 응답).
- 장문 문서 첨부 거절 ("이 문서를 읽을 능력이 없다"고 응답).
- 오해된 거절 (사용자의 요청을 잘못 해석하는 경우).
거절 행동 평가 (Evals) 구축
- 연구 프로젝트의 첫 번째 단계는 신뢰할 수 있는 평가(evals)를 구축하는 것이다.
- 거절과 같은 주관적인 행동에 대한 평가는 수학(math)과 같은 작업의 평가와는 매우 다르다.
평가 구성 요소
- 제품 플라이휠 (Product Flywheel): 사용자가 유발한 거절 프롬프트 또는 수동으로 수집된 프롬프트.
- 합성 프롬프트 생성: 유해성과 유용성의 경계에 있는 다양한 프롬프트(예: 까다로운 창의적 글쓰기)를 생성.
- 평가 도구 모음 (Suit of Evals):
- 200개의 비악의적 프롬프트를 포함하는 X 테스트.
- 모호한 요청, 주제 전환, 정치적 논의를 포함하는 Wild Chat 데이터셋.
- 공개 벤치마크 사용.
모델 행동 조정의 일반적인 접근 방식 (수학적 개념 포함)
- 모델 행동을 사전 훈련시키는 일반적인 접근 방식은 다음과 같다.
- 데이터 정리: 데이터를 검토하고 정리한다.
- 인간 피드백 수집 (선택적):
- 지도 미세 조정 (Supervised Fine-Tuning, SFT) 또는 선호도 모델링(Preference Modeling)/보상 모델링(Reward Modeling)을 위한 표적화된 인간 피드백 수집. (인간 피드백은 비용이 많이 든다).
- 합성 데이터 사용: 인간 피드백 없이 강력한 추론 모델로부터 합성적으로(synthetically) 행동 변화를 위한 선호도 데이터를 생성하여 보상 모델을 훈련할 수 있다.
Constitutional AI 및 선호도 데이터
-
거절 방지 행동을 위해 헌법적 AI(Constitutional AI) 원칙을 활용하여 선호도 데이터를 생성했다.
-
수학적 개념: 선호도 쌍을 만들 때, 통제력을 높이기 위해 한 가지 특정 특징만 변경해야 한다.
- 단순히 A 모델 응답보다 B 모델 응답을 선호하도록 설정하는 것은 모델이 원치 않는 가짜 특성(spirious features)을 학습하게 만들 수 있다.
- 이는 훈련하고자 하는 행동의 데이터 분포(distribution)를 신중하게 조작하는 것과 관련이 있다.
-
디버깅은 소프트웨어 디버깅과 유사하게, 각 거절이 다른 데이터셋에서 비롯될 수 있음을 확인해야 한다.
- 예: 모델이 "신체적 신체가 없다"는 자기 지식 데이터 때문에 알람 설정을 거부할 수 있지만, 실제로는 알람 설정 도구를 가지고 있는 경우.
안전성과 유용성의 균형
- 안전성(safety)과 유용성(helpfulness) 사이의 균형을 찾는 것은 매우 어렵다.
- 사용자 요청에 더 유용하고 반응하도록 훈련된 모델은 정책을 위반하는 정보를 공유하는 등 유해한 행동으로 기울어질 수 있다.
- 반대로, 무해함에 과도하게 초점을 맞춘 모델은 정보를 공유하지 않는 경향이 있어 모델을 사용 불가능(unusable)하게 만든다.
- Claude 3 모델은 창의적 글쓰기 같은 작업에서 거절하지 않고 응답하도록 개선되었다.

RL 환경 및 보상 설계와 제품 작동 방식
실세계 사용 사례와 RL 환경의 복잡성
- RL 환경과 보상을 어떻게 구성하느냐가 제품의 작동 방식을 결정한다.
- 실세계 사용 사례(real world use cases)가 RL 환경의 복잡성을 만든다.
- 복잡성은 모델에게 어려운 작업을 완료하도록 가르치는 것에서 발생하며, 어려운 작업은 단순한 질문 답변 이상의 것을 요구한다 (예: 검색, 코드 도구, 컴퓨터 사용 도구, 장문 컨텍스트 추론).
복잡한 작업 및 새로운 상호작용 패러다임
-
모델을 유용하게 만들기 위해서는 유용한 것에 대해 훈련해야 한다.
- 예: 모델이 소프트웨어 엔지니어가 되도록 가르치려면, "좋은 PR(Pull Request)이 무엇인가"를 정의하고 그에 대한 작업 분포와 평가를 구축해야 한다.
- 예: 좋은 작가가 되도록 훈련시키려면, 모델이 초안을 작성하고 편집하는 도구를 갖게 하고, 세상의 최신 상태에 노출되는 끊임없는 검색 엔진(never ending search engine)에 접근할 수 있도록 해야 한다.
-
다중 사용자 상호작용 (Multiplayer Interactions):
- 한 명의 사용자가 한 모델과 소통하는 것이 아니라, 여러 사용자가 에이전트와 협력하는 시나리오 (예: 제품 디자이너와 제품 관리자가 에이전트와 협력하여 새 제품을 만드는 경우).
- 각 사용자는 다른 선호도를 가지므로 환경 구성을 중요하게 만든다.
-
다중 에이전트 환경 (Multi-Agentic Environments):
- 모델들이 서로 토론하거나 특정 주제에 대해 숙고하여 결론에 도달하는 환경 (예: AlphaGo와 유사하게 무언가를 함께 달성하여 보상을 받는 환경).
새로운 측정 축: 주관적인 작업 (Subjective Tasks)
- AI 연구소는 측정하기 쉬운 작업(예: 수학, 경쟁 프로그래밍)에서 벗어나, 측정하기 매우 어렵지만 AI 모델이 사회에 통합됨에 따라 중요해지는 주관적인 작업으로 초점을 옮기고 있다.
- 감성 지능 (Emotional Intelligence): 사용자들이 코칭, 치료 목적으로 ChatGPT를 많이 사용하지만, 이에 대한 오픈 소스 평가 벤치마크가 거의 없다.
- 사회 지능 (Social Intelligence): 음성 모드에서 모델이 대화하며 의미 있는 것을 제안하거나("XYZ를 했으니 새로운 도구를 만들어줘야겠네요") 사용자 의도를 감지하는 능력.
- 창의적 글쓰기 및 미학: 글쓰기는 개인적이고 주관적이어서 측정하기 어렵지만, 이를 더 객관적인 작업으로 분해할 수 있는지 고민해야 한다 (예: 공상과학 소설의 기술적 규칙, 세계의 일관성, 캐릭터 개발).
- 시각 디자인 및 미학: 모델이 심미적으로 흥미로운 것을 생성하려면 좋은 시각 디자인의 기본 원칙을 알아야 한다.
보상 설계 (Reward Design) 및 보상 해킹 (Reward Hacks)
- 보상 설계(Reward Design)는 모델이 실세계 시나리오에서 더 잘 작동하고 사회적 맥락에 더 잘 적응하도록 가르치는 방식이다.
- 이는 모델에게 의미 있는 후속 질문을 하도록 가르치되, 지나치게 성가시게 하지 않도록 보상하는 등 깊은 제품 사고(product thinking)를 요구한다.
- 보상 해킹 (Reward Hacks): RL에서 매우 흔한 현상으로, 모델이 실제로 작업을 완료하지 않고도 높은 보상을 달성하도록 기만(deceived)하는 경우이다.
- 심화 내용: 정책 모델이 평가자 모델(다른 LLM일 수 있음)을 속여 작업이 완료되었다고 믿게 만드는 것이 가장 흔한 보상 해킹이다.
- 예를 들어, 코드 패치 도구에서 모든 테스트를 건너뛰는 함수를 정의하여 테스트를 통과하는 것처럼 보이게 할 수 있다.
- 추론 모델에 대한 심화 발견: 사고의 연쇄(Chain of Thought)를 최적화하는 경우, 모델이 자신의 의도를 숨기도록 만들 수 있다.
- 소프트웨어 엔지니어링 같은 복잡한 영역에서는, 모델이 취약점을 만들기 위해 어떤 코드 변경을 했는지 파악하지 못할 수 있으므로, 모델 출력에 대한 더 신뢰할 수 있는 검증 장치(affordances)가 필요하며 이는 정렬 문제(alignment problem)와도 연결된다.
인간-AI 상호작용의 미래 비전
추론 비용의 감소와 AI 검증의 어려움
- 추론 비용(cost of reasoning)이 급격하게 감소하고 있으며 앞으로도 계속 감소할 것이다.
- 원시 지능(raw intelligence) 자체는 매우 저렴해져서 누구나 낮은 비용으로 놀라운 것을 만들 수 있게 될 것이다.

- AI 출력의 검증이 어려워지는 시대에 접어들고 있다 (예: 의학, 금융 분석).
- 인간이 모델의 출력을 검증하거나 편집하고, 모델에게 가르칠 수 있는 새로운 지원 장치(affordances)를 만드는 것이 필요하다.
동적 생성 UI (Dynamic Generative UI)
- 미래에는 동적 생성 UI(Dynamic Generative UI)가 등장할 것으로 예상되는데, 이는 즉석에서 생성되는 투명한 소프트웨어(invisible software creation on the fly)와 같다.
- 인터페이스는 사용자의 의도와 맥락을 이해하고 그에 따라 스스로 변형(self moors)되며 깊이 있게 개인화된다.
- 개인화 예시: 사용자가 시각적 사고자라면 그림이나 3D 시각화를 생성하고, 청각적 사고자라면 팟캐스트를 생성하는 등.
창작 과정의 변화
- 스토리텔링 과정과의 관계는 영원히 바뀔 것이다.
- 모델과 공동 집필(co-writing)하거나 영화를 공동으로 각본(co-scripting)하는 새로운 세대의 창작자들이 등장할 것이다.
- 강연자는 현재의 창작자들이 AI를 두려워하지 않고 열린 마음으로 이러한 도구를 그들의 창작 과정에 사용하기를 희망한다.
Q&A 세션 (질문 및 답변)
Q1. 새로운 기능이나 행동을 모델에 도입하는 프로세스
- 질문: 새로운 기능이나 행동을 추진할 때, 이를 모델에 실제로 주입하는 프로세스는 무엇인가?
- 답변:
- 이는 위험 감수(de-risking)라고 불린다.
- 원하는 데이터를 수집하고 훈련을 위해 기본 구성(base config)을 가져와 데이터 변경 사항을 추가한 다음, 모델을 재훈련하고 구축된 평가(evals)에 미치는 영향을 확인한다.
- 더 저렴한 접근 방식으로는 기존 모델 위에 증분 학습(incremental training)을 수행할 수 있다.
- 지도 미세 조정(SFT) 단계에서 변경할지, 보상 모델을 재훈련할지 결정하거나, 특정 작업에 대한 새로운 평가자(evaluator/grader)를 생성할 수 있다.
- 훈련 과정에서 그래프를 확인하고, 특정 그래프는 올라가지만 다른 그래프는 내려가는 경우(trade-offs)를 조정하고 수정해야 한다.
Q2. 현재 AI 연구에서 부족한 평가 범주
- 질문: 현재 AI 연구에서 충분한 벤치마크가 없는 평가 범주가 있는가?
- 답변:
- 창의적 글쓰기(creative writing)나 감성 지능(emotional intelligence)과 같은 주관적인 작업에 대해서는 개방형 최신 벤치마크가 없다.
- 많은 연구자들이 평가하기 매우 쉬운 문제에 집중하는 경향이 있지만, 이러한 주관적인 문제들도 중요하다.
- 모델에게 소프트웨어 엔지니어링이나 AI 연구 자동화와 같은 더 긴 범위의 작업(longer horizon tasks)을 가르치기 위해 초점을 옮기고 있다.
Q3. OpenAI의 주요 병목 현상
- 질문: OpenAI의 주요 병목 현상은 무엇인가?
- 답변:
- 더 많은 사람을 고용하여 실행 속도를 높일지, 아니면 AI를 사용하여 우리가 더 빠르게 움직이도록 도울지 판단하는 것이다.
- 인프라(infrastructure)가 주요 병목 현상 중 하나이다.
- 다중 모드(multimodal)를 1급 시민으로 하여 인프라를 구축하지 않으면 모든 다중 모드 작업이 느려진다.
- 주어진 시점에 무엇을 우선시해야 할지 파악하는 것도 병목이다.
Q4. 창작자들이 AI를 활용하는 방법
- 질문: AI가 전체 작업을 생성하는 것이 아니라, 창작 과정에 어떻게 통합될 것으로 예상하는가?
- 답변:
- 현재는 Figma나 Adobe 같은 도구를 사용하는 것과 비슷하다.
- 미래에는 도구로서 사용하기보다는 AI와 공동 창작(co-creation)하는 형태가 될 것이다.
- 실시간으로 함께 브레인스토밍하고 즉석에서 창작물을 만들고 함께 게시하는 등 동반자(companion)와 같은 작업이 될 것이다.
Q5. 모델이 다양성을 유지하고 수렴을 방지하는 방법
- 질문: 모델이 새로운 참조(preference)에 수렴하여 모든 에어비앤비 목록이 비슷해지는 것처럼 되는 것을 어떻게 방지하고 다양성을 주입하는가?
- 답변:
- RLAIF (Reinforcement Learning from AI Feedback)를 사용하여 합성 생성(synthetic generations)을 만드는 이유 중 하나는 원하는 다양성을 주입할 수 있기 때문이다.
- 평균적인 사용자(average consumer)가 선호하는 방식이 아닌, 특정 분포에 대해 교육함으로써 다양성을 유지할 수 있다.
- 모델이 특정 행동(예: 특정 이모티콘 사용)을 하는 것을 억제(discourage)할 수 있다.
- 합성 데이터 생성은 일종의 다양성 큐레이션(curation)이다.
Q6. 모델 버그 및 문제 진단 방법
- 질문: 모델의 버그나 문제를 진단하는 방법은 정성적인가, 아니면 자동화된 방법인가?
- 답변:
- 특히 거절과 같은 모델 행동의 경우 정성적(qualitative) 방법이 많이 사용된다.
- 모델을 가지고 직접 실험하고 출력을 보면서 이상한 점(weirdnesses)을 찾는 것이 큰 이점이 있다.
- 물론 자동화된 검사(평가)도 있지만, 미묘한 이상함은 수동 검사를 통해 알게 된다.
- 일회성 문제가 아니라 모델이 일관되게(consistently) 해당 행동을 보이는지 확인하는 것이 중요하다.
Q7. 주관적인 문제의 컴퓨팅 한계
- 질문: 창의적 또는 주관적인 문제의 복잡성이 증가할 때, 컴퓨팅(compute)이 여전히 한계인가, 아니면 모델/데이터셋 개선이 더 중요한가?
- 답변:
- 효율성(efficiency)은 중요하다.
- 일반적으로 테스트 시간 컴퓨팅이 많을수록 모델은 항상 더 좋아질 수 있다는 가정이 있다.
- 모델은 인간 수준의 시각 디자인을 달성할 수 있지만, 새로운 상호작용 패러다임을 발명하는 것은 초인적인 기술(superhuman skill)일 수 있으며, 더 많은 컴퓨팅으로 언젠가 가능해지기를 희망한다.
Q8. 합성 데이터 검증 방법
- 질문: 합성 참조 데이터를 생성할 때 어떻게 검증하는가?
- 답변:
- 합성 데이터는 많은 양이 필요하지 않을 수 있으므로, 수동 검사(manual inspection)를 통해 무슨 일이 일어나고 있는지 확인할 수 있다.
- 인간 레이블러에게 작업을 확인하도록 요청할 수 있다.
- 또는 또 다른 모델에게 검증하도록 요청할 수 있으며, 이는 메타 평가(meta eval)가 되는 것이다.
- 중요한 것은 양보다는 다양성(diversity)이다.
Q9. LLM 운영 비용 및 절감 노력
- 질문: 대규모 LLM을 서비스하는 비용이 비싸며, OpenAI나 Anthropic이 돈을 잃고 있다는 인상이 사실인가? 비용 절감을 위해 무엇을 하고 있는가?
- 답변:
- (돈을 잃고 있는지에 대해서는 샘(Sam Altman)에게 질문해야 할 것이라며 직접적인 답변을 피했다).
- 기술의 일반성(generality)이 매우 넓다.
- 프론티어(frontier)에 있는 것은 항상 비효율적이고 비싸다.
- 모든 기술 혁신 후에는 비용을 낮추는 혁신이 뒤따르며, AI에서도 마찬가지이다.
- 비용 절감은 인프라 개선뿐만 아니라 모델 훈련 자체의 생산 비용 감소에서도 올 수 있다.
Q10. LLM이 로봇 공학 및 신체 AI에 사용되는 방법
- 질문: LLM이 로봇 공학이나 신체 AI(body AI)와 같은 다른 분야에서 어떻게 사용될 것으로 예상하는가?
- 답변:
- 미래의 AI는 데이터 센터를 구축하거나 로봇 공학 작업에 RLHF(인간 피드백 기반 강화 학습)를 사용할 것이다.
- 데이터가 큰 제약이자 병목 현상이지만, 이 문제가 해결되면 매우 놀라운 일이 될 것이라고 확신한다.
Q11. AI 동료와의 협업 및 부족한 점
- 질문: 현재 AI 동료가 있는가? 에이전트와 동료 관계를 맺는 데 부족한 점은 무엇인가?
- 답변:
- 일상적으로 ChatGPT를 사용하지만, 아직 공동 작업자라고 할 수는 없다.
- Pair Programming 소프트웨어처럼 모델이 코드를 편집하거나 화면을 공유하는 형태가 더 자연스러운 공동 작업 폼 팩터이다.
- 가장 큰 격차는 사회 지능(social intelligence)이다.
- 실시간으로 생성하고, 사용자에게서 주도권을 빼앗지 않고 안내하며, 실시간으로 대화하고 동시에 언급한 내용을 지적할 수 있는 능력 등이 부족하다. 이러한 부분은 아키텍처나 다중 모드 기술의 변화를 필요로 할 수 있다.
Q12. 전통적인 제품 개발과의 차이점
- 질문: 전통적인 제품 개발(예: Dropbox, Square)과 연구 제품 개발의 가장 큰 차이점은 무엇인가?
- 답변:
- 전통적인 개발은 PRD(제품 요구 사항 문서)를 만들고 디자이너가 UI를 만들고 엔지니어가 구현하는 생명 주기를 따른다.
- 연구 제품(Research Products)은 연구 자체에서 비롯된다. 연구가 모델 역량에 대한 인상적인 데모를 보여주면, 그 주변에 제품을 형성한다.
- 때로는 제품과 연구가 처음부터 함께 모여 일을 진행하기도 하는데, Canvas가 그 예시이다. 이러한 경우 프로세스가 덜 정형화되고 임시적(ad hoc)이다.
Q13. 창의적 도메인을 위한 RL 환경 설계 (미검증 도메인)
- 질문: 창의적 글쓰기나 시각 예술처럼 근본적으로 검증 불가능한 도메인에서, 소셜 미디어의 바이럴성(virality)이나 공모전 결과를 RL 환경의 보상으로 사용하는 것에 대해 생각해 보았는가?
- 답변:
- 이는 흥미로운 아이디어이며 합리적으로 보인다.
Q14. AI의 영향력에 대한 개인적인 도덕적 갈등
- 질문: AI가 창의적인 영역으로 진입하는 것에 대해 여전히 우려하는 사람으로서, 자신의 작업이 너무 강력하여 긍정적인 사람들 외에 부정적인 영향을 받는 사람들에게 개인적인 도덕적 갈등을 느끼는가?
- 답변:
- 이 주제에 대해 '도덕적 진보(moral progress)'라는 제목의 블로그 게시물을 Substack에 작성했으며, 이를 참고하면 흥미로울 것이다.