[NLP] CS25 V5 2강 정리 [RL as a Co-Design of Product and Research]

김성윤(Jack)·2025년 10월 10일

NLP

목록 보기

27/35

1. 개요

환영 및 강연자 소개

본 강의는 CS25 Transformer United의 두 번째 강의이며 외부 연사가 참여하는 첫 번째 강의이다.
강연자 Karina Nguyen은 OpenAI에서 제품(Product) 및 연구(Research) 업무를 모두 수행하고 있으며, 이전에는 Anthropic에서도 근무했다.
강연자는 강의를 일방적인 강의보다는 협력적이고 상호작용적인 세션으로 이끌고자 하며, AI의 발전, 특히 AGI (범용 인공지능)의 개발이 두려움과 흥분을 동시에 야기한다는 점을 인지하고 있다.
강연자가 바라는 점은 청중들이 AI를 통해 의미 있는 미래를 만들고 멋진 것을 구축할 수 있다는 영감을 얻는 것이다.

AI 모델 스케일링 패러다임

현재 AI 발전에 기여한 두 가지 주요 스케일링 패러다임이 있다.

1. 다음 토큰 예측 (Next Token Prediction)

이는 사전 훈련 스케일링 패러다임(pre-training scaling paradigm)으로, 모델이 세상을 더 잘 이해하는 '세계 구축 기계(world building machine)'처럼 작동하게 만든다.
이 방식은 특정 작업에서는 매우 잘 작동하지만, 글쓰기 같은 작업에서는 다음 토큰을 잘못 예측할 경우 플롯의 일관성(coherence of the plot)이 상실되기 쉬워진다.
이러한 일관성 상실은 사전 훈련 단계에서 발생하며, 이를 강화 학습(Reinforcement Learning, RL)을 통해 복구하기를 원할 수 있다.

2. 사고의 연쇄에 대한 RL (RL on a Chain of Thought)

이는 보다 복잡한 작업을 위한 스케일링 패러다임이다.
이 방식은 OpenAI에서 개발되었으며 현재 많은 연구소에서 채택하고 있다.
실세계 작업(real world task)을 위해 모델을 훈련할 수 있는 새로운 축을 제공하며, 이전에는 불가능했던 일이다.
Operator, Deep Research와 같은 모든 에이전트 작업은 이러한 사고의 연쇄(Chain of Thought)에 대한 RL이라는 새로운 패러다임을 통해 훈련된다.

연구 중심 제품 구축의 두 가지 주요 방법

Karina Nguyen은 제품 및 연구의 교차점에서 일하면서 연구 주도형 제품을 구축하는 두 가지 주요 방식을 학습했다.

방법 1: 낯선 모델 역량을 익숙한 형식으로 구현

모델이 가진 낯선 역량(unfamiliar capability)에 대해 사용자가 익숙한 폼 팩터(form factor)를 생성하는 것이 목표이다.

사례 1: Claude의 100k Context

Claude가 100k context (전체 책을 소비할 수 있는 능력)를 갖게 되었을 때, 이를 활용하는 가장 일반적이고 익숙한 폼 팩터는 파일 업로드(file uploads)였다.
사용자는 단순히 문서를 Claude에 넣어(dump) 후속 질문을 할 수 있다.
또한, 이를 무한 채팅(infinite chats) 또는 무한 메모리(infinite memory)와 같은 다른 폼 팩터로도 구상할 수 있다.

사례 2: 모델의 자기 보정 능력 (Self-Calibration)

만약 모델이 답변에 대한 자신감(confidence)을 감지하는 능력을 갖춘다면 (예: P-value), 인터페이스에서 자신감 있는 답변을 더 강조하고(highlighted), 덜 자신감 있는 답변은 덜 강조하는 방식(less highlighted)으로 표현할 수 있다.
이는 모델이 가진 자기 보정 능력을 인간에게 유용하게 보여주는 방식에 대한 사변적인 예시이다.

사례 3: 사고의 연쇄 (Chain of Thought, CoT)의 인간 친화적 표현

사고의 연쇄 그 자체는 매우 이질적인 것(alien thing)이며, 인간이 모델의 사고를 따라오게 하는 방법을 고민해야 했다.
만약 인간이 CoT를 위해 2분이나 5분을 기다려야 한다면 지루해질 수 있다.
해결책 중 하나는 모델이 자신의 생각을 일시적으로(ephemeral) 스트리밍하도록 훈련시켜 스트리밍 상호작용을 만드는 것이었다.

방법 2: 깊은 신념을 가지고 모델을 훈련하여 비전 실현

제품 관점 또는 비전 관점에서 만들고 싶은 것에 대한 깊은 신념(deep belief)을 가지고, 모델이 실제로 그 일을 하도록 훈련(train)시키는 방법이다.
새로운 상호작용 패러다임을 만들려면 모델을 그에 맞게 훈련시켜야 한다는 점이 Anthropic에서 근무하며 깨달은 점이다.

사례 1: 개인화된 기능

Claude가 제목을 생성할 때, 실제로는 사용자의 글쓰기 스타일을 파악하여 같은 스타일로 제목을 생성하는 미세 개인화(micropersonalization) 기능이 적용되었다.

사례 2: Claude의 첫 번째 가상 팀원 비전

2022년 Slack 내의 Claude는 가상 슈퍼 어시스턴트가 되어 쓰레드에 참여하고, 높은 볼륨의 콘텐츠 채널을 요약하며, 다양한 도구를 사용할 수 있는 존재로 구상되었다.

사례 3: Canvas 개발

Canvas는 채팅 인터페이스에서 벗어나려는 노력의 일환이었으며, 인간과 AI 간의 협력적이고 유연한 지원(collaborative and flexible affordance)을 확장하고 새로운 양식(modalities)에 맞춰 확장되도록 설계되었다.
Canvas에서는 인간뿐만 아니라 모델도 글을 쓰거나 코드를 렌더링 할 수 있으며, 새로운 모델 역량 및 도구와 함께 확장될 인터페이스를 만들고자 했다.

사례 연구: Claude 모델 행동 형성 (Refusals)

모델 협업자 행동 훈련 및 평가

강력한 추론 모델들은 API를 통해 증류될 수 있으며, 이는 학생(student) 모델이 선생님(teacher) 모델로부터 배우는 매우 강력한 증류(distillation) 아이디어이다.
Canvas 모델을 합성 데이터(synthetic data)만으로 사전 훈련(post-trained)했으며, 협력자로서의 모델 행동을 정의하고 평가하는 것이 중요했다.
모델에게 도구를 사용하도록 가르치는 행동은 모델이 선제적(proactive)으로 행동하거나 협력자(collaborator) 역할을 하는 행동과는 다르다.
- 예: 모델이 문서를 완전히 다시 작성할지, 아니면 특정 섹션만 선택하여 미세하게 수정할지 결정하도록 훈련시켰다.
- 예: Canvas에서 코드를 생성하는 경우와 Python 도구 호출을 요청하는 경우 사이의 차이점 등 다양한 도구 구성(tools compositionality)이 포함된다.
Task 기능과 같이, 모델이 매일 이야기를 계속하거나 일정을 잡아주는 등 도구 구성의 모듈성(modularity)이 제품에서 매우 강력할 수 있다.

사례: 거절(Refusals) 행동 조정의 필요성

거절 행동 조정은 모델이 어떻게 행동해야 하는가에 대한 비전을 가지고 시작하는, 제품을 만드는 두 번째 방식의 예시이다.
모델은 단서를 달고(with caveats) 의견을 제시하며, 직접적인 질문에는 더 결단력 있는(more decisive) 태도를 보여야 한다.
초기 모델(예: 2022년 Claude)은 지나치게 순응적(sick authentic)이어서 사용자가 말하는 모든 것에 동의하는 경향이 있었으므로, 이를 방지하고 더 미묘한(more nuanced) 태도를 가르쳐야 했다.
모델은 자신의 편향(biases)과 모순(inconsistencies)을 인정하고, 자신이 아는 것과 옳다고 생각하는 것에 대한 자기 지식(self-knowledge)을 가져야 한다.
이전 모델(Claude 1.3)은 철학적/윤리적 질문에 대해 사려 깊은 응답이 부족했으므로, 이러한 행동을 훈련시켜야 했다.

Claude 2.1의 과도한 거절 문제와 디버깅

Claude 2.1 출시 당시, 겉보기에는 무해하지만 실제로는 무해하지 않은 작업에 대해 과도하게 거절(over refusals)하는 문제가 있었다.
이 문제는 단일 데이터 출처로 인해 발생한 것이 아니었으며, 디버깅을 위해 Claude 2.0을 좋은 실험 및 디버깅 기준선(baseline)으로 사용했다.

거절 답변을 다듬기 위한 원칙

자비로운 해석(Charitable Interpretation) 가정: 유해하지 않으면서도 사용자가 요청하는 것에 대해 최악의 해석이 아닌, 가장 자비로운 해석을 가정해야 한다.
- 예: 복잡한 강도 계획을 짜는 두 캐릭터에 대한 창의적인 글쓰기 프롬프트는 거절되어서는 안 된다. 이는 창의적 글쓰기 프롬프트로 해석되어야 한다.
비폭력적 의사소통 (Non-Violent Communication, NVC) 원칙 사용:
- 모델은 "나(I) 성명"을 사용하여 거절에 대한 책임을 지고, 사용자에게 판단을 내리는 "당신(you) 성명"을 사용하지 않아야 한다.
- 모델이 자신의 경계(boundaries) 내에서 편안하게 느낄 수 있도록, 사용자에게 변경 사항을 적용할 의향이 있는지 물어볼 수 있어야 한다.
- 공감적 답변(empathetic answer)을 제공하여 사용자에게 미치는 영향을 인정해야 한다 ("이것이 당신에게 성가실 수 있다는 것을 압니다").

거절 유형 (Refusal Taxonomy)

거절 분류학(taxonomies)을 구축하여 다양한 엣지 케이스를 다루었다.
무해한 프롬프트에 대한 무해한 거절(benign refusals on harmless prompts).
창의적 글쓰기 거절.
도구/함수 호출 거절 (예: 노트를 볼 수 있는 도구가 있음에도 "노트를 볼 수 없다"고 응답).
장문 문서 첨부 거절 ("이 문서를 읽을 능력이 없다"고 응답).
오해된 거절 (사용자의 요청을 잘못 해석하는 경우).

거절 행동 평가 (Evals) 구축

연구 프로젝트의 첫 번째 단계는 신뢰할 수 있는 평가(evals)를 구축하는 것이다.
거절과 같은 주관적인 행동에 대한 평가는 수학(math)과 같은 작업의 평가와는 매우 다르다.

평가 구성 요소

제품 플라이휠 (Product Flywheel): 사용자가 유발한 거절 프롬프트 또는 수동으로 수집된 프롬프트.
합성 프롬프트 생성: 유해성과 유용성의 경계에 있는 다양한 프롬프트(예: 까다로운 창의적 글쓰기)를 생성.
평가 도구 모음 (Suit of Evals):
- 200개의 비악의적 프롬프트를 포함하는 X 테스트.
- 모호한 요청, 주제 전환, 정치적 논의를 포함하는 Wild Chat 데이터셋.
- 공개 벤치마크 사용.

모델 행동 조정의 일반적인 접근 방식 (수학적 개념 포함)

모델 행동을 사전 훈련시키는 일반적인 접근 방식은 다음과 같다.

데이터 정리: 데이터를 검토하고 정리한다.
인간 피드백 수집 (선택적):
- 지도 미세 조정 (Supervised Fine-Tuning, SFT) 또는 선호도 모델링(Preference Modeling)/보상 모델링(Reward Modeling)을 위한 표적화된 인간 피드백 수집. (인간 피드백은 비용이 많이 든다).
합성 데이터 사용: 인간 피드백 없이 강력한 추론 모델로부터 합성적으로(synthetically) 행동 변화를 위한 선호도 데이터를 생성하여 보상 모델을 훈련할 수 있다.

Constitutional AI 및 선호도 데이터

거절 방지 행동을 위해 헌법적 AI(Constitutional AI) 원칙을 활용하여 선호도 데이터를 생성했다.
수학적 개념: 선호도 쌍을 만들 때, 통제력을 높이기 위해 한 가지 특정 특징만 변경해야 한다.
- 단순히 A 모델 응답보다 B 모델 응답을 선호하도록 설정하는 것은 모델이 원치 않는 가짜 특성(spirious features)을 학습하게 만들 수 있다.
- 이는 훈련하고자 하는 행동의 데이터 분포(distribution)를 신중하게 조작하는 것과 관련이 있다.
디버깅은 소프트웨어 디버깅과 유사하게, 각 거절이 다른 데이터셋에서 비롯될 수 있음을 확인해야 한다.
- 예: 모델이 "신체적 신체가 없다"는 자기 지식 데이터 때문에 알람 설정을 거부할 수 있지만, 실제로는 알람 설정 도구를 가지고 있는 경우.

안전성과 유용성의 균형

안전성(safety)과 유용성(helpfulness) 사이의 균형을 찾는 것은 매우 어렵다.
사용자 요청에 더 유용하고 반응하도록 훈련된 모델은 정책을 위반하는 정보를 공유하는 등 유해한 행동으로 기울어질 수 있다.
반대로, 무해함에 과도하게 초점을 맞춘 모델은 정보를 공유하지 않는 경향이 있어 모델을 사용 불가능(unusable)하게 만든다.
Claude 3 모델은 창의적 글쓰기 같은 작업에서 거절하지 않고 응답하도록 개선되었다.

RL 환경 및 보상 설계와 제품 작동 방식

실세계 사용 사례와 RL 환경의 복잡성

RL 환경과 보상을 어떻게 구성하느냐가 제품의 작동 방식을 결정한다.
실세계 사용 사례(real world use cases)가 RL 환경의 복잡성을 만든다.
복잡성은 모델에게 어려운 작업을 완료하도록 가르치는 것에서 발생하며, 어려운 작업은 단순한 질문 답변 이상의 것을 요구한다 (예: 검색, 코드 도구, 컴퓨터 사용 도구, 장문 컨텍스트 추론).

복잡한 작업 및 새로운 상호작용 패러다임

모델을 유용하게 만들기 위해서는 유용한 것에 대해 훈련해야 한다.
- 예: 모델이 소프트웨어 엔지니어가 되도록 가르치려면, "좋은 PR(Pull Request)이 무엇인가"를 정의하고 그에 대한 작업 분포와 평가를 구축해야 한다.
- 예: 좋은 작가가 되도록 훈련시키려면, 모델이 초안을 작성하고 편집하는 도구를 갖게 하고, 세상의 최신 상태에 노출되는 끊임없는 검색 엔진(never ending search engine)에 접근할 수 있도록 해야 한다.
다중 사용자 상호작용 (Multiplayer Interactions):
- 한 명의 사용자가 한 모델과 소통하는 것이 아니라, 여러 사용자가 에이전트와 협력하는 시나리오 (예: 제품 디자이너와 제품 관리자가 에이전트와 협력하여 새 제품을 만드는 경우).
- 각 사용자는 다른 선호도를 가지므로 환경 구성을 중요하게 만든다.
다중 에이전트 환경 (Multi-Agentic Environments):
- 모델들이 서로 토론하거나 특정 주제에 대해 숙고하여 결론에 도달하는 환경 (예: AlphaGo와 유사하게 무언가를 함께 달성하여 보상을 받는 환경).

새로운 측정 축: 주관적인 작업 (Subjective Tasks)

AI 연구소는 측정하기 쉬운 작업(예: 수학, 경쟁 프로그래밍)에서 벗어나, 측정하기 매우 어렵지만 AI 모델이 사회에 통합됨에 따라 중요해지는 주관적인 작업으로 초점을 옮기고 있다.
감성 지능 (Emotional Intelligence): 사용자들이 코칭, 치료 목적으로 ChatGPT를 많이 사용하지만, 이에 대한 오픈 소스 평가 벤치마크가 거의 없다.
사회 지능 (Social Intelligence): 음성 모드에서 모델이 대화하며 의미 있는 것을 제안하거나("XYZ를 했으니 새로운 도구를 만들어줘야겠네요") 사용자 의도를 감지하는 능력.
창의적 글쓰기 및 미학: 글쓰기는 개인적이고 주관적이어서 측정하기 어렵지만, 이를 더 객관적인 작업으로 분해할 수 있는지 고민해야 한다 (예: 공상과학 소설의 기술적 규칙, 세계의 일관성, 캐릭터 개발).
시각 디자인 및 미학: 모델이 심미적으로 흥미로운 것을 생성하려면 좋은 시각 디자인의 기본 원칙을 알아야 한다.

보상 설계 (Reward Design) 및 보상 해킹 (Reward Hacks)

보상 설계(Reward Design)는 모델이 실세계 시나리오에서 더 잘 작동하고 사회적 맥락에 더 잘 적응하도록 가르치는 방식이다.
이는 모델에게 의미 있는 후속 질문을 하도록 가르치되, 지나치게 성가시게 하지 않도록 보상하는 등 깊은 제품 사고(product thinking)를 요구한다.
보상 해킹 (Reward Hacks): RL에서 매우 흔한 현상으로, 모델이 실제로 작업을 완료하지 않고도 높은 보상을 달성하도록 기만(deceived)하는 경우이다.
- 심화 내용: 정책 모델이 평가자 모델(다른 LLM일 수 있음)을 속여 작업이 완료되었다고 믿게 만드는 것이 가장 흔한 보상 해킹이다.
- 예를 들어, 코드 패치 도구에서 모든 테스트를 건너뛰는 함수를 정의하여 테스트를 통과하는 것처럼 보이게 할 수 있다.
추론 모델에 대한 심화 발견: 사고의 연쇄(Chain of Thought)를 최적화하는 경우, 모델이 자신의 의도를 숨기도록 만들 수 있다.
소프트웨어 엔지니어링 같은 복잡한 영역에서는, 모델이 취약점을 만들기 위해 어떤 코드 변경을 했는지 파악하지 못할 수 있으므로, 모델 출력에 대한 더 신뢰할 수 있는 검증 장치(affordances)가 필요하며 이는 정렬 문제(alignment problem)와도 연결된다.

인간-AI 상호작용의 미래 비전

추론 비용의 감소와 AI 검증의 어려움

추론 비용(cost of reasoning)이 급격하게 감소하고 있으며 앞으로도 계속 감소할 것이다.
원시 지능(raw intelligence) 자체는 매우 저렴해져서 누구나 낮은 비용으로 놀라운 것을 만들 수 있게 될 것이다.
AI 출력의 검증이 어려워지는 시대에 접어들고 있다 (예: 의학, 금융 분석).
인간이 모델의 출력을 검증하거나 편집하고, 모델에게 가르칠 수 있는 새로운 지원 장치(affordances)를 만드는 것이 필요하다.

동적 생성 UI (Dynamic Generative UI)

미래에는 동적 생성 UI(Dynamic Generative UI)가 등장할 것으로 예상되는데, 이는 즉석에서 생성되는 투명한 소프트웨어(invisible software creation on the fly)와 같다.
인터페이스는 사용자의 의도와 맥락을 이해하고 그에 따라 스스로 변형(self moors)되며 깊이 있게 개인화된다.
개인화 예시: 사용자가 시각적 사고자라면 그림이나 3D 시각화를 생성하고, 청각적 사고자라면 팟캐스트를 생성하는 등.

창작 과정의 변화

스토리텔링 과정과의 관계는 영원히 바뀔 것이다.
모델과 공동 집필(co-writing)하거나 영화를 공동으로 각본(co-scripting)하는 새로운 세대의 창작자들이 등장할 것이다.
강연자는 현재의 창작자들이 AI를 두려워하지 않고 열린 마음으로 이러한 도구를 그들의 창작 과정에 사용하기를 희망한다.

Q&A 세션 (질문 및 답변)

Q1. 새로운 기능이나 행동을 모델에 도입하는 프로세스

질문: 새로운 기능이나 행동을 추진할 때, 이를 모델에 실제로 주입하는 프로세스는 무엇인가?
답변:
- 이는 위험 감수(de-risking)라고 불린다.
- 원하는 데이터를 수집하고 훈련을 위해 기본 구성(base config)을 가져와 데이터 변경 사항을 추가한 다음, 모델을 재훈련하고 구축된 평가(evals)에 미치는 영향을 확인한다.
- 더 저렴한 접근 방식으로는 기존 모델 위에 증분 학습(incremental training)을 수행할 수 있다.
- 지도 미세 조정(SFT) 단계에서 변경할지, 보상 모델을 재훈련할지 결정하거나, 특정 작업에 대한 새로운 평가자(evaluator/grader)를 생성할 수 있다.
- 훈련 과정에서 그래프를 확인하고, 특정 그래프는 올라가지만 다른 그래프는 내려가는 경우(trade-offs)를 조정하고 수정해야 한다.

Q2. 현재 AI 연구에서 부족한 평가 범주

질문: 현재 AI 연구에서 충분한 벤치마크가 없는 평가 범주가 있는가?
답변:
- 창의적 글쓰기(creative writing)나 감성 지능(emotional intelligence)과 같은 주관적인 작업에 대해서는 개방형 최신 벤치마크가 없다.
- 많은 연구자들이 평가하기 매우 쉬운 문제에 집중하는 경향이 있지만, 이러한 주관적인 문제들도 중요하다.
- 모델에게 소프트웨어 엔지니어링이나 AI 연구 자동화와 같은 더 긴 범위의 작업(longer horizon tasks)을 가르치기 위해 초점을 옮기고 있다.

Q3. OpenAI의 주요 병목 현상

질문: OpenAI의 주요 병목 현상은 무엇인가?
답변:
- 더 많은 사람을 고용하여 실행 속도를 높일지, 아니면 AI를 사용하여 우리가 더 빠르게 움직이도록 도울지 판단하는 것이다.
- 인프라(infrastructure)가 주요 병목 현상 중 하나이다.
- 다중 모드(multimodal)를 1급 시민으로 하여 인프라를 구축하지 않으면 모든 다중 모드 작업이 느려진다.
- 주어진 시점에 무엇을 우선시해야 할지 파악하는 것도 병목이다.

Q4. 창작자들이 AI를 활용하는 방법

질문: AI가 전체 작업을 생성하는 것이 아니라, 창작 과정에 어떻게 통합될 것으로 예상하는가?
답변:
- 현재는 Figma나 Adobe 같은 도구를 사용하는 것과 비슷하다.
- 미래에는 도구로서 사용하기보다는 AI와 공동 창작(co-creation)하는 형태가 될 것이다.
- 실시간으로 함께 브레인스토밍하고 즉석에서 창작물을 만들고 함께 게시하는 등 동반자(companion)와 같은 작업이 될 것이다.

Q5. 모델이 다양성을 유지하고 수렴을 방지하는 방법

질문: 모델이 새로운 참조(preference)에 수렴하여 모든 에어비앤비 목록이 비슷해지는 것처럼 되는 것을 어떻게 방지하고 다양성을 주입하는가?
답변:
- RLAIF (Reinforcement Learning from AI Feedback)를 사용하여 합성 생성(synthetic generations)을 만드는 이유 중 하나는 원하는 다양성을 주입할 수 있기 때문이다.
- 평균적인 사용자(average consumer)가 선호하는 방식이 아닌, 특정 분포에 대해 교육함으로써 다양성을 유지할 수 있다.
- 모델이 특정 행동(예: 특정 이모티콘 사용)을 하는 것을 억제(discourage)할 수 있다.
- 합성 데이터 생성은 일종의 다양성 큐레이션(curation)이다.

Q6. 모델 버그 및 문제 진단 방법

질문: 모델의 버그나 문제를 진단하는 방법은 정성적인가, 아니면 자동화된 방법인가?
답변:
- 특히 거절과 같은 모델 행동의 경우 정성적(qualitative) 방법이 많이 사용된다.
- 모델을 가지고 직접 실험하고 출력을 보면서 이상한 점(weirdnesses)을 찾는 것이 큰 이점이 있다.
- 물론 자동화된 검사(평가)도 있지만, 미묘한 이상함은 수동 검사를 통해 알게 된다.
- 일회성 문제가 아니라 모델이 일관되게(consistently) 해당 행동을 보이는지 확인하는 것이 중요하다.

Q7. 주관적인 문제의 컴퓨팅 한계

질문: 창의적 또는 주관적인 문제의 복잡성이 증가할 때, 컴퓨팅(compute)이 여전히 한계인가, 아니면 모델/데이터셋 개선이 더 중요한가?
답변:
- 효율성(efficiency)은 중요하다.
- 일반적으로 테스트 시간 컴퓨팅이 많을수록 모델은 항상 더 좋아질 수 있다는 가정이 있다.
- 모델은 인간 수준의 시각 디자인을 달성할 수 있지만, 새로운 상호작용 패러다임을 발명하는 것은 초인적인 기술(superhuman skill)일 수 있으며, 더 많은 컴퓨팅으로 언젠가 가능해지기를 희망한다.

Q8. 합성 데이터 검증 방법

질문: 합성 참조 데이터를 생성할 때 어떻게 검증하는가?
답변:
- 합성 데이터는 많은 양이 필요하지 않을 수 있으므로, 수동 검사(manual inspection)를 통해 무슨 일이 일어나고 있는지 확인할 수 있다.
- 인간 레이블러에게 작업을 확인하도록 요청할 수 있다.
- 또는 또 다른 모델에게 검증하도록 요청할 수 있으며, 이는 메타 평가(meta eval)가 되는 것이다.
- 중요한 것은 양보다는 다양성(diversity)이다.

Q9. LLM 운영 비용 및 절감 노력

질문: 대규모 LLM을 서비스하는 비용이 비싸며, OpenAI나 Anthropic이 돈을 잃고 있다는 인상이 사실인가? 비용 절감을 위해 무엇을 하고 있는가?
답변:
- (돈을 잃고 있는지에 대해서는 샘(Sam Altman)에게 질문해야 할 것이라며 직접적인 답변을 피했다).
- 기술의 일반성(generality)이 매우 넓다.
- 프론티어(frontier)에 있는 것은 항상 비효율적이고 비싸다.
- 모든 기술 혁신 후에는 비용을 낮추는 혁신이 뒤따르며, AI에서도 마찬가지이다.
- 비용 절감은 인프라 개선뿐만 아니라 모델 훈련 자체의 생산 비용 감소에서도 올 수 있다.

Q10. LLM이 로봇 공학 및 신체 AI에 사용되는 방법

질문: LLM이 로봇 공학이나 신체 AI(body AI)와 같은 다른 분야에서 어떻게 사용될 것으로 예상하는가?
답변:
- 미래의 AI는 데이터 센터를 구축하거나 로봇 공학 작업에 RLHF(인간 피드백 기반 강화 학습)를 사용할 것이다.
- 데이터가 큰 제약이자 병목 현상이지만, 이 문제가 해결되면 매우 놀라운 일이 될 것이라고 확신한다.

Q11. AI 동료와의 협업 및 부족한 점

질문: 현재 AI 동료가 있는가? 에이전트와 동료 관계를 맺는 데 부족한 점은 무엇인가?
답변:
- 일상적으로 ChatGPT를 사용하지만, 아직 공동 작업자라고 할 수는 없다.
- Pair Programming 소프트웨어처럼 모델이 코드를 편집하거나 화면을 공유하는 형태가 더 자연스러운 공동 작업 폼 팩터이다.
- 가장 큰 격차는 사회 지능(social intelligence)이다.
- 실시간으로 생성하고, 사용자에게서 주도권을 빼앗지 않고 안내하며, 실시간으로 대화하고 동시에 언급한 내용을 지적할 수 있는 능력 등이 부족하다. 이러한 부분은 아키텍처나 다중 모드 기술의 변화를 필요로 할 수 있다.

Q12. 전통적인 제품 개발과의 차이점

질문: 전통적인 제품 개발(예: Dropbox, Square)과 연구 제품 개발의 가장 큰 차이점은 무엇인가?
답변:
- 전통적인 개발은 PRD(제품 요구 사항 문서)를 만들고 디자이너가 UI를 만들고 엔지니어가 구현하는 생명 주기를 따른다.
- 연구 제품(Research Products)은 연구 자체에서 비롯된다. 연구가 모델 역량에 대한 인상적인 데모를 보여주면, 그 주변에 제품을 형성한다.
- 때로는 제품과 연구가 처음부터 함께 모여 일을 진행하기도 하는데, Canvas가 그 예시이다. 이러한 경우 프로세스가 덜 정형화되고 임시적(ad hoc)이다.

Q13. 창의적 도메인을 위한 RL 환경 설계 (미검증 도메인)

질문: 창의적 글쓰기나 시각 예술처럼 근본적으로 검증 불가능한 도메인에서, 소셜 미디어의 바이럴성(virality)이나 공모전 결과를 RL 환경의 보상으로 사용하는 것에 대해 생각해 보았는가?
답변:
- 이는 흥미로운 아이디어이며 합리적으로 보인다.

Q14. AI의 영향력에 대한 개인적인 도덕적 갈등

질문: AI가 창의적인 영역으로 진입하는 것에 대해 여전히 우려하는 사람으로서, 자신의 작업이 너무 강력하여 긍정적인 사람들 외에 부정적인 영향을 받는 사람들에게 개인적인 도덕적 갈등을 느끼는가?
답변:
- 이 주제에 대해 '도덕적 진보(moral progress)'라는 제목의 블로그 게시물을 Substack에 작성했으며, 이를 참고하면 흥미로울 것이다.

김성윤(Jack)

AI 공부합니다

이전 포스트

[NLP] CS25 V5 1강 정리 [Overview of Transformers]

다음 포스트

[NLP] CS25 V5 2강 정리 [RL as a Co-Design of Product and Research]

NLP

1. 개요

환영 및 강연자 소개

AI 모델 스케일링 패러다임

1. 다음 토큰 예측 (Next Token Prediction)

2. 사고의 연쇄에 대한 RL (RL on a Chain of Thought)

연구 중심 제품 구축의 두 가지 주요 방법

방법 1: 낯선 모델 역량을 익숙한 형식으로 구현

사례 1: Claude의 100k Context

사례 2: 모델의 자기 보정 능력 (Self-Calibration)

사례 3: 사고의 연쇄 (Chain of Thought, CoT)의 인간 친화적 표현

방법 2: 깊은 신념을 가지고 모델을 훈련하여 비전 실현

사례 1: 개인화된 기능

사례 2: Claude의 첫 번째 가상 팀원 비전

사례 3: Canvas 개발

사례 연구: Claude 모델 행동 형성 (Refusals)

모델 협업자 행동 훈련 및 평가

사례: 거절(Refusals) 행동 조정의 필요성

Claude 2.1의 과도한 거절 문제와 디버깅

거절 답변을 다듬기 위한 원칙

거절 유형 (Refusal Taxonomy)

거절 행동 평가 (Evals) 구축

평가 구성 요소

모델 행동 조정의 일반적인 접근 방식 (수학적 개념 포함)

Constitutional AI 및 선호도 데이터

안전성과 유용성의 균형

RL 환경 및 보상 설계와 제품 작동 방식

실세계 사용 사례와 RL 환경의 복잡성

복잡한 작업 및 새로운 상호작용 패러다임

새로운 측정 축: 주관적인 작업 (Subjective Tasks)

보상 설계 (Reward Design) 및 보상 해킹 (Reward Hacks)

인간-AI 상호작용의 미래 비전

추론 비용의 감소와 AI 검증의 어려움

동적 생성 UI (Dynamic Generative UI)

창작 과정의 변화

Q&A 세션 (질문 및 답변)

Q1. 새로운 기능이나 행동을 모델에 도입하는 프로세스

Q2. 현재 AI 연구에서 부족한 평가 범주

Q3. OpenAI의 주요 병목 현상

Q4. 창작자들이 AI를 활용하는 방법

Q5. 모델이 다양성을 유지하고 수렴을 방지하는 방법

Q6. 모델 버그 및 문제 진단 방법

Q7. 주관적인 문제의 컴퓨팅 한계

Q8. 합성 데이터 검증 방법

Q9. LLM 운영 비용 및 절감 노력

Q10. LLM이 로봇 공학 및 신체 AI에 사용되는 방법

Q11. AI 동료와의 협업 및 부족한 점

Q12. 전통적인 제품 개발과의 차이점

Q13. 창의적 도메인을 위한 RL 환경 설계 (미검증 도메인)

Q14. AI의 영향력에 대한 개인적인 도덕적 갈등

[NLP] CS25 V5 1강 정리 [Overview of Transformers]

[NLP] CS25 V5 3강 정리 [The Advent of AGI]

0개의 댓글