공식 Sora 2 프롬프팅 가이드: 성공적인 비디오 생성을 위한 실전 전략

서쿠·2025년 10월 7일
6

https://cookbook.openai.com/examples/sora/sora2_prompting_guide

들어가며

OpenAI의 Sora 2는 텍스트 프롬프트를 통해 고품질 비디오를 생성하는 차세대 AI 모델입니다. 이 가이드는 실제 OpenAI Cookbook에서 제공하는 공식 프롬프팅 전략을 기반으로, Sora 2를 효과적으로 활용하기 위한 구체적인 방법론을 재편성하여 작성했습니다.

링크: https://cookbook.openai.com/examples/sora/sora2_prompting_guide

영화 촬영 감독에게 스토리보드를 설명하듯이, Sora 2에게도 명확하고 구체적인 지시가 필요합니다. 동시에 창의적 자유도를 허용하는 균형이 중요합니다. 프롬프트를 "계약서"가 아닌 "창의적 희망 목록(creative wish list)"으로 생각하세요.

🌟 핵심 원칙: ChatGPT처럼, 동일한 프롬프트를 여러 번 사용하면 매번 다른 결과가 나옵니다. 이는 버그가 아니라 기능입니다. 각 생성은 새로운 해석이며, 때로는 두 번째나 세 번째 시도가 최고의 결과를 낳습니다.

📌 가이드 구성 안내: 이 블로그는 OpenAI Cookbook의 내용을 기반으로 하되, 학습 효과를 위해 일부 섹션을 재구성했습니다. 특히 Part 4 "실전 적용"은 원문의 여러 섹션에 흩어진 내용을 통합 정리한 것입니다. 원문에 없는 추가 내용은 (추가) 표시를 했습니다.


Part 1: 기초 이해

1. 프롬프팅 시작 전 이해해야 할 것

1.1 프롬프트의 본질

프롬프팅은 스토리보드를 본 적 없는 촬영 감독에게 브리핑하는 것과 같습니다.

  • 세부사항을 생략하면 모델이 즉흥적으로 채우게 되며, 원하는 결과를 얻지 못할 수 있습니다.
  • "샷"이 무엇을 달성해야 하는지 구체적으로 명시하면, 모델이 더 정확하고 일관되게 작동합니다.

하지만 일부 세부사항을 열어두는 것도 강력한 전략입니다.

  • 모델에게 더 많은 창의적 자유를 주면 놀라운 변형과 예상치 못한 아름다운 해석을 얻을 수 있습니다.

💡 두 가지 접근법 모두 유효합니다:

  • 상세한 프롬프트 → 제어와 일관성 제공
  • 간결한 프롬프트 → 창의적 결과를 위한 공간 제공

올바른 균형은 목표와 원하는 결과에 따라 달라집니다.

1.2 반복(Iteration)의 중요성

가장 중요한 것은 반복할 준비를 하는 것입니다.

  • 카메라, 조명, 액션의 작은 변화가 결과를 극적으로 바꿀 수 있습니다.
  • 모델과 협업하세요: 당신이 방향을 제시하고, 모델이 창의적 변형을 전달합니다.

⚠️ 본 가이드는 정확한 과학(법칙)이 아닙니다. 아래 가이드는 먼저 사용해본 사람들이 모델 작업을 통해 배운 유용한 제안사항으로 생각하세요.


2. API 파라미터: 프롬프트로 제어할 수 없는 요소

프롬프트는 비디오의 콘텐츠를 제어하지만, 특정 속성은 API 파라미터로만 제어됩니다.

  • 프롬프트에서 요청할 수 없으며, API 호출에서 명시적으로 설정해야 합니다.

Model - https://platform.openai.com/docs/models/sora-2

Modality & Endpoint - https://platform.openai.com/docs/models/sora-2

2.1 필수 API 파라미터

{
  "model": "sora-2-pro",
  "size": "1280x720",
  "seconds": "8"
}

1. model (모델 선택)

  • sora-2: 기본 모델, 표준 해상도 지원
  • sora-2-pro: 고급 모델, 더 높은 해상도와 디테일 제공

2. size (해상도)

sora-2 지원 해상도:

  • 1280x720 (16:9 가로형)
  • 720x1280 (9:16 세로형)

sora-2-pro 지원 해상도:

  • 1280x720, 720x1280 (위와 동일)
  • 1024x1792 (세로형, 더 높은 해상도)
  • 1792x1024 (가로형, 더 높은 해상도)

3. seconds (길이)

  • 지원 값: "4", "8", "12"
  • 기본값: "4"

2.2 해상도의 영향

비디오 해상도는 시각적 충실도(visual fidelity)와 동작 일관성에 직접적인 영향을 미칩니다.

  • 높은 해상도: 디테일, 텍스처, 조명 전환을 더 정확하게 생성
  • 낮은 해상도: 시각 정보 압축으로 인한 부드러움이나 아티팩트 발생 가능

2.3 비디오 길이의 전략

모델은 일반적으로 짧은 클립에서 지시사항을 더 신뢰성 있게 따릅니다.

💡 최적 전략: 8초 단일 클립보다 두 개의 4초 클립을 편집으로 연결하는 것이 더 나은 결과를 제공할 수 있습니다.


3. 효과적인 프롬프트 작성 기초

3.1 프롬프트 구조의 이해

명확한 프롬프트는 스토리보드에 스케치하듯이 샷을 묘사합니다. 다음 요소들을 포함해야 합니다:

  1. 카메라 프레이밍 명시
  2. 피사계 심도(Depth of Field) 설명
  3. 액션을 비트(beats)로 분할 기술
  4. 조명과 팔레트 설정
  5. 피사체를 구별되는 세부사항으로 고정

피사체를 몇 가지 독특한 세부사항으로 고정하면 여러 샷에서도 인식 가능하며, 단일하고 그럴듯한 액션은 샷을 따라가기 쉽게 만듭니다.

3.2 짧은 프롬프트 vs 긴 프롬프트

프롬프트 유형모델 창의성특징
짧은 프롬프트높음놀라운 결과 기대, 예상치 못한 해석
긴 상세 프롬프트제한됨가이드를 따르려 하지만 항상 신뢰성 있지는 않음

핵심:

  • 짧은 프롬프트 → 모델에게 더 많은 창의적 자유
  • 긴 프롬프트 → 모델의 창의성 제한, 당신의 가이드를 따르려 시도

3.3 기본 프롬프트 예시와 분석

짧은 프롬프트 예시:

In a 90s documentary-style interview, an old Swedish man sits in a study 
and says, "I still remember when I was young."

한국어:

90년대 다큐멘터리 스타일 인터뷰에서, 나이 든 스웨덴 남성이 서재에 앉아 
"젊었을 때가 아직도 기억나네"라고 말한다.

이 프롬프트가 효과적인 이유:

  1. 90s documentary → 비디오 스타일 설정
    • 모델이 카메라 렌즈, 조명, 색 보정 등 변수를 자동으로 선택
  2. an old Swedish man sits in a study → 피사체와 설정을 약간의 디테일로 묘사
    • 모델이 인물과 설정의 외형에 대해 창의적 자유를 가짐
  3. "I still remember when I was young." → 대사 명시
    • Sora가 정확히 따를 가능성이 높음

명시되지 않은 요소들은 모델이 알아서 결정하게 됩니다.

예를 들어:

  • 시간대 (아침/저녁)
  • 날씨
  • 의상
  • 캐릭터의 정확한 외모와 나이
  • 카메라 앵글
  • 컷 편집
  • 세트 디자인

⚠️ 중요: 이 프롬프트는 요구사항과 일치하는 비디오를 신뢰성 있게 생성합니다. 하지만 많은 세부사항이 열려있어 당신의 비전과 정확히 일치하지 않을 수 있습니다. 이러한 세부사항을 기술하지 않으면 Sora가 임의로 생성합니다.

(추가) 3.4 여러 샷을 하나의 프롬프트로 기술하기

시퀀스를 커버해야 한다면, 하나의 프롬프트에 여러 샷을 기술하는 것도 유효합니다.

이렇게 할 때는 각 샷 블록을 구별되게 유지하세요:

  • 하나의 카메라 설정
  • 하나의 피사체 액션
  • 하나의 조명 레시피

이는 짧은 독립 클립이나 긴 연속 모멘트를 생성할 수 있는 유연성을 제공합니다. 각 샷을 창의적 단위로 취급하면, 편집에서 이어붙이거나 한 번에 시퀀스로 재생할 수 있습니다.

예시:

Shot 1 (0-5s):
Wide shot, eye level. A cyclist pedals down a wet street, 
neon signs reflecting in puddles. Camera tracks left to right.

Shot 2 (5-10s):
Medium close-up. The cyclist brakes at a crosswalk, 
pauses, and looks up at the traffic light. 
Camera slowly pushes in.

한국어:

샷 1 (0-4초):
넓은 샷, 눈높이. 자전거 탄 사람이 젖은 거리를 따라 페달을 밟고, 
네온 사인이 웅덩이에 반사됨. 카메라는 좌에서 우로 추적.

샷 2 (4-8초):
중간 클로즈업. 자전거 탄 사람이 횡단보도에서 브레이크를 걸고, 
멈추고, 신호등을 올려다봄. 
카메라가 천천히 푸시-인.

https://www.studiobinder.com/blog/ultimate-guide-to-camera-shots/


Part 2: 핵심 요소 마스터하기

영상 생성을 위해서는 촬영 기법과 용어에 대한 이해가 필수적입니다.

  • Part 2에서는 Sora 2 프롬프팅의 5가지 핵심 요소를 하나씩 깊이 있게 살펴봅니다.

4. 카메라 프레이밍

카메라 프레이밍은 화면에 무엇을 얼마나 담을지 결정합니다.

  • 영화나 드라마를 볼 때 인물의 얼굴만 보이는 장면, 멀리서 전체 풍경을 담은 장면 등이 모두 다른 프레이밍입니다.

주요 프레이밍 유형:

  • Wide shot (넓은 샷): 전체 환경과 피사체를 모두 보여줌
    • 예: "도시 전경과 그 안의 작은 인물"
  • Medium shot (중간 샷): 인물의 허리 위 정도
    • 예: "책상 앞에 앉은 사람의 상반신"
  • Close-up (클로즈업): 얼굴이나 물체를 크게
    • 예: "눈물 흘리는 눈"
  • Extreme close-up (익스트림 클로즈업): 매우 세밀한 부분
    • 예: "손가락 끝의 반지"

https://www.lomography.co.kr/school/fa-redd42e5

카메라 각도도 중요합니다:

  • Eye level (눈높이): 자연스럽고 중립적
  • Low angle (낮은 각도): 피사체를 아래에서 올려다봄, 피사체를 웅장하게
  • High angle (높은 각도): 피사체를 내려다봄, 피사체를 작고 약하게
  • Aerial/Overhead (공중): 하늘에서 내려다보는 시점

https://nineyad9.tistory.com/entry/AI-CAMERA-ANGLES

구체적 예시:

❌ 약한 표현: "A person in a room"
✅ 강한 표현: "Medium shot at eye level of a person sitting at a desk"

한국어:

❌ 약한 표현: "방 안의 사람"
✅ 강한 표현: "책상에 앉은 사람의 눈높이 중간 샷"


5. 피사계 심도

  • 카메라 피사계 심도란 사진이나 영상에서 초점이 맞는 영역의 앞뒤 범위를 의미합니다.
    • 심도가 깊으면 넓은 범위에 초점이 맞고, 심도가 얕으면 특정 부분만 초점이 맞고 나머지는 흐릿하게 나타납니다.
    • 피사체와 카메라의 거리, 조리개 값, 렌즈의 초점거리 등이 피사계 심도에 영향을 미칩니다.

두 가지 주요 스타일:

  • 얕은 피사계 심도: 초점이 맞는 범위가 좁아 피사체 일부분만 선명하고 나머지는 흐릿하게 보여, 피사체를 부각시키고 배경을 흐리게 하는 아웃포커스 효과를 낼 때 사용됩니다.

  • 깊은 피사계 심도: 초점이 맞는 범위가 넓어 배경과 전체에 초점이 맞아 선명한 사진을 얻을 수 있으며, 팬포커스라고도 합니다.

Shallow DOF (얕은 피사계 심도)

  • 특징: 피사체는 선명, 배경은 흐릿함 (보케 효과)
  • 효과: 피사체에 집중, 배경 분리
  • 사용 예: 인물 촬영, 감정적 순간, 제품 클로즈업
"Shallow depth of field: 
sharp focus on the woman's face, 
background café blurred into soft bokeh"

한국어:

"얕은 피사계 심도: 
여성의 얼굴에 선명한 초점, 
배경 카페는 부드러운 보케로 흐릿하게"

Deep DOF (깊은 피사계 심도)

  • 특징: 전경부터 배경까지 모두 선명
  • 효과: 공간감 강조, 환경 정보 전달
  • 사용 예: 풍경, 건축, 군중 장면, 액션 시퀀스
"Deep depth of field: 
entire street scene sharp from foreground 
pedestrians to distant skyscrapers"

한국어:

"깊은 피사계 심도: 
전경의 보행자부터 먼 고층 빌딩까지 
전체 거리 장면이 선명함"

실용적 비교:

상황Shallow DOFDeep DOF
인물 인터뷰✅ 추천 (배경 분리)❌ 배경 정보 과다
도시 파노라마❌ 디테일 손실✅ 추천 (전체 보임)
감정적 순간✅ 추천 (집중)❌ 산만함
추격 장면❌ 맥락 부족✅ 추천 (공간감)

6. 액션과 타이밍

6.1 액션을 비트로 분할하기

  • 비트(Beat)는 영화 용어로, 하나의 작은 동작이나 순간을 의미합니다.
  • 액션을 비트로 나누면 모델이 언제, 무엇을, 어떻게 할지 명확히 이해합니다.

https://www.studiobinder.com/blog/story-beat-in-screenplay/

왜 비트로 나눠야 할까요?

  • 막연한 "걷는다"보다 "세 걸음 걷고 멈춘다"가 명확
  • 시간 흐름을 제어 가능
  • 복잡한 동작을 단순한 단계로 분해

비트 작성 원칙:

  1. 숫자로 카운트: "세 번", "네 걸음", "두 번 고개 끄덕임"
  2. 시간 앵커 사용: "첫 2초에", "클립 중간에", "마지막 순간에"
  3. 하나의 액션에 집중: 한 번에 너무 많은 동작 금지

구체적 예시:

❌ 약한 표현: 
"A chef cooks in a kitchen"

✅ 강한 표현 (비트로 분할):
Actions:
- Chef picks up knife from counter (0-1 second)
- Chops three times on cutting board (1-2.5 seconds)
- Pauses, wipes forehead with towel (2.5-3.5 seconds)
- Reaches for salt shaker in final second

한국어:

❌ 약한 표현:
"요리사가 부엌에서 요리한다"

✅ 강한 표현 (비트로 분할):
액션:
- 요리사가 조리대에서 칼을 집어듦 (0-1초)
- 도마 위에서 세 번 썰기 (1-2.5초)
- 멈춰서 수건으로 이마를 닦음 (2.5-3.5초)
- 마지막 1초에 소금통에 손을 뻗음

Tips: 너무 많은 비트 = 혼란, 너무 적은 비트 = 지루함

  • 4초 클립: 3-4개 비트 적절
  • 8초 클립: 6-8개 비트 적절

6.2 동작은 단순하게 유지

움직임은 가장 제어하기 어려운 요소이므로 단순하게 유지하세요. 각 샷은:

  • 하나의 명확한 카메라 움직임
  • 하나의 명확한 피사체 액션

비트(beats)나 카운트로 묘사하면 시간 내에서 근거를 갖춘 느낌을 줍니다.

약한 프롬프트강한 프롬프트
"Actor walks across the room.""Actor takes four steps to the window, pauses, and pulls the curtain in the final second."

한국어:

약한 프롬프트강한 프롬프트
"배우가 방을 가로질러 걷는다.""배우가 창문까지 네 걸음을 걷고, 멈추고, 마지막 1초에 커튼을 당긴다."

7. 조명과 색상

7.1 조명의 3가지 핵심 요소

조명은 분위기를 만드는 가장 강력한 도구입니다. 같은 장면도 조명에 따라 완전히 다른 느낌을 줍니다.

① 조명의 방향

  • Key light (주광): 주된 광원
    • "Natural sunlight from camera left" (카메라 왼쪽에서 오는 자연광)
    • "Overhead harsh fluorescent" (위에서 오는 거친 형광등)
  • Fill light (보조광): 그림자를 채우는 빛
    • "Soft fill from reflector" (반사판에서 오는 부드러운 보조광)
  • Back light / Rim light (역광/림 라이트): 뒤에서 피사체 윤곽을 그리는 빛
    • "Golden rim from setting sun" (지는 해에서 오는 황금빛 림)

https://www.gklibrarykor.com/2400/

② 조명의 품질

  • Hard light (강한 빛): 날카로운 그림자, 극적, 긴장감
    • "Single bare bulb casting sharp shadows"
  • Soft light (부드러운 빛): 확산된 빛, 온화함, 자연스러움
    • "Diffused window light, no harsh shadows"

③ 색온도

  • Warm (따뜻한): 오렌지/앰버 톤 (석양, 촛불, 백열등)
    • "Warm tungsten glow"
  • Cool (차가운): 파란/틸 톤 (새벽, 형광등, 달빛)
    • "Cool moonlight through window"

https://brunch.co.kr/@jinikjun/242

7.2 팔레트 구성하기

팔레트는 영상에서 사용될 주요 색상들입니다. (정의: 조화로운 디자인을 위해 사용되는 색상의 집합)

  • 3-5개 색상을 지정하면 여러 샷에서 일관성을 유지할 수 있습니다.

https://www.aitimes.com/news/articleView.html?idxno=146766

팔레트 작성 방법:

Palette anchors: [주색상], [보조색상], [강조색상]

구체적 예시 - 따뜻한 카페:

Lighting + palette:
- Soft window light from right (natural, diffused)
- Warm Edison bulbs overhead
- Cool blue spill from street outside for contrast

Palette anchors: amber, cream, walnut brown, slate blue (accent)

한국어:

조명 + 팔레트:
- 오른쪽에서 들어오는 부드러운 창문 빛 (자연광, 확산됨)
- 머리 위 따뜻한 에디슨 전구들
- 대비를 위해 밖 거리에서 오는 차가운 파란 스필

팔레트 앵커: 앰버, 크림, 월넛 브라운, 슬레이트 블루 (강조)

약한 vs 강한 비교:

약한 프롬프트강한 프롬프트
"Bright room""Soft window light with warm lamp fill, cool rim from hallway. Palette: amber, cream, walnut"
"Dark scene""Single hard key from camera left, no fill. Deep shadows. Palette: steel gray, charcoal, midnight blue"
"Colorful""Vibrant neon signs reflecting in wet street. Palette: cyan, magenta, electric yellow, deep purple"

7.3 조명 일관성 유지하기

빛은 액션이나 설정만큼 분위기를 결정합니다.

  • 프레임 전체의 확산광(diffuse light)은 차분하고 중립적으로 느껴지며, 단일 강한 광원은 날카로운 대비와 긴장감을 만듭니다.

  • 여러 클립을 함께 편집할 때, 조명 논리의 일관성이 편집을 매끄럽게 만듭니다.

💡 핵심: 빛의 품질과 색상 앵커를 모두 기술하세요. 3-5개 색상을 명명하면 여러 샷에서 팔레트를 안정적으로 유지할 수 있습니다.


8. 피사체 고정

8.1 왜 세부사항이 중요한가?

피사체를 몇 가지 독특한 세부사항으로 고정하면, 여러 샷에서도 동일한 캐릭터나 물체로 인식됩니다.

모델에게 "a man"이라고만 하면:

  • 첫 번째 생성: 검은 머리, 양복
  • 두 번째 생성: 금발, 티셔츠
  • 일관성 없음!

모델에게 "a man with graying beard, navy peacoat, wire-rim glasses"라고 하면:

  • 첫 번째 생성: 회색 수염, 네이비 피코트, 철테 안경
  • 두 번째 생성: (거의 동일한 외모)
  • 일관성 유지!

8.2 효과적인 특징 선택

인물 고정 - 3-5개 특징:

  1. 의상: "navy peacoat", "red silk dress", "worn denim jacket"
  2. 헤어/얼굴: "graying beard", "curly hair", "sharp eyes"
  3. 액세서리: "wire-rim glasses", "silver watch", "leather backpack"
  4. 나이/체격: "mid-30s", "elderly", "athletic build"

물체 고정:

  1. 재질: "weathered wood", "polished chrome", "matte black"
  2. 상태: "dented", "pristine", "rust-spotted"
  3. 독특한 특징: "chipped corner", "scratched surface", "mismatched buttons"

구체적 예시:

❌ 약한 고정: "A woman enters a café"
✅ 강한 고정: "A woman in her late 20s, flowing red silk dress, barefoot, 
curly hair glowing in light, enters a café"

한국어:

❌ 약한 고정: "여성이 카페에 들어온다"
✅ 강한 고정: "20대 후반 여성, 흐르는 붉은 실크 드레스, 맨발, 
빛 속에서 빛나는 곱슬머리, 카페에 들어온다"

채팅 1 생성 결과

채팅 2 생성 결과

💡 KEY POINT : 채팅 1과 채팅 2의 캐릭터의 일관성이 유지되는 것을 확인할 수 있음

실전 템플릿:

[Age/Build], [Distinctive clothing item], [Hair/facial feature], 
[Accessory], [One unique detail]

예: "Mid-30s traveler, navy coat, backpack on one shoulder, 
holding phone loosely, slight stubble"

Part 3: 고급 기법

9. Ultra-Detailed 프롬프트

9.1 언제 사용하는가

복잡하고 시네마틱한 샷을 위해서는 전문 제작 용어로 룩(look), 카메라 설정, 그레이딩, 사운드스케이프, 샷 근거까지 지정할 수 있습니다.

  • 이는 감독이 카메라 크루나 VFX 팀에게 브리핑하는 방식과 유사합니다.
  • 렌즈, 필터, 조명, 그레이딩, 동작에 대한 상세한 큐는 모델이 매우 구체적인 미학에 고정되도록 돕습니다.

VFX 팀이란?

  • VFX(Visual Effects) 팀은 영화, 드라마 등 영상 콘텐츠에 컴퓨터 그래픽스(CG) 등을 활용해 실제 촬영이 어렵거나 불가능한 시각 효과를 구현하는 전문가 그룹입니다.
    • 이 팀은 시나리오에 따라 현실을 재현하거나 상상 속의 세계를 창조하며, 3D 모델링, 애니메이션, 라이팅, 합성 등 다양한 기술을 사용해 감독이 원하는 영상을 만들어냅니다.

이런 수준의 디테일이 필요한 경우:

  • 실제 영화 촬영 스타일 매칭 (IMAX, 35mm 핸드헬드, 빈티지 16mm 다큐)
  • 여러 샷 간 엄격한 연속성 유지
  • 특정 감독 스타일 재현

9.2 상세 프롬프트 예시

Format & Look
Duration 4s; 180° shutter; digital capture emulating 65 mm photochemical contrast; 
fine grain; subtle halation on speculars; no gate weave.

Lenses & Filtration
32 mm / 50 mm spherical primes; Black Pro-Mist 1/4; 
slight CPL rotation to manage glass reflections on train windows.

Grade / Palette
Highlights: clean morning sunlight with amber lift.
Mids: balanced neutrals with slight teal cast in shadows.
Blacks: soft, neutral with mild lift for haze retention.

Lighting & Atmosphere
Natural sunlight from camera left, low angle (07:30 AM).
Bounce: 4×4 ultrabounce silver from trackside.
Negative fill from opposite wall.
Practical: sodium platform lights on dim fade.
Atmos: gentle mist; train exhaust drift through light beam.

Location & Framing
Urban commuter platform, dawn.
Foreground: yellow safety line, coffee cup on bench.
Midground: waiting passengers silhouetted in haze.
Background: arriving train braking to a stop.
Avoid signage or corporate branding.

Wardrobe / Props / Extras
Main subject: mid-30s traveler, navy coat, backpack slung on one shoulder, 
holding phone loosely at side.
Extras: commuters in muted tones; one cyclist pushing bike.
Props: paper coffee cup, rolling luggage, LED departure board (generic destinations).

Sound
Diegetic only: faint rail screech, train brakes hiss, 
distant announcement muffled (-20 LUFS), low ambient hum.
Footsteps and paper rustle; no score or added foley.

Optimized Shot List (2 shots / 4 s total)

0.00–2.40 — "Arrival Drift" (32 mm, shoulder-mounted slow dolly left)
Camera slides past platform signage edge; shallow focus reveals traveler mid-frame 
looking down tracks. Morning light blooms across lens; train headlights flare softly 
through mist. Purpose: establish setting and tone, hint anticipation.

2.40–4.00 — "Turn and Pause" (50 mm, slow arc in)
Cut to tighter over-shoulder arc as train halts; traveler turns slightly toward camera, 
catching sunlight rim across cheek and phone screen reflection. Eyes flick up toward 
something unseen. Purpose: create human focal moment with minimal motion.

Camera Notes (Why It Reads)
Keep eyeline low and close to lens axis for intimacy.
Allow micro flares from train glass as aesthetic texture.
Preserve subtle handheld imperfection for realism.
Do not break silhouette clarity with overexposed flare; retain skin highlight roll-off.

Finishing
Fine-grain overlay with mild chroma noise for realism; 
restrained halation on practicals; warm-cool LUT for morning split tone.
Mix: prioritize train and ambient detail over footstep transients.
Poster frame: traveler mid-turn, golden rim light, 
arriving train soft-focus in background haze.

9.3 시각적 단서 활용

스타일: 가장 강력한 레버

  • 프롬프트 작성에서 스타일(style)은 원하는 결과를 가이드하는 가장 강력한 요소입니다.
  • 전체 미학을 설명하는 것이 다른 모든 선택을 프레임합니다.

스타일 설정 예시:

  • "1970s film" → 그레인, 빈티지 색상, 부드러운 초점
  • "epic, IMAX-scale scene" → 웅장한 스케일, 깊은 DOF, 극적 조명
  • "16mm black-and-white film" → 고대비, 거친 그레인, 다큐멘터리 느낌

명확성이 승리한다

  • 막연한 단서 대신 구체적인 시각적 요소를 사용하세요.
약한 프롬프트강한 프롬프트
"A beautiful street at night""Wet asphalt, zebra crosswalk, neon signs reflecting in puddles"
"Person moves quickly""Cyclist pedals three times, brakes, and stops at crosswalk"
"Cinematic look""Anamorphic 2.0x lens, shallow DOF, volumetric light"

카메라 방향과 프레이밍

  • 카메라 설정은 샷의 느낌을 결정합니다.

프레이밍 예시:

  • wide establishing shot, eye level (넓은 설정 샷, 눈높이)
  • wide shot, tracking left to right with the charge (넓은 샷, 좌에서 우로 추적)
  • aerial wide shot, slight downward angle (공중 넓은 샷, 약간 아래 각도)
  • medium close-up shot, slight angle from behind (중간 클로즈업 샷, 뒤에서 약간 각도)

카메라 움직임 예시:

  • slowly tilting camera (천천히 기울이는 카메라)
  • handheld eng camera (핸드헬드 ENG 카메라)

피사계 심도와 조명 통합

  • 약한 버전과 강한 버전을 비교하면 차이가 명확합니다:

약한 버전:

Camera shot: cinematic look

강한 버전:

Camera shot: wide shot, low angle
Depth of field: shallow (sharp on subject, blurred background)
Lighting + palette: warm backlight with soft rim

한국어:

카메라 샷: 넓은 샷, 낮은 앵글
피사계 심도: 얕음 (피사체는 선명, 배경은 흐림)
조명 + 팔레트: 부드러운 림이 있는 따뜻한 역광

10. 이미지 입력 활용

10.1 시각적 레퍼런스 활용

  • 샷의 구성과 스타일을 더 세밀하게 제어하려면 이미지 입력을 시각적 레퍼런스로 사용할 수 있습니다. 사진, 디지털 아트워크, AI 생성 비주얼을 사용할 수 있습니다.

    • 이는 캐릭터 디자인, 의상, 세트 드레싱, 전체 미학 같은 요소를 고정합니다. 모델은 이미지를 첫 프레임의 앵커로 사용하며, 텍스트 프롬프트는 다음에 일어날 일을 정의합니다.

10.2 사용 방법

  1. POST /videos 요청에서 input_reference 파라미터에 이미지 파일 포함
  2. 이미지는 타겟 비디오의 해상도(size)와 일치해야 함
  3. 지원 포맷: image/jpeg, image/png, image/webp

https://cookbook.openai.com/examples/sora/sora2_prompting_guide#visual-cues-that-steer-the-look

10.3 실험 팁

  • 레퍼런스가 없다면 OpenAI의 이미지 생성 모델을 활용하세요. 환경과 장면 디자인을 빠르게 생성하고, 이를 Sora의 레퍼런스로 전달할 수 있습니다. 이는 미학을 테스트하고 비디오의 아름다운 시작점을 생성하는 훌륭한 방법입니다.

11. 대화와 오디오

11.1 대화 기술 방법

  • 대화는 프롬프트에서 직접 기술해야 합니다.
    • 산문 설명 아래 블록에 배치하여 모델이 시각적 설명과 대사를 명확히 구분하도록 합니다.

대사 작성 원칙:

  • 간결하고 자연스럽게 유지
  • 클립 길이에 맞게 몇 문장으로 제한
  • 다중 캐릭터 씬에서는 스피커를 일관되게 라벨링
  • 교대 턴(alternating turns) 사용:
    • 각 대사를 올바른 캐릭터의 제스처/표정과 연결

타이밍 고려:

  • 4초 샷: 1-2개 짧은 교환 수용
  • 8초 샷: 몇 개 더 가능
  • 긴 복잡한 연설은 동기화가 어렵고 페이싱을 깰 수 있음

11.2 대화 포함 프롬프트 예시

A cramped, windowless room with walls the color of old ash. A single bare bulb dangles from the ceiling, its light pooling onto the scarred metal table at the center. 

Two chairs face each other across it. On one side sits the Detective, trench coat draped across the back of his chair, eyes sharp and unblinking. 

Across from him, the Suspect slouches, cigarette smoke curling lazily toward the ceiling. The silence presses in, broken only by the faint hum of the overhead light.

Dialogue:
- Detective: "You're lying. I can hear it in your silence."
- Suspect: "Or maybe I'm just tired of talking."
- Detective: "Either way, you'll talk before the night's over."

11.3 배경 사운드 묘사

  • 샷이 무(無)성이 아니라면, 작은 사운드 하나로 페이싱 큐를 제공할 수 있습니다.
    • 이를 전체 사운드트랙보다는 리듬 큐로 생각하세요.

예시:

The hum of espresso machines and the murmur of voices form the background.

12. Remix로 개선하기

12.1 전략적 사용

  • Remix는 미세 조정을 위한 도구이지 무작위 시도가 아닙니다.
    • 제어된 변경을 한 번에 하나씩 수행하세요.

사용 원칙:

  1. 변경 사항 명시: "same shot, switch to 85 mm" (같은 샷, 85mm로 전환)
  2. 성공 요소 고정: "same lighting, new palette: teal, sand, rust" (같은 조명, 새 팔레트: 틸, 샌드, 러스트)
  3. 이미 작동하는 것을 레퍼런스로 고정하고 조정만 설명

https://cookbook.openai.com/examples/sora/sora2_prompting_guide#visual-cues-that-steer-the-look

12.2 문제 해결 시 단순화

샷이 계속 실패한다면 단순화하세요:

  • 카메라 고정: 움직임 제거
  • 액션 단순화: 복잡한 동작을 기본 제스처로
  • 배경 정리: 산만한 요소 제거
  • 작동하면 단계적으로 복잡도 추가

Part 4: 실전 적용 ⭐

13. (추가) 5가지 요소를 통합하는 방법

💡 이 섹션에서는: Part 2에서 배운 5가지 핵심 요소(카메라, DOF, 액션, 조명, 피사체)를 실제 프롬프트에 어떻게 통합하는지 단계별로 배웁니다.

13.1 (추가) 프롬프트 작성 전 체크리스트

5가지 요소 체크리스트:

  • 카메라 프레이밍 명시했나?
    • 샷 크기 (Wide/Medium/Close-up)
    • 카메라 각도 (Eye level/Low/High)
    • 카메라 움직임 (Static/Dolly/Pan)
  • 피사계 심도 설정했나?
    • Shallow DOF (배경 흐림) 또는 Deep DOF (전체 선명)
  • 액션을 비트로 나눴나?
    • 각 비트에 숫자 카운트나 시간 앵커
    • 4초 클립: 3-4개 비트
    • 8초 클립: 6-8개 비트
  • 조명과 팔레트 3-5개 명시했나?
    • 조명 방향 (Key/Fill/Rim)
    • 조명 품질 (Hard/Soft)
    • 색온도 (Warm/Cool)
    • 색상 앵커 3-5개
  • 피사체 세부사항 3-5개 고정했나?
    • 의상, 헤어/얼굴, 액세서리, 나이/체격

13.2 (추가) 단계별 프롬프트 작성 가이드

Step 1: 스타일부터 시작

Style: [전체 미학 정의]
예: "1970s romantic drama, shot on 35mm film"

Step 2: 장면 기본 설명 (평문)

[장소, 시간, 인물, 기본 상황을 자연스럽게 묘사]
예: "At golden hour, a brick tenement rooftop..."

Step 3: 5가지 요소 추가

Cinematography:
Camera: [프레이밍 + 각도 + 움직임]
Depth of field: [Shallow/Deep + 구체적 효과]
Lighting: [방향 + 품질 + 색온도]
Palette anchors: [3-5개 색상]

Subject: [3-5개 독특한 특징]

Actions:
- [비트 1] (0-2s)
- [비트 2] (2-4s)
- [비트 3] (4-6s)

Step 4: 선택 사항 추가

Dialogue: (필요시)
- [캐릭터]: "[대사]"

Background Sound: (필요시)
[환경음 묘사]

13.3 통합 예시: 로봇 작업실

Style: Hand-painted 2D/3D hybrid animation with soft brush textures, 
warm tungsten lighting, and a tactile, stop-motion feel.
(→ Step 1: 스타일)

Inside a cluttered workshop, shelves overflow with gears, bolts, and yellowing blueprints. 
At the center, a small round robot sits on a wooden bench.
(→ Step 2: 기본 장면 설명)

Cinematography:
Camera: medium close-up, slow push-in with gentle parallax from hanging tools
(→ 요소 1: 카메라)

Depth of field: Shallow - sharp on robot, background clutter softly blurred
(→ 요소 2: DOF)

Lighting + Palette:
- Warm key from overhead practical bulb
- Cool window spill for contrast
- Palette anchors: amber, rust orange, steel blue, warm brown
(→ 요소 4: 조명과 팔레트)

Subject: Small round robot, dented body patched with mismatched plates, 
large pale blue glowing eyes
(→ 요소 5: 피사체 고정)

Actions:
- Robot taps bulb; sparks crackle (0-1s)
- Flinches, drops bulb, eyes widen (1-2s)
- Bulb tumbles in slow-mo; catches it (2-3s)
- Steam puff from chest - relief (3-4s)
(→ 요소 3: 액션 비트)

Background Sound:
Rain, ticking clock, soft mechanical hum, faint bulb sizzle.

예시 분석:

  1. 스타일 정의의 깊이: Hand-painted 2D/3D hybrid, mid-2000s storybook animation
  2. 캐릭터 디자인: dented body patched with mismatched plates, large glowing eyes
  3. 액션의 비트 분할: 5개의 명확한 비트로 4초 내 완전한 내러티브
  4. 사운드 디자인: 4개의 구체적 레이어로 풍부한 분위기

14. 프롬프트 템플릿

14.1 기본 템플릿

정보의 종류를 분리하면 일관성이 높아집니다.

  • 이는 만능 레시피가 아니지만 명확한 프레임워크를 제공합니다.

특정 요소를 열어두면:

  • 모델이 더 창의적으로 해석
  • 예상치 못하지만 종종 아름다운 변형 제공
  • 고도로 설명적인 프롬프트 → 더 일관되고 제어된 결과
  • 가벼운 프롬프트 → 신선하고 상상력 있는 다양한 결과
[평문으로 장면 설명. 캐릭터, 의상, 풍경, 날씨 및 기타 세부사항 묘사. 
비전과 일치하는 비디오를 생성하도록 상세히 기술.]

Cinematography:
Camera shot: [프레이밍과 앵글, 예: wide establishing shot, eye level]
Mood: [전체 톤, 예: cinematic and tense, playful and suspenseful]

Actions:
- [액션 1: 명확하고 구체적인 비트나 제스처]
- [액션 2: 클립 내 또 다른 구별되는 비트]
- [액션 3: 또 다른 액션 또는 대사 라인]

Dialogue:
[샷에 대화가 있다면, 여기 또는 액션 리스트의 일부로 짧고 자연스러운 대사 추가. 
클립 길이에 맞게 간결하게 유지.]

15. 실전 예시

예시: 로맨틱 드라마

Style: 1970s romantic drama, shot on 35 mm film with natural flares, 
soft focus, and warm halation. Slight gate weave and handheld micro-shake 
evoke vintage intimacy. Warm Kodak-inspired grade; light halation on bulbs; 
film grain and soft vignette for period authenticity.

At golden hour, a brick tenement rooftop transforms into a small stage. 
Laundry lines strung with white sheets sway in the wind, catching the last rays of sunlight. 
Strings of mismatched fairy bulbs hum faintly overhead. A young woman in a flowing red 
silk dress dances barefoot, curls glowing in the fading light. Her partner — sleeves rolled, 
suspenders loose — claps along, his smile wide and unguarded. Below, the city hums with 
car horns, subway tremors, and distant laughter.

Cinematography:
Camera: medium-wide shot, slow dolly-in from eye level
Lens: 40 mm spherical; shallow focus to isolate the couple from skyline
Lighting: golden natural key with tungsten bounce; edge from fairy bulbs
Mood: nostalgic, tender, cinematic

Actions:
- She spins; her dress flares, catching sunlight.
- Woman (laughing): "See? Even the city dances with us tonight."
- He steps in, catches her hand, and dips her into shadow.
- Man (smiling): "Only because you lead."
- Sheets drift across frame, briefly veiling the skyline before parting again.

Background Sound:
Natural ambience only: faint wind, fabric flutter, street noise, muffled music. 
No added score.

예시 분석:

  1. 필름 스톡 에뮬레이션: 35 mm film with natural flares, Warm Kodak-inspired grade
  2. 골든 아워 활용: golden hour, last rays of sunlight
  3. 의상과 캐릭터: flowing red silk dress, barefoot, sleeves rolled
  4. 대화의 자연스러움: 짧고 시적인 교환, 액션과 통합
  5. 자연주의 사운드: No added score, 다이제틱 사운드만

핵심 요점 정리

Sora 2 프롬프팅 성공 전략

  1. API 파라미터 먼저 설정

    • model, size, seconds는 API로 제어
    • 짧은 클립(4초)이 더 신뢰성 높음
  2. 5가지 핵심 요소 마스터

    • 카메라 프레이밍, DOF, 액션 비트, 조명/팔레트, 피사체 세부사항
  3. 짧은 vs 긴 프롬프트 균형

    • 짧은 = 창의적 자유
    • 긴 = 제어와 일관성
  4. 스타일을 최우선으로

    • 전체 미학 먼저 정의
  5. 명확성 > 모호함

    • 구체적 동사와 명사 사용
  6. 동작은 단순하게, 비트로 분할

    • 하나의 샷 = 하나의 움직임 + 하나의 액션
  7. 조명과 색상 일관성

    • 3-5개 색상 앵커
  8. 반복을 두려워하지 마세요

    • 두 번째, 세 번째 시도가 최고일 수 있음

길이 vs 창의성 트레이드오프

프롬프트 유형모델 창의성사용자 제어적합한 경우
짧은 (1-2문장)높음낮음실험적 탐색
중간 (5-10문장)중간중간일반적 프로젝트
긴 (15+ 문장)낮음높음전문 제작
Ultra-Detailed매우 낮음매우 높음시네마틱 재현

결론

Sora 2를 효과적으로 사용하는 것은 과학이 아닌 예술입니다. 이 가이드에서 다룬 전략들을 체계적으로 적용하되, 실험하고 모델과 협업하는 과정을 즐기세요.

Sora 2와 함께 비전을 현실로 만들어보세요! 🎬

오늘도 읽어주셔서 감사합니다 😺

profile
Always be passionate ✨

0개의 댓글