학습 지침 요약 프롬프트

김민준·5일 전

좋아 민준.
지금부터 새로운 GPT 채팅에 그대로 복붙하면 되는 최종 버전의 연구 컨텍스트(Context Prompt) 를 작성해줄게.

이번에는 앞에서 빠졌던
“Can We Use Diffusion Probabilistic Models for 3D Motion Prediction?” (ICRA 2023)
도 포함해서 완성형 버전으로 만들었어.

이 프롬프트는 네 연구 배경, 연구 목표, 필요한 논문, GPT에게 원하는 도움 방식 등을 완벽하게 구조화한 “연구 세팅 시작용 마스터 프롬프트”야.
새로운 채팅창에서 이걸 그대로 넣으면 GPT가 정확한 방향으로 학습 도우미 역할을 할 수 있게 된다.


[최종 확정본] 새 GPT 채팅에 복붙해야 하는 연구 컨텍스트


📌 [연구 목적]

나는 POSTECH AHri Lab 인턴으로 2개월간 연구를 수행한다.
교수님이 요구한 조건은:

  • 2개월 동안 전체 연구의 1/3 정도 수준 달성 가능할 것
  • 기존 AHri Lab 방향성과 자연스럽게 연결될 것
  • 너무 무겁지 않지만 연구적 기여가 명확한 주제일 것

내가 결정한 연구 방향은 다음과 같다:

👉 Scene Flow 기반의 Local 3D Dynamics 를 AHri Lab Human Understanding Pipeline에 결합하는 연구


📌 [연구 배경 및 동기]

AHri Lab의 기존 Human Understanding 연구는 다음 정보를 입력으로 사용한다:

  • 3D Skeleton Motion
  • Egocentric Verb–Noun Sequence
  • Gaze + Human–Object Interaction
  • Transformer / Diffusion 기반 Forecasting

하지만 이들은 모두 “사람 중심(human-centric)” representation만을 사용한다.

즉,
사람의 신체 움직임은 잘 봐도, 주변 환경·물체의 3D 상대 움직임(scene-level dynamics)은 직접적으로 고려하지 않는다.

그러나 실제 HRI(Human–Robot Interaction) 환경에서 로봇은:

  • 사람 ↔ 물체 간 3D 거리
  • approaching / avoiding 속도
  • scene 내의 움직임 패턴
  • depth 기반 공간 구조

을 이해해야 안전하고 자연스러운 interaction이 가능하다.

🔥 그래서 Scene Flow가 필요하다.

Scene Flow는 연속된 영상에서 모든 픽셀의 3D 이동 벡터를 직접적으로 추정한다.
이는 skeleton-only 모델이 보지 못하는 scene-level physical motion 정보를 보완한다.


📌 [Scene Flow 기반 모델]

내 연구의 기반 모델은 다음 논문이다:

🟦 Simultaneous End-to-End Depth Estimation and Scene Flow Prediction with Scale-Aware Loss (arXiv:2511.10647)

  • 단일 카메라 입력으로 depth + 3D optical flow(scene flow) 동시 추정
  • scale-aware loss 로 absolute distance 안정화
  • pretrained model inference 이용 예정
  • Scene Flow를 보조 3D feature로 추출해 AHri 모델에 결합하는 것이 핵심 목적

📌 [내가 Scene Flow를 적용하려는 AHri Lab 핵심 논문들]

아래 4편은 AHri Lab Human Understanding 연구의 중심 라인이다.
Scene Flow를 추가하여 성능 향상 또는 의미 있는 변화가 있는지 실험을 수행할 것이다.


HOI Gaze Following (Mascaró et al.)

— 시선 기반 객체 상호작용 예측
→ Scene Flow로 “사람–객체 상대 움직임” 정보를 추가 가능

Intention-Conditioned Long-Term Egocentric Action Anticipation (WACV 2023)

— 과거 행동과 intention으로 미래 행동 예측
→ Scene Flow로 “approaching dynamics” 를 condition으로 추가 가능

Robust Human Motion Forecasting (IROS 2022)

— Transformer 기반 deterministic motion prediction
→ Scene Flow를 외부 condition feature로 붙여 비교 가능

Can We Use Diffusion Probabilistic Models for 3D Motion Prediction? (ICRA 2023)

이 논문은 반드시 포함해야 하는 핵심 모델이며, Scene Flow fusion이 가장 자연스럽게 적용되는 대상
→ Diffusion 모델은 condition을 쉽게 받을 수 있으므로 scene flow 3D cue 추가에 최적


📌 [내가 실제로 수행할 연구 단계]

STEP 1 — Scene Flow Feature Extraction (Lightweight module)

  • pretrained 모델로 depth + scene flow 추출
  • 사람 주변(hand/arm/body mask) 중심 flow pooling
  • 혹은 PCA/MLP embedding으로 16~32D 저차원 feature 생성

STEP 2 — AHri Lab 모델에 Scene Flow 추가

  • Diffusion motion prediction 모델 latent에 scene flow embedding condition 추가
  • Egocentric LTA 모델의 멀티모달 input에 scene flow feature 추가
  • HOI gaze 모델에 person→object relative flow 추가

STEP 3 — Ablation 실험

  • Skeleton-only
  • RGB-only
  • SceneFlow-only
  • Skeleton + SceneFlow
  • RGB + SceneFlow
    → 비교하여 scene flow의 기여도 분석

STEP 4 — 결과 정리 및 분석

  • 어떤 representation과 task에서 Scene Flow가 가장 효과적인지 분석
  • 연산량 대비 성능 향상 trade-off 분석
  • 연구실 내부 세미나 발표 자료 준비

📌 [GPT가 앞으로 나에게 해줘야 할 역할]

  1. 각 핵심 논문을 초심자도 이해할 수 있게 정리
  2. Scene Flow → feature extraction 과정 코드 구조로 설명
  3. Diffusion / Transformer 모델 구조를 그림·블록 다이어그램 중심으로 설명
  4. Scene Flow embedding을 모델에 넣을 때 어떤 fusion 방식이 최적인지 제안
  5. 인턴 2개월 동안 따라갈 학습 플랜 + 실험 플랜 설계
  6. 나의 개발 경험(ROS, LiDAR, SLAM, Jetson 등)을 고려하여 현실적 구현 조언 제공
  7. 교수님 미팅 준비를 위해 pitch 문장, 설명 포맷 등도 도와줌

📌 [내 배경] — GPT가 알고 있어야 할 것

나는 이미 다음 경험이 있다:

  • LIO-SAM 구현 및 LiDAR–IMU 타임싱크 문제 해결 경험
  • SLAM / RTK-GPS 기반 navigation 개발 경험
  • 자율주행 1/5 scale 플랫폼 개발
  • object detection / segmentation / BEV lane detection 구현
  • Jetson/TensorRT 최적화
  • ROS 기반 멀티로봇 제어
  • 연구대회 6회 입상 경험
  • 팀원 교육 및 프로젝트 리드 경험
  • 딥러닝과 3D perception을 이해할 수 있는 기반 충분함

따라서 GPT는 나에게 기초적인 설명보다는 연구·모델 설계 중심 지원을 하는 게 좋다.


📌 [학습 스타일]

  • Top-down 구조 선호
  • 논문 설명 시: 핵심 contribution → 구조도 → 수식 핵심 → 코드 레벨 mapping
  • 복잡한 개념은 아키텍처 그림 기반 설명
  • 코드 제시 시 반드시 모듈 단위로 정리
  • 필요하면 bottom-up 방식도 병행

📌 GPT에게 요구하는 목표

“Scene Flow → Human Understanding 모델 결합 연구를 성공적으로 수행할 수 있도록
기초 공부부터 구현·실험까지 전 과정을 가이드해달라.”


이 문장을 새 GPT 채팅 첫 메시지로 복붙하면 바로 준비 완료.

GPT는 이 문맥을 기반으로

  • 논문 공부
  • 구현
  • 구조 설계
  • 실험 계획
    을 가장 효율적으로 도와줄 수 있다.

🔚 마지막 확인

필요하면
✔ PDF 버전 만들기
✔ 교수님 제출용 1페이지 연구계획서 재정리
✔ diffusion+scene flow 아키텍처 그림 생성
✔ 2개월 상세 주간 계획(Week 1~8)
도 바로 만들어줄 수 있어.

profile
지금까지 해온 여러 활동들을 간략하게라도 정리해보고자 합니다.

0개의 댓글