좋아 민준.
지금부터 새로운 GPT 채팅에 그대로 복붙하면 되는 최종 버전의 연구 컨텍스트(Context Prompt) 를 작성해줄게.
이번에는 앞에서 빠졌던
“Can We Use Diffusion Probabilistic Models for 3D Motion Prediction?” (ICRA 2023)
도 포함해서 완성형 버전으로 만들었어.
이 프롬프트는 네 연구 배경, 연구 목표, 필요한 논문, GPT에게 원하는 도움 방식 등을 완벽하게 구조화한 “연구 세팅 시작용 마스터 프롬프트”야.
새로운 채팅창에서 이걸 그대로 넣으면 GPT가 정확한 방향으로 학습 도우미 역할을 할 수 있게 된다.
✅ [최종 확정본] 새 GPT 채팅에 복붙해야 하는 연구 컨텍스트
📌 [연구 목적]
나는 POSTECH AHri Lab 인턴으로 2개월간 연구를 수행한다.
교수님이 요구한 조건은:
- 2개월 동안 전체 연구의 1/3 정도 수준 달성 가능할 것
- 기존 AHri Lab 방향성과 자연스럽게 연결될 것
- 너무 무겁지 않지만 연구적 기여가 명확한 주제일 것
내가 결정한 연구 방향은 다음과 같다:
👉 Scene Flow 기반의 Local 3D Dynamics 를 AHri Lab Human Understanding Pipeline에 결합하는 연구
📌 [연구 배경 및 동기]
AHri Lab의 기존 Human Understanding 연구는 다음 정보를 입력으로 사용한다:
- 3D Skeleton Motion
- Egocentric Verb–Noun Sequence
- Gaze + Human–Object Interaction
- Transformer / Diffusion 기반 Forecasting
하지만 이들은 모두 “사람 중심(human-centric)” representation만을 사용한다.
즉,
사람의 신체 움직임은 잘 봐도, 주변 환경·물체의 3D 상대 움직임(scene-level dynamics)은 직접적으로 고려하지 않는다.
그러나 실제 HRI(Human–Robot Interaction) 환경에서 로봇은:
- 사람 ↔ 물체 간 3D 거리
- approaching / avoiding 속도
- scene 내의 움직임 패턴
- depth 기반 공간 구조
을 이해해야 안전하고 자연스러운 interaction이 가능하다.
🔥 그래서 Scene Flow가 필요하다.
Scene Flow는 연속된 영상에서 모든 픽셀의 3D 이동 벡터를 직접적으로 추정한다.
이는 skeleton-only 모델이 보지 못하는 scene-level physical motion 정보를 보완한다.
📌 [Scene Flow 기반 모델]
내 연구의 기반 모델은 다음 논문이다:
🟦 Simultaneous End-to-End Depth Estimation and Scene Flow Prediction with Scale-Aware Loss (arXiv:2511.10647)
- 단일 카메라 입력으로 depth + 3D optical flow(scene flow) 동시 추정
- scale-aware loss 로 absolute distance 안정화
- pretrained model inference 이용 예정
- Scene Flow를 보조 3D feature로 추출해 AHri 모델에 결합하는 것이 핵심 목적
📌 [내가 Scene Flow를 적용하려는 AHri Lab 핵심 논문들]
아래 4편은 AHri Lab Human Understanding 연구의 중심 라인이다.
Scene Flow를 추가하여 성능 향상 또는 의미 있는 변화가 있는지 실험을 수행할 것이다.
① HOI Gaze Following (Mascaró et al.)
— 시선 기반 객체 상호작용 예측
→ Scene Flow로 “사람–객체 상대 움직임” 정보를 추가 가능
② Intention-Conditioned Long-Term Egocentric Action Anticipation (WACV 2023)
— 과거 행동과 intention으로 미래 행동 예측
→ Scene Flow로 “approaching dynamics” 를 condition으로 추가 가능
③ Robust Human Motion Forecasting (IROS 2022)
— Transformer 기반 deterministic motion prediction
→ Scene Flow를 외부 condition feature로 붙여 비교 가능
④ Can We Use Diffusion Probabilistic Models for 3D Motion Prediction? (ICRA 2023)
— 이 논문은 반드시 포함해야 하는 핵심 모델이며, Scene Flow fusion이 가장 자연스럽게 적용되는 대상
→ Diffusion 모델은 condition을 쉽게 받을 수 있으므로 scene flow 3D cue 추가에 최적
📌 [내가 실제로 수행할 연구 단계]
- pretrained 모델로 depth + scene flow 추출
- 사람 주변(hand/arm/body mask) 중심 flow pooling
- 혹은 PCA/MLP embedding으로 16~32D 저차원 feature 생성
STEP 2 — AHri Lab 모델에 Scene Flow 추가
- Diffusion motion prediction 모델 latent에 scene flow embedding condition 추가
- Egocentric LTA 모델의 멀티모달 input에 scene flow feature 추가
- HOI gaze 모델에 person→object relative flow 추가
STEP 3 — Ablation 실험
- Skeleton-only
- RGB-only
- SceneFlow-only
- Skeleton + SceneFlow
- RGB + SceneFlow
→ 비교하여 scene flow의 기여도 분석
STEP 4 — 결과 정리 및 분석
- 어떤 representation과 task에서 Scene Flow가 가장 효과적인지 분석
- 연산량 대비 성능 향상 trade-off 분석
- 연구실 내부 세미나 발표 자료 준비
📌 [GPT가 앞으로 나에게 해줘야 할 역할]
- 각 핵심 논문을 초심자도 이해할 수 있게 정리
- Scene Flow → feature extraction 과정 코드 구조로 설명
- Diffusion / Transformer 모델 구조를 그림·블록 다이어그램 중심으로 설명
- Scene Flow embedding을 모델에 넣을 때 어떤 fusion 방식이 최적인지 제안
- 인턴 2개월 동안 따라갈 학습 플랜 + 실험 플랜 설계
- 나의 개발 경험(ROS, LiDAR, SLAM, Jetson 등)을 고려하여 현실적 구현 조언 제공
- 교수님 미팅 준비를 위해 pitch 문장, 설명 포맷 등도 도와줌
📌 [내 배경] — GPT가 알고 있어야 할 것
나는 이미 다음 경험이 있다:
- LIO-SAM 구현 및 LiDAR–IMU 타임싱크 문제 해결 경험
- SLAM / RTK-GPS 기반 navigation 개발 경험
- 자율주행 1/5 scale 플랫폼 개발
- object detection / segmentation / BEV lane detection 구현
- Jetson/TensorRT 최적화
- ROS 기반 멀티로봇 제어
- 연구대회 6회 입상 경험
- 팀원 교육 및 프로젝트 리드 경험
- 딥러닝과 3D perception을 이해할 수 있는 기반 충분함
따라서 GPT는 나에게 기초적인 설명보다는 연구·모델 설계 중심 지원을 하는 게 좋다.
📌 [학습 스타일]
- Top-down 구조 선호
- 논문 설명 시: 핵심 contribution → 구조도 → 수식 핵심 → 코드 레벨 mapping
- 복잡한 개념은 아키텍처 그림 기반 설명
- 코드 제시 시 반드시 모듈 단위로 정리
- 필요하면 bottom-up 방식도 병행
📌 GPT에게 요구하는 목표
“Scene Flow → Human Understanding 모델 결합 연구를 성공적으로 수행할 수 있도록
기초 공부부터 구현·실험까지 전 과정을 가이드해달라.”
✨ 이 문장을 새 GPT 채팅 첫 메시지로 복붙하면 바로 준비 완료.
GPT는 이 문맥을 기반으로
- 논문 공부
- 구현
- 구조 설계
- 실험 계획
을 가장 효율적으로 도와줄 수 있다.
🔚 마지막 확인
필요하면
✔ PDF 버전 만들기
✔ 교수님 제출용 1페이지 연구계획서 재정리
✔ diffusion+scene flow 아키텍처 그림 생성
✔ 2개월 상세 주간 계획(Week 1~8)
도 바로 만들어줄 수 있어.