profile
AI 공부합니다
post-thumbnail

[논문 리뷰] SPATIAL FORCING: IMPLICIT SPATIAL REPRESENTATION ALIGNMENT FOR VISION-LANGUAGE-ACTION MODEL

기본 정보: 본 논문은 "Spatial Forcing: Implicit Spatial Representation Alignment for Vision-Language-Action Model" (Fuhao Li 외, 2025년 10월)으로, 2D 시각 정보에 국한된 VL

4일 전
·
0개의 댓글
·
post-thumbnail

[논문 리뷰] VLA-RFT: VISION-LANGUAGE-ACTION REINFORCEMENT FINE-TUNING WITH VERIFIED REWARDS IN WORLD SIMULATORS

본 논문은 Vision-Language-Action(VLA) 모델의 모방 학습(Imitation Learning)이 지닌 한계를 극복하기 위해, 데이터 기반의 세계 모델(World Model)을 시뮬레이터로 활용하는 강화 미세조정(Reinforcement Fine-Tu

2026년 4월 29일
·
0개의 댓글
·
post-thumbnail

[논문 리뷰] CodeGraphVLP: Code-as-Planner Meets Semantic-Graph State for Non-Markovian Vision-Language-Action Models

본 논문은 비마르코프(Non-Markovian) 환경의 장기(Long-horizon) 로봇 조작 한계를 극복하기 위해, 지속적인 '의미론적 그래프(Semantic-Graph)' 상태와 '코드 기반 계획기(Code-as-Planner)'를 결합한 CodeGraphVLP

2026년 4월 27일
·
0개의 댓글
·
post-thumbnail

[논문 리뷰] Long-Horizon Manipulation via Trace-Conditioned VLA Planning

목적 및 제안 방법: 긴 시계열(Long-horizon) 로봇 조작의 복잡성을 해결하기 위해 고수준의 작업 관리자(VLM)와 저수준의 실행기(VLA)를 분리하고, 2D 시각적 궤적(Trace)을 매개체로 연결하는 LoHo-Manip 프레임워크를 제안함.기술적 차별성:

2026년 4월 27일
·
0개의 댓글
·
post-thumbnail

[논문 리뷰] PersonaVLM: Long-Term Personalized Multimodal LLMs

본 논문은 멀티모달 대형 언어 모델(MLLM)이 사용자의 진화하는 선호도와 성격을 장기적으로 학습하고 유지하지 못하는 문제를 해결하기 위해 PersonaVLM 프레임워크를 제안함.기억(Memory), 추론(Reasoning), 응답 정렬(Response Alignmen

2026년 4월 24일
·
0개의 댓글
·
post-thumbnail

[논문 리뷰] Near-Future Policy Optimization

본 논문은 강화학습(RLVR) 기반의 언어 모델 튜닝에서, 현재 정책보다 조금 앞선 '가까운 미래(Near-Future)' 체크포인트가 생성한 정답 궤적을 활용하여 학습을 최적화하는 NPO(Near-Future Policy Optimization)를 제안한다.외부 교사

2026년 4월 24일
·
0개의 댓글
·
post-thumbnail

[논문 리뷰] DiPO: Disentangled Perplexity Policy Optimization for Fine-grained Exploration-Exploitation Trade-Off

본 논문은 대형 언어 모델(LLM)의 강화학습 과정에서 발생하는 극단적 샘플(전체 정답 또는 전체 오답)의 기울기 소실 및 비효율적 탐색-활용 딜레마를 해결하기 위한 DiPO(Disentangled Perplexity Policy Optimization)를 제안한다.퍼

2026년 4월 24일
·
0개의 댓글
·
post-thumbnail

[논문 리뷰] LLaDA2.0-Uni: Unifying Multimodal Understanding and Generation with Diffusion Large Language Model

본 논문은 다중 양상(Multimodal)의 이해와 생성을 하나의 통합된 프레임워크에서 처리하기 위해, 완전히 이산화된 의미론적 토크나이저와 확산 대형 언어 모델(dLLM)을 결합한 'LLaDA2.0-Uni'를 제안합니다.기존의 픽셀 재구성 기반 VQ-VAE 대신 Si

2026년 4월 24일
·
0개의 댓글
·
post-thumbnail

[논문 리뷰] OneVL: One-Step Latent Reasoning and Planning with Vision-Language Explanation

본 논문은 자율주행의 궤적 예측 시 자율회귀(Autoregressive) 기반 Chain-of-Thought(CoT)가 유발하는 막대한 추론 지연 시간 문제를 해결하기 위해, 잠재 공간(Latent space) 내에서 단일 단계로 추론과 계획을 수행하는 'OneVL'

2026년 4월 24일
·
0개의 댓글
·
post-thumbnail

[논문 리뷰] VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language-Action Model

본 논문은 대규모 시각-언어 모델(VLM)과 막대한 사전 학습에 의존하는 기존 VLA(Vision-Language-Action) 모델의 한계를 극복하기 위해, 0.5B 수준의 극도로 작은 백본만으로 시각-언어 공간을 행동 공간으로 효과적으로 연결하는 'VLA-Adapt

2026년 4월 21일
·
0개의 댓글
·
post-thumbnail

[논문 리뷰] Green-VLA: Staged Vision-Language-Action Model for Generalist Robots

본 논문은 이기종 로봇(휴머노이드, 매니퓰레이터 등)을 하나의 통합된 행동 공간(Unified Action Space)으로 제어하기 위해 5단계(L0~R2) 커리큘럼 학습을 제안한 범용 VLA 프레임워크(Green-VLA)입니다.기술적으로는 단순 패딩(Padding)을

2026년 4월 21일
·
0개의 댓글
·

[Insight] AI를 통한 시대 변화

시대 변화 및 비즈니스 모델:폐쇄적 $\\rightarrow$ 오픈형으로 변화.한번 팔고 끝나는 시대는 끝남 (고객 유지 중요).희소성 + 브랜딩 (스타벅스, 아마존 사례).제조업의 서비스화 (경계가 없어짐).AI와 미래:AI를 통한 농기계 데이터 A/S 예측 (대동기

2026년 4월 16일
·
0개의 댓글
·
post-thumbnail

[논문 리뷰] OpenVLA: An Open-Source Vision-Language-Action Model

로봇 공학에서 학습 기반 제어 정책(Learned Policies)의 가장 큰 약점은 학습 데이터의 범위를 벗어난 환경(새로운 객체, 조명, 지시어 등)에 대한 일반화(Generalization) 능력이 부족하다는 점입니다. 반면, 인터넷 규모의 데이터로 사전 학습된

2026년 4월 13일
·
0개의 댓글
·
post-thumbnail

[논문 리뷰] Octo: An Open-Source Generalist Robot Policy

로봇 제어 분야에서는 특정 태스크와 환경에 종속된 정책(Policy)을 밑바닥부터 학습시키는 방식이 주를 이루었습니다. 그러나 최근 대규모 로봇 궤적 데이터를 활용하여 사전 학습(Pre-training)된 범용 로봇 정책(Generalist Robot Policies,

2026년 4월 13일
·
0개의 댓글
·
post-thumbnail

[논문 리뷰] Diffusion Policy: Visuomotor Policy Learning via Action Diffusion

로봇 비전-운동 정책(Visuomotor Policy) 학습은 시각적 관측값을 로봇의 제어 명령으로 변환하는 모방 학습(Imitation Learning)의 핵심 과제입니다. 하지만 로봇 제어 데이터는 인간 시연자의 다양한 의사결정이 섞인 다중 모달리티(Multimod

2026년 4월 13일
·
0개의 댓글
·
post-thumbnail

[논문 리뷰] RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

로봇 학습 분야의 오랜 숙제는 일반화(Generalization)입니다. 기존의 로봇 제어 모델들은 특정 환경과 사물에 국한된 데이터를 학습하여, 훈련 데이터에 없는 새로운 사물이나 명령어를 접했을 때 대응 능력이 현저히 떨어졌습니다.기존 방법론: 주로 ImageNet

2026년 4월 13일
·
0개의 댓글
·
post-thumbnail

[논문 리뷰] RT-1: ROBOTICS TRANSFORMER FOR REAL-WORLD CONTROL AT SCALE

컴퓨터 비전(CV)과 자연어 처리(NLP) 분야는 소규모의 특정 작업 맞춤형 데이터셋에서 벗어나, 방대한 범용 데이터셋으로 사전 학습된 대규모 모델(Large General Models) 패러다임으로 전환하며 눈부신 발전을 이루었습니다. 이러한 모델들은 풍부한 데이터를

2026년 4월 13일
·
0개의 댓글
·
post-thumbnail

[논문 리뷰] ViVa: A Video-Generative Value Model for Robot Reinforcement Learning

로봇 조작 분야는 대규모 사전 학습을 거친 비전-언어-행동(Vision-Language-Action, VLA) 모델의 등장으로 큰 발전을 이루었습니다. 그러나 실제 환경에서의 로봇 제어는 부분적 관찰성(partial observability)과 지연된 피드백(delay

2026년 4월 12일
·
0개의 댓글
·
post-thumbnail

[논문 리뷰] A1: A Fully Transparent Open-Source, Adaptive and Efficient Truncated Vision-Language-Action Model

연구가 등장한 배경최근 로봇 공학 분야에서는 복잡한 시각적 환경을 이해하고 정밀한 제어를 수행하기 위해 시각-언어-행동(Vision-Language-Action, VLA) 모델이 핵심 패러다임으로 자리 잡았습니다. 대규모 시각-언어 모델(VLM)을 백본으로 사용하여 다

2026년 4월 11일
·
0개의 댓글
·

[Project] Web-App AI 개발 Process 정리

과거: 특정 세부 트랙을 선택하여 개발자로 일하는 방식.현재 (AI 시대): 세세하고 딥(Deep)한 작업은 AI에게 맡기고, 전체적인 흐름(Flow)을 파악하는 것이 중요함.지향점: PM(프로젝트 매니저)처럼 '거인의 어깨' 위에서 전체를 조망하는 관점.효율성: 바이

2026년 4월 10일
·
0개의 댓글
·