📚 도메인별 논문 정리 (Total Summary)

거대언어모델(LLM)이 어떻게 로봇의 눈(Vision)과 손(Action)을 제어하게 되는지를 다루는 가장 핵심적인 분야입니다.

논문명	기관	핵심 내용	비고
RT-2	Google DeepMind	VLA(Vision-Language-Action) 개념의 시초. LLM이 로봇 제어 토큰을 출력.	필독 (기본서)
OpenVLA	Stanford/Berkeley	RT-2의 오픈소스 버전. Llama 2 + SigLIP 결합. 훨씬 가볍고 빠름.	실무 필독
Octo	Berkeley/Stanford	트랜스포머와 디퓨전을 결합한 오픈소스 범용 로봇 정책.	표준 베이스라인
MobileVLM / VILA	NVIDIA	엣지 디바이스(로봇 내부) 탑재를 위한 경량화된 VLM 모델.	온디바이스 AI

"어떻게 움직일까?"에 대한 대답입니다. 기존 제어 방식에서 생성형 AI 방식(Diffusion)으로 넘어가는 흐름을 보여줍니다.

논문명	기관	핵심 내용	비고
Diffusion Policy	Columbia/MIT	이미지 생성 원리(Diffusion)를 로봇 행동 생성에 적용. 멀티모달 분포 학습에 탁월.	현재 표준 (Standard)
Open X-Embodiment	Google et al.	"로봇계의 ImageNet". 서로 다른 로봇 데이터를 통합(RT-X)하여 범용성 증명.	데이터 스케일링

현실 데이터 수집의 어려움을 '기발한 하드웨어'나 '시뮬레이션'으로 해결하는 접근법입니다.

논문명	기관	핵심 내용	비고
UMI	Stanford	GoPro와 그립퍼만으로 전 세계 어디서나 데이터 수집 가능.	데이터 혁명
DexCap	Stanford	모션 캡처 장갑을 이용해 정교한 손동작(Dexterous Hand) 데이터 수집.	휴머노이드 손 제어
Eureka	NVIDIA	LLM(GPT-4)이 강화학습 보상 함수(Reward Function) 코드를 직접 작성.	자동화된 학습 설계
DrEureka	NVIDIA	시뮬레이션 물리 파라미터까지 LLM이 조절하여 Sim-to-Real 성공.	Eureka의 후속

단순 제어를 넘어, 세상을 이해하고 예측하거나 인간을 닮아가는 최신 연구들입니다.

논문명	기관	핵심 내용	비고
Genie	Google DeepMind	비디오만 보고 학습하여 정적 이미지를 '플레이 가능한 게임'으로 변환.	World Model의 시작
V-JEPA	Meta FAIR	얀 르쿤의 비전. 비디오의 픽셀이 아닌 물리적 특징(Feature)을 예측.	효율적 학습
HumanPlus	Stanford	카메라 하나로 사람을 섀도잉하여 휴머노이드 움직임 학습.	휴머노이드 제어
Pi0 / GR00T	Physical Int. / NVIDIA	(논문/리포트) 다양한 하드웨어를 아우르는 범용 로봇 파운데이션 모델 프로젝트.	산업계 최전선

🚀 추천 학습 로드맵 (Reading Order)

가장 효율적으로 이 분야를 마스터하기 위한 순서를 제안합니다.

Step 1. 개념 잡기 (The Basics)