Studying Physical AI

# 🤖 Physical AI 학습 로드맵 (v2)
### MuJoCo 기반 VLA 연구 — 3~6개월 플랜

> **환경**: A100 GPU (자유롭게 사용 가능) · 로봇 하드웨어 예산 ~100만원  
> **배경**: RL 이론 기반, 실습 경험 없음 · PyTorch 능숙 · 휴머노이드/전신 제어 관심  
> **목표**: Physical AI 전반 탐색 (VLA 논문 재현, 데이터 생성, Sim-to-Real)  
> **부가 관심**: World Model (영상 예측 기반 계획), LLM 기반 Task Planning

---

## Phase 1 — 기초 체력 만들기 (1~4주)

이 단계의 목표는 MuJoCo 시뮬레이터에 익숙해지고, RL 알고리즘을 직접 돌려보는 것입니다.

### 1-1. MuJoCo 설치 & 기본 조작 (1주차)

```bash
pip install mujoco
pip install gymnasium[mujoco]

MuJoCo viewer로 Menagerie 모델 로드해서 물리 시뮬레이션 구경하기
mujoco.MjModel, MjData 구조 이해 (XML → 모델 → 시뮬레이션 루프)
Gymnasium의 Humanoid-v5 환경에서 랜덤 액션으로 시뮬레이션 돌려보기
Menagerie에서 Unitree G1, H1 모델 로드해서 viewer로 탐색
URDF/MJCF XML 구조 기초 이해 — 로봇 모델 수정의 기반

핵심 자료:

MuJoCo 공식 문서: https://mujoco.readthedocs.io
MuJoCo Menagerie: https://github.com/google-deepmind/mujoco_menagerie

1-2. RL 첫 실습 — PPO로 걷기 (2~3주차)

이론만 알고 있다면, 직접 돌려보는 게 가장 빠릅니다.

CleanRL로 PPO 구현체 한 줄씩 따라가기 (가장 교육적인 RL 코드베이스)
Humanoid-v5에서 PPO 학습 → 걷기 성공시키기
보상 함수 구조 이해 (healthy_reward, ctrl_cost, forward_reward)
하이퍼파라미터 실험: learning rate, clip range, 배치 사이즈 변화 관찰

핵심 자료:

CleanRL: https://github.com/vwxyzjn/cleanrl
Spinning Up (이론 복습용): https://spinningup.openai.com

1-3. MuJoCo Playground 입문 (3~4주차)

MuJoCo Playground는 MJX(JAX 백엔드)를 사용하여 GPU에서 수천 개 환경을 병렬 실행하는 프레임워크입니다. A100이 있으니 이걸 안 쓸 이유가 없습니다.

pip install playground

DM Control Suite 환경으로 GPU 병렬 학습 체험
Unitree G1 joystick locomotion 환경 실행
학습 속도 비교: CPU 단일 환경 vs GPU 수천 환경 병렬
제공되는 Colab 노트북으로 빠르게 체험 가능

핵심 자료:

MuJoCo Playground: https://playground.mujoco.org
논문: https://arxiv.org/abs/2502.08844

Phase 1 마일스톤: MuJoCo에서 휴머노이드가 걸어다니는 PPO 정책을 직접 학습시킬 수 있다.

Phase 2 — VLA 핵심 개념 & 논문 공부 (5~8주)

이 단계에서는 Physical AI의 핵심인 VLA(Vision-Language-Action) 모델의 구조와 학습 방법을 이해합니다.

2-1. VLA 아키텍처 이론 학습 (5~6주차)

VLA 모델은 "보고(Vision) → 이해하고(Language) → 행동하는(Action)" 구조입니다.

필수 논문 읽기 순서:

순서	논문	왜 중요한가
1	RT-2 (Google, 2023)	VLA의 시작점. VLM을 로봇 제어에 처음 연결
2	Octo (UC Berkeley, 2024)	오픈소스 범용 로봇 정책의 초기 모델
3	OpenVLA (Stanford, 2024)	가장 접근하기 쉬운 오픈소스 VLA
4	π₀ (Physical Intelligence, 2024)	Flow matching 기반 VLA, 현재 SOTA급
5	π₀.5 (Physical Intelligence, 2025)	Open-world 일반화의 최전선

병렬로 공부할 배경 지식:

Flow Matching / Diffusion 기초 (π₀의 핵심) — Yaron Lipman 원 논문 + Meta 튜토리얼 추천
PaliGemma VLM 구조 (π₀의 백본)
Action Chunking (고빈도 제어의 핵심 기법)

2-2. 시뮬레이션 벤치마크 환경 세팅 (6~7주차)

논문을 읽으며 동시에 평가 환경을 세팅합니다.

LIBERO: VLA 모델의 표준 벤치마크 (탁상 매니퓰레이션 100개 태스크)
SimplerEnv: 시뮬레이션에서 VLA를 평가하는 가벼운 프레임워크
CALVIN: 장기 태스크 수행 벤치마크

이 환경들은 MuJoCo 기반이므로 Phase 1에서 익힌 것이 바로 연결됩니다.

2-3. OpenVLA 직접 돌려보기 (7~8주차)

git clone <https://github.com/openvla/openvla.git>
cd openvla && pip install -e .

사전학습된 OpenVLA 체크포인트로 LIBERO에서 추론 실행
LoRA 파인튜닝으로 새로운 태스크에 적응시키기 (A100 1장이면 충분)
OFT(Optimized Fine-Tuning) 레시피로 추론 속도 25-50배 개선 실험

핵심 자료:

OpenVLA: https://github.com/openvla/openvla
OpenVLA-OFT 프로젝트 페이지 확인

Phase 2 마일스톤: VLA 모델의 구조를 설명할 수 있고, OpenVLA를 시뮬레이션에서 돌려볼 수 있다.

Phase 3 — π₀ 재현 & 심화 실험 (9~14주)

이 단계는 현재 가장 강력한 VLA인 π₀ 계열을 직접 다뤄보는 핵심 구간입니다.

3-1. JAX 기초 학습 (9주차 — 병렬 진행)

Physical AI 연구에서 JAX가 주류로 자리잡고 있습니다. MJX, OpenPI 원본 구현, Brax 등 핵심 도구가 전부 JAX 기반이므로, PyTorch 경험을 바탕으로 1~2주 투자하면 충분합니다.

PyTorch ↔ JAX 대응 핵심:

PyTorch	JAX	설명
`torch.no_grad()`	`jax.jit`	JIT 컴파일로 자동 최적화
`DataParallel`	`jax.pmap`	디바이스 병렬화
`torch.vmap`	`jax.vmap`	자동 배치 벡터화
`loss.backward()`	`jax.grad`	함수형 자동 미분

JAX 공식 튜토리얼로 핵심 API 3개 (jit, vmap, grad) 익히기
MJX 코드 읽으며 JAX 패턴 체득하기
Flax/Optax로 간단한 모델 학습 돌려보기

3-2. OpenPI 세팅 & 추론 (9~10주차)

Physical Intelligence가 공개한 공식 오픈소스 구현체입니다.

git clone --recurse-submodules <https://github.com/Physical-Intelligence/openpi.git>

π₀ 및 π₀.5 사전학습 체크포인트로 추론 실행
LIBERO 벤치마크에서 평가 (Docker 기반 워크플로우 제공)
JAX와 PyTorch 양쪽 구현 비교 — PyTorch 구현부터 시작하되, JAX 코드도 반드시 읽기

필요 GPU: A100 80GB 1장 (추론) / FSDP 멀티 GPU (학습)

실전 팁:

XLA_PYTHON_CLIENT_MEM_FRACTION=0.9로 GPU 메모리 최대 활용
원격 추론 서버 패턴 익히기 — 추후 실제 로봇 배포 시 그대로 활용 가능
WebSocket 기반 액션 스트리밍 구조 이해

3-3. 커스텀 데이터로 파인튜닝 (11~12주차)

LIBERO 태스크에 대해 π₀.5 파인튜닝
DROID 데이터셋에서의 학습 파이프라인 이해
Normalization statistics, action space 설계 등 실전 노하우

# π₀.5 LIBERO 파인튜닝 예시
XLA_PYTHON_CLIENT_MEM_FRACTION=0.9 uv run scripts/train.py pi05_libero \\
  --exp-name=my_experiment --overwrite

3-4. MuJoCo에서 학습 데이터 생성 (12~14주차)

VLA의 핵심 병목은 데이터입니다. MuJoCo Playground의 GPU 병렬화를 활용합니다.

Playground에서 Unitree G1 locomotion 데모 데이터 수집
Madrona 배치 GPU 렌더러로 비전 기반 학습 데이터 생성 (A100에서 수천 환경 병렬 렌더링)
LeRobot 데이터 포맷(Parquet + MP4)으로 변환하여 재사용성 확보
생성된 데이터로 OpenVLA/π₀ 파인튜닝까지 연결

Phase 3 마일스톤: π₀를 직접 파인튜닝하고, 시뮬레이션 데이터를 생성하여 학습에 활용할 수 있다.

Phase 4 — 실제 로봇으로 Sim-to-Real (15~24주)

시뮬레이션에서 학습한 것을 실제 로봇에 옮기는 단계입니다.

4-1. 하드웨어 선택 (예산 ~100만원)

100만원 예산에서 현실적인 선택지는 두 가지 방향입니다.

옵션 A: LeRobot SO-101 듀얼 암 (추천 시작점)

비용: 약 30~50만원 (리더+팔로워 2세트)
장점: LeRobot/HuggingFace 생태계와 완벽 호환, VLA 파인튜닝 → 바로 배포 가능
LeRobot은 SO100, LeKiwi, Koch, Unitree G1 등 다양한 하드웨어를 네이티브로 지원
남는 예산으로 카메라, 센서, 작업대 등 세팅에 투자

옵션 A의 추천 장비 구성:

SO-101 리더+팔로워 세트 x1: ~30만원
Intel RealSense D435 카메라 x2: ~40만원 (외부 뷰 + 손목 뷰)
작업대 + 조명 + 마운트: ~15만원
여유 예산: 케이블, 3D 프린트 부품, 소모품

옵션 B: Unitree R1 (~$5,900, 약 80만원)

2025년 출시된 소형 휴머노이드, TIME 선정 "Best Inventions of 2025"
보행 기반 AI locomotion 소프트웨어 개발에 적합
다만 SDK 개발 생태계가 SO-101 대비 아직 초기 단계

참고: Unitree G1 EDU (SDK 포함)는 $21,600~로 예산을 크게 초과하지만, 대학 연구실의 사실상 표준 플랫폼이 되어가고 있으며, MuJoCo Menagerie의 G1 모델과 1:1 대응되는 최적의 Sim-to-Real 플랫폼입니다. 추후 예산이 확보되면 최우선 고려 대상입니다.

4-2. LeRobot 프레임워크 활용 (옵션 A 선택 시)

pip install lerobot

LeRobot은 HuggingFace가 만든 로봇 학습 프레임워크로, SO-101과 함께 쓰면 강력합니다.

텔레오퍼레이션으로 데모 데이터 수집 (리더-팔로워)
ACT(Action Chunking with Transformers) 정책 학습
OpenVLA/π₀를 LeRobot 포맷 데이터로 파인튜닝 → 실제 로봇 배포
원격 추론: A100 서버에서 정책 실행, 로봇은 웹소켓으로 액션 수신

4-3. Sim-to-Real 전이 실험 (심화)

Sim-to-Real은 단순히 "시뮬레이션 정책을 옮기는 것"이 아니라, 체계적인 도메인 갭 축소 과정입니다.

핵심 기법 1 — Domain Randomization (DR)

시뮬레이션에서 물리 파라미터를 학습할 때마다 랜덤하게 변경하여 정책의 강건성을 높입니다. 250편 이상의 논문을 분석한 최근 서베이에 따르면, DR은 가장 지배적인 접근법이며 성공적인 전이는 보통 여러 기법의 결합이 필요합니다.

랜덤화 대상 파라미터:

물리: 마찰 계수, 물체 질량/밀도, 관절 감쇠
시각: 카메라 위치, 조명 강도/방향, 텍스처 색상
센서: 관측 노이즈, 지연(latency), 드리프트
제어: PD 게인, 액추에이터 응답 지연

핵심 기법 2 — Teacher-Student 구조

시뮬레이터의 privileged state(완벽한 상태 정보)에 접근 가능한 teacher 정책을 먼저 학습하고, 이를 실제 센서 입력만으로 동작하는 student 정책으로 증류합니다. MuJoCo Playground가 이 파이프라인을 잘 지원합니다.

[Teacher 학습]  sim의 완전한 상태 → teacher 정책 (privileged)
       ↓ 증류 (DAgger 등)
[Student 학습]  센서 관측 + 과거 이력 → student 정책 (deployable)
       ↓ ONNX 변환
[실제 배포]    로봇 센서 → ONNX Runtime (50Hz) → 관절 명령

핵심 기법 3 — ONNX 변환 & 배포

Playground의 locomotion 정책은 ONNX Runtime으로 50Hz에서 추론을 실행하며, ROS2 기반 C++ 인터페이스로 실제 로봇에 배포됩니다.

배포 파이프라인:

학습된 정책을 ONNX 포맷으로 변환
ROS2 노드에서 ONNX Runtime으로 추론 실행
모델 기반 상태 추정기가 500~2000Hz로 센서 데이터 처리
정책 추론 결과를 PD 컨트롤러로 관절 토크 변환

Sim-to-Real 핵심 자료:

Lilian Weng 블로그 "Domain Randomization for Sim2Real Transfer": https://lilianweng.github.io/posts/2019-05-05-domain-randomization/
Sim-to-Real 서베이 (legged robots, 2025): https://hulks.de/_files/PA_Luis-Scheuch.pdf
MuJoCo Playground의 Sim-to-Real 섹션 (Unitree Go1, G1, Berkeley Humanoid 사례)

Phase 4 마일스톤: 시뮬레이션에서 학습한 정책이 실제 로봇에서 동작한다.

Phase 5 — 부가 학습: World Model (병렬 진행 가능)

World Model은 현재 Physical AI에서 가장 뜨거운 분야 중 하나입니다. 핵심 아이디어는 "미래를 예측하는 비디오 모델을 로봇 정책으로 쓸 수 있다"는 것입니다. Phase 2~3 기간에 논문 공부를 시작하고, Phase 3~4에서 실습을 병행하세요.

5-1. 이론 기반 다지기

비디오 생성 모델 기초 (Phase 2와 병렬)

World Model을 이해하려면 비디오 생성의 기초가 필요합니다:

Diffusion Model 기초 → Flow Matching (Phase 2에서 π₀를 위해 이미 공부)
Video Diffusion / Video Generation 기본 개념
Tokenizer 구조: 연속(continuous) vs 이산(discrete) 토큰
Autoregressive vs Diffusion 기반 세계 모델의 차이

필수 논문:

순서	논문	핵심 내용
1	Dreamer v3 (Hafner et al., 2023)	학습된 세계 모델로 RL — 기본 패러다임
2	COSMOS 1.0 (NVIDIA, 2025)	대규모 비디오 WFM의 설계와 학습 방법
3	Cosmos-Predict2.5 (NVIDIA, 2025)	Text/Image/Video → World 통합 모델
4	Cosmos Policy (NVIDIA, 2026)	세계 모델을 로봇 정책으로 직접 활용

5-2. 실습: Cosmos 다뤄보기 (Phase 3~4와 병렬)

NVIDIA Cosmos는 오픈소스로 공개되어 A100에서 실험 가능합니다.

# Cosmos-Predict2.5 설치
pip install cosmos-predict2
# 또는 GitHub에서 직접 클론
git clone <https://github.com/nvidia-cosmos/cosmos-predict2.5.git>

실습 경로:

Cosmos-Predict2.5 2B 모델로 Text2World / Video2World 추론 체험
Bridge 데이터셋에 대한 action-conditioned post-training 튜토리얼 따라하기
DROID 또는 LIBERO 데이터로 로봇 도메인 post-training
Cosmos-Transfer2.5로 Sim2Real 이미지 변환 실험

핵심 자료:

Cosmos-Predict2.5: https://github.com/nvidia-cosmos/cosmos-predict2.5
Cosmos-Predict2: https://github.com/nvidia-cosmos/cosmos-predict2
Cosmos Cookbook (post-training 레시피 모음)
논문: https://arxiv.org/abs/2511.00062

5-3. World Model과 VLA의 통합 (Phase 4 이후)

World Model과 VLA가 합쳐지는 것이 Physical AI의 미래 방향입니다:

π₀가 행동만 예측한다면, Cosmos Policy는 행동의 결과까지 예측
여러 행동 후보를 생성 → 각각의 미래를 시뮬레이션 → 최선의 행동 선택 (planning at inference time)
VLA의 reactive한 행동에 World Model의 deliberative한 계획을 결합

Phase 6 — 부가 학습: LLM 기반 Task Planning (병렬 진행 가능)

VLA가 "어떻게 움직일까"를 담당한다면, LLM Task Planning은 "뭘 해야 할까"를 담당합니다. 둘은 계층적으로 결합됩니다. Phase 2~3에서 논문을 읽고, Phase 4에서 실습과 연결하세요.

6-1. 핵심 논문 읽기 순서

순서	논문	핵심 아이디어
1	SayCan (Google, 2022)	LLM 확률 × Affordance 확률 = 실행 가능한 계획
2	Inner Monologue (Google, 2022)	환경 피드백으로 closed-loop 계획 (SayCan 확장)
3	Code as Policies (Google, 2022)	LLM이 코드를 생성하여 로봇 직접 제어
4	VoxPoser (Stanford, 2023)	LLM + 3D Value Map으로 조작 계획
5	SPCA Framework (2026)	LLM 제안 + PDDL 심볼릭 검증 하이브리드

패러다임 이해:

[System 2: LLM Task Planner]  "주방을 정리해줘"
       ↓ 하위 태스크 분해
"1. 접시를 찾아 → 2. 접시를 집어 → 3. 싱크대로 옮겨 → 4. 다음 접시..."
       ↓ 각 단계마다
[System 1: VLA Policy]  비전 입력 → 관절 명령 (50Hz)
       ↑ 성공/실패 피드백
[Inner Monologue]  "접시 집기 실패 → 각도 바꿔서 재시도"

이 계층 구조가 Figure AI의 Helix, NVIDIA GR00T, π₀.5가 지향하는 방향입니다.

6-2. 실습: LLM + VLA 2-Tier 시스템 구축

MuJoCo 환경에서 직접 만들어볼 수 있습니다.

미니 프로젝트 아이디어:

LIBERO 환경에서 GPT-4o/Claude API로 고수준 계획 생성
각 하위 태스크를 OpenVLA 또는 π₀가 실행
성공/실패를 탐지하여 LLM에 피드백 → 재계획 (Inner Monologue 패턴)
전체 파이프라인을 코드로 구현

# 의사 코드: LLM + VLA 통합 루프
plan = llm.generate_plan("Clean up the kitchen table", scene_description)
for step in plan:
    while not success:
        action = vla_policy.infer(camera_image, step.instruction)
        obs, reward, done = env.step(action)
        success = success_detector(obs, step.goal)
        if not success and timeout:
            feedback = describe_scene(obs)
            plan = llm.replan(step, feedback)  # Inner Monologue
            break

핵심 자료:

SayCan 프로젝트 페이지: https://say-can.github.io
Inner Monologue: https://innermonologue.github.io
Code as Policies: https://code-as-policies.github.io
awesome-physical-ai 레포의 LLM Planning 섹션

기반 기술 스택 — 병렬 학습 가이드

아래 기술들은 특정 Phase에 국한되지 않고, 로드맵 전체에 걸쳐 필요할 때 학습하세요.

Flow Matching (필수 — Phase 2에서 시작)

π₀의 핵심이자, Cosmos World Model의 기반 기술입니다.

Diffusion의 일반화 버전: 노이즈에서 타겟으로의 벡터장을 학습
π₀에서는 로봇 액션 생성에 사용, Cosmos에서는 비디오 프레임 생성에 사용
핵심 논문: "Flow Matching for Generative Modeling" (Lipman et al., 2023)
Meta의 Flow Matching 튜토리얼 (GitHub에 코드 포함)

JAX (권장 — Phase 3에서 시작)

Physical AI 연구의 사실상 표준이 되어가고 있습니다.

핵심 API: jax.jit, jax.vmap, jax.grad, jax.pmap
추천 학습법: JAX 공식 "JAX 101" 노트북 → MJX 코드 읽기 → Flax/Optax 실습
PyTorch 대비 가장 다른 점: 순수 함수형 (상태 없음), 불변 배열, 명시적 랜덤 키 관리
투자 시간: 1~2주면 기본적인 코드 읽기/수정 가능

ROS2 (Phase 4에서 필요)

실제 로봇 배포 시 필수적인 미들웨어입니다.

핵심 개념: Topic (pub/sub), Service (request/response), Action (장기 태스크)
tf2 좌표 변환, launch file 구조, RVIZ 시각화
MuJoCo Playground의 배포 코드가 ROS2 + ros2-control 기반
추천 학습법: ROS2 "Foxy/Humble" 공식 튜토리얼 → Gazebo 연동 실습

URDF/MJCF 모델링 (Phase 1에서 시작, 지속)

로봇 모델의 XML 구조를 이해하면 전체 파이프라인이 깊어집니다.

MJCF: MuJoCo 네이티브 포맷 (더 풍부한 기능)
URDF: 범용 로봇 기술 포맷 (ROS 생태계 표준)
MuJoCo viewer에서 URDF → MJCF 변환 가능
Menagerie 모델 XML을 직접 수정해보며 학습하는 것이 가장 효과적

레포	용도
`google-deepmind/mujoco_menagerie`	로봇 모델 라이브러리
`google-deepmind/mujoco` + Playground	GPU 병렬 시뮬레이션
`Physical-Intelligence/openpi`	π₀/π₀.5 공식 구현
`openvla/openvla`	OpenVLA 공식 구현
`huggingface/lerobot`	로봇 학습 통합 프레임워크
`nvidia-cosmos/cosmos-predict2.5`	World Foundation Model
`nvidia-cosmos/cosmos-predict2`	World Model (post-training 가이드 포함)
`keon/awesome-physical-ai`	VLA 논문 큐레이션 리스트
`vwxyzjn/cleanrl`	RL 알고리즘 교육용 구현
`allenzren/open-pi-zero`	π₀ 커뮤니티 재구현 (교육용)

전체 타임라인 요약

주차     Phase 1      Phase 2      Phase 3      Phase 4         Phase 5      Phase 6
       기초 체력     VLA 이론     π₀ 심화     Sim-to-Real     World Model  LLM Planning
 1  ██ MuJoCo
 2  ██ PPO
 3  ██ PPO
 4  ██ Playground
 5            ██ VLA 논문                                    ░░ 논문 읽기
 6            ██ VLA 논문                                    ░░ 논문 읽기  ░░ 논문 읽기
 7            ██ 벤치마크                                                  ░░ 논문 읽기
 8            ██ OpenVLA
 9                       ██ JAX+OpenPI                      ░░ Cosmos
10                       ██ OpenPI                          ░░ Cosmos
11                       ██ 파인튜닝
12                       ██ 데이터생성                       ░░ post-train
13                       ██ 데이터생성
14                       ██ 데이터생성
15                                    ██ 로봇 세팅                        ░░ 실습 준비
16                                    ██ LeRobot
17                                    ██ 데이터 수집
18                                    ██ 전이 실험
19                                    ██ DR 실험           ░░ Sim2Real
20                                    ██ Teacher-Student
21-24                                 ██ 반복/심화          ░░ 통합        ░░ LLM+VLA

██ = 메인 학습 ░░ = 병렬 학습 (가볍게)

최종 통합: Physical AI 풀 파이프라인

모든 학습이 수렴하는 최종 목표 시스템의 모습입니다.

사용자: "주방을 정리해줘"
       ↓
[LLM Task Planner] — 고수준 계획 생성 (Phase 6)
  "1. 테이블 위 접시 찾기  2. 접시 집기  3. 싱크대로 이동  4. 내려놓기"
       ↓
[World Model] — 각 행동의 결과 시뮬레이션 (Phase 5)
  "접시를 이 각도로 집으면 → 미끄러짐 예측 → 다른 각도 선택"
       ↓
[VLA Policy (π₀)] — 저수준 모터 명령 생성 @ 50Hz (Phase 2-3)
  카메라 이미지 + 언어 명령 → 관절 토크
       ↓
[실제 로봇] — Sim-to-Real로 배포된 정책 실행 (Phase 4)
  ONNX Runtime + ROS2 + SO-101/G1
       ↑ 피드백
[Inner Monologue] — 실패 감지 → LLM에 재계획 요청 (Phase 6)

다음 단계 제안

이 로드맵을 마친 후 고려할 수 있는 방향:

Isaac Sim 도입: 포토리얼리스틱 렌더링으로 비전 도메인 갭 축소, Cosmos Transfer와 연동
Humanoid 스케일업: Unitree G1 EDU 구매 후 전신 제어 Sim-to-Real
자체 VLA 학습: DROID 등 대규모 데이터셋으로 처음부터 사전학습
멀티모달 통합: 촉각 센서, 힘-토크 센서 등 추가 모달리티 통합
Multi-Agent: 여러 로봇 협업 시스템 연구
연구 기여: awesome-physical-ai 레포를 참고하여 최신 VLA 논문에 기여

1-2. RL 첫 실습 — PPO로 걷기 (2~3주차)

1-3. MuJoCo Playground 입문 (3~4주차)

Phase 2 — VLA 핵심 개념 & 논문 공부 (5~8주)

2-1. VLA 아키텍처 이론 학습 (5~6주차)

2-2. 시뮬레이션 벤치마크 환경 세팅 (6~7주차)

2-3. OpenVLA 직접 돌려보기 (7~8주차)

Phase 3 — π₀ 재현 & 심화 실험 (9~14주)

3-1. JAX 기초 학습 (9주차 — 병렬 진행)

3-2. OpenPI 세팅 & 추론 (9~10주차)

3-3. 커스텀 데이터로 파인튜닝 (11~12주차)

3-4. MuJoCo에서 학습 데이터 생성 (12~14주차)

Phase 4 — 실제 로봇으로 Sim-to-Real (15~24주)

4-1. 하드웨어 선택 (예산 ~100만원)

4-2. LeRobot 프레임워크 활용 (옵션 A 선택 시)

4-3. Sim-to-Real 전이 실험 (심화)

Phase 5 — 부가 학습: World Model (병렬 진행 가능)

5-1. 이론 기반 다지기

5-2. 실습: Cosmos 다뤄보기 (Phase 3~4와 병렬)

5-3. World Model과 VLA의 통합 (Phase 4 이후)

Phase 6 — 부가 학습: LLM 기반 Task Planning (병렬 진행 가능)

6-1. 핵심 논문 읽기 순서

6-2. 실습: LLM + VLA 2-Tier 시스템 구축

기반 기술 스택 — 병렬 학습 가이드

Flow Matching (필수 — Phase 2에서 시작)

JAX (권장 — Phase 3에서 시작)

ROS2 (Phase 4에서 필요)

URDF/MJCF 모델링 (Phase 1에서 시작, 지속)

추천 학습 자료 모음

필수 GitHub 레포

핵심 논문 전체 리스트 (읽기 순서)

커뮤니티

전체 타임라인 요약

최종 통합: Physical AI 풀 파이프라인

다음 단계 제안