# ๐ค Physical AI ํ์ต ๋ก๋๋งต (v2)
### MuJoCo ๊ธฐ๋ฐ VLA ์ฐ๊ตฌ โ 3~6๊ฐ์ ํ๋
> **ํ๊ฒฝ**: A100 GPU (์์ ๋กญ๊ฒ ์ฌ์ฉ ๊ฐ๋ฅ) ยท ๋ก๋ด ํ๋์จ์ด ์์ฐ ~100๋ง์
> **๋ฐฐ๊ฒฝ**: RL ์ด๋ก ๊ธฐ๋ฐ, ์ค์ต ๊ฒฝํ ์์ ยท PyTorch ๋ฅ์ ยท ํด๋จธ๋
ธ์ด๋/์ ์ ์ ์ด ๊ด์ฌ
> **๋ชฉํ**: Physical AI ์ ๋ฐ ํ์ (VLA ๋
ผ๋ฌธ ์ฌํ, ๋ฐ์ดํฐ ์์ฑ, Sim-to-Real)
> **๋ถ๊ฐ ๊ด์ฌ**: World Model (์์ ์์ธก ๊ธฐ๋ฐ ๊ณํ), LLM ๊ธฐ๋ฐ Task Planning
---
## Phase 1 โ ๊ธฐ์ด ์ฒด๋ ฅ ๋ง๋ค๊ธฐ (1~4์ฃผ)
์ด ๋จ๊ณ์ ๋ชฉํ๋ MuJoCo ์๋ฎฌ๋ ์ดํฐ์ ์ต์ํด์ง๊ณ , RL ์๊ณ ๋ฆฌ์ฆ์ ์ง์ ๋๋ ค๋ณด๋ ๊ฒ์
๋๋ค.
### 1-1. MuJoCo ์ค์น & ๊ธฐ๋ณธ ์กฐ์ (1์ฃผ์ฐจ)
```bash
pip install mujoco
pip install gymnasium[mujoco]
mujoco.MjModel, MjData ๊ตฌ์กฐ ์ดํด (XML โ ๋ชจ๋ธ โ ์๋ฎฌ๋ ์ด์
๋ฃจํ)Humanoid-v5 ํ๊ฒฝ์์ ๋๋ค ์ก์
์ผ๋ก ์๋ฎฌ๋ ์ด์
๋๋ ค๋ณด๊ธฐํต์ฌ ์๋ฃ:
์ด๋ก ๋ง ์๊ณ ์๋ค๋ฉด, ์ง์ ๋๋ ค๋ณด๋ ๊ฒ ๊ฐ์ฅ ๋น ๋ฆ ๋๋ค.
Humanoid-v5์์ PPO ํ์ต โ ๊ฑท๊ธฐ ์ฑ๊ณต์ํค๊ธฐํต์ฌ ์๋ฃ:
MuJoCo Playground๋ MJX(JAX ๋ฐฑ์๋)๋ฅผ ์ฌ์ฉํ์ฌ GPU์์ ์์ฒ ๊ฐ ํ๊ฒฝ์ ๋ณ๋ ฌ ์คํํ๋ ํ๋ ์์ํฌ์ ๋๋ค. A100์ด ์์ผ๋ ์ด๊ฑธ ์ ์ธ ์ด์ ๊ฐ ์์ต๋๋ค.
pip install playground
ํต์ฌ ์๋ฃ:
Phase 1 ๋ง์ผ์คํค: MuJoCo์์ ํด๋จธ๋ ธ์ด๋๊ฐ ๊ฑธ์ด๋ค๋๋ PPO ์ ์ฑ ์ ์ง์ ํ์ต์ํฌ ์ ์๋ค.
์ด ๋จ๊ณ์์๋ Physical AI์ ํต์ฌ์ธ VLA(Vision-Language-Action) ๋ชจ๋ธ์ ๊ตฌ์กฐ์ ํ์ต ๋ฐฉ๋ฒ์ ์ดํดํฉ๋๋ค.
VLA ๋ชจ๋ธ์ "๋ณด๊ณ (Vision) โ ์ดํดํ๊ณ (Language) โ ํ๋ํ๋(Action)" ๊ตฌ์กฐ์ ๋๋ค.
ํ์ ๋ ผ๋ฌธ ์ฝ๊ธฐ ์์:
| ์์ | ๋ ผ๋ฌธ | ์ ์ค์ํ๊ฐ |
|---|---|---|
| 1 | RT-2 (Google, 2023) | VLA์ ์์์ . VLM์ ๋ก๋ด ์ ์ด์ ์ฒ์ ์ฐ๊ฒฐ |
| 2 | Octo (UC Berkeley, 2024) | ์คํ์์ค ๋ฒ์ฉ ๋ก๋ด ์ ์ฑ ์ ์ด๊ธฐ ๋ชจ๋ธ |
| 3 | OpenVLA (Stanford, 2024) | ๊ฐ์ฅ ์ ๊ทผํ๊ธฐ ์ฌ์ด ์คํ์์ค VLA |
| 4 | ฯโ (Physical Intelligence, 2024) | Flow matching ๊ธฐ๋ฐ VLA, ํ์ฌ SOTA๊ธ |
| 5 | ฯโ.5 (Physical Intelligence, 2025) | Open-world ์ผ๋ฐํ์ ์ต์ ์ |
๋ณ๋ ฌ๋ก ๊ณต๋ถํ ๋ฐฐ๊ฒฝ ์ง์:
๋ ผ๋ฌธ์ ์ฝ์ผ๋ฉฐ ๋์์ ํ๊ฐ ํ๊ฒฝ์ ์ธํ ํฉ๋๋ค.
์ด ํ๊ฒฝ๋ค์ MuJoCo ๊ธฐ๋ฐ์ด๋ฏ๋ก Phase 1์์ ์ตํ ๊ฒ์ด ๋ฐ๋ก ์ฐ๊ฒฐ๋ฉ๋๋ค.
git clone <https://github.com/openvla/openvla.git>
cd openvla && pip install -e .
ํต์ฌ ์๋ฃ:
Phase 2 ๋ง์ผ์คํค: VLA ๋ชจ๋ธ์ ๊ตฌ์กฐ๋ฅผ ์ค๋ช ํ ์ ์๊ณ , OpenVLA๋ฅผ ์๋ฎฌ๋ ์ด์ ์์ ๋๋ ค๋ณผ ์ ์๋ค.
์ด ๋จ๊ณ๋ ํ์ฌ ๊ฐ์ฅ ๊ฐ๋ ฅํ VLA์ธ ฯโ ๊ณ์ด์ ์ง์ ๋ค๋ค๋ณด๋ ํต์ฌ ๊ตฌ๊ฐ์ ๋๋ค.
Physical AI ์ฐ๊ตฌ์์ JAX๊ฐ ์ฃผ๋ฅ๋ก ์๋ฆฌ์ก๊ณ ์์ต๋๋ค. MJX, OpenPI ์๋ณธ ๊ตฌํ, Brax ๋ฑ ํต์ฌ ๋๊ตฌ๊ฐ ์ ๋ถ JAX ๊ธฐ๋ฐ์ด๋ฏ๋ก, PyTorch ๊ฒฝํ์ ๋ฐํ์ผ๋ก 1~2์ฃผ ํฌ์ํ๋ฉด ์ถฉ๋ถํฉ๋๋ค.
PyTorch โ JAX ๋์ ํต์ฌ:
| PyTorch | JAX | ์ค๋ช |
|---|---|---|
torch.no_grad() |
jax.jit |
JIT ์ปดํ์ผ๋ก ์๋ ์ต์ ํ |
DataParallel |
jax.pmap |
๋๋ฐ์ด์ค ๋ณ๋ ฌํ |
torch.vmap |
jax.vmap |
์๋ ๋ฐฐ์น ๋ฒกํฐํ |
loss.backward() |
jax.grad |
ํจ์ํ ์๋ ๋ฏธ๋ถ |
jit, vmap, grad) ์ตํ๊ธฐPhysical Intelligence๊ฐ ๊ณต๊ฐํ ๊ณต์ ์คํ์์ค ๊ตฌํ์ฒด์ ๋๋ค.
git clone --recurse-submodules <https://github.com/Physical-Intelligence/openpi.git>
ํ์ GPU: A100 80GB 1์ฅ (์ถ๋ก ) / FSDP ๋ฉํฐ GPU (ํ์ต)
์ค์ ํ:
XLA_PYTHON_CLIENT_MEM_FRACTION=0.9๋ก GPU ๋ฉ๋ชจ๋ฆฌ ์ต๋ ํ์ฉ# ฯโ.5 LIBERO ํ์ธํ๋ ์์
XLA_PYTHON_CLIENT_MEM_FRACTION=0.9 uv run scripts/train.py pi05_libero \\
--exp-name=my_experiment --overwrite
VLA์ ํต์ฌ ๋ณ๋ชฉ์ ๋ฐ์ดํฐ์ ๋๋ค. MuJoCo Playground์ GPU ๋ณ๋ ฌํ๋ฅผ ํ์ฉํฉ๋๋ค.
Phase 3 ๋ง์ผ์คํค: ฯโ๋ฅผ ์ง์ ํ์ธํ๋ํ๊ณ , ์๋ฎฌ๋ ์ด์ ๋ฐ์ดํฐ๋ฅผ ์์ฑํ์ฌ ํ์ต์ ํ์ฉํ ์ ์๋ค.
์๋ฎฌ๋ ์ด์ ์์ ํ์ตํ ๊ฒ์ ์ค์ ๋ก๋ด์ ์ฎ๊ธฐ๋ ๋จ๊ณ์ ๋๋ค.
100๋ง์ ์์ฐ์์ ํ์ค์ ์ธ ์ ํ์ง๋ ๋ ๊ฐ์ง ๋ฐฉํฅ์ ๋๋ค.
์ต์ A: LeRobot SO-101 ๋์ผ ์ (์ถ์ฒ ์์์ )
์ต์ A์ ์ถ์ฒ ์ฅ๋น ๊ตฌ์ฑ:
์ต์ B: Unitree R1 (~$5,900, ์ฝ 80๋ง์)
์ฐธ๊ณ : Unitree G1 EDU (SDK ํฌํจ)๋ $21,600~๋ก ์์ฐ์ ํฌ๊ฒ ์ด๊ณผํ์ง๋ง, ๋ํ ์ฐ๊ตฌ์ค์ ์ฌ์ค์ ํ์ค ํ๋ซํผ์ด ๋์ด๊ฐ๊ณ ์์ผ๋ฉฐ, MuJoCo Menagerie์ G1 ๋ชจ๋ธ๊ณผ 1:1 ๋์๋๋ ์ต์ ์ Sim-to-Real ํ๋ซํผ์ ๋๋ค. ์ถํ ์์ฐ์ด ํ๋ณด๋๋ฉด ์ต์ฐ์ ๊ณ ๋ ค ๋์์ ๋๋ค.
pip install lerobot
LeRobot์ HuggingFace๊ฐ ๋ง๋ ๋ก๋ด ํ์ต ํ๋ ์์ํฌ๋ก, SO-101๊ณผ ํจ๊ป ์ฐ๋ฉด ๊ฐ๋ ฅํฉ๋๋ค.
Sim-to-Real์ ๋จ์ํ "์๋ฎฌ๋ ์ด์ ์ ์ฑ ์ ์ฎ๊ธฐ๋ ๊ฒ"์ด ์๋๋ผ, ์ฒด๊ณ์ ์ธ ๋๋ฉ์ธ ๊ฐญ ์ถ์ ๊ณผ์ ์ ๋๋ค.
ํต์ฌ ๊ธฐ๋ฒ 1 โ Domain Randomization (DR)
์๋ฎฌ๋ ์ด์ ์์ ๋ฌผ๋ฆฌ ํ๋ผ๋ฏธํฐ๋ฅผ ํ์ตํ ๋๋ง๋ค ๋๋คํ๊ฒ ๋ณ๊ฒฝํ์ฌ ์ ์ฑ ์ ๊ฐ๊ฑด์ฑ์ ๋์ ๋๋ค. 250ํธ ์ด์์ ๋ ผ๋ฌธ์ ๋ถ์ํ ์ต๊ทผ ์๋ฒ ์ด์ ๋ฐ๋ฅด๋ฉด, DR์ ๊ฐ์ฅ ์ง๋ฐฐ์ ์ธ ์ ๊ทผ๋ฒ์ด๋ฉฐ ์ฑ๊ณต์ ์ธ ์ ์ด๋ ๋ณดํต ์ฌ๋ฌ ๊ธฐ๋ฒ์ ๊ฒฐํฉ์ด ํ์ํฉ๋๋ค.
๋๋คํ ๋์ ํ๋ผ๋ฏธํฐ:
ํต์ฌ ๊ธฐ๋ฒ 2 โ Teacher-Student ๊ตฌ์กฐ
์๋ฎฌ๋ ์ดํฐ์ privileged state(์๋ฒฝํ ์ํ ์ ๋ณด)์ ์ ๊ทผ ๊ฐ๋ฅํ teacher ์ ์ฑ ์ ๋จผ์ ํ์ตํ๊ณ , ์ด๋ฅผ ์ค์ ์ผ์ ์ ๋ ฅ๋ง์ผ๋ก ๋์ํ๋ student ์ ์ฑ ์ผ๋ก ์ฆ๋ฅํฉ๋๋ค. MuJoCo Playground๊ฐ ์ด ํ์ดํ๋ผ์ธ์ ์ ์ง์ํฉ๋๋ค.
[Teacher ํ์ต] sim์ ์์ ํ ์ํ โ teacher ์ ์ฑ
(privileged)
โ ์ฆ๋ฅ (DAgger ๋ฑ)
[Student ํ์ต] ์ผ์ ๊ด์ธก + ๊ณผ๊ฑฐ ์ด๋ ฅ โ student ์ ์ฑ
(deployable)
โ ONNX ๋ณํ
[์ค์ ๋ฐฐํฌ] ๋ก๋ด ์ผ์ โ ONNX Runtime (50Hz) โ ๊ด์ ๋ช
๋ น
ํต์ฌ ๊ธฐ๋ฒ 3 โ ONNX ๋ณํ & ๋ฐฐํฌ
Playground์ locomotion ์ ์ฑ ์ ONNX Runtime์ผ๋ก 50Hz์์ ์ถ๋ก ์ ์คํํ๋ฉฐ, ROS2 ๊ธฐ๋ฐ C++ ์ธํฐํ์ด์ค๋ก ์ค์ ๋ก๋ด์ ๋ฐฐํฌ๋ฉ๋๋ค.
๋ฐฐํฌ ํ์ดํ๋ผ์ธ:
Sim-to-Real ํต์ฌ ์๋ฃ:
Phase 4 ๋ง์ผ์คํค: ์๋ฎฌ๋ ์ด์ ์์ ํ์ตํ ์ ์ฑ ์ด ์ค์ ๋ก๋ด์์ ๋์ํ๋ค.
World Model์ ํ์ฌ Physical AI์์ ๊ฐ์ฅ ๋จ๊ฑฐ์ด ๋ถ์ผ ์ค ํ๋์ ๋๋ค. ํต์ฌ ์์ด๋์ด๋ "๋ฏธ๋๋ฅผ ์์ธกํ๋ ๋น๋์ค ๋ชจ๋ธ์ ๋ก๋ด ์ ์ฑ ์ผ๋ก ์ธ ์ ์๋ค"๋ ๊ฒ์ ๋๋ค. Phase 2~3 ๊ธฐ๊ฐ์ ๋ ผ๋ฌธ ๊ณต๋ถ๋ฅผ ์์ํ๊ณ , Phase 3~4์์ ์ค์ต์ ๋ณํํ์ธ์.
๋น๋์ค ์์ฑ ๋ชจ๋ธ ๊ธฐ์ด (Phase 2์ ๋ณ๋ ฌ)
World Model์ ์ดํดํ๋ ค๋ฉด ๋น๋์ค ์์ฑ์ ๊ธฐ์ด๊ฐ ํ์ํฉ๋๋ค:
ํ์ ๋ ผ๋ฌธ:
| ์์ | ๋ ผ๋ฌธ | ํต์ฌ ๋ด์ฉ |
|---|---|---|
| 1 | Dreamer v3 (Hafner et al., 2023) | ํ์ต๋ ์ธ๊ณ ๋ชจ๋ธ๋ก RL โ ๊ธฐ๋ณธ ํจ๋ฌ๋ค์ |
| 2 | COSMOS 1.0 (NVIDIA, 2025) | ๋๊ท๋ชจ ๋น๋์ค WFM์ ์ค๊ณ์ ํ์ต ๋ฐฉ๋ฒ |
| 3 | Cosmos-Predict2.5 (NVIDIA, 2025) | Text/Image/Video โ World ํตํฉ ๋ชจ๋ธ |
| 4 | Cosmos Policy (NVIDIA, 2026) | ์ธ๊ณ ๋ชจ๋ธ์ ๋ก๋ด ์ ์ฑ ์ผ๋ก ์ง์ ํ์ฉ |
NVIDIA Cosmos๋ ์คํ์์ค๋ก ๊ณต๊ฐ๋์ด A100์์ ์คํ ๊ฐ๋ฅํฉ๋๋ค.
# Cosmos-Predict2.5 ์ค์น
pip install cosmos-predict2
# ๋๋ GitHub์์ ์ง์ ํด๋ก
git clone <https://github.com/nvidia-cosmos/cosmos-predict2.5.git>
์ค์ต ๊ฒฝ๋ก:
ํต์ฌ ์๋ฃ:
World Model๊ณผ VLA๊ฐ ํฉ์ณ์ง๋ ๊ฒ์ด Physical AI์ ๋ฏธ๋ ๋ฐฉํฅ์ ๋๋ค:
VLA๊ฐ "์ด๋ป๊ฒ ์์ง์ผ๊น"๋ฅผ ๋ด๋นํ๋ค๋ฉด, LLM Task Planning์ "๋ญ ํด์ผ ํ ๊น"๋ฅผ ๋ด๋นํฉ๋๋ค. ๋์ ๊ณ์ธต์ ์ผ๋ก ๊ฒฐํฉ๋ฉ๋๋ค. Phase 2~3์์ ๋ ผ๋ฌธ์ ์ฝ๊ณ , Phase 4์์ ์ค์ต๊ณผ ์ฐ๊ฒฐํ์ธ์.
| ์์ | ๋ ผ๋ฌธ | ํต์ฌ ์์ด๋์ด |
|---|---|---|
| 1 | SayCan (Google, 2022) | LLM ํ๋ฅ ร Affordance ํ๋ฅ = ์คํ ๊ฐ๋ฅํ ๊ณํ |
| 2 | Inner Monologue (Google, 2022) | ํ๊ฒฝ ํผ๋๋ฐฑ์ผ๋ก closed-loop ๊ณํ (SayCan ํ์ฅ) |
| 3 | Code as Policies (Google, 2022) | LLM์ด ์ฝ๋๋ฅผ ์์ฑํ์ฌ ๋ก๋ด ์ง์ ์ ์ด |
| 4 | VoxPoser (Stanford, 2023) | LLM + 3D Value Map์ผ๋ก ์กฐ์ ๊ณํ |
| 5 | SPCA Framework (2026) | LLM ์ ์ + PDDL ์ฌ๋ณผ๋ฆญ ๊ฒ์ฆ ํ์ด๋ธ๋ฆฌ๋ |
ํจ๋ฌ๋ค์ ์ดํด:
[System 2: LLM Task Planner] "์ฃผ๋ฐฉ์ ์ ๋ฆฌํด์ค"
โ ํ์ ํ์คํฌ ๋ถํด
"1. ์ ์๋ฅผ ์ฐพ์ โ 2. ์ ์๋ฅผ ์ง์ด โ 3. ์ฑํฌ๋๋ก ์ฎ๊ฒจ โ 4. ๋ค์ ์ ์..."
โ ๊ฐ ๋จ๊ณ๋ง๋ค
[System 1: VLA Policy] ๋น์ ์
๋ ฅ โ ๊ด์ ๋ช
๋ น (50Hz)
โ ์ฑ๊ณต/์คํจ ํผ๋๋ฐฑ
[Inner Monologue] "์ ์ ์ง๊ธฐ ์คํจ โ ๊ฐ๋ ๋ฐ๊ฟ์ ์ฌ์๋"
์ด ๊ณ์ธต ๊ตฌ์กฐ๊ฐ Figure AI์ Helix, NVIDIA GR00T, ฯโ.5๊ฐ ์งํฅํ๋ ๋ฐฉํฅ์ ๋๋ค.
MuJoCo ํ๊ฒฝ์์ ์ง์ ๋ง๋ค์ด๋ณผ ์ ์์ต๋๋ค.
๋ฏธ๋ ํ๋ก์ ํธ ์์ด๋์ด:
# ์์ฌ ์ฝ๋: LLM + VLA ํตํฉ ๋ฃจํ
plan = llm.generate_plan("Clean up the kitchen table", scene_description)
for step in plan:
while not success:
action = vla_policy.infer(camera_image, step.instruction)
obs, reward, done = env.step(action)
success = success_detector(obs, step.goal)
if not success and timeout:
feedback = describe_scene(obs)
plan = llm.replan(step, feedback) # Inner Monologue
break
ํต์ฌ ์๋ฃ:
์๋ ๊ธฐ์ ๋ค์ ํน์ Phase์ ๊ตญํ๋์ง ์๊ณ , ๋ก๋๋งต ์ ์ฒด์ ๊ฑธ์ณ ํ์ํ ๋ ํ์ตํ์ธ์.
ฯโ์ ํต์ฌ์ด์, Cosmos World Model์ ๊ธฐ๋ฐ ๊ธฐ์ ์ ๋๋ค.
Physical AI ์ฐ๊ตฌ์ ์ฌ์ค์ ํ์ค์ด ๋์ด๊ฐ๊ณ ์์ต๋๋ค.
jax.jit, jax.vmap, jax.grad, jax.pmap์ค์ ๋ก๋ด ๋ฐฐํฌ ์ ํ์์ ์ธ ๋ฏธ๋ค์จ์ด์ ๋๋ค.
๋ก๋ด ๋ชจ๋ธ์ XML ๊ตฌ์กฐ๋ฅผ ์ดํดํ๋ฉด ์ ์ฒด ํ์ดํ๋ผ์ธ์ด ๊น์ด์ง๋๋ค.
| ๋ ํฌ | ์ฉ๋ |
|---|---|
google-deepmind/mujoco_menagerie |
๋ก๋ด ๋ชจ๋ธ ๋ผ์ด๋ธ๋ฌ๋ฆฌ |
google-deepmind/mujoco + Playground |
GPU ๋ณ๋ ฌ ์๋ฎฌ๋ ์ด์ |
Physical-Intelligence/openpi |
ฯโ/ฯโ.5 ๊ณต์ ๊ตฌํ |
openvla/openvla |
OpenVLA ๊ณต์ ๊ตฌํ |
huggingface/lerobot |
๋ก๋ด ํ์ต ํตํฉ ํ๋ ์์ํฌ |
nvidia-cosmos/cosmos-predict2.5 |
World Foundation Model |
nvidia-cosmos/cosmos-predict2 |
World Model (post-training ๊ฐ์ด๋ ํฌํจ) |
keon/awesome-physical-ai |
VLA ๋ ผ๋ฌธ ํ๋ ์ด์ ๋ฆฌ์คํธ |
vwxyzjn/cleanrl |
RL ์๊ณ ๋ฆฌ์ฆ ๊ต์ก์ฉ ๊ตฌํ |
allenzren/open-pi-zero |
ฯโ ์ปค๋ฎค๋ํฐ ์ฌ๊ตฌํ (๊ต์ก์ฉ) |
๊ธฐ์ด (Phase 1~2):
ํต์ฌ (Phase 2~3): 5. OpenVLA (Stanford, 2024) โ ์คํ์์ค VLA 6. ฯโ (Physical Intelligence, 2024) โ Flow matching VLA 7. ฯโ.5 (Physical Intelligence, 2025) โ Open-world ์ผ๋ฐํ 8. ACT (Zhao et al., 2023) โ Action Chunking with Transformers
๋ถ๊ฐ: World Model (Phase 5): 9. Dreamer v3 (Hafner et al., 2023) โ ํ์ต๋ ์ธ๊ณ ๋ชจ๋ธ๋ก RL 10. COSMOS (NVIDIA, 2025) โ ๋๊ท๋ชจ ์ธ๊ณ ๊ธฐ๋ฐ ๋ชจ๋ธ 11. Cosmos Policy (NVIDIA, 2026) โ ์ธ๊ณ ๋ชจ๋ธ์ ์ ์ฑ ํ์ฉ
๋ถ๊ฐ: LLM Planning (Phase 6): 12. SayCan (Google, 2022) โ LLM + Affordance 13. Inner Monologue (Google, 2022) โ Closed-loop ํผ๋๋ฐฑ 14. Code as Policies (Google, 2022) โ ์ฝ๋ ์์ฑ ์ ์ด
์ฃผ์ฐจ Phase 1 Phase 2 Phase 3 Phase 4 Phase 5 Phase 6
๊ธฐ์ด ์ฒด๋ ฅ VLA ์ด๋ก ฯโ ์ฌํ Sim-to-Real World Model LLM Planning
1 โโ MuJoCo
2 โโ PPO
3 โโ PPO
4 โโ Playground
5 โโ VLA ๋
ผ๋ฌธ โโ ๋
ผ๋ฌธ ์ฝ๊ธฐ
6 โโ VLA ๋
ผ๋ฌธ โโ ๋
ผ๋ฌธ ์ฝ๊ธฐ โโ ๋
ผ๋ฌธ ์ฝ๊ธฐ
7 โโ ๋ฒค์น๋งํฌ โโ ๋
ผ๋ฌธ ์ฝ๊ธฐ
8 โโ OpenVLA
9 โโ JAX+OpenPI โโ Cosmos
10 โโ OpenPI โโ Cosmos
11 โโ ํ์ธํ๋
12 โโ ๋ฐ์ดํฐ์์ฑ โโ post-train
13 โโ ๋ฐ์ดํฐ์์ฑ
14 โโ ๋ฐ์ดํฐ์์ฑ
15 โโ ๋ก๋ด ์ธํ
โโ ์ค์ต ์ค๋น
16 โโ LeRobot
17 โโ ๋ฐ์ดํฐ ์์ง
18 โโ ์ ์ด ์คํ
19 โโ DR ์คํ โโ Sim2Real
20 โโ Teacher-Student
21-24 โโ ๋ฐ๋ณต/์ฌํ โโ ํตํฉ โโ LLM+VLA
โโ = ๋ฉ์ธ ํ์ต โโ = ๋ณ๋ ฌ ํ์ต (๊ฐ๋ณ๊ฒ)
๋ชจ๋ ํ์ต์ด ์๋ ดํ๋ ์ต์ข ๋ชฉํ ์์คํ ์ ๋ชจ์ต์ ๋๋ค.
์ฌ์ฉ์: "์ฃผ๋ฐฉ์ ์ ๋ฆฌํด์ค"
โ
[LLM Task Planner] โ ๊ณ ์์ค ๊ณํ ์์ฑ (Phase 6)
"1. ํ
์ด๋ธ ์ ์ ์ ์ฐพ๊ธฐ 2. ์ ์ ์ง๊ธฐ 3. ์ฑํฌ๋๋ก ์ด๋ 4. ๋ด๋ ค๋๊ธฐ"
โ
[World Model] โ ๊ฐ ํ๋์ ๊ฒฐ๊ณผ ์๋ฎฌ๋ ์ด์
(Phase 5)
"์ ์๋ฅผ ์ด ๊ฐ๋๋ก ์ง์ผ๋ฉด โ ๋ฏธ๋๋ฌ์ง ์์ธก โ ๋ค๋ฅธ ๊ฐ๋ ์ ํ"
โ
[VLA Policy (ฯโ)] โ ์ ์์ค ๋ชจํฐ ๋ช
๋ น ์์ฑ @ 50Hz (Phase 2-3)
์นด๋ฉ๋ผ ์ด๋ฏธ์ง + ์ธ์ด ๋ช
๋ น โ ๊ด์ ํ ํฌ
โ
[์ค์ ๋ก๋ด] โ Sim-to-Real๋ก ๋ฐฐํฌ๋ ์ ์ฑ
์คํ (Phase 4)
ONNX Runtime + ROS2 + SO-101/G1
โ ํผ๋๋ฐฑ
[Inner Monologue] โ ์คํจ ๊ฐ์ง โ LLM์ ์ฌ๊ณํ ์์ฒญ (Phase 6)
์ด ๋ก๋๋งต์ ๋ง์น ํ ๊ณ ๋ คํ ์ ์๋ ๋ฐฉํฅ: