목적: 위 논문에서 Advice for Practitioners를 사용한다고 할 때 어떤 lr 근처를 탐색할지?

어떤 식을 사용할지?



위에 따르면 constant C는 새로운 batch size에 맞춰 찾아야 하는 영역
위의 Eq(3) (bsz 0.5M 기준)에 따른 optimal LR = 7.8e-5
batch size scaling 방법에 따라
Advice for Practitioners의 식을 사용하며 100B scale로 5T를 추정한다고 할 때,
$$ LR^(5T) = LR^(100B) \times (\cfrac{5000}{100})^{-0.32} \approx 0.286 \times LR^*(100B) $$
따라서, 논문의 식 + sqrt batch size scaling만 적용한다고 하면 100B 기준 optimal LR을 4.4e-4 / 0.286 근처 영역에서 몇 개를 찾아서 위 식으로 역계산
고려할 점) critical batch size, lr scheduler